美国网贷平台Prosper贷款数据分析
完成这个过程后,我们将通过Tableau对“Prosper违约客户的特征是什么”这个问题进行探索、分析和可视化。
最后用随机森林算法对2009年7月以后的数据进行建模分析,对还在进行中的贷款进行违约与否的预测。
Prosper是美国第一家P2P借贷平台。这个数据集来自于优步2005年到2014在Udacity上的贷款数据。本文希望通过对已完成贷款的分析,判断什么样的客户更容易违约,并预测未完成贷款是否会违约。
原始数据集包含81个变量和113937条数据。下面解释一些重要的变量,其他变量的含义可以参考变量字典。
首先加载库和数据。
然后用df.describe()和df.info()观察数据。
这次主要分析1。什么样的借款人更容易违约?2.预测未偿还贷款是否会违约。所以去掉不相关的栏目。
自2009年7月起,Prosper调整了对客户的评估方法。这次只分析2009年7月以后的贷款-01。
删除含义重复的列:
Prosper对新客户的评级和老客户不同,这次只分析新客户的数据。
首先,检查每个变量的缺失数据。
平台将贷款状态分为12类型:已取消(已注销)、已收费(已核销,投资人有损失)、已完成(正常完成,投资人无损失)、当前(贷款偿还)、违约(坏账,投资人有损失)、FinalPaymentInProgress(投资人最终还款无损失)、粘贴。
本文根据交易是仍在进行还是已成交,以及投资者在已成交的交易中是否亏损,将所有数据分为以下三组:
当前(包括当前、过期),
违约(包括违约、拒付),
已完成(包括已完成,finalpaymentinprogress)。
为了便于后续的分析计算,“完成”改为1,“默认”改为0。
已完成贷款违约率defaulted _ ratio _ finished = 26.07%。
这个数据集有很多反映贷款用户信用情况的特征。其中,信用评级由Prosper根据自己的模型建立,是确定贷款利率的主要依据,而CreditScore则由官方信用评级机构提供。
从图5-1可以看出,随着ProsperRating的不断增加,违约率呈现出明显的下降趋势。
在CreditScore,低分(640-700),违约率处于比较高的位置,没有太大的变化。对于720以上的部分,随着信用评分的提高,违约率明显下降。
总体来看,借款人的信用等级越高,违约的可能性越低。
在不同收入水平中,未就业借款人的违约率最高,且随着收入的增加,违约率不断降低。
在不同的贷款状况下,违约用户的月收入明显低于非违约用户。
根据图5-4左图,违约用户和非违约用户的整体负债收入比差别不大。
根据债务收入比的四分位数,将所有数据分为数据量相近的四组。从图5-4右图可以看出,低比率(债务收入比0-0.12)和中比率(0.12-0.19)的违约率都较低。比例较高的违约率(0.19-0.29)略高于前两者。而高比例(大于0.29)用户的违约率明显上升。
根据银行卡使用率的四分位数,将数据分为'未使用'、'低透支(0,0.3 '、'中度透支(0.3,0.7 '、'高透支(0.7,1)”和'严重透支(1)。
可见透支严重的借款人违约率最高。
二是未使用的用户,这也是金融机构特别关注“白户”的原因。
InquiriesLast6Months可以反映借款人近期向金融机构申请贷款的频率,间接反映借款人近期的财务状况。
图5-6中,绿线表示不同查询时间下的贷款笔数。可以看到,大部分都在7倍以下。
在0-7次查询的范围内,默认率随着查询次数的增加而增加。
目前的违约情况可以很好地反映借款人的信用状况。
从图5-7可以看出,目前大部分借款人的逾期次数在2次以内。在0-6的范围内,违约率随着当前逾期次数的增加而增加。
为了避免某些极少数类别对违约率排名的影响,首先筛选出贷款超过30笔的类别。
从图5-8可以看出,最大的数字是1-债务合并。
违约率最高的是15-医疗/牙科(医疗)、13-家庭支出(家庭支出)和3-商业(商业),均高于30%。
根据贷款金额的四分位数,将数据分为四组,数字相近。有意思的是,中等规模贷款(365,438+000,4750)的违约率最高,而高规模贷款(8,500以上)的违约率最低。
这大概是因为能申请高额贷款的用户各方面条件都很好,从而降低了违约率。
从图5-11可以看出,在0-30的范围内,随着久期的增加,违约率逐渐降低,这个范围也包含了一半左右的数据。
当久期持续增长时,违约率没有明显的变化规律。
不同地区违约率差异明显。在洛杉矶和SD等城市,违约率很高。在ut和co等城市,违约率较低。
整体来看,有房产的借款人违约率明显低于无房产的借款人。
导入相关库。
将数据中的字符串变量转换为数字。
按照测试集30%、训练集70%的比例划分数据集,使用随机森林算法建立模型。
模型测试集的预测准确率为:准确率=73.99%。
对于随机森林算法,我们可以检查该模型中每个特征的重要性。
如图6-2所示,StatedMonthlyIncome和EmploymentStatusDuration是最重要的功能。
根据该模型,预测仍在进行中的贷款是否违约。
仍在进行中的贷款违约率为Default _ Ratio _ Predict = 3.64%。
本文详细描述了Prosper loan数据从数据探索到模型建立和预测的完整过程。
研究发现,月收入和雇佣期限对是否违约影响最大。主要是因为这两个是反映借款人稳定性的重要因素。
在模型建立方面,也可以通过调整这个模型的参数来提高精度,或者尝试使用其他算法,比如logistic回归,建立新的模型进行比较。