美国网贷平台Prosper贷款数据分析

本文主要描述了如何用Python来评估、组织和清洗数据集。

完成这个过程后,我们将通过Tableau对“Prosper违约客户的特征是什么”这个问题进行探索、分析和可视化。

最后用随机森林算法对2009年7月以后的数据进行建模分析,对还在进行中的贷款进行违约与否的预测。

Prosper是美国第一家P2P借贷平台。这个数据集来自于优步2005年到2014在Udacity上的贷款数据。本文希望通过对已完成贷款的分析,判断什么样的客户更容易违约,并预测未完成贷款是否会违约。

原始数据集包含81个变量和113937条数据。下面解释一些重要的变量,其他变量的含义可以参考变量字典。

首先加载库和数据。

然后用df.describe()和df.info()观察数据。

这次主要分析1。什么样的借款人更容易违约?2.预测未偿还贷款是否会违约。所以去掉不相关的栏目。

自2009年7月起,Prosper调整了对客户的评估方法。这次只分析2009年7月以后的贷款-01。

删除含义重复的列:

Prosper对新客户的评级和老客户不同,这次只分析新客户的数据。

首先,检查每个变量的缺失数据。

平台将贷款状态分为12类型:已取消(已注销)、已收费(已核销,投资人有损失)、已完成(正常完成,投资人无损失)、当前(贷款偿还)、违约(坏账,投资人有损失)、FinalPaymentInProgress(投资人最终还款无损失)、粘贴。

本文根据交易是仍在进行还是已成交,以及投资者在已成交的交易中是否亏损,将所有数据分为以下三组:

当前(包括当前、过期),

违约(包括违约、拒付),

已完成(包括已完成,finalpaymentinprogress)。

为了便于后续的分析计算,“完成”改为1,“默认”改为0。

已完成贷款违约率defaulted _ ratio _ finished = 26.07%。

这个数据集有很多反映贷款用户信用情况的特征。其中,信用评级由Prosper根据自己的模型建立,是确定贷款利率的主要依据,而CreditScore则由官方信用评级机构提供。

从图5-1可以看出,随着ProsperRating的不断增加,违约率呈现出明显的下降趋势。

在CreditScore,低分(640-700),违约率处于比较高的位置,没有太大的变化。对于720以上的部分,随着信用评分的提高,违约率明显下降。

总体来看,借款人的信用等级越高,违约的可能性越低。

在不同收入水平中,未就业借款人的违约率最高,且随着收入的增加,违约率不断降低。

在不同的贷款状况下,违约用户的月收入明显低于非违约用户。

根据图5-4左图,违约用户和非违约用户的整体负债收入比差别不大。

根据债务收入比的四分位数,将所有数据分为数据量相近的四组。从图5-4右图可以看出,低比率(债务收入比0-0.12)和中比率(0.12-0.19)的违约率都较低。比例较高的违约率(0.19-0.29)略高于前两者。而高比例(大于0.29)用户的违约率明显上升。

根据银行卡使用率的四分位数,将数据分为'未使用'、'低透支(0,0.3 '、'中度透支(0.3,0.7 '、'高透支(0.7,1)”和'严重透支(1)。

可见透支严重的借款人违约率最高。

二是未使用的用户,这也是金融机构特别关注“白户”的原因。

InquiriesLast6Months可以反映借款人近期向金融机构申请贷款的频率,间接反映借款人近期的财务状况。

图5-6中,绿线表示不同查询时间下的贷款笔数。可以看到,大部分都在7倍以下。

在0-7次查询的范围内,默认率随着查询次数的增加而增加。

目前的违约情况可以很好地反映借款人的信用状况。

从图5-7可以看出,目前大部分借款人的逾期次数在2次以内。在0-6的范围内,违约率随着当前逾期次数的增加而增加。

为了避免某些极少数类别对违约率排名的影响,首先筛选出贷款超过30笔的类别。

从图5-8可以看出,最大的数字是1-债务合并。

违约率最高的是15-医疗/牙科(医疗)、13-家庭支出(家庭支出)和3-商业(商业),均高于30%。

根据贷款金额的四分位数,将数据分为四组,数字相近。有意思的是,中等规模贷款(365,438+000,4750)的违约率最高,而高规模贷款(8,500以上)的违约率最低。

这大概是因为能申请高额贷款的用户各方面条件都很好,从而降低了违约率。

从图5-11可以看出,在0-30的范围内,随着久期的增加,违约率逐渐降低,这个范围也包含了一半左右的数据。

当久期持续增长时,违约率没有明显的变化规律。

不同地区违约率差异明显。在洛杉矶和SD等城市,违约率很高。在ut和co等城市,违约率较低。

整体来看,有房产的借款人违约率明显低于无房产的借款人。

导入相关库。

将数据中的字符串变量转换为数字。

按照测试集30%、训练集70%的比例划分数据集,使用随机森林算法建立模型。

模型测试集的预测准确率为:准确率=73.99%。

对于随机森林算法,我们可以检查该模型中每个特征的重要性。

如图6-2所示,StatedMonthlyIncome和EmploymentStatusDuration是最重要的功能。

根据该模型,预测仍在进行中的贷款是否违约。

仍在进行中的贷款违约率为Default _ Ratio _ Predict = 3.64%。

本文详细描述了Prosper loan数据从数据探索到模型建立和预测的完整过程。

研究发现,月收入和雇佣期限对是否违约影响最大。主要是因为这两个是反映借款人稳定性的重要因素。

在模型建立方面,也可以通过调整这个模型的参数来提高精度,或者尝试使用其他算法,比如logistic回归,建立新的模型进行比较。