美国网贷平台Prosper贷款数据分析

本文主要描述了如何用Python来评估、组织和清洗数据集。

完成这个过程后，我们将通过Tableau对“Prosper违约客户的特征是什么”这个问题进行探索、分析和可视化。

最后用随机森林算法对2009年7月以后的数据进行建模分析，对还在进行中的贷款进行违约与否的预测。

Prosper是美国第一家P2P借贷平台。这个数据集来自于优步2005年到2014在Udacity上的贷款数据。本文希望通过对已完成贷款的分析，判断什么样的客户更容易违约，并预测未完成贷款是否会违约。

原始数据集包含81个变量和113937条数据。下面解释一些重要的变量，其他变量的含义可以参考变量字典。

首先加载库和数据。

然后用df.describe()和df.info()观察数据。

这次主要分析1。什么样的借款人更容易违约？2.预测未偿还贷款是否会违约。所以去掉不相关的栏目。

自2009年7月起，Prosper调整了对客户的评估方法。这次只分析2009年7月以后的贷款-01。

删除含义重复的列:

Prosper对新客户的评级和老客户不同，这次只分析新客户的数据。

首先，检查每个变量的缺失数据。

平台将贷款状态分为12类型:已取消(已注销)、已收费(已核销，投资人有损失)、已完成(正常完成，投资人无损失)、当前(贷款偿还)、违约(坏账，投资人有损失)、FinalPaymentInProgress(投资人最终还款无损失)、粘贴。

本文根据交易是仍在进行还是已成交，以及投资者在已成交的交易中是否亏损，将所有数据分为以下三组:

当前(包括当前、过期)，

违约(包括违约、拒付)，

已完成(包括已完成，finalpaymentinprogress)。

为了便于后续的分析计算，“完成”改为1，“默认”改为0。

已完成贷款违约率defaulted _ ratio _ finished = 26.07%。

这个数据集有很多反映贷款用户信用情况的特征。其中，信用评级由Prosper根据自己的模型建立，是确定贷款利率的主要依据，而CreditScore则由官方信用评级机构提供。

从图5-1可以看出，随着ProsperRating的不断增加，违约率呈现出明显的下降趋势。

在CreditScore，低分(640-700)，违约率处于比较高的位置，没有太大的变化。对于720以上的部分，随着信用评分的提高，违约率明显下降。

总体来看，借款人的信用等级越高，违约的可能性越低。

在不同收入水平中，未就业借款人的违约率最高，且随着收入的增加，违约率不断降低。

在不同的贷款状况下，违约用户的月收入明显低于非违约用户。

根据图5-4左图，违约用户和非违约用户的整体负债收入比差别不大。

根据债务收入比的四分位数，将所有数据分为数据量相近的四组。从图5-4右图可以看出，低比率(债务收入比0-0.12)和中比率(0.12-0.19)的违约率都较低。比例较高的违约率(0.19-0.29)略高于前两者。而高比例(大于0.29)用户的违约率明显上升。

根据银行卡使用率的四分位数，将数据分为'未使用'、'低透支(0，0.3 '、'中度透支(0.3，0.7 '、'高透支(0.7，1)”和'严重透支(1)。

可见透支严重的借款人违约率最高。

二是未使用的用户，这也是金融机构特别关注“白户”的原因。

InquiriesLast6Months可以反映借款人近期向金融机构申请贷款的频率，间接反映借款人近期的财务状况。

图5-6中，绿线表示不同查询时间下的贷款笔数。可以看到，大部分都在7倍以下。

在0-7次查询的范围内，默认率随着查询次数的增加而增加。

目前的违约情况可以很好地反映借款人的信用状况。

从图5-7可以看出，目前大部分借款人的逾期次数在2次以内。在0-6的范围内，违约率随着当前逾期次数的增加而增加。

为了避免某些极少数类别对违约率排名的影响，首先筛选出贷款超过30笔的类别。

从图5-8可以看出，最大的数字是1-债务合并。

违约率最高的是15-医疗/牙科(医疗)、13-家庭支出(家庭支出)和3-商业(商业)，均高于30%。

根据贷款金额的四分位数，将数据分为四组，数字相近。有意思的是，中等规模贷款(365，438+000，4750)的违约率最高，而高规模贷款(8，500以上)的违约率最低。

这大概是因为能申请高额贷款的用户各方面条件都很好，从而降低了违约率。

从图5-11可以看出，在0-30的范围内，随着久期的增加，违约率逐渐降低，这个范围也包含了一半左右的数据。

当久期持续增长时，违约率没有明显的变化规律。

不同地区违约率差异明显。在洛杉矶和SD等城市，违约率很高。在ut和co等城市，违约率较低。

整体来看，有房产的借款人违约率明显低于无房产的借款人。

导入相关库。

将数据中的字符串变量转换为数字。

按照测试集30%、训练集70%的比例划分数据集，使用随机森林算法建立模型。

模型测试集的预测准确率为:准确率=73.99%。

对于随机森林算法，我们可以检查该模型中每个特征的重要性。

如图6-2所示，StatedMonthlyIncome和EmploymentStatusDuration是最重要的功能。

根据该模型，预测仍在进行中的贷款是否违约。

仍在进行中的贷款违约率为Default _ Ratio _ Predict = 3.64%。

本文详细描述了Prosper loan数据从数据探索到模型建立和预测的完整过程。

研究发现，月收入和雇佣期限对是否违约影响最大。主要是因为这两个是反映借款人稳定性的重要因素。

在模型建立方面，也可以通过调整这个模型的参数来提高精度，或者尝试使用其他算法，比如logistic回归，建立新的模型进行比较。