数据分析的风险控制

90年代初,美国运通(Amarican?以Express为首的美国信用卡金融公司开始利用数据建模来提高风险控制能力,解决精准营销等问题。发现,资本?一个紧随其后。

1995年,美国运通的风控模型开始试运行,风控系统于1997年正式上线。在接下来的几年里,美国运通保持了快速增长,并将不良贷款降至行业最低水平。

2008年,discover将其全球数据分析中心迁至上海。这个中心流出的风控人才,已经填满了国内各大互金公司。

业务类型:抵押贷款(车贷)、信用贷款(如宜人贷)、消费分期贷款(手机、家电等)。)、小额现金贷(500/1000/1500)等。

风控涉及业务:1)数据采集:包括信用数据、运营商数据、爬虫、网站嵌入点、历史贷款数据、黑名单、第三方数据等。

?2)反欺诈引擎:主要包括反欺诈规则和反欺诈模型。

?3)规则引擎:即常用的策略。主要是通过数据分析手段统计不同领域、不同区间的坏账率,然后选择信用好的人放贷。

4)风控模型&;记分卡:模型算法没有显著区别,只是按照时间点的不同(贷前/贷中/贷后)来划分,也就是目标的生成方式不同。通常,目标变量由信用字段中的逾期天数定义。a卡可以使用客户历史上最大的逾期天数,B卡可以使用多期最大的逾期贷款。由于目的不同,建立C卡的方式也不同。

5)催收:是风险控制的终极手段。这个环节可以产生很多对模型有帮助的数据,比如收款记录的文字描述,到达率,欺诈标签等等。

1)爬虫可以抓取手机APP的信息。我们可以把手机app分为四类:工具类、社交类、娱乐类、金融类。计算每个APP的数量,所以有四个特点。

2)从运营商数据可以知道客户打了多少电话,发了多少短信,用了多少流量,有没有欠费。

3)信用报告往往是简单的信用评分。一般分数越高,客户质量越好。

4)从基本信息中获取用户画像,如从身份证中获取年龄、性别、户籍等。

黑名单的升级版是规则引擎。然而,它是由经验产生的。比如保险公司可能会拒绝为连续退货五次或者退货比例达到80%的人购买退货险。规则通常需要大量的精力去维护,不断的更新修改,否则会造成大量的误判。建议对可疑现金金额和交易笔数超过一定数量的,拒绝访问或重点关注。XX天内申请贷款次数大于某个值,建议拒绝。

比如我们可以设定一个入职规则,比如是公务员、医生、律师等等。

还可以设置直贷原则,比如芝麻分大于750分。

如何确定目标变量:以卡牌A为例,主要通过滚率和年份。比如我们可以把逾期8个月超过60天的客户定义为不良客户,逾期8个月没有逾期的客户定义为良好客户。而0-60天内逾期八个月的客户不确定,排除在样本之外。

1)准备工作:不同的模型针对不同的业务场景,建模项目开始前需要对业务逻辑和需求有清晰的了解。

2)模型设计:包括模型选择(记分卡或集成模型)、单一模型或模型细分。是否需要做拒绝推断,如何定义观察期,表现期,用户好坏。确定数据源

3)数据提取和清洗:根据观察期和性能期的定义,从数据池中提取数据,进行数据清洗和稳定性验证。数据清洗包括异常、缺失和重复。稳定性检验主要考察变量在时间序列中的稳定性,指标有PSI、IV、均值/方差等。

4)特征工程:主要是特征预处理和筛选。记分卡主要由IV筛选。此外,还会基于对业务的理解进行特征构建,包括特征交集(两个或两个以上特征的乘/除/笛卡尔积)、特征变换等等。

5)模型建立与评估:记分卡可以通过逻辑回归,仅通过二元预测选择xgb。模型建立后,需要对模型进行评估,计算AUC和KS。该模型被交叉验证以评估泛化能力。

6)模型上线部署:在风控后台配置模型规则。对于xgb等一些复杂的模型,一般会将模型文件转换成pmml格式进行封装。后台上传文件和配置参数。

7)模型监控:前期主要是监控整个模型和变量的稳定性。主要衡量标准是PSI(人口稳定性?索引).其实psi就是每个分数区间的实际和预期比例除以分数后的差值。如果小于10%,则不需要更新模型。如果低于25%,就需要重点关注模型了。如果大于25%,则需要更新模型。计算模型psi一般采用等频,可分为10盒。

1.卡A、卡B、卡C的含义和区别是什么?

申请评分卡:申请评分卡,在客户申请的处理期间,预测客户开户后一定时期内的违约和违约风险概率,有效排除信用不良客户和非目标客户的申请。同时,为客户进行风险定价——确定金额和利率。使用的数据主要是用户过去的信用记录、多头借贷、消费记录等信息。

B-card(行为记分卡):一种行为记分卡,根据账户管理期间账户历史中的各种行为特征,预测账户未来的信用表现。一是防控贷款中的风险,二是调整用户额度。使用的数据主要是用户在这个平台上的登录、浏览和消费行为的数据。还有贷款还款、逾期等贷款绩效数据。

c卡(收藏?得分?卡片):催收记分卡,预测对逾期账款的反应概率,从而采取相应的催收措施。

三张牌的区别:

数据要求不同:一张卡一般可以用于0-1年的贷款信用分析。B卡是在申请人有一定行为后,用大数据进行的分析。C卡需要更多的数据,采集后需要添加客户反应等属性数据。

特点不同:一张卡大多使用申请人的背景信息,如客户填写的基本信息、第三方信息等。而且这种模式一般会比较谨慎。B Cali使用了很多基于事务的特性。

2.为什么在风控领域选择logistic回归模型,其局限性是什么?

1)首先,由于logistic回归的敏感性不如其他高复杂度模型,因此具有稳健性。

2)模型直观,系数的含义易于解释和理解。

缺点是容易欠拟合,精度不是很高。另外对数据要求比较高,缺失、异常、特征共线性比较敏感。

3.为什么用IV而不是WOE来筛选特征?

因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高,如果分组的样本比例很小,这个特征最后的预测能力可能还是很小。

4.ROC和ks指标(KS为0.2-0.75,auc为0.5-0.9)

ROC曲线以TP和FP为横坐标和纵坐标,KS曲线以TP和FP为纵坐标,横轴为阈值。KS可以找出模型中差异最大的一组,如果大于0.2,就可以认为有较好的预测精度。而ROC可以反映整体的分化效果。

5.盒子分裂法与不良单调性

目前在业内,人们使用贪婪算法分盒,如best_ks、卡方除法等。Badrate单调性只在将连续数值型变量划分为有序离散型变量的过程中考虑(比如学历/大小)。至于为什么要考虑badrate单调性,主要是业务理解上的原因。比如逾期历史越多,不良率越大。

6.为什么不同的风控模型一般不会使用相同的功能?

被拒绝的人穷,是因为某些特质。如果用同样的特征进行反复筛选,那么随着时间的推移,将来要建模的样本中就不会有这样的人了。因此特征上的样本分布发生变化。

7.风险控制中使用的无监督算法有哪些?

聚类算法、基于图的离群点检测、LOF(局部异常因子)、孤立森林等。

8.卡方分裂

卡方装箱是一种基于合并的数据离散化方法。基本思想是合并具有相似类分布的相邻区间。卡方值越低,两个区间越相似。当然,不可能无限合并。我们为它设置了一个门槛。它是根据自由度和信心度得出的。例如,如果类的数量是N,那么自由度是N-1。置信度表示发生的概率。一般可以拿90%。

best-ks包装

与卡方包装相反,best-ks包装是一个循序渐进的过程。将特征值从小到大排序,KS最大的值为切点,然后将数据分为两部分。重复这个过程,直到盒子的数量达到我们预设的阈值。

10.拒绝推论?推论)

申请积分卡是利用已批准授信客户的历史数据建立模型,但这个模型会忽略原来被拒的这群客户对积分卡模型的影响。为了使模型更加准确和稳定,有必要通过拒绝推理来修正模型。此外,公司规则的变化也可能让过去被拒的客户现在通过。适合通过率低的场景。

常用方法:硬截断法——先用初始模型对被拒绝的用户进行评分,设置一个阈值。高于此的分数被标记为好用户,否则为坏用户。然后,将标记的拒绝用户添加到样本中,以重新训练模型。分配方法-这种方法适用于记分卡。将样本按得分分组,计算各组的违约率。然后根据前面的方法对被拒绝的用户进行评分和分组。以每组的违约率为抽样比例,随机抽取该组中的违约用户指定为不良用户,其余用户标记为良好用户。然后将标记的拒绝用户添加到样本中进行重新训练。

11.建模时如何保证模型的稳定性?

1)在数据预处理阶段,可以通过计算月度IV的差值,观察两个时间点变量覆盖率的变化和PSI的差值来验证变量在时间序列中的稳定性。比如我们选取1-10个月的数据集,借鉴K倍验证的思想,得到10组验证结果。观察随着月份的推移,模型的变化是否有大的趋势变化。

2)在变量筛选阶段,去除与业务理解相悖的变量。如果是记分卡,可以剔除区分度太强的变量,模型受这个变量的影响会很大,稳定性会下降。

3)交叉验证,一个是时间序列交叉验证,一个是K倍交叉验证。

4)选择稳定性好的车型。比如xgb?随机森林等

12.如何处理高维稀疏特征和弱特征?

对于高维稀疏特征,logistic回归优于gbdt。后者的惩罚主要是树深和叶片数,对稀疏数据不太严厉,容易过拟合。利用logistic回归记分卡,可以将特征离散化为0和非0,然后进行woe编码。

如果记分卡用于建模,薄弱的特征通常会被丢弃。记分卡不要有太多特征,一般在15以下。而Xgb对数据要求低,准确性好。交叉组合一些弱功能可能会有意想不到的效果。

13.模型上线后发现稳定性不好,或者在线判别效果不好。怎么调?

模型不稳定。首先,检查在建模时是否考虑了特征的稳定性。在模型前期发现稳定性差的变量,可以考虑舍弃或者用其他变量代替。此外,分析了在线和离线用户以及建模时用户的分布差异,并在建模时考虑了拒绝推理的步骤,使建模样本的分布更接近实际的整体应用用户。

线上效果差可以从变量的角度来分析。剔除效果不好的变量,在模型中挖掘新的变量。如果一个模型上线很久了,用户的属性在慢慢转移,那就重新取数据做下一个模型。

14.如何做好风控模型冷启动

产品刚推出的时候,没有积累用户数据,或者说用户没有表现出好坏。这时候可以考虑:1)不做模型,只做规则。有了业务经验,做一些硬性规定,比如对用户设置准入门槛,考虑用户的信用记录和长期风险,接入第三方反欺诈服务和数据产品的规则。也可以结合人工审核,对用户的申请材料进行风险评估。2)借助类似模型的数据建模。

15.样本不平衡问题

除了调整类权重,抽样方法主要用于解决这个问题。常见的有朴素随机过采样、SMOTE、ADASYN(自适应综合过采样)。

16.操作员数据处理

根据通话日期,通话记录可以分为近7天、近半个月、近1月、近3月、近6月等时间窗口。也可以根据具体日期分为工作日、节假日等等。根据通话时间,一天可以分为清晨、上午、下午和晚上。至于电话号码,一种思路是按照归属地划分省市,另一种思路是对号码进行标注,区分快递、骚扰电话、金融机构、中介等。根据电话公司的标签,百度手机卫士和搜狗号码通。甚至根据业务积累区分该号码是黑名单用户、申请用户还是申请被拒用户。用户与不同号码标签之间的交流,可以反映出用户的交流习惯和生活特点。

17.逐步回归

当自变量之间关系复杂,难以把握变量的选择时,可以用逐步回归的方法筛选变量。逐步回归的基本思想是将变量逐个引入模型,对每个引入的变量进行f检验,对选取的变量进行T检验。当最初引入的变量在后来的变量引入后不再显著时,原来的变量将被删除。确保在每次引入新变量之前,回归方程中仅包含重要变量。

18.为什么经常在logistic回归中做特征组合(特征交叉)?

Logistic回归是广义线性模型,特征组合可以引入非线性特征,提高模型的表达能力。

部分引用文章:/content/qita/775233/article/jxwvkab 9t 7m pwhxj 9 ymu/developer/article/1489429?/developer/article/1059236?/taenggu 0309/记分卡-函数