100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 风控评分卡模型——逻辑回归

风控评分卡模型——逻辑回归

时间:2022-10-22 03:16:48

相关推荐

风控评分卡模型——逻辑回归

目录

1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

数据集:数据

1.评分卡模型解释

一个用户总的评分等于基准分加上对客户各个属性的评分。客户评分=基准分+年龄评分+性别评分+婚姻状况评分+收入评分

如某客户年龄为27岁,性别为男,婚姻状况为已婚,月收入为20000,那么他的评分为:100+4+3+4+4=115

模型最低评分:100-10-4-4-10=82

模型最高评分:100+10+4+4+10=128

模型评分范围:82至128

通常情况下,即高分值代表低风险,低分值代表高风险。

2.探索性数据分析

获取数据的大概情况,例如字段的缺失情况、异常情况、平均值、中位数等分布情况,以及各字段与借贷字段二元分布,并制定合理的数据预处理方案。

本次探索性数据分析采用Tableau快速构建数据图。

代码:

3.数据预处理

3.1数据清洗

3.1.1异常值处理

一般异常值处理有基于密度的异常值处理、基于距离的异常值处理,本次采用基于距离的异常值处理对异常值处理。

3.1.2缺失值处理

删除缺失率超过某一阈值(阈值自行设定)的变量,

一般缺失值处理有均值填补、插值法、算法拟合等方法处理,本次采用随机森林算法拟合对缺失值处理。

代码:

3.2分箱变量

等频分箱:把自变量按从小到大的顺序排列,根据自变量等分成k份,每部分作为一个分箱;

聚类分箱:用k-means聚类法将自变量聚为k类;

split分箱:基于entropy,gini和 IV值进行变量分裂;

chimerge分箱:两个相邻的区间具有类似的类分布,则这两个区间合并;否则它们应保持分开。采用卡方值来衡量两相邻区间的类分布情况。

分箱过少:很难捕捉到数据的特征。分箱过多:可能是造成过度学习的原因。欠损值设为独立箱,分箱是必然会造成信息的损益。

代码:

3.3WOE与IV

3.3.1 WOE

WOE字面意思证据权重,对分箱后的每组进行。假设good为好客户(未违约),bad为坏客户(违约)。

WOE表示每个分箱里的坏好比相对于总体的坏好比之间的差异性。WOE越大,差异越大,WOE越小,差异越小,若WOE=0,则分箱没有预测能力。检查每个分箱(除null分箱外)里WOE是否满足单调性,若不满足,从新分箱。若相邻分箱的WOE值相同,则将其合并为一个分箱,全部相同重新分箱对变量进行变换,使其建立单调关系。将其“重新编码”到任何有序的度量,WOE变实际上是在“逻辑”尺度上对类别进行排序,人为地将变量呈线性,适配于逻辑回归模型。对于离散值变量,将这些离散值分组密集填充,可以用WOE来表达整个类别的信息,因为WOE是标准化的值,可以在不同类别和变量之间进行简单的比较。WOE可以抑制偏离值的影响。WOE是一种“单变量”的度量,因此它没有考虑到变量之间的相关性。只对一个变量进行逻辑回归,判断斜率是否为1,或者切片是否为WOE

若一个分箱内只有违约或未违约时,可对woe公式进行修正如下:

代码:

3.3.2 IV

IV是衡量某一个变量的信息量,表示一个变量的预测能力。根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最大值,此时的分箱效果最好,需要注意的是当箱数增加时,IV变大。

代码:

3.4变量筛选

基于IV值的变量筛选,如下表所示根据IV值筛选变量。

基于线性相关性的变量筛选,当两变量间的相关系数大于阈值(0.6)时,剔除IV值较低的变量,或分箱严重不均衡的变量。(需考虑多重共线性)

代码:

4.构建逻辑回归模型

客户违约的概率表示为p,则正常的概率为1-p,根据Logistic Regression计算公式有:

转换得到:

是Logistic Regression中不同变量的系数,是截距,A,B为常数,为基础分值。

每个变量对应分配到的分数应为,其中为第i个变量的第 j个分箱的WOE值,为是0,1逻辑变量,当为1时表示变量 i取第 j个分箱。

代码:

参考:

玩转逻辑回归之金融评分卡模型

风控模型—WOE与IV指标的深入理解应用

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。