100字范文 > 风控评分卡模型——逻辑回归

风控评分卡模型——逻辑回归

时间：2022-10-22 03:16:48

相关推荐

风控评分卡模型——逻辑回归

1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

数据集：数据

1.评分卡模型解释

一个用户总的评分等于基准分加上对客户各个属性的评分。客户评分=基准分+年龄评分+性别评分+婚姻状况评分+收入评分

如某客户年龄为27岁，性别为男，婚姻状况为已婚，月收入为20000，那么他的评分为:100+4+3+4+4=115

模型最低评分：100-10-4-4-10=82

模型最高评分：100+10+4+4+10=128

模型评分范围：82至128

通常情况下，即高分值代表低风险，低分值代表高风险。

2.探索性数据分析

获取数据的大概情况，例如字段的缺失情况、异常情况、平均值、中位数等分布情况，以及各字段与借贷字段二元分布，并制定合理的数据预处理方案。

本次探索性数据分析采用Tableau快速构建数据图。

代码：

3.数据预处理

3.1数据清洗

3.1.1异常值处理

一般异常值处理有基于密度的异常值处理、基于距离的异常值处理，本次采用基于距离的异常值处理对异常值处理。

3.1.2缺失值处理

删除缺失率超过某一阈值（阈值自行设定）的变量，

一般缺失值处理有均值填补、插值法、算法拟合等方法处理，本次采用随机森林算法拟合对缺失值处理。

代码：

3.2分箱变量

等频分箱：把自变量按从小到大的顺序排列，根据自变量等分成k份，每部分作为一个分箱；

聚类分箱：用k-means聚类法将自变量聚为k类;

split分箱：基于entropy，gini和 IV值进行变量分裂；

chimerge分箱：两个相邻的区间具有类似的类分布，则这两个区间合并；否则它们应保持分开。采用卡方值来衡量两相邻区间的类分布情况。

分箱过少：很难捕捉到数据的特征。分箱过多：可能是造成过度学习的原因。欠损值设为独立箱，分箱是必然会造成信息的损益。

代码：

3.3WOE与IV

3.3.1 WOE

WOE字面意思证据权重，对分箱后的每组进行。假设good为好客户（未违约），bad为坏客户（违约）。

WOE表示每个分箱里的坏好比相对于总体的坏好比之间的差异性。WOE越大，差异越大，WOE越小，差异越小，若WOE=0，则分箱没有预测能力。检查每个分箱（除null分箱外）里WOE是否满足单调性，若不满足，从新分箱。若相邻分箱的WOE值相同，则将其合并为一个分箱，全部相同重新分箱对变量进行变换，使其建立单调关系。将其“重新编码”到任何有序的度量，WOE变实际上是在“逻辑”尺度上对类别进行排序，人为地将变量呈线性，适配于逻辑回归模型。对于离散值变量，将这些离散值分组密集填充，可以用WOE来表达整个类别的信息，因为WOE是标准化的值，可以在不同类别和变量之间进行简单的比较。WOE可以抑制偏离值的影响。WOE是一种“单变量”的度量，因此它没有考虑到变量之间的相关性。只对一个变量进行逻辑回归，判断斜率是否为1，或者切片是否为WOE

若一个分箱内只有违约或未违约时，可对woe公式进行修正如下：

代码：

3.3.2 IV

IV是衡量某一个变量的信息量，表示一个变量的预测能力。根据IV值来调整分箱结构并重新计算WOE和IV，直到IV达到最大值，此时的分箱效果最好，需要注意的是当箱数增加时，IV变大。

代码：

3.4变量筛选

基于IV值的变量筛选，如下表所示根据IV值筛选变量。

基于线性相关性的变量筛选，当两变量间的相关系数大于阈值（0.6）时，剔除IV值较低的变量，或分箱严重不均衡的变量。（需考虑多重共线性）

代码：