Week11 评分卡

评分卡中的A卡、B卡、C卡是指

贷前:申请评分卡(Application score card),称为A卡 

贷中:行为评分卡(Behavior score card),称为B卡 

贷后:催收评分卡(Collection score card),称为C卡

WOE(证据权重)

Weight of Evidence,证据权重

是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性

B代表风险客户,G代表正常客户

对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异 

Thinking:对于二分类问题共100条记录,一个自变量只有两个值value1, value2,如何计算value1, value2对应的woe1, woe2?

value1有50条记录,其中40条对应label 1,另外10条对应label 0

value2有50条记录,其中25条对应label 1,另外25条对应label 0

Thinking:WOE差异越大,对风险区分能力=差异越大,对风险区分越明显

WOE计算:

对于连续型变量,分成N个bins

对于分类型变量保持类别group不变

计算每个bin or group中event和non-event的百分比

WOE的作用:

可以将连续型变量转化为woe的分类变量

可以对相似的bin或group进行合并(woe相似)

计算woe需要注意:

每个bin or group记录不能过少,至少有5%的记录

不要用过多的bin or group,会导致不稳定性

对bin or group中全为0或者1的特列,用 修正的woe防止分母为0的情况 

IV(Information Value)

woe只考虑了风险区分的能力,没有考虑能区分的用户有多少

IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力,用于筛选变量

                               IV的计算,可以认为是WOE的加权和

IV是与WOE密切相关的一个指标,在应用实践中,评价标准可参考如下:

评分卡模型开发步骤:

Step1,数据获取,包括获取存量客户及潜在客户的数据

存量客户,已开展融资业务的客户,包括个人客户和机构客户;

潜在客户,将要开展业务的客户

Step2,EDA,获取样本整体情况,进行直方图、箱形图可视化

Step3,数据预处理,包括数据清洗、缺失值处理、异常值处理

Step4,变量筛选,通过统计学的方法,筛选出对违约状态影响最显著的指标。主要有单变量特征选择和基于机器学习的方法

Step5,模型开发,包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三个部分

Step6,模型评估,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论

Step7,生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分的方法,将Logistic模型转换为标准评分的形式

Step8,建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统

变量分箱

变量分箱是对连续变量进行离散化,分箱后的特征对异常数据有很强的鲁棒性

比如 age>30 为1,否则0,如果特征没有离散化,杜宇异常数据“年龄300岁”会给模型造成很大的干扰

逻辑回归属于广义线性模型,表达能力受限,单变量离散化为N个后,相当于为模型引入了非线性,能够提升模型表达能力

离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力

可以将缺失作为独立的一类带入模型

将所有变量变换到相似的尺度上

缺失值处理方法

针对字段X,存在缺失值的处理:

直接删除含有缺失值的样本

​如果缺失的样本占总数很大,可以直接舍弃字段X(如果将X作为特征加入,噪音会很大)

采用简单规则进行补全:

删除:删除数据缺失的记录;

均值:使用当前列的均值;

高频:使用当前列出现频率最高的数据。

 采用预测进行补全:

根据样本之间的相似性填补缺失值

根据变量之间的相关关系填补缺失值

To Do:采用随机森林对Titanic乘客生存预测中的Embarked, Age进行补全

1)通过Survived,Pclass, Sex, SibSp, Parch, Fare字段预测Embarked字段中的缺失值

2)通过Survived,Pclass, Sex, SibSp, Parch, Fare,Embarked字段,预测Age字段中的缺失值

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享