评分卡中的A卡、B卡、C卡是指
贷前:申请评分卡(Application score card),称为A卡
贷中:行为评分卡(Behavior score card),称为B卡
贷后:催收评分卡(Collection score card),称为C卡
WOE(证据权重)
Weight of Evidence,证据权重
是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性
B代表风险客户,G代表正常客户
对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异
Thinking:对于二分类问题共100条记录,一个自变量只有两个值value1, value2,如何计算value1, value2对应的woe1, woe2?
value1有50条记录,其中40条对应label 1,另外10条对应label 0
value2有50条记录,其中25条对应label 1,另外25条对应label 0
Thinking:WOE差异越大,对风险区分能力=差异越大,对风险区分越明显
WOE计算:
对于连续型变量,分成N个bins
对于分类型变量保持类别group不变
计算每个bin or group中event和non-event的百分比
WOE的作用:
可以将连续型变量转化为woe的分类变量
可以对相似的bin或group进行合并(woe相似)
计算woe需要注意:
每个bin or group记录不能过少,至少有5%的记录
不要用过多的bin or group,会导致不稳定性
对bin or group中全为0或者1的特列,用 修正的woe防止分母为0的情况
IV(Information Value)
woe只考虑了风险区分的能力,没有考虑能区分的用户有多少
IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力,用于筛选变量
IV的计算,可以认为是WOE的加权和
IV是与WOE密切相关的一个指标,在应用实践中,评价标准可参考如下:
评分卡模型开发步骤:
Step1,数据获取,包括获取存量客户及潜在客户的数据
存量客户,已开展融资业务的客户,包括个人客户和机构客户;
潜在客户,将要开展业务的客户
Step2,EDA,获取样本整体情况,进行直方图、箱形图可视化
Step3,数据预处理,包括数据清洗、缺失值处理、异常值处理
Step4,变量筛选,通过统计学的方法,筛选出对违约状态影响最显著的指标。主要有单变量特征选择和基于机器学习的方法
Step5,模型开发,包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三个部分
Step6,模型评估,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论
Step7,生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分的方法,将Logistic模型转换为标准评分的形式
Step8,建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统
变量分箱
变量分箱是对连续变量进行离散化,分箱后的特征对异常数据有很强的鲁棒性
比如 age>30 为1,否则0,如果特征没有离散化,杜宇异常数据“年龄300岁”会给模型造成很大的干扰
逻辑回归属于广义线性模型,表达能力受限,单变量离散化为N个后,相当于为模型引入了非线性,能够提升模型表达能力
离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力
可以将缺失作为独立的一类带入模型
将所有变量变换到相似的尺度上
缺失值处理方法
针对字段X,存在缺失值的处理:
直接删除含有缺失值的样本
如果缺失的样本占总数很大,可以直接舍弃字段X(如果将X作为特征加入,噪音会很大)
采用简单规则进行补全:
删除:删除数据缺失的记录;
均值:使用当前列的均值;
高频:使用当前列出现频率最高的数据。
采用预测进行补全:
根据样本之间的相似性填补缺失值
根据变量之间的相关关系填补缺失值
To Do:采用随机森林对Titanic乘客生存预测中的Embarked, Age进行补全
1)通过Survived,Pclass, Sex, SibSp, Parch, Fare字段预测Embarked字段中的缺失值
2)通过Survived,Pclass, Sex, SibSp, Parch, Fare,Embarked字段,预测Age字段中的缺失值