互联网金融授信模型

授信模型:
芝麻信用
1.身份 稳定性
2.履约能力 兜底性
3.信用历史 历史性
4.人脉关系 稳定性+若价值性
5.行为偏好 真正价值

一. 数据变量
1.原始变量
2.衍生变量 时间,函数,比率

在选择变量的时候,基于RMF,一年的数据

二. 数据处理
迭代优化,前期不会很复杂
数值和字符型缺失性和合理性检验
数值型字段相关性验证
字符串字段的离散性处理

相关性处理:相关系数:一般来说0.7以上就是高度相关
相关性系数如何求? 协方差/(各自的标准差相乘)

字符型性:一般采用专家打分法
小学 0-20 初中20-40… 所有变量均变为数值

数据标准化:数据在量级和量纲上相差很大,没有可比性,对所有字段进行标准化,标准化的方式对后面模型效果没有影响

三. 建模前的思考
在不同时期的权重不一样,所以每个模型都要单独建模,在建模前需要把业务目标理一理,这样才能找到用什么模型
逻辑上就是:根据用户的数据,算出违约的概率,而这个概率也可以转化为用户的分数,所以逻辑回归模型可以使用。

假设该模块包含的字段有最近一个月主动查询金额机构信用次数X1,最近一个月需要还贷总额X2,最近一个月逾期总额X3
那么其违约的概率
P= 1/(1+e-(aX1+bX2+cX3))

四. 模型离线效果评估
混淆矩阵和ROC曲线
ROC 曲线:根据混淆矩阵做出的,区分模型能否把好坏样本分开的一个图,一般取ROC下面的面积AUC,来衡量模型效果
越大越好,一般0.6以上
在实际过程中,最重要的是坏账率这个评估指标

五. 模型的运行周期
在产品初期,因为模型的变量太多,所以模型的迭代速度非常快,基本每月都要跑一次,可能出现某个用户分数奇高,这是正常的,这些都需要不断的调整权重和系数,慢慢优化才行,最终还需要模型落地

六.模型落地
落地场景,模型准确率高才合作
多维度评估,芝麻信用只是一个参考维度
一般这样:机器调用该用户央行的征信,接口调用用户的芝麻分 该用户在招联的信用评估情况,结合三者,出一套授信方案,模型基本正式使用

你可能感兴趣的:(互联网金融授信模型)