评分卡建模基本流程

评分卡建模基本流程

  • 1. 什么是评分卡
  • 2. 评分卡分类
  • 3.评分卡的优缺点分析
  • 4. 评分卡的建模开发流程
    • 4.1 立项阶段
    • 4.2 数据准备阶段
    • 4.3 模型开发阶段
  • 5. 模型监控
  • 6.参考

1. 什么是评分卡

在贷款行业中,评分卡是用于衡量客户的还款能力的打分,也代表了客户未来一段时间内违约/逾期/失联可能性,评分卡分数越高代表客户资质越好,还款能力越强,一个典型的例子就是芝麻信用分。

2. 评分卡分类

根据使用的阶段,评分卡通常可以分为以下几类:

  • 申请评分卡【A卡(Application scorecard)】:在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效排除了信用不良客户和非目标客户的申请
  • 行为评分卡【B卡(Behavior score card)】:在帐户管理期,根据账户历史上所表现出来的各种行为特征来预测该账户未来的信贷表现
  • 催收评分卡【C卡(Collection scorecard)】:在帐户管理期,对逾期帐户预测催收策略反应的概率,从而采取相应的催收措施

三张卡的区别:

  1. 使用的时间不同,分别在贷前、贷中和贷后使用,
  2. 作用不同:A卡对申请客户信息预筛选,B卡侧重于进行风险预警,必要时可以进行额度调整,C卡可以用于调整催收策略
  3. 变量不同,A卡主要使用申请人的背景信息(如客户填写的基础信息以及第三方机构外部信息),B卡会更侧重于交易的变量,C卡会增加贷后的表现等

3.评分卡的优缺点分析

优点:

  • 易于使用:业务人员在操作时,只需要按照评分卡每样打分然后算个总分就能操作,不需要接受太多专业训练
  • 可解释性强:客户和审核人员都能知道看到结果,以及结果是如何产生的

缺点:

  • 信息的使用维度不高:评分卡建模通常会有上千个字段,最后入模变量大约10 ~20个左右,简单是优点,但在日益增长的数据前,就变成缺点。有着大量数据资源却使用有限,造成数据资源的浪费
  • 当信息维度高时,评分卡建模会变得比较困难
  • 需要不断迭代更新:某些不重要的特征,在另一些时刻会变得重要(例如在疫情期间,许多指标的波动性会比较大)模型需要定期监控,更新迭代。

4. 评分卡的建模开发流程

4.1 立项阶段

第一步需要了解应用场景,需要建立什么类型的评分卡,确定建模目标,做好项目规划。

4.2 数据准备阶段

  1. 收集数据
    根据建立的评分卡收集相关数据源,数据可以包括:
    客户基础信息:姓名、证件号、手机号、年龄、学历等
    交易信息:消费能力、理财、出入账情况等
    名单命中情况:自然人身份、失信人、被执行人等
    地理位置:稳定性、所在地区风险程度等
    社交数据:与中高风险用户的关联情况等
    信贷记录:P2P、银行等借贷申请记录、负债情况、还款情况等
    第三方征信数据:人行征信等

  2. 明确定义
    建模之前需要明确以下事项:

    明确什么是好客户、坏客户和灰客户,根据需求定义标签y,是采用M2+还是M3+等,为了提高模型的识别能力,一般剔除灰客户建模;

    明确建模样本的观测窗口和表现窗口;

    明确训练集样本的和测试集样本的分配比例等。

  3. 数据初步清洗

    1. 剔除无效样本
    2. 添加衍生变量
    3. 缺失值处理:缺失值单独成箱分析,不按均值、众数填充,会影响已知数据的信息
    4. 其他清洗步骤

4.3 模型开发阶段

  1. 特征分箱:划分训练集和测试集,对训练集字段进行初步分箱,初步分箱可采用等距分箱、等频分箱、决策树分箱、Best-KS分箱或卡方分箱,由于收集的字段数量较多(通常上千个字段),本阶段的分箱可以不用做的特别细致,如可以先采用10分位数进行分箱,这一阶段的分箱是为了计算相关统计指标用于初步的特征筛选;
  2. 特征值计算:根据分箱结果,计算WOE编码、KS、IV和PSI;
  3. 统计指标筛选:给定阈值,根据缺失率、KS、IV和PSI筛选出一批字段,KS和IV太小,特征没有区分能力,PSI太大字段不够稳定不建议入模;
  4. 相关性筛选:计算相关矩阵,相关系数大于给定阈值的两个特征,保留IV值大的特征,可以思考剔除变量的顺序、IV值相等的情况;
  5. 单调性筛选:经过上面两步筛选,初始变量已大幅被剔除,对通过筛选的变量重新进行更细致的分箱,为保证变量业务上的可解释性,这一轮的分箱需要保证不良率的单调性,即分箱的整体值越大,不良率越高或越低,部分变量可放宽至U型(如年龄),在保证单调性和区分度的基础上尽可能取较大的KS值,对于业务上无法解释的变量进行剔除,往往这一步较耗时;
  6. 模型训练:采用逐步逻辑回归,选择AIC最低的模型;
  7. 参数检查:拟合系数应该全部为正或全部为负(和WOE的计算有关,好/坏 拟合系数应该全为负,坏/好拟合系数应该全为正),如果存在不符合要求特征,可能意味着模型存在多重共线性,建议进行检查并剔除系数不合要求的特征;
  8. 显著性检验:剔除P-value>0.05的变量,完成最后最后入模变量的筛选;
  9. 共线性检验:计算训练集和测试集的VIF(方差膨胀因子),剔除VIF>10的变量
  10. 模型评价:计算训练集和测试集的IV、KS、AUC等
  11. 分数映射:根据映射公式并给定初始值,进行分数的转换
  12. 档位划分:根据需求划分不同等级
  13. 上线部署:模型完成开发,确定入模字段和切分点后上线部署

5. 模型监控

模型上线后,需要定期对模型进行监控,监控指标包括:

  • 模型通过率
  • 各特征稳定性、预测能力
  • 各等级稳定性、预测能力
  • 报错、空跑监控等

6.参考

  1. 三种评分卡模型到底是什么?.
  2. 金融风控评分卡建模全流程!

你可能感兴趣的:(大数据风控,机器学习,大数据)