PART 2.1 风控模型种类&变量选择范围&变量衍生&特征交叉

最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂

评分卡环节的介绍

风控模型种类

  • 获客阶段:
    用户响应模型:在获客阶段的用户转化情况(比如互联网引流用户注册情况)
    风险预筛选模型:不同渠道的风险指数不同,客户质量不同,导流途径和方向不同
  • 授信阶段
    申请评分模型:传统的A卡
    反欺诈模型:团伙欺诈、个人欺诈、关系拓扑等
    风险定价模型:不同的客群利率不同,
    收益评分模型:基于客户收益状况评分
  • 贷后阶段:
    行为评分模型:基于提现情况 进行评分,针对得分低客群进行扣分
    交易欺诈模型:利用交易漏洞进行欺诈,或者并不是本人借款
    客户流失模型:如何定义流失客户
  • 催收阶段:
    早期催收模型 :一手单 二手单
    晚期催收模型:三手单,四手单,打包单及特殊单
    还款率模型:预测经催收回的欠款的比率
    账龄滚动模型:预测逾期人群从轻度逾期到重度逾期的概率
    失联预测模型:在逾期阶段,对尚能联系到的人群预测其未来失联的概率

获客阶段模型一般针对互联网,即线上获客模式,数据来源相对多样,一般类似漏斗模式,如何引流,导流,成功注册等信息,以及在某一个阶段进行埋点分析流失状态

各评分卡特点&变量选择范围

上述讲解是分化十分细致的模型,实际上均是基于传统的A B C卡的转化和演变,对三大类模型的变量进行重点的学习和介绍,一般来讲各阶段变量的情况不一致,但是授信端的变量到提现端变量效果降低很多,提现端变量放入催收端,效果降低很多,不同阶段需要充分利用不同变量的特点

第一类:A卡(Application score card)申请评分卡

针对客群
  • 申请授信客群
经历阶段
  • 获客–授信
基础变量
  • 年龄
  • 性别
  • 家庭支出
  • 客户收入
  • 职位
  • 婚姻状况
  • 身份证
  • 资金用途
  • 绑定信息(微信 支付宝 蚂蚁分 京东分等)
  • 地址信息
  • 紧急联系人
埋点变量
  • 通讯录(人数)
  • 短信(关键字 逾期)
  • 备忘录
  • 通话时长(时间分布 次数分布)
第三方变量
  • 多头借贷次数
  • 机构评分
  • 消费级别

第二类:B卡(Behavior score card)行为评分卡

定义:根据贷款人放款后表现行为,预测未来逾期/违约风险概率模型 通常指每一笔借款情况
使用场景:行为评分卡用在贷款放款之后,到期之前的时间段,即“贷中”环节
条件概率:P(未来一段时间发生违约/当前没有违约)

针对客群
  • 有过提现客群后者正在提现客群
经历阶段
  • 获客–授信–提现–是否还款?
变量
  • 还款率类型特征 (还款行为相关变量 核心 还款意愿和还款能力)
  • 额度使用率类型特征 (满额度针对的是还款压力问题)
  • 逾期类型特征 (逾期状态代表较高的逾期概率)
  • 消费类型特征(线上消费 提现 消费用途等)

第三类:C卡(Collection score card)催收评分卡

针对客群
  • 已经逾期并且没有还款的客群
经历阶段
  • 获客–授信–提现–逾期
变量
  • 逾期天数
  • 历史还款信息
  • 是否有催收记录
  • 属于几手单
  • 个人基础信息(年龄 性别 行业 收入等)
  • 催收金额占比DBR(debt burden ratio)
  • 联系人信息(夫妻,子女,同事,朋友)
  • 运营商信息信息(在网时长 高频联系人)
  • 第三方借贷信息(催收期间是否大量借贷等)

变量衍生

方法技巧如下:

逻辑1

  • 计数:过去一年内的申请贷款总次数
  • 求和:过去一年内的网店消费总额
  • 比例:贷款申请额度与年收入占比
  • 时间差:第一次开户距今时长
  • 波动率:过去3年内每次工作时间的标准差
  • 交叉:切片或两变量融合
    逻辑2
  • 近度:近度是指最近一次动作时间。最近一次交易发生时间,最近一次登录时间;
  • 频度:频度是指某指定时间段内发生动作的次数。一月内被查征信次数、发生交易次数,一季度申请次数、被拒卡次数等。时间段通常根据业务经验设定,一般有:一天、一周、一个月、一个季度、半年和一年等;
  • 值度:值度是指某个时间范围内动作涉及的金额或等值金额。例如,交易发生的总金额、最高交易金额、平均交易金额等

特征交叉

变量交叉一直以来都是互联网金融评分卡不敢去开拓的环节,本博主对特征交叉有一定的体会,要点如下

  • 不是所有特征维度都做交叉
  • 交叉维度至多2(笛卡尔为两变量分箱数乘积),过多的交叉缺乏解释性,过拟合严重,并且稀疏性
  • 交叉需要在分箱后,占比各箱相对均匀(避免稀疏性问题)
  • 变量选择尽可能IV较高,同时分箱少,尽可能避免过拟合

过拟合变量的处理

有些变量效果很好,可能是事后变量
注:事后变量指的是与预测目标同时间或者晚于改时间的变量
比如预测目标是否逾期,在变量中有逾期天数,那该变量就是事后变量

有些变量效果好,但可能是过拟合变量,也就是泛化能力交叉的变量,仅适用于改样本客群的变量,具有偶然性。
不过并不意味着 该变量不能用,需要去优化的事情如果 将过拟合变量泛化
将变量中稳定的可利用的部分单独成箱,不稳定的数据可统一放入一箱,这样的目的在于将过拟合变量中过拟合部分泛化,拟合效果良好部分保留
本质上让过拟合变量变成可用变量

最重要的事情最后都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂

你可能感兴趣的:(风控建模专栏)