七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记

建模流程:

1.前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,
以及模型效果的要求。
2.模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的
获取途径等都要确定好。
3.数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行前期的数据清洗和稳定性验证工作,数据清洗包括用户唯一性检查,缺失值检查,
异常值检查等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI,平均值/方差,IV等。
4.特征工程:主要做特征的预处理和筛选,如果是评分卡,需要对特征进行离散化,归一化等处理,再对特征进行降维,降维的方法有IV筛选,相关性筛选,
显著性筛选等。另外会基于对业务的深入理解做特征构造工作,包括特征交叉,特征转换,对特征进行四则运算等。
5.模型建立和评估:选择合适的模型,像评分卡用逻辑回归,只需要做出二分类预测可以选择xgboost等集成模型,模型建好后需要做模型评估,计算AUC,KS,
并对模型做交叉验证来评估泛化能力及模型的稳定性。
6.模型上线部署:在风控后台上配置模型规则,对于一些复杂的模型还得需要将模型文件进行转换,并封装成一个类,用Java等其他形式来调用。
模型监控:前期主要监控模型整体及变量的稳定性,衡量标准主要是PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型
的AUC,KS,与线下进行比较,衡量模型的线上的实际效果。
七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记_第1张图片

特征工程

用户基本属性

phone_nember

  • 手机号前缀是否相同
  • 手机号归属地是否相同
  • 手机号与工作城市是否相同
  • 主贷人手机号与联系人手机号相似程度
  • 是否是虚拟运营商
  • 流量卡还是通话卡
  • 手机号前4位:可用于比对iccid的解析手机号

nickname

  • 昵称符合固定的规律(中文+数字)
  • 备注是否符合某种亲密的称呼

birthday

  • 年纪
  • 星座
  • 生肖

sex

  • 性别是否失衡

password

  • 是否都相同

身份证号码

  • 年龄 核对
  • 性别 核对
  • 出生城市编号 与身份证户籍核对

邮箱

  • 是否是一次性邮箱
  • username 满足规律
  • 是否同一邮箱服务商
  • 邮箱里面的数据(账单)

学历

  • 相似性
  • 分布是否有明显变化

住房

  • 租房情况是否雷同

积分

  • 是不是超过某个阈值

签到

  • 相似性

ip

  • 是否是同一个号段
  • 每次登录ip地址是否相同
  • 是不是临时ip 和 gps
  • ip 和 gps 是否能对的上

gps

  • 经纬度相似性分析
  • 国家 省份 城市 相似性
  • ip 和 gps 是否能对的上
  • 常住地址是否一致
  • 工作地址是否一致

wifi

  • ssid
  • wifi list
  • 贷款前的几分钟有没有切换过wifi
  • 同一个WiFi申请贷款人数

application time

  • 时间切片
  • 注册用了多长时间(太快太慢都有问题)
  • 一共申请了几次

login time

  • 时间切片
  • 登陆了几次、频率
  • 最后一次登录时间距贷款时间的间隔
  • 同一时间登录做一个校验(同一时间多人登录)

ua(user agent)

  • 每次打开是否是同一个ua

渠道

  • app/H5/微信
  • 渠道ID属于违规渠道

app version

  • 每次app的版本号是否相同
  • app版本会不会太老了(老版本的app有bug,可能会被黑中介用来攻击我们)

推荐人/联系人

  • 名字匹配
  • 手机号匹配
  • 多人互为或共用紧急联系人(联系方式)

设备指纹

imei

  • 受否都相同
  • 每次登录imei号是否都相同

device id

  • 是否都相同
  • 每次登录device id号是否都相同

分辨率

  • 手机型号和屏幕分辨率是否一致

mobile type

  • 手机品牌
  • 手机型号

os(operating system)

  • 每次打开操作系统是否都相同
  • 来申请的人是否os都相同
  • os的版本是否太旧

中文错别字可以考虑转换成拼音做相似度匹配

address

  • 地址要标准化
  • 模糊匹配
  • 相似度计算(cos距离,词向量)

company

  • 正则
  • 字节拆分
  • 关键字提取
  • 相似度计算
  • 错别字/同音字识别

第三方数据

人行征信

  • 公司信息是否一致
  • 学历是否一致
  • 居住地址是否一致
  • 手机号码是否一致
  • 逾期数据

运营商

  • 是否有相同的联系人
  • 是否有黑名单客户在通讯录中
  • 通话最频繁的几个人(所在地是否和他相同)

社保公积金

  • 工资
  • 社保缴纳月数、金额
  • 公积金缴纳月数、金额

你可能感兴趣的:(金融风控)