金融大数据风控建模实战(一)智能风控背景

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、金融科技介绍
    • 1.技术创新推动金融创新的巨大力量
    • 2.智能风控和评分卡
  • 二、机器学习介绍
    • 1.概念
    • 2.分类
  • 三、评分卡模型介绍
    • 1.申请评分卡
    • 2.行为评分卡
    • 3.催收评分卡
    • 4.反欺诈模型
  • 总结


前言

提示:

这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、金融科技介绍

1.技术创新推动金融创新的巨大力量

阿里巴巴:支付宝每天通过类似银行的方式处理超过一百万笔交易,创造了287万直接和间接就业机会,为40多万家中小企业提供了3000-5000美元贷款。2010年使用芝麻信用评分代替传统信用评分来辅助中小企贷款。
将小微金融,普惠金融,智能金融列为重大转型方向

2.智能风控和评分卡

开发流程:
1.数据清洗
直接将缺失状态作为特征处理
2.预处理
3.特征工程
4.模型优化

二、机器学习介绍

1.概念

学习更高维度的规律,并辅助人们合理决策

2.分类

1.有监督
分类问题、回归问题
—线性回归模型、神经网络模型、支持向量机模型、决策树模型、随机森林模型、Xgboost、深度学习模型
需要提前准备好大量样本
2.无监督
—聚类分析、降维、关联规则分析
不需要目标变量的参与,而是在输入变量之间寻找规律
3.强化学习
特定场景下通过不断试错的方式进行自我更新并学习
需要输入数据集和反馈信息

三、评分卡模型介绍

1.申请评分卡

快速授信,授信质量。

金融大数据风控建模实战(一)智能风控背景_第1张图片
1.1数据获取
反欺诈模型验证后,可认为得到的数据都是真实的。
1.2好坏样本定义
金融大数据风控建模实战(一)智能风控背景_第2张图片
1.3观察期和表现期确定
关联到机器学习模型,就是在观察期收集训练样本x,在表现期收集预测目标y,得到完整的有监督训练集。
观察期窗口要能积累较多的建模数据(有足够的坏样本),同时考虑申请周期的影响。
表现期–账龄分析确定观察期,表现点确定好坏样本,八个月趋于平缓,实际中3-6个月。表现点后的坏样本可以过了模型的时效性,可以采用行为评分卡和催收评分卡进行补充。

1.4样本分层
考虑评分卡构建数量:业务理解分层,数据驱动分层
数据驱动:有监督–决策树:首先建立决策树分类模型,区分好坏用户;会看哥哥叶子结点,尤其是最初基层,对分类结果影响较大;最后分析各个叶子结点;最后分析叶子节点是否有现实意义,能否与业务结合,某个节点能否作为分层依据。
无监督–聚类分析,数据探索环节,通常与可视化结合,不断迭代尝试。

1.5数据清洗与预处理
删除缺失值比例高的变量和方差较小的变量,并进行统计性描述。
统计性描述中可以通过可视化观察是否存在异常值,算法异常值检测:箱线图,DBSCAN,LOF,随机森林

1.6特征工程
衡量客户是否会短时间内资金紧缺。
结合现有数据,找到可以衡量借款人的未来行为趋势。
状态评估指标:借款人基本信息
还款能力指标:
信用状态指标:个人征信信息、第三方信息
还款意愿指标:

大量变量衍生,提高模型的准确性。通过相乘或除实现,加减没有意义。
加减,多重共线性,模型优化时产生振荡,影响模型预测稳定性。

1.7模型训练与优化
机器学习模型训练集和测试集要求来自同一个样本总体

金融大数据风控建模实战(一)智能风控背景_第3张图片

2.行为评分卡

借款人通过授信后进入贷中风险管理阶段。一般适用于动态风险评估,适用于信用卡的风险评估。
金融大数据风控建模实战(一)智能风控背景_第4张图片

2.1数据获取
还款期间其他平台的还款情况、近期消费情况、银行流水、行为轨迹

2.2时间窗口
金融大数据风控建模实战(一)智能风控背景_第5张图片
假设观察期时间窗口为六个月,在确定观察点后向前追溯借款人六个月的行为特征为建模样本。分析行为数据时,采用时间切片方法。时间窗口不宜过小。
假设表现期6个月,则可以在表现期内确定样本的好坏性质;如果是36个月,采用滚动建模和预测方法,得到整个换款周期的风险预测。

需要剔除的样本:
观察期部分:剔除还款期小于观察期的样本,提出在观察期就已经发生M3或M3+的样本。要预测的是可能出现M3/M3+的样本
表现期部分:剔除已发生预期但不到M3的样本,这些样本为不到表现期的样本,在观察期M1/M2逾期的不剔除。
明确建模预测目标,是违约还是逾期。

2.3特征工程
OA=2,OB=4,OC=6
平台内部数据:借款人真实逾期状况,实际还款率(本月还款总额/上月应还总额),设备指纹特征
第三方数据:统计其他平台借款申请,消费行为分析,运营商数据使用

3.催收评分卡

贷后管理
3.1分类
轻度、重度、核销(知识图谱失联修复)、资产清收

3.2催收策略
还款能力模型、还款意愿模型,决定催收策略

4.反欺诈模型

在审批阶段试图识别借款人的好坏。在申请评分卡之前现执行反欺诈评估,尽可能多规避欺诈客户。
4.1欺诈风险与信用风险比较
欺诈客户没有还款意愿,通过找到风控系统的漏洞或伪造信息获利。

4.2好坏样本定义
目标变量突出还款意愿区别
观察期时间窗口不能太长,欺诈用户一旦表现出逾期,不会偿还,好客户、坏客户、欺诈客户、不确定客户四种。

4.3欺诈主体分析
第一方、第二方、第三方

4.4反欺诈方法
身份校验:身份证名字与身份证号对应;手机:姓名、身份证号、手机;银行卡:姓名、身份证号、手机号、银行预留手机号。
身份校验通过后进行反欺诈规则与反欺诈模型评估。规则:命中即拒、组合命中拒绝。常用:黑名单信息、IP识别、虚假号码识别、设备指纹识别、多头信息、关系网中黑名单或多头信息等。有监督无监督:有监督方法欺诈样本少,用历史数据训练不能发现新的欺诈模型,无监督学习的聚类方法是很好的方式们可以发现新的欺诈模式,也可以发现类似的欺诈团伙。

先做特征工程,识别客户信息中不符合逻辑的地方。
APP登录信息、运营商信息、指标与正常值的偏离度(未来提高审核通过可能性,还款能力优异)、变量交叉验证(发现在不同特征组合下违背常理的情况)、多头借贷

特征工程完成后简单的规则可以通过专家经验总结得到,但是复杂的规则要经过模型训练得到。有了特征后可以建立评分卡模型或更复杂的Xgboost模型,给出欺诈分并设定阈值给予拒绝或通过的判断。

总结

例如:以上《python金融大数据风控建模实战》的阅读笔记(一),非原创内容。如涉及侵权立马删除。

你可能感兴趣的:(金融大数据风控建模实战(一)智能风控背景)