数据分析思维学习笔记-3

互联金融行业toC授信模型

背景

互联网金融的本质是风控，目前金融行业都看重风控，主要基于央行的个人或企业征信报告。

行业岗位

风控分析师：除了一定的模型理解能力，需要大量行业和法律法规经验
数据建模师：要求对算法理解较深，相对行业经验要求不高
数据挖掘分析师：一般由数据建模师或产品经理兼职

行业产品对象

toB：对公业务，由定量打分卡和定性行业经验决定
toC：个人业务，由个人信用分决定，其个人信用分主要依赖于央行征信报告

数据建模师的主要工作

获取数据源，建立信用评分模型，模型上线后监控维护，以及其他数据挖掘工作

授信模型建立

授信模型结构

image.png

身份特质：最重要的一般包括自身学历，工作单位，年薪等，可以一定程度代表着稳定性
履约能力：个人收入组成及具体收入金额，代表着兜底性
信用历史：即历史贷款还款记录，代表着历史性
人脉关系：稳定性验证与弱价值性
行为偏好：真正价值性

数据源

可以获取到的数据源成百上千，但并非数据源越多越好，变量越多导致计算量越大
原始变量：直接存在在数据源中的数据
衍生变量：通过原始变量及时得到的，一般分为时间维度衍生，函数衍生，比率衍生
基于RFM（最近、频次、钱）原则选择变量

数据处理

数据处理和数据建模并非一成不变的，而是慢慢迭代优化的
前期数据处理
- 数值型和字符型字段缺失性和合理性校验，剔除无效字段
- 数值型字段相关性验证
- 字符型字段离散化处理（数值化）
- 数据标注啊（对模型效果无明显影响）

数据建模

graph TD
A[综合芝麻分] --> B[综合概率/违约概率]
B --> C[五个模块违约概率加权平均]
C --> |权值Q1| D[模块1违约概率]
C --> |权值Q2| E[模块2违约概率]
C --> |权值Q3| F[模块3违约概率]
C --> |权值Q4| G[模块4违约概率]
C --> |权值Q5| H[模块5违约概率]
D --> |逻辑回归| I[模块1训练集和测试集]
F --> |逻辑回归| J[模块3训练集和测试集]
E --> |逻辑回归| K[模块2训练集和测试集]
G --> |逻辑回归| M[模块4训练集和测试集]
H --> |逻辑回归| N[模块5训练集和测试集]

模型离线效果指标

混淆矩阵：查准率和查全率
ROC曲线：根据混淆矩阵做出的，区分模型是否较好把好坏样本分开的一个图，越大越好
坏账率：实际工作中的北极星指标

模型运行周期

模型迭代数据往往很快（一个月），需不断调整权值和系数，慢慢优化，优化效率就由坏账率衡量

模型落地

初期：
- 共享金融数据样本给芝麻信用，芝麻信用的数据建模师根据模型给出违约概率
- 根据违约概率，计算模型准确度
- 当模型准确度达到90%，开始合作（用户群体覆盖度和模型准确度有关）
中期：
- 芝麻分只是参考维度之一，一般根据央行征信报告评估值、芝麻分、信用评估分，计算可贷款额
后期：
- 每周对坏账情况，需要调参：
- 找出是某个模型出问题引起的还是所有模型引起的
- 如果子模型只要调整参数，反之，重新对数据建模（处理）

数据分析思维学习笔记-3

互联金融行业toC授信模型

背景

行业岗位

行业产品对象

数据建模师的主要工作

授信模型建立

授信模型结构

数据源

数据处理

数据建模

模型离线效果指标

模型运行周期

模型落地

你可能感兴趣的:(数据分析思维学习笔记-3)