数据分析思维学习笔记-3

互联金融行业toC授信模型

背景

互联网金融的本质是风控,目前金融行业都看重风控,主要基于央行的个人或企业征信报告。

行业岗位

  • 风控分析师:除了一定的模型理解能力,需要大量行业和法律法规经验
  • 数据建模师:要求对算法理解较深,相对行业经验要求不高
  • 数据挖掘分析师:一般由数据建模师或产品经理兼职

行业产品对象

  • toB:对公业务,由定量打分卡和定性行业经验决定
  • toC:个人业务,由个人信用分决定,其个人信用分主要依赖于央行征信报告

数据建模师的主要工作

获取数据源,建立信用评分模型,模型上线后监控维护,以及其他数据挖掘工作

授信模型建立

授信模型结构
image.png
  • 身份特质:最重要的一般包括自身学历,工作单位,年薪等,可以一定程度代表着稳定性
  • 履约能力:个人收入组成及具体收入金额,代表着兜底性
  • 信用历史:即历史贷款还款记录,代表着历史性
  • 人脉关系:稳定性验证与弱价值性
  • 行为偏好:真正价值性
数据源
  • 可以获取到的数据源成百上千,但并非数据源越多越好,变量越多导致计算量越大
  • 原始变量:直接存在在数据源中的数据
  • 衍生变量:通过原始变量及时得到的,一般分为时间维度衍生,函数衍生,比率衍生
  • 基于RFM(最近、频次、钱)原则选择变量
数据处理
  • 数据处理和数据建模并非一成不变的,而是慢慢迭代优化的
  • 前期数据处理
    • 数值型和字符型字段缺失性和合理性校验,剔除无效字段
    • 数值型字段相关性验证
    • 字符型字段离散化处理(数值化)
    • 数据标注啊(对模型效果无明显影响)
数据建模
graph TD
A[综合芝麻分] --> B[综合概率/违约概率]
B --> C[五个模块违约概率加权平均]
C --> |权值Q1| D[模块1违约概率]
C --> |权值Q2| E[模块2违约概率]
C --> |权值Q3| F[模块3违约概率]
C --> |权值Q4| G[模块4违约概率]
C --> |权值Q5| H[模块5违约概率]
D --> |逻辑回归| I[模块1训练集和测试集]
F --> |逻辑回归| J[模块3训练集和测试集]
E --> |逻辑回归| K[模块2训练集和测试集]
G --> |逻辑回归| M[模块4训练集和测试集]
H --> |逻辑回归| N[模块5训练集和测试集]
模型离线效果指标
  • 混淆矩阵:查准率和查全率
  • ROC曲线:根据混淆矩阵做出的,区分模型是否较好把好坏样本分开的一个图,越大越好
  • 坏账率:实际工作中的北极星指标
模型运行周期

模型迭代数据往往很快(一个月),需不断调整权值和系数,慢慢优化,优化效率就由坏账率衡量

模型落地
  • 初期:
    • 共享金融数据样本给芝麻信用,芝麻信用的数据建模师根据模型给出违约概率
    • 根据违约概率,计算模型准确度
    • 当模型准确度达到90%,开始合作(用户群体覆盖度和模型准确度有关)
  • 中期:
    • 芝麻分只是参考维度之一,一般根据央行征信报告评估值、芝麻分、信用评估分,计算可贷款额
  • 后期:
    • 每周对坏账情况,需要调参:
    • 找出是某个模型出问题引起的还是所有模型引起的
    • 如果子模型只要调整参数,反之,重新对数据建模(处理)

你可能感兴趣的:(数据分析思维学习笔记-3)