反欺诈模型开发总结

欺诈模型开发必要性

  • 欺诈(尤其是团伙欺诈)对金融企业造成的损失非常巨大,有业务环节多,手段多样化,隐蔽性强的特点
  • 在过去,很多金融企业通过规则引擎和线下调查来识别欺诈,能拦截到发标后触碰到规则的用户,但覆盖范围较小,准确率不高
  • 大数据、机器学习技术的进步,使得自动化、高效率、较低成本的实现反欺诈,成为可能

反欺诈模型开发难度

  1. 大部分情况下没有标签,无法使用有监督学习算法
  2. 欺诈定义模糊,即没有明确的界限将欺诈和非欺诈区分开来
  3. 噪声点和异常点(欺诈点)易混淆,需要区分
  4. 不了解每种诈骗定义,很难区分不同诈骗类型
  5. 在有标签的情况下,也很难单纯依靠监督模型,因为欺诈的方式在不断进化,而监督模型只能识别出现过的欺诈行为
  6. 表面看是二分类,实际是多分类问题(每种欺诈类型为一类)

常用手段

  1. 可视化了解数据,分析异常情况。如相关矩阵、多维尺度变换(MDS)
  2. 时间序列分析,查看欺诈行为是否依赖时间变化
  3. 无监督学习,如Isolation Forest、各种Density Based的聚类方法(CBLOF)、KNN
  4. 不完全依赖监督模型,采用规则+模型的组合策略
  5. 分析异常点是否显著不同
  6. GNN图形神经网络
  7. 基于关系网络的图算法
  8. 关系网络和知识图谱技术,发现团伙欺诈

整体思路

一 信息造假

  1. 在和曾经做线下调查的同事沟通后,发现他们主要还是针对客户虚假信息做调查,如亲属姓名、家庭和工作地址、联系人号码等信息不一致情况
  2. 另外还会调查客户联系人在公司的贷款及违约情况,来判断客户是否有组团骗贷的风险
  3. 线下调查的同事对存在疑似欺诈的客户有打标,且拥有每笔进件触碰到规则引擎的结果数据

二 组团骗贷

  1. 欺诈的危害在于它往往不是单独的,团体欺诈则更是组织化和产业化,专业的身份包装、业务开发和中介代办形成了一条完整的黑色产业链
  2. 欺诈分子之间往往会有直接或间接的联系(关联)
  3. 通过关系网络和知识图谱,将客户与客户串起来,通过局部风险发现整体的风险,通过个体欺诈发现团伙欺诈。

三 外部数据

  1. 外部数据(如多头、征信)可以弥补内部数据对多样性欺诈识别的不足,客户在其他金融平台的借款,个人征信等信息与欺诈行为关系密切。

建模流程

1. 目标确立

  • 根据线下调查的同事对客户打的欺诈标签,分析其逾期情况,欺诈标记客户的M3+率高于非欺诈标记的客户,从时间轴上分析,前期欺诈标记的准确率较高,后期准确率下降。
  • 欺诈客户在还款轨迹中会有以下两个特点:1、从第一期开始便不还款且无法催回,2、前几期(通常3期以内)会还款,但之后突然不再还款且无法催回。将满足这两个条件的客户划分出来(包含欺诈客户和超高信用风险客户),作为监督模型的正类,无历史逾期记录客户作为负类。
  • 时间窗口:需要足够的还款表现期,但太久远的数据无法反应现在和将来的客户,因此时间窗口选择拒今4到10个月之内的数据。

2. 数据来源

  • 身份数据:客户进件时填写的基础信息,如工作收入、负债和支出等。
  • 社交关系:客户填写的联系人信息。
  • 规则引擎:反欺诈规则集命中结果。主要为客户信息一致性验证、联系人信息一致和违约验证。
  • 外部三方:多平台借贷、黑名单、信用风险等级等。从外部数据可以获得客户更多风险情况。
  • 内部关系:历史客户和当前客户间的关联信息,一维度和二维度关联客户的借贷和违约情况。一般来讲,某位客户有过违约,则相关联客户违约概率较高,关联的违约客户越多,欺诈的概率越高。

3. 使用算法

  • 孤立森林:无监督算法,思想是欺诈和非欺诈数据在树的划分路径上不同,欺诈数据更容易被隔离开来。
  • 异常检测:局部离群因子,思想是异常值的密度比其邻近点要明显更低。
  • 监督学习:lightgbm、svm和lr,将所有数据和无监督的结果进行整合,得出每条样本的欺诈概率。

4. 结果验证

  • 10折交叉验证,对欺诈和高风险的预测准确率较高,样本外数据集上效果略低。

5. 后续优化

  • 可以使用概率图模型、关系网络和知识图谱等技术提升模型对欺诈的预测能力。

python异常检测工具

  • pyod 异常检测库
  • sklearn《无监督学习》中《新奇和异常值检测》
  • 孤立森林、KNN等算法

你可能感兴趣的:(机器学习)