自20世纪末开始,由于反欺诈领域的数据量大和时效性高的要求,机器学习技术逐步实现应用。
1997年,弗拉基米尔·科基纳基(vladimir Kokkinaki)提出了一种基于决策树的模型,其子节点代表不同变量,分叉路径代表不同的条件。
2000年,乔恩·本特利(Jon Bentley)使用基因算法搭建了一套逻辑规则,它可以根据最大发生概率将交易行为划分为可疑交易和非可疑交易。
2002年,理查德·博尔顿(Richard Bolton)和戴维·汉德(David Hand)利用对等组分析和断点分析,从账户和个体角度判断行为链上的欺诈。
1997年,何塞·多隆索罗(José Dorronsoro)基于神经网络算法设计了一套在线欺诈跟踪系统。
2002年,山姆·梅斯(Sam Maes)将贝叶斯网络应用到信用卡领域。
以上发现都属于有监督机器学习(Supervised Machine Learning),需要大量带有标签的历史数据来训练模型。
但是,每一个标签都代表已经发生过的欺诈事件,在实际应用中,银行往往没有足够的标签。
目前,风控领域使用的反欺诈手段主要是规则系统,基于业务专家经验以及过去发生的欺诈事件建立规则。
然而,这种方法建立的规则系统通常无法做到及时更新,因此误报率较高,同时,维护费用高昂,因此,金融领域迫切需要应用先进技术构建新的智能反欺诈模型。
目前,适用于银行反欺诈的机器学习和深度学习算法主要包括有监督机器学习和无监督机器学习两个方面。
SKM算法
种子k均值聚类算法(Seeded k-means Clustering Algorithm),简称SKM,是利用好坏用户人群区分度较高的特点,将用户人群分为两类,使同一类中的用户相似度较高,而不同类间用户的相似度较低。
选取用户数量少的类作为异常客户,将每个异常用户到正常用户类中心点的距离记作“用户异常评分”,评分越高,用户越可疑。
聚类分析擅长从多个维度综合分析用户之间的差异,分布在极值两端的变量对模型结果的影响大,运算效率高,结果可解释性好,但是容易忽略单个指标的决定性作用,且划分结果不够精确。
SKM算法原理图
孤立森林
孤立森林(Isolation Forest)用于挖掘异常数据的无监督模型,利用坏用户与规律相比的差异来划分。每次随机选取一定数量的样本训练一棵iTree树,任选特征顺序与分割值,重复多次得到iForest森林。将全量样本沿着每棵iTree达到叶子节点,每个用户在iForest上距离根节点的平均路径长度作为客户异常评分,路径长度越短越可疑。
孤立森林擅长分析每个维度对异常用户划分的影响,极值单侧分布的变量更容易区分异常用户,使结果更加精确。
但是,孤立森林无法从整体上分析好坏用户的差异,且算法复杂度较高,结果解释性较低。
自编码网络
自编码网络(Auto Encoder)是一种适用于无监督场景下的深度学习网络模型,其主要用途是将数据压缩,在需要的时候用损失尽量小的方式恢复数据。
在自编码网络中,输出层神经元的数量与输入层神经元的数量完全相等,通过控制隐藏神经元的数量达到压缩数据的目的。
在反欺诈场景中,由于欺诈用户与正常用户在行为上存在较大差异,对于整个数据集来说是冗余信息。自编码网络目前还没有在银行反欺诈领域中大规模应用,但是对数据量和计算环境的高要求有待进一步探索。
自编码网络原理图
卷积神经网络
卷积神经网络(Convolutional Neural Network)最早被用于图像处理和识别的场景中,主要由卷积层和池化层构成。
卷积层是卷积神经网络的核心,通过固定大小的卷积核的移动构造局部连接,利用参数共享大小减小网络模型;池化层通常夹杂在卷积层之间或者之后,通过池化操作提取变量特征,提高计算效率的同事防止过拟合。
在用户交易分析中,由于交易链与图都具有相关性,并且距离越近相关性越大,因此可以通过选取相关交易行为的办法,将某一时刻的一维交易链转化为二维交易链图,再利用卷积神经网络训练找出异常用户行为。
卷积神经网络交易链转换原理图
长短期记忆网络
长短期记忆网络(Long Short Term Memory,LSTM)是基于循环神经网络(Recurrent Neural Network,RNN)的一种优化神经网络模型,其优势是可以处理一些依赖长期历史记忆的场景,这是传统的RNN模型不具备的学习能力。
LSTM的核心是在RNN中加入了一个判断信息是否有用的处理器,包括输入门、遗忘门、和输出门,符合模型条件的信息会被留下,其他信息被遗忘门略去。
把LSTM网络应用于交易链场景中可以更好地处理并记录交易行为在时间轴上的关联,有效区分异常的交易行为。
LSTM网络算法原理图
CBiForest反欺诈算法
通过需求调研和数据采集,针对数据特性提出了一套基于聚类的孤立森林算法模型(CBiForest)。在无监督条件下,结合SKM和iForest两者的优势,CBiForest可以全方位、多层次地判断和追踪欺诈用户。
CBiForest的建模过程如下:
根据CBiForest模型的计算结果,将用户异常分值从高到低排列,分数越高,存在欺诈的可能性越大。
目前利用深度学习技术进行银行反欺诈探索的案例相对较少。以DanskeBank的应用项目为例,介绍一下国际上银行反欺诈项目的领先成果。
基于DanskeBank每秒60笔交易的实时数据,首先尝试利用决策树和逻辑回归的聚合模型,与传统规则引擎相比,误报率降低了25~30%,准确率提高了35%。利用CNN、LSTM等多种深度学习模型进行检测时,测试集的AUC提高到了0.9。
随着国内银行数据环境的优化和硬件系统的升级,这些深度学习算法也可以应用于国内银行场景,以便进一步提高对欺诈行为的主动预警能力。
对于银行反欺诈场景而言,从专家经验到规则系统,再到智能化模型预测,这是反欺诈技术的不断升级,也是银行数字化转型过程中的重要一环。
欺诈行为变化多端,欺诈与反欺诈从根本上是人与人之间的较量。由于欺诈方也是业务专家,并配备了技术手段,因此在实际反欺诈应用中,我们需要将更多的精力放在对业务和数据的理解上,并针对不同场景选择适当的技术方法。
相关文章:
数学模型漫谈
金融风控:通过率与坏账率的博弈
数字金融反欺诈技术名词表
数字金融欺诈行为名词表