一、互联网反欺诈体系的构建存在着以下三个原则:
(准)实时性:考虑到用户体验,互联网反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定,并给出判断。对于注册、登陆、支付等一些场景,必须能够在用户无感知到情况下对欺诈行为进行检测和认定。
自动化:由于(准)实时性的要求较高,决定了互联网业务无法通过人工操作进行反欺诈,必须使用更加高效的自动化反欺诈措施。
数据化:与传统的线下反欺诈不同,自动化的反欺诈检测本质上是数据应用能力的比拼。数据采集能力、挖掘能力和分析能力、建模能力,决定了互联网反欺诈能力的高低。
二、反欺诈数据
数据是互联网反欺诈能力的基础。互联网反欺诈体系的建设,对于数据的广度和深度都提出了非常高的要求。业内目前常用的数据从类别上可以分为以下几类:
1.设备类
设备类数据主要指用户客户端(如手机、平板电脑、笔记本、PC等 )等各类参数,主要通过页面、APP内嵌入各类sdk,js脚本等方式进行采集和获取。
2.环境类
环境类数据是指用户发起操作请求时所处环境的相关数据,可以分为虚拟环境和物理环境两大类。
虚拟环境数据,主要指用户所的IP、WiFi等网络环境相关数据。
物理环境数据,主要指用户的手机定位、基站位置等相关数据。
3.行为类
行为类数据是指用户在网页或APP上进行各种操作时的各类数据,如用户页面停留时长、文本输入时长、键盘敲击频次等。
4.第三方数据
第三方数据指通过从公开途径或第三方数据服务商处获取的各类数据,包括但不限于用户的运营商数据、电商消费数据、银行数据、司法数据等各类数据。
由于监管要求,此类数据往往是已经进行脱敏处理的标签数据。考虑到这类数据会产生一定的数据成本,同时其真实性和准确性也参差不齐,所以在使用这类数据时,应当十分谨慎。
三、反欺诈方法
反欺诈的方法多种多样,当前互联网反欺诈体系中常用的方法有信誉库、专家规则、机器学习等几种:
1.信誉库
信誉库即传统的黑、白名单,通过内部积累、外部获取的各种人员、手机号、设备、IP等黑、白名单对欺诈行为进行判断,是一种实施简单、成本较低的反欺诈手段。与此同时,信誉库也存在着准确度低、覆盖面窄的缺陷和不足,仅可作为互联网反欺诈的第一道过滤网使用。
2.专家规则
专家规则是目前较为成熟的反欺诈方法和手段,主要是基于反欺诈策略人员的经验和教训,制定反欺诈规则。当用户的操作请求和操作行为触发了反欺诈规则时,即被认定为欺诈行为并启动拦截,常见的如各种聚集度规则等。
专家规则的优势在于实现较为简单、可结实性强,但缺陷在于专家规则存在有严重的滞后性,对于新出现的欺诈手段和方法无法及时的进行应对,往往需要着付出大量损失后才能总结教训提取新的规则。此外,由于人脑的限制,专家规则只能使用一个或几个维度的标量进行计算和识别,往往存在有较大的误报率。
专家规则严重依赖于策略人员的经验和教训,不同水平的策略人员制定的专家规则效果也会纯在较大区别,主要可以作为互联网反欺诈的应急响应手段和兜底防线。
3.机器学习
机器学习反欺诈是近年来比较火的一种反欺诈方法,目前也取得了一定的成果,最为常见的如芝麻信用分等。
机器学习反欺诈是通过机器学习方法,将用户各个维度的数据和特征,与欺诈建立起关联关系,并给出欺诈的概率。
常见的机器学习反欺诈包括有监督和无监督两种:
1.基于有监督机器学习的反欺诈:
有监督机器学习反欺诈是目前机器学习反欺诈中较为成熟的一种方法。其基本思路是通过对历史上出现的欺诈行为进行标记,利用逻辑回归等机器学习算法,在海量的用户行为特征、标签中进行分类,发现欺诈行为所共有的用户行为特征,并通过分值、概率等方式予以输出。
由于互联网欺诈行为的多样性,很难百分百的将欺诈行为与正常行为完全进行区分,因此有监督机器学习反欺诈等最大难点在于如何准确获取大量欺诈行为的标记。
2.基于无监督机器学习的反欺诈:
无监督机器学习反欺诈是近来行业内出现的一种新兴思路,也成为一些公司的卖点,但迄今为止尚未出现较为成熟和经过实践验证的解决方案。
相对于有监督机器学习的反欺诈,无监督机器学习的反欺诈方法不需要预先标记欺诈行为,而是通过对所有用户和所有操作行为各纬度数据和标签的聚类,找出与大多数用户和行为差异较大的用户和操作请求,并予以拦截。
理论上,基于无监督机器学习的反欺诈方法可以使得反欺诈人员摆脱被动防守的局面。但是由于无监督机器学习算法对于数据的广度、数据使用的深度都有着极其高的要求,因此无监督机器学习算法的效果仍需等待实践的检验。
四、反欺诈技术
互联网反欺诈常用的技术主要包括数据采集、特征工程、决策引擎、数据分析等几个类别:
1.数据采集技术
数据采集技术主要是应用于从客户端或网络获取客户相关数据的技术方法。值得强调的是,数据采集技术的使用,应当严格遵循法律法规和监管要求,在获取用户授权的情况下对用户数据进行采集。
2.设备指纹
设备指纹是目前在互联网领域被广泛使用的一种技术手段,其在反欺诈体系中的作用也从最早的设备唯一标示,变为了客户端数据采集器。
设备指纹服务目前市场上有大量的服务提供商,评价一个设备指纹服务的优劣应当综合考虑覆盖度、唯一性、全面性等几个方面。
3.网络爬虫
网络爬虫技术即可以用于用户运营商数据、信用卡数据、网络交易数据等各类数据等的爬取,也可以应用于司法老赖名单、网络核查数据的爬取。
4.特征工程技术
特征工程技术是指可以从原始数据中进行数据挖掘的各类技术。常见的特征工程技术如生物识别、活体检测、文本语义分析、知识图谱等。
5.生物识别
生物识别,如声音识别、人脸识别等,是指对用户特定生物特征进行检测和识别一种技术手段,通过比对用户的生物特征信息,判断用户身份,主要用于用户身份的核实等场景,防止出现用户帐户被盗用的情况。
6.活体检测
活体检测技术主要通过要求用户做特定动作或朗读特定内容,对用户是活人还是机器进行判断和检测,是防范欺诈团伙批量攻击的一种有效手段。
7.文本语义分析
文本语义分析主要用于对文本类数据的解析和挖掘,从用户评论等文本内容中提取用户特征。
8.知识图谱
知识图谱是利用图数据库,从特定维度对不同用户和不同操作行为之间进行关联和计算,从而发现不同用户和不同操作之间的关联关系,可以用于团伙特征检测等场景。
9.数据分析技术
随着互联网反欺诈方法等不断演进,数据分析技术也成为反欺诈能力构建的一个核心能力。海量数据和特征的处理也对数据分析技术提出了更高的要求。常见的数据分析技术包括实时分析(如Storm)和离线分析(如Hadoop)两类,具体介绍可以参见大数据相关技术。
10.决策引擎
反欺诈决策引擎是互联网反欺诈体系的大脑和核心。一个功能强大的决策引擎,可以将信誉库、专家规则和反欺诈模型等各类反欺诈方法有效的整合,并为反欺诈人员提供一个操作高效、功能丰富的人机交互界面,大幅降低反欺诈运营成本和响应速度。
对于决策引擎好坏的判断,应当从引擎处理能力、响应速度、UI界面等多个维度进行综合判断。
五、实际应用案例
1.CBiForest反欺诈算法
通过前期数据和需求调研,针对数据特性提出一套基于聚类的孤立森林模型算法(CBiForest)。在无监督的条件下,结合SKM和iForest两者优势,全方面、多层次地判断和追踪欺诈客户。整体建模流程可以分为以下几个步骤:
第一步:对于行内交易流水和登录日志数据进行挖掘分析,从交易金额、笔数、时间、类型、地址等多方面构造反欺诈模型特征;
第二步:基于关联矩阵、模型验证、业务经验等方法,筛选出重要变量23个,其中按照变量分布特性,将15个U型变量运用到SKM模型,8个长尾型变量运用到iForest模型;
第三步:首先利用SKM将所有客户聚成两类,其中数量较少的类被标记为异常客户群体,定义每个点到正常类中心的距离作为SKM异常分数,距离越大越异常;
第四步:对于两类客户群体,再分别训练iForest模型,每个点到iTree根结点的平均距离作为iForest异常分数,平均距离越近越异常;
第五步:对于每个点,将SKM和iForest模型计算得到的异常分数加权相加,得到聚合模型CBiForest的最终结果。
根据CBiForest模型的计算结果,客户根据异常分数由高到低排列,分数越高,存在欺诈的可能性越大。我们着重分析了排名前1%客户的交易流水,并与业务人员交流,证实了CBiForest算法可以有效地找出交易端的异常客户。
2.深度学习技术应用案例
目前国内利用深度学习技术进行反欺诈探索的案例还相对较少,这里以DanskeBank的应用项目为例,简单介绍下国际上银行反欺诈项目的领先成果。
基于DanskeBank每秒60笔交易的实时数据,首先尝试利用决策树和逻辑回归的聚合模型,与行内传统规则引擎相比,降低了25-30%的误报率,提高了35%以上的准确性。随后更近一步,利用包括CNN、LSTM在内的多种深度学习模型进行尝试,将测试集上的AUC提高到了0.9以上。
可以预期,伴随国内数据环境的优化和硬件系统的升级,这些有监督的深度学习算法也都可以在国内金融业进行尝试,以便进一步提高欺诈行为的主动预测能力。