拓端数据|数据风控的探索实践:机器学习识别欺诈

参考原文

关注我们请点击上方"拓端数据"↑

在信息爆炸时代，“信用”已成为越来越重要的无形财产。 ”数据风控“的实际意义是用DT（Data Technology）识别欺诈，将欺诈防患于未然，然后净化信用体系。

挑战

信贷风险和欺诈风险是消费金融业务发展中最重要的两种风险，信息不对称是导致这些风险的主要原因。

“数据防欺诈”是数据风控武器之一。这种武器的力量的重要保证是数据和信息收集的完整性和准确性。通过这些有价值的数据，找到欺诈者留下的线索，以防止发生欺诈。

实施过程

▍用户立体化呈现——多维数据采集

tecdat深入分析用户的基本属性、社会属性、消费者行为、兴趣偏好、社会偏好、资产特征、信用特征等数据，通过数据挖掘，使用户更加立体化地实时呈现。

▍挖掘潜在的团伙欺诈——社区发现算法

一方面，基于机构的存量数据，运营商等数据构建复杂的网络。同时，采用社区挖掘算法实现风险分组。在此基础上，我们训练机器学习模型。

▍建模的原材料——特征工程

建模的第一步是特征工程，众所周知，特征是机器学习建模的原材料，对最终模型的影响至关重要。数据和特征比模型更重要，数据和特征决定了机器学习的上限，而模型和算法逼近这个上限。特征加工和衍生工作越完备，那么构建的机器学习模型效果越好。但是，面对不同数据，不同业务场景，特征加工衍生往往是最耗时间与资源的工作。

尤其在弱数据方面，充斥着大量文本、时序类数据，人工特征定义的方法天然存在较大局限性。

tecdat引入基于机器学习的特征提取框架（如random forest，SVM，CNN）来适应不同的数据类型，自动从大量复杂的非结构化数据中产生高质量的特征，完成模型训练后可以输出特征的重要性，结合多种方法进行特征选择和解释。