风险控制是数据挖掘中最为常见的应用,通常通过以往历史数据判断用户违约的概率。
据统计,银行传统风控模型对市场上70%的客户有效,但另外30%的用户,其风控模型效果大打折扣。
大数据风控作为补充,利用行为数据来实施风险控制,可作为另外的30%客户风控的有效补充。
那么,大数据风控中,是如何进行行业数据分析的呢?
首先,让我们了解一下风控模型的开发流程
↘ 数据抽取
↘ 数据探索
↘ 建模数据准备
↘ 变量选择
↘ 模型开发与验证
↘ 模型部署
接下来,以个人信用评分为例,看看哪些用户行为数据能够进行进行统计分析
在用户行为数据中,风控效果最好的是用户个人金融属性数据,例如:
↘ 年龄
↘ 收入
↘ 职业
↘ 学历
↘ 资产
↘ 负债
这些数据信用相关度高,还可以有效的反映用户还款能力和还款意愿。
除此之外,部分用户行为数据对于信用风险评估也具有较大的影响,甚至在某些条件下这些行为数据是决定用户信用风险事件的强相关因素。
过去,这类用户行为数据并没有被信用风险评估模型采用,也没有参与客户的信用风险评估。然而,随是互联网日渐成熟,金融企业、互联网金融企业在信用风险事件事后分析中发现,用户行为信息在多次风险事件中起到关键的作用。
用户行为数据产生于互联系金融的的各个环节。物以类聚、人以群分,一些群体性的行为特征规律是值得关注的,因此,通过标签获取的用户行为数据,通常倾向于分析用户群体的规律行为的相近性判断。
行为数据在风控中的应用
用户画像
用户画像即为用户打标签,区分不同属性的用户。如:
↘ 性别标签
↘ 年龄标签
↘ 消费偏好标签
用户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。
用户画像在电商行业被广泛运用。其原理是通过样本数据分析不同标签用户的行为特征,再根据分析获得到的知识对未知标签的用户进行分类。
用户画像在互联网金融的风险控制上可用于征信评级,反欺诈风险控制、动态调整级别和监控(增收和降低坏账率)、快速放贷等业务中。
金融机构拥有的客户信息并不全面,基于平台自身拥有的数据有时候难以得出理想的结果,甚至可能得出错误结论。
因此,大部分的金融机构不仅仅收集自身业务中产生的用户数据,己经开始整合更多其它渠道的行为数据,更全面的对客户进行了解,丰富用户画像。
例如:
↘ 社交媒体上的行为数据(光大银行就建立了社交网络信息数据库)。
↘ 客户在电商网站的交易数据,如建设银行将自己的电子商务平台和信贷业务结合起来
↘ 企业客户的产业链上下游数据。
可以看到,对于个人,银行打通内外部数据,与社会化数据融合,获得更完整的用户拼图,从而为更精准的用户营销服务;
同时,对于企业客户,银行也在收集企业所在的产业链上下游的数据,掌握企业的外部环境发展情况,从而预测企业未来的状况;
风险管理的核心是反欺诈。通过分析用户社保数据、运营商数据、网络行为数据(职业、收入等预测)进行规避己经十分普遍。
实时监控系统内的各类数据,通过实时分析数据结论监测潜在风险并做好预警防范。如:
用户操作
交易流水
访问记录
某内部工作人员在某段时间内操作存贷/汇交易的时间大幅度快于其历史水平;
通过对用户行为数据的采集和分析,找出欺诈者留下的蛛丝马迹,预防欺诈行为的发生。其现实意义在于在欺诈行为发生之前就将其制止。