【大佬漫谈】数字科技驱动的信贷风险技术——乔杨

转:原文链接:https://mp.weixin.qq.com/s/Zltw6taqF5qH46bL6ikHAA

一、构建数据矩阵

我今天分享的主题是“数字科技驱动的信贷风险技术”。

作为股东及主要数据源之一,京东金融的数据具备大、厚、动的特点,也就是数据量大、数据维度高、同时具备实时更新的能力。

基于自身多年在电商零售及不同金融场景下的积累,京东金融每天新增的数据量级达到800TB,比一些小型科技公司1年的数据增量还要多。

同时,京东金融已与700多家金融机构合作,共同服务线上线下商户达800万个,个人用户数量超过4亿。

可入参模型变量超过60万维,已搭建并成功应用的风险策略超过5000个,风险模型超过500个。

活跃客户65%以上为80后主力消费人群,也是消费及金融领域的核心客户人群。

除了京东金融及京东体系的数据之外,ZRobot也与中国银联、三大运营商等头部数据合作方展开深度合作。

加上与腾讯、百度等联手成立的京腾计划、京度计划等,目前可对超过6亿的个人进行准确的风险评估。

有了强大的数据基础,ZRobot可以将数据技术发挥到极致,目前在AI领域实现了一系列突破,包括全流程智能风险识别、生物识别、AI模型能力等。

二、数字科技驱动的发展趋势

整个数字科技驱动的风控发展趋势是从四个维度去看的:
【大佬漫谈】数字科技驱动的信贷风险技术——乔杨_第1张图片

第一个,从数据源的角度讲,我们认为将来的数据源会变得越来越开放,数据孤岛会被进一步打通,逐步形成数据共享机制。

第二个,是从整个模型的搭建方式上面,我们会看到从监督式学习向无监督学习的迭代和发展。

第三个,对于风险的单点判断,会向群像特征转变。

第四个,中心化管理更多会向去中心化的应用靠拢。

1.打通数据源

首先从数据源的角度讲,通过我们的数据挖掘技术,目前已经形成了刻画完整用户画像的数据维度及属性。

包括个人基本信息、生物特征、家庭信息、职业信息、资产信息、教育信息、消费记录等等。

有了这个属性基础,无论在风险管理方面,还是在精准营销方面,都能对用户做出比较全面和准确的判断。

数据孤岛的打通,通过什么样的方式可以有效做到呢?

第一个有效的方式,我们认为可以通过联合建模的方式做到。大家都比较熟悉的业内联合建模一般遵循五大步骤进行。

【大佬漫谈】数字科技驱动的信贷风险技术——乔杨_第2张图片

从提交样本到最终部署上线及模型校验。在整个联合建模的过程中,尽管能够把数据资源打通,但是模型效果高度依赖于建模团队本身的实力。

每家公司的建模团队实力是参差不齐的,因此我们在建模流程中赋予了合作方的建模团队一系列额外工具以及定制化的增值服务。

比如我们的数据清洗和特征工程阶段。

做模型的人都知道,特征工程是建模最核心的过程,我们不仅把积累的数据字段推送到建模环境中供合作方使用,也会通过我们的核心模型加工训练方法提炼出对业务方行之有效的特征变量,并输送到建模环境中,帮助我们的合作方更好地搭建自己的模型。

同时,我们的模型可以基于合作方的业务需求做定制化建模,不限于风险类的模型,可以是精准营销类的模型,也可以是需求预测类的模型等等。

在第二步的模型搭建过程中,可能有一些团队,尤其是银行方的建模团队,对于像机器学习这样的算法并不是很熟悉或者缺乏一定的业务相关经验。

如果需要这方面的模型咨询以及额外的团队参与和辅导,我们在这个环节也会提供一系列定制化服务,直至最终模型上线。

2.单点的判断会向群像特征演变

第二个趋势我刚才也提到了,就是向群像特征的演变,现在的欺诈风险,在中国信贷环境下远高于信用风险。

随着欺诈手段的不断升级,欺诈的团伙化特征也日益明显,欺诈的上下游产业链也越来越庞大,越来越成熟。

仅仅通过对个人的欺诈风险判断,很难防范团伙作案带来的影响和损失。

我们提出的漫网技术有效的解决了这个问题:类似谷歌提出的GraphLearning, 对用户全方位的关联关系进行识别,包括设备关联、地址关联、通信关联等等。

构建用户的关系网络图谱,通过无监督算法将无差别用户划分为不同群组,同时针对关联关系强弱进行判断设定权重。漫网的优点非常明显,也有非常成功的应用案例。

这个构建过程的优点是非常多的,不需要做数据打标,也不需要专家经验,同时还可以做提前预警,我们在内部做了非常多的应用。

在商城注册上,我们的覆盖度达到98%,而且准确度达到99%。

在金融刷券类场景,我们的覆盖率达到92%,准确率达到96%。

有了内部的打磨和迭代,可以将成熟的技术对外进行赋能。

非监督学习的应用会越来越广泛,我们提出另外一个概念叫“斑马扩散”,它的含义非常好理解,中国有一句古话叫“近朱者赤,近墨者黑”。

我们不能只关注“黑”而去忽略“白”,这个关联关系不光是应用在黑名单扩散和反欺诈领域,还可以应用在白名单授信上。

基于我们积累的黑名单历史记录和白名单用户的表现,进行复杂网络的搭建,结合我们的专家规则,可以把我们的白名单扩散以及额外授信(指商业银行向非金融机构客户直接提供的资金,或者对客户在有关经济活动中可能产生的赔偿、支付责任做出的保证)做大。

这种技术的应用可以在降低授信成本的基础上大幅提升信贷效率,开辟了金融信贷领域的新天地。

3.特征挖掘

特征挖掘是我们非常核心的技术壁垒。

我举一个具体的例子,大家知道用户的显性偏好,往往通过一些表层特征的挖掘,基于一些线性模型即可得到结论,但往往会出现较大偏差。

如果不能对特征进行修正的话,结论会产生极大的误导性。

如果把这些结论作为业务方面的判断,甚至会造成灾难性的结果。

怎么对特征进行修正?

很简单的做法,我们自下而上地看下这个修正流程。

第一步,我们可以对浏览、关注、购物车、交易等表层特征进行提炼,通过牛顿冷却定律对特征进行修正。

牛顿冷却定律指的是物体当前温度为前一时间单位下的温度与时间衰减因子的乘积。

比如从时间维度考虑,一个用户最近一个月的消费比六个月前的消费对于判断用户偏好的贡献更大。

引入牛顿冷却定律,赋予不同时间节点消费特征不同的衰减因子,可以将特征的描述准确度提升。

第二步,可以用Wilson区间(威尔逊区间算法,著名排名算法之一)修正低频行为下的偏好置信度。

【大佬漫谈】数字科技驱动的信贷风险技术——乔杨_第3张图片

通过这个修正,大家可以看到这个用户的显性偏好,这类修正方法在数据不足、频次较低的情况下是非常有效的。

在没有完善方法论的时候,可以通过统计用户在各个领域的购物频次、RFM的方法(用来衡量客户价值和客户创利能力的工具)也能得到用户显性偏好的推断。但对于用户的隐形偏好,需要更深层的数据挖掘。

比如我们可以将总体平均显性行为作为先验概率,通过贝叶斯(当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率)推断对比推断用户的后验隐性偏好。

这就是我们通过用户与群体偏好对比,推断用户隐形偏好概率的方法论。

你可能感兴趣的:(工程应用:评分建模)