2018年9月6日,在由“朗迪 Lendlt Fintech”主办的 2018朗迪中国智能科技峰会上,《清华金融评论》金融家理事会会员ZRobot CEO 乔杨以“信用科技 智能生活”为主题做了分享,本文根据其演讲内容整理。
(图为ZRobot CEO乔杨)
大家好,今天想和大家分享的主题是“信用科技、智能生活”。
首先,请允许我向大家简单的介绍一下ZRobot这家公司,它是京东金融旗下的一家金融科技公司。2016年11月ZRobot正式对外宣布成立,公司致力于利用京东海量高维的数据资源,结合硅谷最先进的数据挖掘技术和模型算法。通过京东金融丰富的金融应用场景,不断打磨提升自身技术实力的同时对外赋能,进而帮助合作伙伴提升自身的风控实力和运营效率。目前已为银行、保险、信托、小贷公司、消费金融公司等金融机构提供各类数据产品支持及智能风控解决方案,合作机构近200家。
一、ZRobot核心竞争力
ZRobot的核心竞争力主要包括两个层面:
第一、数据源优势明显
作为股东及主要数据源之一,京东金融的数据具备大、厚、动的特点,也就是数据量大,数据维度高,同时具备实时更新的能力。基于自身多年在电商零售及不同金融场景下的积累,京东金融每天新增的数据量级达到800TB,比一些小型科技公司1年的数据增量还要多。
同时,京东金融已与700多家金融机构合作,共同服务线上线下商户达800万,个人用户数量4亿左右。活跃客户65%以上为80后主力消费人群,也是消费及金融领域的核心客户人群。
除了京东金融及京东体系的数据之外,ZRobot也与中国银联、运营商等头部数据合作方展开深度合作。加上与腾讯、百度等联手成立的京腾计划、京度计划等,目前可对超过6亿的个人进行准确的信用风险评估。有了强大的数据基础,ZRobot可以将数据技术发挥到极致。目前在AI领域实现了一系列突破包括全流程智能风险识别,生物识别,AI模型能力等。
通过这样的技术实现,ZRobot可将自身的数据挖掘能力、模型算法能力及系统能力对外输出赋能。
例如我们的大规模联合建模合作项目以及自主研发的自动化决策引擎。
第二、模型算法和特征工程
特征工程是建模流程中最为重要的环节。在大数据领域的人,应该比较了解坊间一直流传的一句话:“数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限的手段而已。”我认为在整个大数据的核心壁垒或者说核心竞争力就是数据和特征工程。我们的特征工程应用了数学、统计学、信息论、计算机科学、行为经济学等理论指标,但更重要的是建模团队对核心业务的深刻理解。
怎么理解?举个例子:我在发现金融就职期间组织过一次全国大学生建模大赛,邀请了内部的一个两年建模经验的建模师,他花了两个小时做了一个简单的模型,以此为参照物。我们向全国所有985、211的高校进行征集,不管参赛选手什么专业都可以参加,可以组团参赛,但一组最多4个人,建模期限为1个月。让我们感到惊讶的是,1个月后我们收到的超过120份模型文档及代码中,只有冠军团队的模型比我们建模师花两小时建的模型效果好一点点。其他模型都没有达到他的模型效果水平,甚至差距很大。尽管很多团队提交的模型、算法和用到的技术都是非常先进的,让我们大开眼界。大家知道,参赛的都是数学系、统计系、工程系等的博士和硕士,理论知识丰富但缺乏基础的信贷经验。对于信贷特征变量的处理能力也比较有限,这也就是建出来的模型效果大打折扣的主要原因。
这个例子说明只具备模型算法理论基础,没有深刻的业务理解力作为支撑,特征加工能力就会被削弱,最终导致模型效果不佳。这就是为什么模型算法本身并不能成为核心竞争力。
我在美国时,主导了发现金融第二代反欺诈模型的建立:大家知道,Discover在美国金融信贷领域的反欺诈技术是有口皆碑的,因为我们的第一代反欺诈模型是外包给像FICO、Falcon及Pattern的业内顶尖的咨询公司。但2008年美国经济危机之后,监管要求所有美国信贷机构能够解释自己的模型,包括如何进行数据清洗、特征工程、使用了什么样的建模方法等等。因为外包模型为黑箱模型,我们并不能解释,因此监管要求我们必须把外包模型全部替换掉。当时建这个模型给我们的时间是6个月,要求非常简单,就是做出来的替代模型不能比第一代差。当时我们的项目组只有4个人,而第一代反欺诈模型核心成员是参与了深蓝下棋软件开发的,还战胜了当时的棋王卡斯帕罗夫。但在6个月后,我们的模型上线验收时,整体模型效果比第一代模型提升了3倍,在一些分组模型里,最好的效果提升达到了6倍。后面我们复盘分析发现,能达到这样的效果原因在于我们花了大量的时间和精力在特征工程环节。因为我们内部的建模人员,对数据的产生及业务流程是最熟悉的,在这个环节上,我们远远胜出外部的咨询公司。
有了这样的基础,结合我们多角度集成学习算法以及以多层神经网络为基础的模型体系,使得我们的模型效果在行业内达到领先水平。同时我们的计算能力可以保证处理大量数据的时效性,达到线上实时计算输出以及毫秒级响应。
这是我对ZRobot的介绍,下面我再介绍一下ZRobot如何建立起完整的数据挖掘能力。
二、用户画像的挖掘能力
通过我们的数据挖掘技术,我们目前形成了刻画完整用户画像的数据维度及属性。包括基本信息、生物特征、家庭信息、职业信息、个人征信、行政记录、资产信息、消费记录等等。
如上图,其中绿色的部分是我们通过深度挖掘已经具备的完整的用户画像属性,黄色的部分是可加强的画像属性。有了这个数据矩阵,我们不但能够向B端赋能,也可以让有信用的个人享受到信用生活的便捷,后面我会展开讲。
用户画像的价值在哪?
有了用户画像,我们就可以对B端进行输出、赋能,同时,还可以为有信用的个体带来便捷。
刚刚提到,我们拥有全面的用户画像构建能力,是怎么做到的?举一个简单的例子:
对于用户的显性偏好,往往通过一些表层特征的挖掘,通过线性模型即可得到结论,但往往会出现较大偏差。如果不能对特征进行修正的话,结论会产生极大误导性。如何修正?我们可以看一个例子,整个修正过程是一个自下而上的过程。
那么,ZRobot是怎么做的?
第一步:信息修正。
第一步我们可以通过对比如浏览、关注、购物车、交易等表层特征进行提炼,通过牛顿冷却定律对特征进行修正。
牛顿冷却定律指的是物体当前温度为前一时间单位下的温度与时间衰减因子的乘积。这样做的必要性在于,比如从时间维度考虑,最近1个月的消费比6个月前甚至更久的消费对判断用户偏好的贡献更大。引入牛顿冷却定律,赋予不同时间节点消费特征不同的衰减因子,可以将特征的描述准确度提升。
第二步:通过Wilson区间,修正低频行为下的偏好置信度。
从上图中可见,通过修正得出用户M的偏好向量是较为准确的。这类修正方法在数据不足,频次较低的情况下是非常有效的。那从最上面的曲线可以看出偏好F是用户M的显性偏好。在没有完善方法论的时候,可以通过统计用户在各个领域的购物频次、RMF的方法也能得到用户显性偏好的推断。但是对于隐形偏好,需要更深层的数据挖掘。比如我们可以将总体平均显性行为做为先验概率,通过贝叶斯推断对比推断用户的后验隐性偏好。蓝色曲线为上页的显性偏好曲线,黄色曲线为整体人群的平均偏好。我们可以看出偏好B和偏好E为用户M的隐形偏好。如果说上页的显性偏好是对用户单点偏好的挖掘,这幅图则是通过用户与群体偏好对比推断用户隐形偏好概率的方法论。
这就是我们为什么可以对用户画像能够做全面深度挖掘的原因之一。以上是用户画像标签方面的挖掘案例分享,接下来举一个基于深度学习的电商页面特征挖掘的案例。
三、深度学习能力挖掘
在电商领域,用户会在页面留下大量触点:比如点击浏览不同层次页面,但几乎所有深层次页面都会到SKU或单品页面,所以我们提出了item2vector概念。类似文本挖掘领域的text2vector或word2vector,将文本分类为向量矩阵,比如高频低频文本,然后进行情感分析、语义分析等等。所以我们是将电商领域的item抽出,把用户浏览路径转换为向量形式,就可以用向量来描述一个用户在一个浏览session当中对哪些品类或单品产生浏览记录。
由于浏览是有时间顺序的,所以我们将整个页面浏览时间顺序和向量放入卷积神经网络模型中加工训练特征。通过RNN方式我们提炼了大量原本通过人类业务经验或其他构建特征方法所不能提炼的特征。这些特征做为机器学习模型训练特征可大幅提升模型效果。
这是我们对于深度学习方面的突破,有了这一理论基础,以及我们对于整个用户画像标签的深度挖掘能力,就可以把自身积累的经验对外进行赋能。
四、ZRobot对外服务的差异化
1.联合建模
做过联合建模的人都知道,对外做联合建模,一般都遵循上面这5个步骤。它高度依赖于建模团队自身的能力。我们在流程中赋予了跟我们合作方的建模团队额外的工具,提供了一系列定制化增值服务。比如:数据清洗、特征工程的经验。刚才我提到的各种各样的特征加工的经验,注入到整个流程当中。
同时,我们不仅把我们积累的数据字段推送到建模环境供合作方使用。在整个建模过程中,通过我们的模型加工训练方法提炼出的我们认为行之有效的变量特征也会输出到我们的建模环境中去,帮助我们的B端用户更好地搭建模型。另外,合作方团队对于机器学习的建模方法并不是非常熟练时,或者是业务经验比较欠缺时,我们在整个建模过程中也会提供模型训练的辅助和辅导。包括后期的模型部署和模型的校验方面,我们都会提供一系列的增值服务,这是我们对外服务的差异化。
2.帮助B端客户提升量化运营能力
刚才,我也提到了ZRobot有大量的深度挖掘用户画像标签以及如何对外赋能的问题。大家知道,在当下人口红利逐渐衰退的趋势下,我们的B端用户产生了一系列的痛点,比如获客成本高、营销费用高、用户黏性低、复购率/复贷率降低趋势明显等。
通过ZRobot的用户价值增长平台,我们有针对性的采集相关数据同时注入不断更新的用户画像标签,定期不定期的结合合作方的数据进行加工和提炼。帮助他们针对潜在用户和已服务用户进行深度用户画像标签加工,更好的为C端用户提供精准的服务。例如我们深加工后的标签体系可以帮助B端用户更好地判断用户的消费偏好、消费习惯的改变、产品及信贷需求等等。同时我们还会在产品端提供指导性建议,比如产品如何进行改造,推送方式以及推送内容是否可以进行优化等等。这样的服务相当于为用户提供了一整套精细化运营的工具,让用户价值实现高速增长。
3. 跟踪职场信用
我们知道,在网络上经常曝出因为求职人员背景没有得到很好地披露的情况下,给公司、社会造成一系列严重后果的犯罪情况。
包括大家比较熟悉的杭州纵火案,以及发生的几起顺风车的案件等,这样的案件造成的影响是非常严重的。其实如果我们对于职场求职应聘人员进行信用维度的提前判断的话,很多悲剧都可以得到预防和阻止。为什么没有做到有效的提前预防和阻止?就是因为我们的职场更多的是依赖于对于候选人的就业经验以及薪资情况的背调,而信用维度的审核是缺失的,所以我们推出了“安心查”这款产品。
这个产品有三个比较核心的维度,一个是欠款,一个失信,另一个则是涉诉的判断。通过这样的技术手段,那么以上我提到的这些犯罪案件是可以完全提前预防甚至避免发生的。目前我们已向包括家政、网约车、快递和其他服务行业输出,都有比较成功的案例。在京东体系内,快递人员的背调的核心工具就是这款产品。
五、消费金融发展趋势
刚才亿欧由总在他的演讲中提到了,目前消费金融的发展应该是T2B2C的过程。我们通过我们的技术向B端赋能,让B端企业能够提升运营效率,让C端用户享受到更优质的服务以及这些B端企业自身的提升所带来的用户价值增长。
最后,这是我们联手联通大数据公司‘智慧足迹’在智博会上提出的城市消费热力指数。这个热力指数完全是基于京东的数据做出来的。大家可以看到在2017年上半年,整个重庆市的消费,从消费力度上来讲,还是集中在重庆的主城区,在边缘的地带是没有消费出现的。消费不断扩大,而且周边地区的消费人群陆续出现了上升势头。这些人群的消费习惯慢慢从线下向线上迁移,消费品类的趋势也是非常明显的。
通过以上分析,不难得出一个结论,目前,消费升级还是一个主流趋势。同时对于信用体系的建设,会使得这个消费趋势更加明显。
我希望通过我们的技术和能力输出,能够为我们的合作伙伴带来更多的能力提升,为人们的生活带来更多的便利。