大数据风控很好,但过度的吹,就变成了黑

大数据风控很好,但过度的吹,就变成了黑_第1张图片

来源 | 云上言 作者 | 刘波

1

凡事过犹不及,当整个市场都在谈论大数据风控,都在吹捧机器学习时,危机已经悄然而至。

不仅是金融科技公司在谈,互联网巨头在谈,整个银行圈也在谈。

城商行、农商行觉得这是弯道超车的机会,国有大行害怕错失新技术的窗口,金融科技公司对谁都在鼓吹。

尤其在疫情发生后,金融业的无接触服务从之前的可选项一下子变成了必选项,出门不谈点大数据,都不好意思见人。

疫情期间,我在线听了不少金融科技公司专家的论坛发言,不少人有真才实学,让我和自己的从业经验交相印证,获益良多。但更多人的观点和方法论让我越听越心惊,而这些发言者中,很多已经是金融科技上市公司的高管,他们服务的银行非常多,这让我不禁深深的担忧。

银行部分业务朝线上化转型当然是方向,科学的数据化决策当然是很好的路径,但贩卖焦虑,甚至神话大数据风控,大可不必。

我的职业生涯,在阿里参与了中国第一家互联网小贷的建设,在蚂蚁第一次筹建互联网银行并管理它的主要业务,到新网银行第二次筹建互联网银行并分管所有资产业务、账户和存款理财,我的整个职业生涯都与互联网、大数据、金融这几个关键词相伴。

我当然不排斥大数据风控,从我的从业经历可以看出,我是它最早的尝试者和推动者之一。

我一直在行业一线,细数一下,这些年从我直接管理部门发放的全在线小微贷款超过了1万亿元(不含联合贷),消费信贷超过了4000亿元(含联合贷)。但今天,我发现自己已经听不懂这个市场上的某些专家在说些什么。

2

金融业务的风险决策,是一个数学问题,但绝不仅仅是一个数学问题。决策树、朴素贝叶斯分类、支持向量机、逻辑回归、线性回归、随机森林……这些算法是工具,是方法,但不能也不应该是决策的全部。

我看到很多的风控团队,有些甚至是国内一线公司的风控团队,清一色数学、统计学高学历技术专家,基本就是在电脑前研究算法,研究数据。他们给出的每一个判断,都有详细的数据支撑,他们每一次调整,都貌似接近当下最优解。

你很难挑战他们,因为他们掌握数据,你个人的经验又怎么能挑战动辄几百万的数据样本呢?

但很多人不了解,同样的数据,解读是具备多角度的。由于数据本身具备复杂关联性,数据呈现的背后又有更多的原因,数据本身就会“骗人”。

看似对,有时候要比明显的错危害大得多。

科学的决策,不但需要适合的工具,还需要深刻了解你的业务场景,深刻了解你的客户,算法是为了决策服务,而不应该成为决策本身。

3

这么说太抽象,举一些例子吧。

主流银行(我不喜欢用传统银行这个词,主流银行更为准确)信贷风险控制,最看重两点:一是贷前审批控制违约概率(PD),二是贷后处置降低违约损失率(LGD)。

为了控制违约概率,必然要求客户提供多项资料去证明有能力有意愿归还贷款,银行流水、收入证明、社保公积金、房产证、车辆行驶证都是为了证明这件事——我不一定让你抵押,但你需要证明你有哪些。

公务员、企事业单位、银行从业人员、知名企业的员工更容易获得贷款,无它,认为你收入稳定,违约成本高,违约概率低。

降低违约损失率的方法也很简单,就是寻找优质抵押品,由于中国的房价在去年以前稳定的上涨了二十年,在过去二十年里,房产抵押是最为吃香及稳妥的抵押物,其次就是汽车。这二十年里,银行做零售贷款很粗放但很有效,房屋按揭贷款几乎是银行零售贷款的全部。

我并不觉得复杂模型算法比这些简单直接的方法更高明,控制风险更有效。

简单说,要是能方便的获取到这些核心信息,很多时候没有必要获取客户各种行为数据,做复杂的风险相关性分析。

数据是有成本的,数据的获取是需要客户授权的。如果一个客户几十K核心数据就能决策,干嘛非要分析上百兆的数据呢?

单户上百兆数据,为了节省成本,还得研制复杂的数据路由规则,让单户数据成本可控。

这么多数据标签要进入模型,得考虑缺失度容忍问题,否则模型运转不起来,运转起来效果可能也不好,这就需要一套复杂算法。

另外,还要考虑数据源的可替代性,否则一旦某个关键数据源出现问题,就是大瘫痪,这又是一整套复杂工程。

所以说,复杂并不代表先进,简单并不代表不好,关键是匹配你的业务,匹配你能掌握的资源。

大数据风控很好,但过度的吹,就变成了黑。

4

谈了主流银行,也要谈谈我心目中比较适配的大数据风控是什么样的。真正好的大数据风控,应该是充分利用你所匹配的资源,有一条清晰的风控逻辑主线。

不来虚的,直接上干货。

花呗产品设计之初,它的风控充分利用阿里巴巴、蚂蚁的海量交易数据,它的底层逻辑是马斯洛需求理论:生理的需要,安全的需要,情感的需要,尊重的需要,自我实现的需要。

在这套理论下,你买同样金额的柴米油盐和你买鱼竿、单反获得的模型评价是不一样的,而且监测的不是你的单次购买行为,而是你的消费习惯,这是花呗起步时风控的逻辑主线。

淘宝贷款的风控,表面上看是纯信用贷款,但由于阿里巴巴强大的生态圈,可以从交易、资金、物流多方面监测商家。所以淘宝、天猫的商家不必提供任何资料,甚至不必查询征信,就可以直接评估信贷额度和利率。

淘宝贷款的授信,只看我给商家带来了多少销量和利润,保证你的信贷额度小于违约成本就能保证贷款安全——我能帮你赚10万元,给你8万元贷款,你若不还,10万元利润就没了,而且店都没了,你到底还不是不还?

更何况,你的所有销售额都在支付宝上,你的所有客户都在淘宝、天猫上。

淘宝、天猫贷款风控逻辑的本质是店铺质押贷款。

微粒贷最初的白名单客户,来自于腾讯以及已识别优质企业员工的关系链,腾讯最强大的数据源是可以清晰的通过关系链定义出你整个的人生轨迹和社交圈。

你上哪个小学,你上哪个中学,你上哪个大学,你在哪家企业工作,你在哪个圈层,可以通过你的同学、朋友、同事清晰的定位。正是因为此,微粒贷才可以在你未申请贷款前,就把你贷款的额度利率算好,直接呈现在你面前。

关系链,是微粒贷发展初期的风控逻辑主线。

新网银行本身不掌握任何场景和数据,但它的平台化战略可以通过合作,梳理出清晰的风控逻辑主线。

做网贷存管,不是像其他银行一样为了存款,而是为了从源头摸清非银互金机构的多头借贷数据,这些是珍贵的第一手也是独家的数据源。

和工行、银联、移动、以及众多国民APP的互联网巨头合作,也不仅仅是为了获客,更重要的是充分利用双方优势建模。

没有什么一蹴而就的妙招,需要的是战略上的坚持和战术上的勤奋。

谈了这么多,举了这么多例子。无非向大家表达,数据是中性的,算法本身只是工具,可以推崇但不要过分神化。你的风控体系如何设计,需要的不仅仅是大数据专家,更重要的是充分理解和分析机构本身所处市场,了解清楚你的优势是什么?你的潜在客户在哪里?

没有绝对好的方法论,只有适合的。

你可能感兴趣的:(大数据风控很好,但过度的吹,就变成了黑)