笔者在之前的工作经历中,曾做过针对电商/支付数据开发信用资质分的一个项目,下面我会介绍这两类数据是如何应用在信贷风控中的,内容包括电商支付数据的使用场景,做风险特征衍生的思路,以及在策略及模型上的应用等。
Part1.电商支付数据的价值和使用场景
在信贷风控中,评估申贷人的风险主要体现在两方面,一是还款能力,二是还款意愿,乍一看感觉电商支付类的数据似乎与这两个没啥联系。其实细究一下,一个人经常消费大额商品可以反映出他的收入负债情况(还款能力),支付场景的欺诈,套现,洗钱可以侧面反映他的信用风险情况,另外消费/支付在时间上是比较持续稳定的行为,可以反映申贷者是不是一个正常人,所以电商支付数据在信贷风控中是有一定作用的。
电商支付数据的使用场景有以下几个:
Part2.电商支付数据的构成和衍生特征思路
1.电商支付底层数据的结构:
左边是淘宝的订单详情,右边的是支付宝的账单信息,这就是电商支付底层数据包含的东西,电商数据里含商户名,商品名,订单时间,金额,收获信息,支付数据里含支付方式,支付时间,金额,账单分类等。
2.风险特征衍生的思路及代码示例
在信贷风控中,我们常从时间维度上提取申贷者不同时间点上的特征,来反映这个人的借贷风险,所以在实际业务中,时间滑窗类的特征会占到80%以上。下面介绍的衍生方法也是基于此类特征,另外也会讲一些特定场景风险的衍生思路。
2.1时间滑窗类特征
1)时间滑窗切片
衍生这类特征首先要对时间进行切片,在切片之前要考虑两个问题,一是用户观察期的有效性,例如我们只能获取到用户近6个月的消费记录,那统计近6个月,近12个月,近24个月的消费次数时,这几个值是一样的,所以时间窗口的最长周期需要定义好。二是时间切片的间隔,这个取决于用户行为的频次,例如电商消费行为,一般人每周就消费几次,或者只集中于一些特定节日,所以消费行为的时间切片适合在周维度,月维度,像支付这种高频行为就可以切片到天维度,小时维度。合理的设置切片间隔能防止特征过于稀疏。
下面这张图是对时间滑窗的细分:
2)对底层数据维度的细分和标准化处理
刚才对时间维度的切片是为了反映不同时间点上的风险,这里对其他维度上的细分则是为了深挖用户的风险行为。
针对电商数据,主要是对消费的商品和金额做细分,商品做分类要考虑到购买的商品有没有风险的含义,例如一个人母婴儿童,汽车消费比较多,说明他很大概率有娃有车,这类人违约成本较高且还款能力较好,相比之下彩票,游戏等虚拟类消费占比高的人群违约风险就高一点。对金额做大小的划分则是为了体现用户的消费档次来间接反映还款能力。
针对支付数据,也是对账单类别和交易金额做细分,账单类别中的转账,提现行为能反映洗钱,套现风险,还款理财能反映借贷风险,电商的线上消费也是账单类别的一种,所以支付的类别会更广一些,但一般不会做很深的细分。
下面这张图是维度细分的结果;
标准化处理主要是对电商的收货地址信息,处理方式包括缺失信息补全,错误信息更改等,标准化后会按照省+市+区+街道+详细地址来表示。电商的收获地址可以来做地址类的反欺诈,在后面介绍策略应用时会提到。
3)时间窗口特征的分类
A.时间窗口数量统计类特征
统计对象:电商数据的消费次数,消费金额,支付数据的支付次数,支付金额
统计函数:求和,最大值,最小值,平均值
特征举例:
近N天家居建材的消费次数
近N天凌晨时段的转账金额在2000以上的次数
近N个月消费平均每单金额
B.时间窗口占比类特征
占比类特征是在统计类特征上做二次衍生,这类特征可以反映用户的消费偏好,也可以
去除量纲上的影响。
特征举例:近N个月母婴儿童类的消费金额占总消费金额的比例
比如一个用户在母婴儿童上的消费占比很大,说明是有娃一族,风险就相对偏低。
C.时间窗口趋势类特征
用户的消费,支付行为会随时间动态变化,这种趋势的变化也能帮助做风险识别。
特征举例:近7天还款次数/近30天还款次数
比如一个用户近期的还款次数占的比重很高,说明用户的多头共债风险在上升。
D.时间窗口稳定类特征
用户行为的稳定性可以反映是不是属于正常的人群,例如一个用户半年内其中一周
转账次数频繁且金额较大,很有可能存在洗钱套现的风险。衡量稳定性一般采用变异系数,变异系数越小,说明数据波动越小,行为越稳定。
变异系数 = 标准差 / 均值
特征举例:近6个月用户每周支付总金额的变异系数
E.时间窗口集中性特征
集中性特征是来识别用户的异常行为,一个用户在很长的时间跨度内,行为是相对动态
稳定的,如果在某个时段集中出现异常的行为,说明用户存在一定风险。例如统计近3个月每天的提现次数,然后取最大值(峰值),与近3个月平均每天提现次数做对比,
如果峰值/平均数过大,说明在用户在某个时段提现频繁,有套现的嫌疑。
特征举例:近3个月每日取现次数的峰值 / 近3个月每日取现次数的平均值
4)时间窗口类特征衍生代码示例(python)
示例的代码是计算近N天各商品类别下的消费次数,其实时间窗口类特征是时间维度+统计主体+聚合函数的交叉,所以可以用python的for循环进行批量计算,这也是自动化特征工程的一种方法。
2.2 特定场景风险特征
电商和支付场景常见的风险有刷单,套现,洗钱等,试想一下如果申贷者有洗钱行为的嫌疑,那这种人是不敢给他放贷的,所以这些特定场景的风险能侧面反映他的信用风险,笔者在实践中也用数据证明了这一点。下面笔者针对这些风险做一些特征衍生上的分享。
1)刷单风险。一般刷单行为在电商数据上的表现为多次同店交易,单品价格低且多为虚拟商品,另外刷单在行为上有集中性的特点。
特征举例:
近N天在同一家店铺的累计/连续消费次数
近N天金额在0-20并且为虚拟商品的消费次数
近N天在1小时内消费次数的峰值
2)套现及洗钱风险,识别这类风险也是挖掘用户的异常支付行为,例如用户短时间提现,转账次数频繁,且金额数目相同,这种行为就有洗钱的嫌疑。另外用信用卡支付了一笔手机订单,然后退货,退货的款项打到借记卡或其他提现渠道,说明存在套现的风险。
特征举例:
近N天1小时内的提现次数/金额的峰值
近N天1小时内相同金额转账次数的峰值
Part3.电商支付数据在策略和模型上的应用
2)在模型上的应用
与开发策略的思路类似,模型应用上可做信用模型,反欺诈模型。电商支付数据因为是弱金融属性,所以相比策略,模型的优势在于能把很多弱特征合并成一个效果好的模型分。笔者在开发电商支付信用分的项目时,是借鉴了stacking框架的方法,先根据业务解释性把特征分类,比如电商特征分为消费档次类,消费风险类,消费偏好类,消费稳定类等,然后用xgboost算法对每类特征做模型分,最后用逻辑回归对这些模型分进行融合,合并成一个总体模型分,相当于做了两层模型。第一层是为了将弱特征合并成强特征,且兼顾了可解释性,第二层再做子模型的融合。相比单纯把所有特征混合来建模,这种方法在模型精度上有不小的提升。
Part4.实际应用中的一些思考
1)很多电商支付的特征对于风险的判断没有从坏到好的单调趋势,举个例子,一个人在母婴儿童上消费次数越多,好的概率越大,但次数越少,并没有表现成坏的趋势,在业务理解上也可知没有母婴消费的人不一定是坏用户。所以这种特征不适合做策略,因为策略一般是用来拒掉坏用户,而不是挑出好用户。另外没有从坏到好的跃阶会导致做出的模型分在分布上趋向偏态,对模型分的单调性也会有影响,怎么合理利用这些特征是值得思考的。
2)电商支付数据非常适合做用户画像,我们可以推断用户是否有小孩,是否有房有车,消费偏好是什么,消费能力怎样,进而可以给他打上各种标签。这些标签可以作为用户分群的依据,通过分群做差异化,精细化风控,这也是应用的一个方向。
往期精彩:
1️⃣风控人,困在系统里
️2️⃣风控人的破局之路
3️⃣一番网络(番茄学院)与微众银行合作共建联邦学习生态
~原创文章
…
end