风控比赛第一弹

1.金融风控比赛是典型的结构化数据挖掘比赛,通过表格化数据进行特征提取,目标编码,选择模型实现风险用户识别。
2.特征提取方面,除了常见的特征构造加减乘除,利用NLP的知识实现目标编码逐渐体现出优势,如:TF-IDF,Word2vector,都表现出了较好的优势。
3.模型选择方面,LightGBM,Catboost,Xgboost都表现较好,前两者运行更快,且能自动处理类别特征,处理缺失值。由于是决策树算法,通常在研究单个特征时,不需要进行归一化处理,但是在cross时需要考虑归一化。
4.模型的融合可以采用stacking,blending,相比而言blending是通过加权平均获取结果,staking方法相互学习,效果更好,但也更容易出现过拟合问题。
5.以天池的零基础金融风控为例做一个介绍:
(1)120W条信贷数据,80W条训练,20W条A榜测试,20W条B榜测试。
(2)数据方面只有一个用户基本信息,没有用户的操作信息,交易信息,较为简单,这导致无法对用户的交易记录,操作记录进行目标编码。
(3)评分方面使用了AUC指标。

你可能感兴趣的:(金融风控数据挖掘,数据挖掘,机器学习,算法)