小白打boss之路——2020fintech训练营数据赛道

2020fintech训练营数据赛道

1、 赛题背景:

  在当今大数据时代,信用评分不仅仅用在办理信用卡、贷款等金融场景,类似的评分产品已经触及到我们生活的方方面面,比如借充电宝免押金、打车先用后付等,甚至在招聘、婚恋场景都有一席之地。招行作为金融科技的先行者,APP月活用户数上亿,APP服务不仅涵盖资金交易、理财、信贷等金融场景,也延伸到饭票、影票、出行、资讯等非金融场景,可以构建用户的信用评分,基于信用评分为用户提供更优质便捷的服务。

2、研究要求

  本次大赛为参赛选手提供了两个数据集(训练数据集和评分数据集),包含用户标签数据、过去60天的交易行为数据、过去30天的APP行为数据。希望参赛选手基于训练数据集,通过有效的特征提取,构建信用违约预测模型,并将模型应用在评分数据集上,输出评分数据集中每个用户的违约概率。

3、评价指标

  机器学习中AUC

4、数据说明

  1.训练数据集tag.csv,评分数据集_tag.csv提供了训练数据集和评分数据集的用户标签数据;
  2.训练数据集_trd.csv,评分数据集_trd.csv提供了训练数据集和评分数据集的用户60天交易行为数据;
  3.训练数据集_beh.csv,评分数据集 beh.csv提供了训练数据集和评分数据集的用户30天APP行为数据;
  4.数据说明.xlsx为数据集字段说明和数据示例;
  5.提交样例;
  5.1采⽤UTF-8⽆BOM编码的txt⽂件提交,⼀共提交⼀份txt⽂件。
  5.2输出评分数据集中每个用户违约的预测概率,输出字段为:用户标识和违约预测概率,用\t分割,每个用户的预测结果为一行,注意不能有遗漏的数据或多出的数据。

5、思路介绍

1、提取特征
  特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。特征是机器学习的基础,它决定算法的上界。特征提取通常包括数据清洗、数据平衡、缺失值处理、特征编码、数据规范法、特征过滤、特征合成与衍生。
  (1)数据平衡
  通过统计分析查看正负样本的比例,在样本极度不平衡时,采用上下采样法、smote等方法。
  (2)缺失值处理
  统计缺失值出现的比例,如果数据量很大且缺失值较小,可以考虑删除这些数据。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。常见的填充方法有平均值填充(对于数值型为平均数,对于非数值型为众数填充)、中位数填充等。
  (3)特征编码
  由于常见的机器学习算法(如逻辑回归)无法对非数值类型直接处理因此常进行编码操作,常用的编码方式有独热编码、labelencoder等。其中独热编码通常用来处理无序的数值型,比如对性别(男、女)进行编码。
  (4)数据规范法
  由于不同特征量纲的不同,因此需要对数据进行规范法,常见的规范法方法有min-max归一化、标准化、中心化(具体看所选取的算法要求)等,其中min-max不改变数据分布,标准化改变数据分布。
  (5)特征过滤
  特征过滤主要是对冗余特征进行处理,常见处理方法有方差法、卡方检验法、F检验法、装代法、包裹法等,其中常用的组合为方差过滤法和F检验法,卡尔检验法常用来处理线性关系,F检验法即可以用来线性关系,还可以用来处理非线性关系。
2、算法的选取
  由于本题目属于典型的二分类问题,因此常用算法有逻辑回归、决策树、Adaboost、xgboost、随机森林、lightgbm 、支持向量机、K近邻等。个人比较推荐xgboost和lightgbm。由于本人在比赛中名次不佳(a榜210左右,b榜360左右,无缘前200),因此下面推荐大神做法链接。

大神1号: https://blog.nowcoder.net/n/f5d0873b86a447aebd318989ca9d4412
大神2号: https://github.com/wolfkin-hth/FinTech2020
大神3号: https://blog.csdn.net/qq_39748940/article/details/105965444
大神4号: https://blog.csdn.net/weixin_45718907/article/details/106199036
大神5号: https://blog.csdn.net/weixin_45718907/article/details/106199036
大神6号:https://msd.misuland.com/pd/4146263777181958558?page=1
大神分享的2019年fintech代码:https://url.cn/Fn0fj3ns

6、结束语

  虽然打boss之路很难,但是进步也是显著的,愿自己和一起找工作的人早日上岸。

你可能感兴趣的:(python)