第四届魔镜杯大赛数据应用大赛方案1

1 思路
背景
资金流动性管理迄今仍是金融领域的经典问题。在互联网金融信贷业务中,单个资产标的金额小且复杂多样,对于拥有大量出借资金的金融机构或散户而言,资金管理压力巨大,精准地预测出借资金的流动情况变得尤为重要。本次比赛以互联网金融信贷业务为背景,以《现金流预测》为题,希望选手能够利用我们提供的数据,精准地预测资产组合在未来一段时间内每日的回款金额。
本赛题涵盖了信贷违约预测、现金流预测等金融领域常见问题,同时又是复杂的时序问题和多目标预测问题。希望参赛者利用聪明才智把互联网金融的数据优势转化为行业解决方案。
第四届魔镜杯大赛数据应用大赛方案1_第1张图片数据包含训练样本、测试样本、每个标的的属性表、借款用户基础信息表、用户画像标签列表、借款用户操作行为日志表和用户还款日志表五个部分。
2 赛题理解
基于对赛题分析以及金融风控的理解,可以得到的几点

  • 赛题的重要性:准确预测资产总额的回款量,能够帮助互联网金融公司更好的把控运营节奏,进行良性的资产配置和流动性管理,最大的利用现有资金。
  • 赛题目标:预测资产组合在未来一段时间内每日的回款金额(但是我们无法预知资产组合的构成)
    基于以上分析,决定在未知资产组合的情况下将原有的问题从宏观和微观两个角度分析,从微观角度挖掘用户的一些借贷习惯;从宏观挖掘公司每月每日资金的流入流出情况,来拟合最终的资产组合的回款情况,具体的结构如下图。
    第四届魔镜杯大赛数据应用大赛方案1_第2张图片4 特征工程
    由于金融风控领域对模型特征要求有很强的可解释性,在挖掘基本的特征时,我们都会考虑挖掘的特征最终的作用点。我们最终的特征有三部分来源,分别是基本信息特征、用户浏览行为特征和用户还款行为特征。
    1 基本特征
    基于时间过滤筛选出未穿越的基本时间特征,具体特征如下图:
    第四届魔镜杯大赛数据应用大赛方案1_第3张图片* 针对用户属性特征,删除了cell_province,id_province,id_city三个看似很强的地域特征。这部分数据存在缺失值,曾今尝试过用id_province的对cell_province进行填充,id_city进行分省份填充,但是最终线上结果没有有直接删除有效,删除操作线上提升大概200多分
##尝试的填充代码
data['cell_province'] = data['cell_province'].fillna(data['id_province'])   
data['id_city'] = data['id_city'].fillna(data['id_province'] + '000') 

对age进行分桶处理
在标的属性特征中添加月利率特征:原始数据提供的是年利率,考虑到标的期限有3,6,9,12月,因此改成月利率特征,线上提升100左右
标的还款日期特征:应还款日期是在几月份,几号,星期几,线上提升200左右

用户画像特征: 对用户画像做TFIDF处理,保留10维特征
 
Tfidf_vect = TfidfVectorizer(max_features=10, ngram_range=(1, 1), min_df=1)   
Tfidf_vect.fit(list(train['taglist']))

2 用户浏览行为特征
时间段切分:将一天分为8个时间段,统计每个时间段用户的操作天数及占比,凌晨和深夜操作的逾期概率更高行为间隔频度:将用户行为序列的最大间隔天数和最小间隔天数取出,推测借款人粘性
3.用户还款行为特征
历史还款习惯(还款月粒度-33天):有的用户喜欢还款日还款,有的喜欢提前一天还款,有的没有固定时间,基于此采用统计特征表示(众数、平均数、最大值、最小值、方差)
历史还款习惯(自然月粒度-上旬中旬下旬):有的用户喜欢在月初还款,有的喜欢月末还款(可能与其工资日相关),采用还款日期的众数表示历史借款情况:用户拥有标的数量,用户相邻标的间隔天数,用户从注册日到借款等待的天数
5 模型的设计
1.label设计
公式:label=due_date-repay_date
由于受到大小月份的影响,进行适当的修正,其中31表示借款当天还款,即 auditing_date==repay_date, 32表示逾期,其余不存在的日期用0填充。最终的结果分布如下图。修正后的label定义方式相比直接采用距离天数的定义方式,线上提升100多分。
2.训练集的调整
统计数据发现2018年数据2月和3月的还款情况和其他月份有很大不同,逾期率更大,分析可能是由于春节的原因,故将2018年的2月和3月作为线下验证集,然后将其余的数据作为线下训练集。这种方式验证集比直接随机选取数据做验证集效果更好,线上提升在150分左右。如果分拆成两个模型,分别是2月作为验证集和3月作为验证集,线上还能再提升50分左右,最终为了模型更简单,没有使用这种方案
3 模型结构
第四届魔镜杯大赛数据应用大赛方案1_第4张图片我们的模型分为两个部分,微观部分对应用户的一些特征,主要挖掘方向就是用户的还款风险以及还款时间偏好,特征见上面的特征部分,模型使用的事lightgbm模型。宏观部分主要是分析公司每月,每日的资金运转流通情况,统计分析自然天资金回流的概率,在微观预测的基础上调整回流日资金分配。最终线上得分5424分。
优点:
有一定可解释性,知道特征来源
可操作性比较强模型稳定,
切榜成绩几乎没有波动
4 loss优化
预期类别权重调整:考虑到风控模型应该是越来越好,即往后逾期率会变低,如下图所示,基于此,训练模型时将逾期的类别适当降低,线上提升50;
第四届魔镜杯大赛数据应用大赛方案1_第5张图片日期权重调整:统计分析月初的还款量较大,月底的还款量较小,将每月月初的loss权重增到到1.12,月末的loss权重的loss减小到0.79。复赛线上单模型5623。
第四届魔镜杯大赛数据应用大赛方案1_第6张图片# 该部分代码
# 设置时间权重权重 train_data['sample_weight'] = 1.0 train_data.loc[(train_data['repay_date'] == '2018-01-01') | (train_data['repay_date'] == '2018-02-01') | (train_data['repay_date'] == '2018-03-01') | (train_data['repay_date'] == '2018-04-01') | (train_data['repay_date'] == '2018-05-01') | (train_data['repay_date'] == '2018-06-01') | (train_data['repay_date'] == '2018-07-01') | (train_data['repay_date'] == '2018-08-01') | (train_data['repay_date'] == '2018-09-01') | (train_data['repay_date'] == '2018-10-01') | (train_data['repay_date'] == '2018-11-01') | (train_data['repay_date'] == '2018-12-01') | (train_data['repay_date'] == '2019-01-01'), ['sample_weight']] = 1.124115183 # 每月1号 train_data.loc[(train_data['repay_date'] == '2018-01-31') | (train_data['repay_date'] == '2018-02-28') | (train_data['repay_date'] == '2018-03-31') | (train_data['repay_date'] == '2018-04-30') | (train_data['repay_date'] == '2018-05-31') | (train_data['repay_date'] == '2018-06-30') | (train_data['repay_date'] == '2018-07-31') | (train_data['repay_date'] == '2018-08-31') | (train_data['repay_date'] == '2018-09-30') | (train_data['repay_date'] == '2018-10-31') | (train_data['repay_date'] == '2018-11-30') | (train_data['repay_date'] == '2018-12-31') | (train_data['repay_date'] == '2019-01-31'), ['sample_weight']] = 0.79326 # 每月月底

6 总结
用组合目标趋近于实际的目标:整个赛题的目标是想预测资产组合的回款情况,但是资产组合我们无法预知,通过微观的标的回款情况加上宏 观的日回流情况来对实际目标进行趋近 对整体目标进行可解释性的拆解有助于特征的设计:将目标拆解为用户的信用风险、还款习惯以及整体的日回流趋势,让特征提取思路清晰可追溯
可进行多目标学习的尝试:基于我们现有模型的整体架构和思想,可进行多目标学习的尝试,这方面可以继续挖掘和扩展

你可能感兴趣的:(第四届魔镜杯大赛数据应用大赛方案1)