【数据竞赛】消费金融场景下的用户购买预测冠军方案分享

大赛介绍

2000多年前,阿基米德说:“给我一个支点,我可以撬动整个地球”。伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的“阿基米德支点”。

作为业内领先品牌,招商银行信用卡中心在全力打造Fintech银行的过程中,始终走在变化的前沿。我们在全景智额、千人千面、大数据风控等金融科技方面的尝试与创新,也正是因为打造了从数据收集到数据清洗、再到数据挖掘和商业应用的一体化大数据平台。

我们希望,在数据已经成为战略资源和经济资产的今天,通过此次数据大赛,捕捉在消费金融场景下的用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。也可以让广大高校学生对消费金融、对信用卡数据应用,能有更深刻的接触与了解。

赛题背景

掌上生活APP是招商银行于2010年推出的手机客户端应用软件,全面升级了信用卡的使用体验。当前6.0版本的掌上生活APP,提供了手机商城、饭票影票、在线客服、基金理财、办卡开卡、额度管理、消费信贷、账单管理等全方位功能,同时实现了LBS查询服务和手机远程支付,全面满足并提升了持卡人对金融和日常生活需求的消费体验。

招商银行信用卡在不断拓展业务与场景的同时,也希望通过数据积累与数据驱动,主动捕捉用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。

赛题任务

利用招商银行客户的个人属性、信用卡消费数据,以及部分客户在掌上生活APP上的一个月的操作行为日志,设计合理的特征工程与模型算法方案,预测客户在未来一周内(4月1日-7日),是否会购买掌上生活APP上的优惠券(包括饭票、影票等)。考虑到客户隐私,客户的个人属性数据与信用卡消费数据,采用脱敏并标准化处理为V1,V2,…,V30数值型属性。客户在APP上的行为日志,一些字段也进行了相应加密。

赛题数据

本次比赛提供的数据集包括训练数据与测试数据,训练数据共分为三部分:

(1)个人属性与信用卡消费数据:包含80000名信用卡客户的个人属性与信用卡消费数据,其中包含枚举型特征和数值型特征,均已转为数值并进行了脱敏和标准化处理。

(2)APP操作行为日志:上述信用卡客户中,部分已绑定掌上生活APP的客户,在近一个月时间窗口内的所有点击行为日志。

(3)标注数据:包括客户号及标签。其中,标签数据为用户是否会在未来一周,购买掌上生活APP上的优惠券。

文件清单和使用说明

  • train/ ——训练样本目录,包含三个文件

  • train_agg.csv —— 个人属性与信用卡消费数据

  • train_log.csv ——APP操作行为日志

  • train_flag.csv ——标注数据

  • test/ ——评测样本目录,包含两个文件,不提供标注数

  • test_agg.csv —— 个人属性与信用卡消费数据

  • test_log.csv—— APP操作行为日志

冠军方案

赛题分析

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第1张图片

特征工程(常规特征)

主要按照特征群进行提取:基础统计特征,离散特征,时序相关特征。

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第2张图片

特征工程(亮点一:时序特征)

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第3张图片

特征工程(亮点二:NLP特征)

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第4张图片

特征工程

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第5张图片

特征选择:
  • 基于XGB的特征重要性

    • 先训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择。

  • 基于wrapper的方式

  • 基于贪心算法,寻找最优特征子集,如上图所示。

目的:
  • 降维,使模型泛化能力更强,减少过拟合。

模型设计

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第6张图片

模型融合(基于Rank)

比赛评价标准为AUC,其本质为排序优化问题概率得分线性加权是存在问题的,所以需要进行调整。

【数据竞赛】消费金融场景下的用户购买预测冠军方案分享_第7张图片

应用场景

潜力:
  • 特征具有可解释性

  • 模型的验证方法具有稳定性

  • 随着数据量的增大,Word2vec特征会有更好的效果。

  • 自然语言处理领域中成熟的方法可应用到用户行为识别中。

价值:
  • 商家广告精准投放。

  • 个性化推荐优惠信息。

参赛总结

不足:
  • 对于agg表只进行了简单的二元化和rank处理,没有深度发掘。

  • 模型的融合的权重是根据线上成绩,其实可以采用线性回归的方式得到。

收获:
  • NLP和普通机器学习的结合

  • 坚持的重要性

  • 团队协作能力都得到了较大的提升

冠军代码:https://github.com/sunwantong/China-Merchants-Bank-credit-card-Cente-User-purchase-forecast


往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
获取本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。

加入微信群请扫码:

你可能感兴趣的:(人工智能,大数据,机器学习,python,深度学习)