O2O优惠券预测题目拆解

1. Table1 《用户线下消费和优惠券领取行为 》都有哪些字段?O2O优惠券预测题目拆解_第1张图片

参考资料:
https://www.cnblogs.com/rango-lhl/p/9686195.html
https://www.cnblogs.com/zackstang/p/8185531.html

各个字段的缺失值占比?

为了方便快速分析,抽取了1万行数据进行分析。

首先,可以看到商户ID和用户ID都没有缺失的;
其次是离店距离缺失的最少,这个信息可能根据手机定位等手段,获取的很充分;
然后是描述优惠券的三个字段(ID、领取日期、折扣率),缺失值数量是相等的;
最后是消费日期,高达55%的缺失值,说明大概有多一半的用户都没有去消费。
O2O优惠券预测题目拆解_第2张图片

是否有重复的用户ID、商户ID、券ID,重复ID代表什么含义?

重复的用户ID代表同一个用户。
O2O优惠券预测题目拆解_第3张图片
这个用户去了三个不同的商户消费。
在这里插入图片描述
这个用户在同一个商户消费的,在不同的时间里。
在这里插入图片描述
重复的商户ID代表同一个商户。
O2O优惠券预测题目拆解_第4张图片
3381这个商户的不同用户的消费和领券记录。
O2O优惠券预测题目拆解_第5张图片
1072这个商户的不同用户的消费和领券记录。
O2O优惠券预测题目拆解_第6张图片
相同的券ID代表是同种券。同种券可以被不同的用户在不同的商户领取。
O2O优惠券预测题目拆解_第7张图片
3381这个商户的7610券,被不同的用户领取。
O2O优惠券预测题目拆解_第8张图片
O2O优惠券预测题目拆解_第9张图片

本题的预测目标是什么?

领券后15日内消费的概率。
这个目标可以从两个思路上去理解,1,对领券后消费日期以及其置信区间的预测,2,该预测日期落在15日内区间的概率。
个人而言,1比较容易理解,所以先从这个思路出发。

和预测目标可能相关的的变量有哪些?

  1. 题目中给出的相关变量;
    Discount_rate(折扣率);
    Distance(离店距离);
    Date_received(领券日期);
    领券日期本身的一些特征,比如星期几,归属月份,归属月份的上中下旬,季节等
  2. 平均消费间隔系列指标;
  3. 平均的折扣消费间隔系列指标;
  4. 领券消费转化系列指标;
    可以先用题目给出的变量先建模,然后不断加入更多的变量,获取更好预测效果。

用户的平均消费间隔怎么求?

你可能感兴趣的:(数据竞赛,Python,统计学)