参考资料:
https://www.cnblogs.com/rango-lhl/p/9686195.html
https://www.cnblogs.com/zackstang/p/8185531.html
为了方便快速分析,抽取了1万行数据进行分析。
首先,可以看到商户ID和用户ID都没有缺失的;
其次是离店距离缺失的最少,这个信息可能根据手机定位等手段,获取的很充分;
然后是描述优惠券的三个字段(ID、领取日期、折扣率),缺失值数量是相等的;
最后是消费日期,高达55%的缺失值,说明大概有多一半的用户都没有去消费。
重复的用户ID代表同一个用户。
这个用户去了三个不同的商户消费。
这个用户在同一个商户消费的,在不同的时间里。
重复的商户ID代表同一个商户。
3381这个商户的不同用户的消费和领券记录。
1072这个商户的不同用户的消费和领券记录。
相同的券ID代表是同种券。同种券可以被不同的用户在不同的商户领取。
3381这个商户的7610券,被不同的用户领取。
领券后15日内消费的概率。
这个目标可以从两个思路上去理解,1,对领券后消费日期以及其置信区间的预测,2,该预测日期落在15日内区间的概率。
个人而言,1比较容易理解,所以先从这个思路出发。