1、基本信息
(1) 目标
使用科赛网中携程提供的的比赛数据集,深入了解产品需求量与产品特性、历史销量的关系。挖掘出影响需求量的关键因素,为后续的销量预测做准备。
(2) 数据来源
科赛网上携程提供的数据,2014-01-01到2015-11-30日的销量情况和产品概况,包含区域、评分、使用时间等多个维度。
(3) 数据可行性
数据经过了脱敏处理,与产品的实际情况有一定的差距,但不影响分析。
(4) 数据介绍
数据中共包含4000个产品,地区细分为642个,时间为2014-01-01到2015-11-30,跨度为23个月,订单渠道3个。
2、数据清洗
首先对数据集product_info进行描述:
从min行看出,只有product_id、district_id2、district_id4和eval没有缺失值。
对于字符串格式的列,是否含有缺失值,则是看是否等于-1,通过程序,upgradedate缺失值比较多。
对于地区id系列railway、airport、citycenter、railway2、airport2、citycenter2和upgradedate这几列,缺失值太多,而且没用,所以删除这些列。
再对product_quantity数据集进行描述:
最有可能有缺失值的就是price和product_date,经过分析,只有price有缺失值。
(1) 缺失值处理
lat和lon,经纬度的填充采用众数填充。
等级eval等的缺失值处理,因为等级都是固定的范围,所以采用均值处理。
votes、maxstock这两个数值型变量,数值范围不确定,可能受极端值影响,所以采取中位数填充。
对于像startdate、cooperatedate等字符串,有缺失值,也有异常值‘1753-01-01’,所以把缺失值和异常值都等于‘2014-01-01’,因为本次数据的产品使用时间的取值范围为2014-01-01至2015-11-30。
对于price的缺失值,仔细观察了数据,发现price的缺失值都是因为人们预定了,成交量却是0,这个时候的平均售价应该为0,所以,缺失值都转换为0。
(2)数据整理
将所有的评分相加,形成总分eval_T。
把product_quantity的product_date转换为关于年月的,这样就可以直接统计一个月的数据。
计算出产品从开售到合作的时间'cha'。
3、数据分析
核心结论
(1) 地区
3%的城市占据了34.9%的销量
20502、22746、22338、20604等几个二级地区的细分城市占据销量前20的45%
(2) 产品
4000个产品根据评分及运营时间划分为4类
销量跟评分的相关性较大
(3) 时间
每年的8月和10月为产品使用的高峰期
同比增长率在70%-80%左右呈稳定趋势
(4) 渠道
渠道1的销售量最高
渠道2的销售量第二,转化率最低
逐步分析
在最大的地区id1中,销量最高的是10201,占总销量的97.75%,该产品主要的经营区域为10201这个区域。
销量前20的地区,其中20502这个地区就占了3个小城市,其次是22746、22338、20604这三个地区,各占了2个小城市。
前20个城市的总销量占据总销量的34.9%。
销量为0,可能是未开张。或者是被退订单。
根据聚类运算,把产品大致分为4类。
这4类产品特性:
0:评分低,运营时间短,共2638个产品
1:评分高,运营时间短,共1349个产品
2:评分低,运营时间长,共1个产品
3:评分高,运营时间长,共12个产品
有销量图可以看出,3类型的产品的销售量最低,人们更喜欢现代点的产品。
同比增长率在夏季会偏高,冬季会下降。侧面反映了人们的生活水平越来越高,越来越会享受生活,旅游的人越来越多。
销量在每年的8月份和10月份都迅速增长。8月是学生的暑假,正是全家旅游的时候,10月份有国庆7天小长假。
5月份有青年节,销量也有小幅度上涨。平常时间的销量趋于线性增长。
渠道1的销量是最高的,转化率是最高的。
渠道2的销量销量第二,但转化率是最低的。需要进一步探讨转化率低的原因。
4、结论分析
地区、时间、产品特性对于销量有很大的影响,但这些影响是主观的,可以分析出哪些是销量多的,却没有办法改变,只能在平台上加大宣传力度。
对于订单这个影响因素,可以通过进一步的数据,查看为什么会转化率低,进而做出措施。