本项目数据来源:阿里天池数据集
数据概览: 本数据为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据集包含两个表格:
分析目的: 分析既往数据表现,寻找优化切入点,并针对性提出改善方案,已达到提升销量和营业额、减少经营成本的效果。
分析思路: 从营运、产品、用户三个指标维度,继续拆分细化数据,提出假设,分析问题
缺失值处理:
base 表无缺失值,trade 表 property 特征缺失144条数据,由于该特征主要用于机器学习预测分析,与本分析关联度不大,暂且取出。
异常值处理:
base 表 birthday 特征可视化,去除出生早于2000年的离散值;
trade 表 buy_amount 特征可视化,去除超过3个标准差的离散值。
# 数据可视化
btd = base.birthday.value_counts().sort_index()
plt.figure(figsize=(15,3))
sns.scatterplot(x=btd.index,y=btd.values,alpha=0.5)
plt.title('(原数据)婴儿出生日期与订单数分布图',fontsize=15)
plt.ylabel('购买订单数')
plt.xlabel('婴儿出生日期')
plt.show()
# 去除异常值
base.drop(base['birthday'][base['birthday']<20000101].index,inplace=True)
# 数据可视化
qtt = trade.buy_mount.value_counts().sort_index()
plt.figure(figsize=(15,3))
sns.scatterplot(x=qtt.index,y=qtt.values,alpha=0.5)
plt.title('(原数据)商品购买量与订单数分布图',fontsize=15)
plt.ylabel('购买订单数')
plt.xlabel('商品购买量')
plt.show()
一致化处理:
base 表 birthday 特征、trade 表 day 特征,由整数类型转化为日期类型;
user_id、auction_id、cat_id、cat1 特征,由整数类型转化为字符串类型。
2012.07-2015.02 期间总销量 49586件(去除异常值后的数据),市场销量整体呈现上升趋势。
从季度销量情况看,第一季度普遍消费疲软,第四季度则大幅上升,且皆呈现同比增长状态。
问题1:第一季度普遍消费疲软,第四季度则大幅上升的原因?
问题2:2015 年(1月1日 - 2月5日)销量同比大幅增长至 126.37% 的原因?
由 1月-2月销售量情况图(按日划分)可知:
销售低谷时段与春节假期基本吻合,其原因可能是部分企业提早放假、快递停运等。此外,2015年春节假期为 /2/19-2/25,相对较晚,因此1月销量受影响不大,同比增长较高。因此,可以认为每年第一季度的销量下降,与春节假期有较大关系。
由 11月-12月销售量情况图(按日划分)可知:
订单数合计 29940 笔(去除异常值后),与销量分布大体一致呈现上升趋势,平均订单销量为 1.66件。
问题一:第四季度平均订单销量、人均销量下降的原因?
问题二:在下单用户数呈现上升趋势的背景下,订单复购率持续走低的原因?
年龄层:未出生、婴儿期(12个月以内)、幼儿期(1-3岁)、学龄前期(3-7岁)、学龄期(7岁以上)
从各月份大类商品销售情况来看,5月份(5月1日-5月12日)、10月份(10月1日-10月17日) 50008168 大类销量短暂的超过 28 大类,这两段期间均为小长假节假日,说明 50008168 大类的消费高峰与节假日相关性较强。
从用户儿童性别与年龄层分布数据看,各年龄层的女童用户销量,均超过男童用户销量。
结合商品大类与年龄层销量数据,随着年龄增长 50008168 大类需求逐渐增长,50014815 需求降低。
结合商品大类与性别销量数据,大类 50014815 和 38,女童用户购买量居多,其他品类占比较为接近。
根据用户最近一次购买时间、购买频率以及购买量,构建RFM模型,其中评分指标如下:
类别 | R(Recency) | F(Frequency) | M(Monetary) |
---|---|---|---|
最小值 | 0 | 1 | 1 |
最大值 | 948 | 4 | 176 |
平均值 | 384.16 | 1 | 1.66 |
中位数 | 336 | 1 | 1 |
标准差 | 263.89 | 0.03 | 5.03 |
构建RFM评分系统如下:
类别 | 1 分 | 2 分 | 3 分 | 4 分 | 5 分 |
---|---|---|---|---|---|
R-SCORE | >600 天 | 450-600 天 | 300-450 天 | 150-300 天 | <=150 天 |
F-SCORE | 1 次 | 2 次 | 4 次 | ||
M-SCORE | 1 件 | 1-50 件 | 50-80 件 | 80-110 件 | >110 件 |
因此建议,一方面注重新用户的引流,通过提高用户数及人均销量,提高整体消费情况;另一方注重平均订单销量、以及复购率的提升,从儿童年龄增长的角度、以及性别与商品类别关联度角度,提高商品推荐质量,培养用户忠诚度,通过合适的商品组合搭配,提高单均销量。
1、根据异常值剔除前后销量分布图可知,用户的购买量相差较大,少数用户购买量巨大,对销量分布有明显影响,建议做好大客户服务,保持长期合作关系。
2、 母婴用品整体销量呈现逐年增长趋势,在重要节假日、以及电商活动期间,销售量波动较大,需从库存、物流、营销等角度做好商品管理,重点关注春节、双十一、双十二、5月与10月的前两周。
3、所有品类产品复购率都处于较低水平,用户黏性不足,需从产品质量、购物体验、营销手段等分析各品类复购率低的原因,并对导致复购率低的因素进行改善,从而提高留存率与复购率。
4、从品类角度看,销量贡献主要集中在大类 28、50008168、38,其中大类 38 潜在市场较大,用户复购率较高,但子品类较少,建议丰富子品类,刺激用户消费。
5、婴幼儿家长是购买主力,且女童家长消费比例普遍高于男童家长,同时随着年龄增长,购买需求也由大类 50014815 转向大类 50008168,商品营销活动,与个性化推荐可侧重借鉴此类用户画像。
6、由于整体用户黏性不足,重要价值用户较少,反而一般挽留用户数与销量占比最高。从用户黏性角度,需结合商品本身特性等,重点了解复购率低的原因。同时关注新用户引流与促活,结合捆绑、买赠、满减、push等营销手段,提高单均销量。