分析背景
随着电商行业的迅速发展,很多线下的商家把战场转为了线上,相比于线下的商业模式,线上更容易获取到用户的相关信息,通过调查用户的购买行为,结合用户的特点,进而进行数据分析,用数据驱动商铺的盈利。本篇分析就以天猫网上母婴产品的购买情况进行分析,辅助网店店主进行决策。
数据来源于阿里天池:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
数据源中有两个图表,分别是购买商品的数据和婴儿的数据,首先分别分析下两个数据的字段
表1:购买商品(包含以下七个字段)
- user_id: 用户身份信息(作为用户唯一标识)
- auction_id: 购买行为编号
- cat_id:商品种类(对应具体的商品种类)
- cat1:商品类别(购买商品的类别)
- property:商品属性(具体分类信息)
- buy_mount:购买数量
- day:购买时间
表2:婴儿信息(包含以下三个字段)
- user_id:用户身份信息(作为用户唯一标识)
- birthday:出生日期
- gender:性别(1 男性,0 女性)
提出问题
本次分析分别从产品角度和用户角度进行
产品角度:
1、销量随着时间的变化趋势是怎样的?
2、热销产品和销量较低的产品有哪些?
用户角度:
1、不同性别婴儿的需求是否一致?
2、商品受哪个年龄段婴儿的喜爱?
数据清洗
选择子集
两个表均为重要的数据信息,分析中不涉及表1中的property字段,因此选择隐藏
列名重命名
将英文的ID字段统一转化为中文
删除重复值
两个数据表中均未出现重复值,不做处理
缺失值处理
两个数据表中均未发现缺失值,不做处理
一致化处理
首先将表2中婴儿性别转化成男女形式的;其次将购买时间和出生日期转化成yyyy/mm/dd的形式,方便处理
数据排序
数据比较整齐,暂不排序
异常值处理
先用vlookup函数将两个表通过用户ID连接起来,得到一张新表格,再通过dateif函数得到婴儿的具体年龄,结合vlookup函数得到年龄的阈值,经过描述性分析后,发现一个年龄为28的异常值,由于数据量不大,因此选择删除
最终得出数据表如下
分析问题
1、销量随着时间的变化趋势是怎样的?
(一)销量随着年份变化趋势
首先我们以年为维度进行销量的分析,观察下商品销售的整体趋势。
从2012年到2014年商品销量呈现上升趋势,但是到了2015年销量一度下滑,这个是什么原因呢?
为了弄清下跌原因,我们对维度进行细分,通过对比每月的销售情况,从而得到月份与销量的关系
从图片中我们发现2015年统计数据并不完整,仅有1月和2月的数据,另外2月的数据也仅仅统计了前五天,而且2015年1月的销量均高于前三年,因此这里并不能说明2015年的销量有所下降。
分析得出2015年销量下跌是由于数据不全导致的。
(二)销量随着月份变化趋势
观察整体月份的变化趋势并对比不同年份的月销售变化图能看出,销量整体呈上升趋势,尤其是每年的5月和11月,为销售高峰期,是什么原因导致的呢?2月份的整体销量显低迷,这是为什么呢?
我们采用多维度分析和假设检验的方式进行进一步讨论
a.分析5,11月份销量增加的原因
基于4P营销理论,我们将销量增加原因分为四大类
(1)渠道原因:
为了判断是否是渠道原因导致的销量增加,这里我们假设商家改变了运营策略,选择了更好的销售渠道。按正常逻辑,如果商家挖掘到了新渠道并且证明效果确实理想,那么将会继续选择此渠道,以保证源源不断的销量,所以可以对比五月到七月的销量,看看是否有显著的变化。
结果我们发现2013,2014这两年5月份的销售额依然高于6月和7月,显然这并不是改变了运营渠道,因此我们否定原假设,证据不足,不能说明渠道是销售变化的原因。
(2)促销活动:
这里我们假设是由于商家采取了促销活动,所以导致销量上升。
可以发现5月份有三个购买高峰,我们查下当年的促销活动可以发现,5月12日左右正好对应着母亲节促销活动,而且商品类型为母婴产品,促使商家达到了第一个销量高峰,5月20日有520的节日促销,5月末是平台的天猫品牌活动日,正好和三个销售顶点相对应。
我们再来看下11月份,双十一的促销活动力度之大,直接把销售量推到了高峰顶点,而且随着年份的累积,销售量是越来越高,2014年达到了顶点,这也符合天猫商城的销量趋势,因此假设成立。
(3)产品和价格:
数据中没有明显产品和价格的数据,无法定义问题,因此这里不做分析。
可以看出,促销才是导致商品销售量达到顶峰的直接原因。
b.分析2月份销量下跌的原因
我们将下跌分为内部和外部原因,进行分析
无论是产品、渠道还是价格,并没有太多的差别,这里就不过多的解读了,但是结合业务场景,2月份正值春节期间,天猫也有着春节的品牌活动,但并没有推出专门针对于母婴产品的活动。那么究竟是什么原因导致的呢?我们看下图。
2013年1月31日-2月12日,整体的销量呈下跌趋势,跌幅较大;
2014年1月21日-1月31日,也呈现断崖式下跌的情况
再次查阅一下日期,发现正好和春节时间相吻合,这段时间快递已经停运,因此可以推测销量下跌的原因和快递停运有关。
因此,每年2月份下跌原因是快递停运,商家也可以根据这个时间点制定年前和年后的销售计划。
2、热销产品和销量较低的产品有哪些?
为了进一步了解产品销售情况,对销量高的产品和销量低产品进行对比分析,以此来辅助采购部门进行商品筛选
这里采用了组合图的形式进行分析,柱形图表示商品的销量,折线图则表示商品的购买次数
从表中我们可以看出,ID28作为热销产品,虽然购买次数不高,但是销量遥遥领先,可大概推测出为消耗频次较高的商品,需求量高;另外,ID122650008商品的购买次数和购买量基本上持平,且销量最低,消耗频次也较低,可以结合商品特点,找到销量较低的原因,协助仓储部门进行物料配置工作。
3、不同性别婴儿的需求是否一致?
我们发现女婴儿的购买量高于男婴26%,产生这个差异的原因是什么呢?由于销量=购买次数*平均购买量,我们假设是由于女婴的购买次数多于男婴的原因,于是进行二次分析
发现男女婴儿购买次数的比例近似相等,购买次数并不是造成销量差异的主要原因,否定原假设,选择备择假设,即女婴儿的平均购买量高于男婴。那么不同商品的购买量之间有什么差异呢?
从结果发现,男婴对于50022520这款商品的需求较高,而女婴则对50014815需求高,不同性别对于商品需求存在差异,其中差异量最大的是50014815商品,几乎没差异的是122650008。商家可以根据婴儿性别进行分类推广。
4、商品受哪个年龄段婴儿的喜爱?
将婴儿的年龄分成7个阶段,通过数据透视发现不同年龄段商品的购买情况
我们发现1-2岁为主要购买人群,五岁以上的购买力开始呈下降趋势,可以分析本店主要的用户群体为五岁以下的婴儿。
继续来分析下销量排名前三年龄段的具体商品销售情况
我们可以发现ID50014815这款商品很受0-2岁的孩子喜爱,看推测其为低龄儿商品;
不同年龄段的婴儿对50008168和28这两款商品的购买力差不多,可推测这两款商品的适用范围较广。
结论与建议
1.商家的销售情况和促销活动强相关,比如每年的双十一和母亲节,这两个是比较好的促销节点,商家可以考虑采取多种方案进行促销,增加销量。另外,春节期间可以适当减少促销活动,节约成本,在春节前可以来一波促销活动,让用户囤货。
2.平时可以多进ID28的产品,走货快而且销量高,可以升级为明星产品,而ID122650008的产品可以适当降低进货量,出一些捆绑套餐,帮助对此产品的销售。
3.不同性别的婴儿消费需求不一样,可以分别进行推荐,尤其是女婴的产品需求较高,可以重点推广50014815产品,男婴则是推广50022520产品,由于男婴的单次购买量较低,因此可以多推出一些男婴套餐,刺激购买。
4.五岁之前的婴儿购买量较高,商家可以重点推广此年龄段的产品,ID50014815商品可以重点推广,适用于各种年龄段,针对不同年龄段的家长推出优惠券,帮助产品促销。