一、分析背景、目的和期望
1.1 分析背景
电商行业作为当下不可或缺的社会成分,在无形中促进了人们消费观念的改变。随着电商如淘宝、天猫、京东、拼多多等的发展,更多人把消费从线下转到了线上。同时,各大电商平台也会在不同的节日搞各种各样的促销活动,更刺激了消费群体的增大。而母婴商品市场在电商行业中也占有着不容小觑的比重。基于此,先对母婴商品数据进行分析,通过对目标客户群体和产品销量分析,可以更有针对性地服务客户,为商家带来更多盈利。
1.2 分析目的和期望
通过从用户、商品不同维度的分析,给出对应方案和策略,精准定位目标群体,提高商品销售。
1.3 提出问题和思路
(1)产品销量如何?
分析角度:各时间区间销量趋势对比、同比、环比。
(2)销量最好的商品有哪些?
分析角度:商品topN
(3)目标用户有哪些,使推销更有针对性?
分析角度:用户年龄、性别。
(4)用户购买趋势怎样,是否有规律?
分析角度:月活,复购率等。
分析思路,如下:
二、理解数据
数据来源:Baby Goods Info Data
主要包含两张表:(sample)sam_tianchi_mum_baby_trade_history.csv 和 (sample)sam_tianchi_mum_baby.csv
字段分析:
(1) (sample)sam_tianchi_mum_baby.csv
- user_id: 用户ID;
- birthday:婴儿出生日期;
- gender: 婴儿性别(0代表女,1代表男,2代表未知)。
(2) (sample)sam_tianchi_mum_baby_trade_history.csv
- user_id: 用户ID,每一个账户都有一个独立且唯一的ID,可用来计算复购率等;
- auction_id: 意义不明确,这里就将它看做Item ID或商品id,总之对之后的分析意义不大;
- cat_id: 商品子分类,从属于cat,可以用来分析热销品;
- cat1: 商品主分类,可用于分析热销品类;
- property: 商品属性值,包含属性信息;
- buy_mount: 订单中购买商品的数量,可用来分析与销售量有关的指标;
- day: 下单时间。
该数据集有29971个数据。
三、清洗数据
在对数据进行分析之前,有必要对数据进行清洗,处理缺失值和异常值等,为进一步的分析做准备。鉴于这里是两张关联的表,通过vlookup函数,将两张表关联到一张表进行分析。
3.1 选择子集
通过对业务数据的理解,可以通过用户下单日期(day)与其孩子的出生日期(birthday)进行计算得到用户孩子的年龄,从而在表中添加一个字段(age),birthday这个字段就可以隐藏了。
auction_id信息不明确和 property属性信息无法判别,对分析数据意义不大,所以也对这两个字段进行隐藏。
其余的user_id、cat_id、cat1、 buy_mount、day、gender属性字段保留,以备后续分析。
3.2 列名重命名
这里列名含义明确,不需要重命名。
3.3 删除重复项
根据业务需要,可能会出现同一用户的同一订单中包含不同品类的商品,所以考虑重复项,需要通过所有字段联合起来分析,没有重复数据。单独分析auction_id列时发现重复个数有1549个,而且重复的auction_id对应的user_id不一致,应该是同一种商品被不同的用户购买。user_id有重复的是因为同一用户可以多次购买商品。所以这里就没有要删的重复项。
3.4 缺失值处理
除了property字段对应列为29828列外,其他均为29972列,说明property字段列有缺失,不过影响不大,已经将该列隐藏处理了。
3.5 一致化处理
下单时间日期和婴儿出生日期字段显示的都是非标准日期格式,将它们改为日期格式。
3.6 数据排序
按下单日期进行升序排列。
3.7 异常值处理
对于订单购买商品数量进行统计分析,发现其中位数众数均为1,均值为2.54,最小值为1,最大值为10000,标准差63.99。说明数据波动得很厉害,而且一般消费者也不会一笔订单就买10000件商品,难道他是批发商,这个我们不得而知,不具有一般性。为了进行一般和理性分析,这里根据均值与3个正负标准差的值定异常值,也就是大于194的值都修改为1(这里主要针对个人用户,所以取众数比较合理)。
对婴儿的性别不做处理,之后分析的时候将2和空值,归为其他。
对于婴儿年龄,因为(下单日期-出生日期)/365,出现有负数,可能是在孩子没出生就提前准备了吧,最多提前一年,再早就说不过去了,所以这里将age 在-1~1范围内的归为“婴儿”,将age范围在1~3内的归为“幼儿”,将age范围在3~7内的归为“学龄前”,其他不在这些范围内的就归为“其他”。=IF(AND(J11522>=-1,J11522<1),"婴儿",IF(AND(J11522>=1,J11522<3),"幼儿",IF(AND(J11522>=3,J11522<7),"学龄前","其他")))
特别说明,此处对于婴儿性别、年龄段的错误值(#N/A)不进行处理,而且错误值的量也很多。但它对于商品销量等的分析并不影响,只是在对用户进行分析的时候过滤出去就好了。
四、问题分析
4.1 产品销量如何?
销量与订单量、成交量有关。这里提供的数据,成交量不得而知,只能从订单量入手进行分析。
主要通过2012-2015年订单量的趋势,以及各季度,月份的环比、同比进行分析。
1)2012-2015年商品订单量的趋势
图3可以看出,产品的总销量逐年增长,在2014年达到了峰值,在2015年销量下滑严重,为什么呢?原来数据集中包含的2012年和2015年的数据不完整,导致这两个年份产品销售数量无法从整体上去把握。
由图4可以看出,每年的第一季度商品销量出现最低点,而商品销量的最高点出现在第四季度,难道是跟季节有关?不过一般销量最高点应该是与促销活动关系更密切,为了探寻原因,观察更细粒度的销量趋势图。由于2012年和2015年的数据不完整,所以这里只观察2013年和2014年数据。
从图5,不难发现,一年中下半年订单量比上半年多,2013年和2014年销售数量最低点出现在1月末2月初,5月左右会出现一个小高峰,而最高点出现在11月中旬,这是为什么呢?从时间上来看,可能是由于春节的影响,快递停运导致的销量低。经查询,2013年春节为2月10日,2014年春节为1月31日,刚好和销量低谷对应上,所以就此判断1-2月销量低是受到了春节的影响。
5月左右出现小高峰,可能是因为节假日,网站搞促销?不妨通过数据观察一下:
从上面5、6月份的订单量趋势来看,5月中旬(5月20日)、6月18日附近订单量成高峰状态,应该是由于商家趁着520,搞活动促销,提高5月销量,接着消费者购物进入低迷期,618又搞促销,刺激人们的消费,达到一个小高峰。
11月的销量高峰是为什么呢?淘宝天猫每年都会有双11购物节,因为促销活动使产品销量得到了提高?为了证实假设,需要将11月份的数据拉出来,进行观察。
果然,如我们的假设一样,2014年和2013年两年的11月份在11月11日这天销量突然剧增,很明显11月份订单量达到高峰跟“双十一”促销活动有关。而一般促销活动过后,就会出现一段低迷期,订单量下降,接着进入平缓期。
2)2013-2014年商品订单量对比
可以看到2013年总订单量9753,2014年总订单量15024。2014年商品订单量较2013年同比增长54%。
很明显2014年订单量和2013年比,每个季度都有涨幅,四个季度分别同比增长了60.53%、55.49%、53.64%、49.89%。2014年每个季度环比分别是:-16.64%、39.85%、-2.93%、32.46%。可以看到,一年中商品订单量从春节后开始回升,第二季度迎来一个小高峰,之后开始平缓下滑,第四季度又呈上升趋势。所以要把握好促销活动,提高销量。
4.2 销量最好的商品有哪些?
销量好的大类商品
可以明显看出,编号28的商品为热销商品,编号50014815和50008168的商品销量次之,这三类商品销售量占了总销量的88%,所以实时关注它们的销售动态很有必要。
下面,分别就编号28、50014815和50008168的商品2013年-2014年各月份销量趋势进行对比分析:
从图中可以发现,编号28的商品的订购数规律不是很明显,2013年春节过后,购买量下降,之后又缓慢上升,平缓过渡到7月,迎来一波小高峰,之后 又上下浮动直到12月订购数达到顶峰。紧接着2014年春节销量急剧下滑,可能是有不少的用户在活动期间屯了不少此商品了,而且又赶上春运,快递放假,所以订购量自然然惨淡,但是春节过后又开始回升,3月之后又下滑,5月搞520等活动,刺激了消费,销量增加,接着下滑,到7月又上升,整个下半年波动不是很大。
编号50014815商品基本上全年销量都比较平缓,但是就在2014年11月出现了一个大顶峰,也就是说当月的销量突然剧增,通过查看数据可以发现,就在当月该商品有好几笔大单(每笔订单订购了几十甚至100多个此商品),而且订单量数量也挺多。可是,到底是什么原因造成的呢?我们不得而知,可能是2014年双十一促销力度很大,吸引部分用户在此次活动中,屯了不少此商品。
50008168类商品订购量,从春节过后开始回升,5月份迎来小高峰,之后开始下滑,8,、9月份呈上升趋势,之后下降,平稳销售,没有因为之后的双十一等活动促销而提高销量。
产品总的连带率2.5左右,6大类商品中,编号28、50014815、38这三类商品连带率都高于总体连带率,说明加大对这几类商品的营销有助于带动整个品类总体连带率,提高销量。
4.3 目标用户有哪些,使推销更有针对性?
1)性别分析
婴儿在现有用户中,男宝宝占比47%,女宝宝占比53%。整体男女比例差别不大。
下面分析,不同性别下各品类商品的销售数量。
总体来说,孩子为女孩的客户购买的商品量更多些,尤其是50014815类商品明显女生比男生买的更多。
2)年龄段分析
从整体上来看,在店铺购买商品的用户,她们的孩子正处于婴儿期的较多,不过也有可能孕期会买些孕妇奶粉,孕妇装等也不是没有可能,其次就是1-3岁的小孩占33%,学龄前也占了20%。说明此店铺的消费客户群体,主要包括7岁以下的孩童,定位再准一些就是婴幼儿时期的宝宝。所以定位要抓准,做好定位,提高用户的粘度,才能更好地提高销量。
3)综合性别年龄商品进行分析
从购买商品的数量上来说,婴儿的家长确实是购买的主力军。而50014815类商品,随着年龄增长购买量呈下降趋势,婴儿期购买的最多。可能是奶粉,尿不湿?
男女宝宝,商品购买最明显的差异就在于50014815这类产品,难道有哪些商品,一般女宝宝用的多,而男宝宝用的少?那应该不会是奶粉,很有可能是纸尿裤。
4.4 用户购买趋势怎样,是否有规律?
1)月活趋势分析
用户月活趋势与订单量趋势成正相关。
2)复购率
全局复购率:用户总数29946,多次购买商品的用户有25个,所以此时复购率为25/29946近似为0.08%,复购率太低了,看来买东西的基本都是新用户,很少有回头客。
总体复购率不高,仅有一类商品的复购率大于总体复购率,但是还是太低,甚至50022520和122650008这两类商品复购率为0。
五、结论及建议
(1)店铺商品销量逐年增长,每年5月、11月因为促销活动会有一波高峰。所以要做好库存,以备双十一等促销活动的到来,提高销量。
(2)店铺中编号28、50014815和50008168这三类商品销售量占了总销量的88%,说明消费者对这类商品的需求很大。进一步挖掘客户喜爱的原因,制定方案,
(3)产品的连带率还可以,尤其是编号28、50014815、38这三类商品连带率都高于总体连带率。挖掘产品内在联系,适时推荐,提高总体连带率和销量。
(4)目标客户主要以0-3岁的婴幼儿为主,随着年龄的增长有可能就不再是本店铺的目标群体,要积极挖掘新的目标客群。相对男宝宝,更关注女宝宝,向女宝宝更多推荐50014815这类产品,尤其是0-1岁之间的 。
(5)产品复购率很低,老用户复购的很少,基本上每天都是新用户在店铺购买商品。要与客户保持沟通,比如说将店里的老用户邀请进福利群,有什么新的活动或促销可以在群内通知,保持联系,增加用户黏性,提高复购率,回购率。
(6)春节前后,快递停运,可以适当的减少推销成本,降低推广力度。