一、提出问题。
美国的黑色星期五,类似于国内双11这样的电商活动日,所以,此次分析,选取美国黑色星期五的55万条交易样本数据集。作为商家,想从以往交易数据入手分析用户购买行为,研究不同用户对不同商品的购买行为,为下一次“黑五”及未来销售活动提供参考和借鉴意义。
具体提出如下问题:
(1)畅销/滞销单品、商品品类情况分析。
(2)不同城市的消费情况,城市居住时长与消费水平之间的关系。
(3)用户画像分析。
二、理解数据。
1)数据集描述。
kaggle上面找到关于黑五的数据,一共有550000条数据。
零售商店中的交易数据,没有时间维度,职业、城市、婚姻状况进行了编码处理,产品分类进行了模糊处理。
数据获取地址:https://www.kaggle.com/mehdidag/black-friday
2)数据集中各字段含义。
数据包含12个字段,分别如下:
User_ID:用户编码
Product_ID:产品编码
Gender:性别(F表示女性,M表示男性)
Age:年龄(分0~17、18~25、26~35、36~45、46~50、51~55、55+共7个年龄段)
Occupation:职业(分为0~20 共20个类别)
City_Category:城市类别(分ABC共3个类别)
Stay_In_Current_City_Years:在当前城市停留的年数(分0、1、2、3、4+共5个类别)
Marital_Status:婚姻状况(0表示未婚,1表示已婚)
Product_Category_1:商品所属分类1,不可为空
Product_Category_2:商品所属分类2
Product_Category_3:商品所属分类3
Purchase:购买价格,以美元计算
三、数据清洗。
将从kaggle上下载的55万条交易数据,通过Navicat Premium客户端导入MySQL数据库。
数据集导入MySQL成功。
1、选择子集。
本数据集一共12个字段,我们接下来的分析都会用到,所以,全部选取。
(删除列可用语句:Alter table blackfriday drop column 列名1;)
2、列名重命名。
因为下载的数据集的字段名清晰明了,所以,我们暂时不对列名重命名。
3、删除重复的行。并且删除后的数据集存入新建表Friday中
如果看不到新建的表,记得选中“表”右键刷新。
可以看到,无重复行的新表的总记录为537577条记录。
4、添加主键。
四、构建模型。
(1)畅销/滞销单品,商品品类情况。
本次黑五活动中,销量最好的是product_id为P00265242的产品,其次是P00110742,P00025442。
我们同时看下,最畅销的商品品类有哪些?
畅销商品类目分别为:商品品类5,品类1和品类8,这三类都属于爆款分类。
同时我们再将每个商品品类的销量从低到高排序,查看有哪些单品销量最低。
销售最低的为商品品类9,销量只有404.
(2)不同城市的消费情况,城市居住时长与消费水平之间的关系。
不同城市贡献消费金额情况如下:
不同城市间的消费情况也很不一样,城市B的消费金额最大,为208343161,占比总消费金额的41.52%,其消费金额遥遥领先其他两个城市。同时,城市B的消费人数226493,也是三个城市中消费人数最多的。所以,城市B用户需求旺盛,消费能力强,所以城市B是零售店的主力战场。
此外,城市B,虽然消费人数最低,为144638,总消费金额最低,为1295668797,但是城市A的客单价,却是最高的,1239874.45美元。所以,城市A也是一个潜力城市,有待挖掘。
不同城市居住时长贡献消费金额情况如下:
可以看到,居住时长为1年的消费者的消费金额是最高的。
(3)用户画像分析。
按照每个用户ID划分分组,看看每个用户ID的消费金额有何分布?
此次黑五活动中,消费金额最多的一名客户,ID 为1004277,消费总金额为10536783美元。
①用户年龄、性别与消费金额。
可知此次黑五活动,男性为购物主力军,不管是哪个年龄层,男性消费金额都远高于女性。有些反常于与我们传统观念中认为的女性为购物主力军。特别是26-35岁的男性用户,是本次黑五活动的采购主力军。
②婚姻状况、性别、年龄与消费金额。
在0-45岁间,未婚男性购物金额是最多的,占据购物的主力军。46岁以上的消费人群中,已婚男性的消费金额开始居多。
③不同职业贡献消费金额情况如下:
可以看到,不同职业购买金额差异也很大,消费金额总数最大的为职业类型4,最小的为职业类型8。
五、结论和建议。
1、本次黑五活动中,最畅销商品P00265242产品,其次是P00110742,P00025442。可以利用爆款单品陈列在最主要位置,为其他商品引流。
2、最畅销商品类目分别为:商品品类5,品类1和品类8,这三类都属于爆款分类。仓库管理需要按照畅销商品名单,分类,及时安排库存,以防止缺货。
3、仓库管理需要针对消费需求旺盛的城市B提前备货,节省调度。
4、城市A和B的高端消费者比较多,这部分人群消费能力强。所以,平台需要有针对性的去维护好这些重点客户,增强品牌认识。
城市C客单价是最低的,可以将目标锁定在销量提升上,下次活动前,可以针对城市C策划大型促销活动,拉动消费,吸引人气,以提升销量。
5、此次黑五活动,26-35岁男未婚用户为购物主力军。平台可针对该年龄段男性未婚用户赠送优惠券,或其他优惠方案,保持这部分购物主力军的粘性。