美国黑色星期五活动的交易数据分析

一、提出问题

美国的黑色星期五,类似于国内双11这样的电商活动日,所以,此次分析,选取美国黑色星期五的55万条交易样本数据集。作为商家,想从以往交易数据入手分析用户购买行为,研究不同用户对不同商品的购买行为,为下一次“黑五”及未来销售活动提供参考和借鉴意义。

具体提出如下问题:

(1)畅销/滞销单品、商品品类情况分析。

(2)不同城市的消费情况,城市居住时长与消费水平之间的关系。

(3)用户画像分析

二、理解数据

1)数据集描述。

kaggle上面找到关于黑五的数据,一共有550000条数据。

零售商店中的交易数据,没有时间维度,职业、城市、婚姻状况进行了编码处理,产品分类进行了模糊处理。

数据获取地址:https://www.kaggle.com/mehdidag/black-friday

2)数据集中各字段含义

数据包含12个字段,分别如下:

User_ID:用户编码

Product_ID:产品编码

Gender:性别(F表示女性,M表示男性)

Age:年龄(分0~17、18~25、26~35、36~45、46~50、51~55、55+共7个年龄段)

Occupation:职业(分为0~20 共20个类别)

City_Category:城市类别(分ABC共3个类别)

Stay_In_Current_City_Years:在当前城市停留的年数(分0、1、2、3、4+共5个类别)

Marital_Status:婚姻状况(0表示未婚,1表示已婚)

Product_Category_1:商品所属分类1,不可为空

Product_Category_2:商品所属分类2

Product_Category_3:商品所属分类3

Purchase:购买价格,以美元计算

三、数据清洗

将从kaggle上下载的55万条交易数据,通过Navicat Premium客户端导入MySQL数据库。

数据集导入MySQL成功。

1、选择子集

本数据集一共12个字段,我们接下来的分析都会用到,所以,全部选取。

(删除列可用语句:Alter table blackfriday drop column 列名1;)

2、列名重命名

因为下载的数据集的字段名清晰明了,所以,我们暂时不对列名重命名。

3、删除重复的行。并且删除后的数据集存入新建表Friday中

如果看不到新建的表,记得选中“表”右键刷新。

可以看到,无重复行的新表的总记录为537577条记录。

4、添加主键

 四、构建模型

(1)畅销/滞销单品,商品品类情况


本次黑五活动中,销量最好的是product_id为P00265242的产品,其次是P00110742,P00025442。

我们同时看下,最畅销的商品品类有哪些?

畅销商品类目分别为:商品品类5,品类1和品类8,这三类都属于爆款分类。

同时我们再将每个商品品类的销量从低到高排序,查看有哪些单品销量最低。

销售最低的为商品品类9,销量只有404.


(2)不同城市的消费情况,城市居住时长与消费水平之间的关系

不同城市贡献消费金额情况如下:

不同城市间的消费情况也很不一样,城市B的消费金额最大,为208343161,占比总消费金额的41.52%,其消费金额遥遥领先其他两个城市。同时,城市B的消费人数226493,也是三个城市中消费人数最多的。所以,城市B用户需求旺盛,消费能力强,所以城市B是零售店的主力战场。

此外,城市B,虽然消费人数最低,为144638,总消费金额最低,为1295668797,但是城市A的客单价,却是最高的,1239874.45美元。所以,城市A也是一个潜力城市,有待挖掘。


不同城市居住时长贡献消费金额情况如下:

可以看到,居住时长为1年的消费者的消费金额是最高的。

(3)用户画像分析

按照每个用户ID划分分组,看看每个用户ID的消费金额有何分布?

此次黑五活动中,消费金额最多的一名客户,ID 为1004277,消费总金额为10536783美元。

①用户年龄、性别与消费金额。

可知此次黑五活动,男性为购物主力军,不管是哪个年龄层,男性消费金额都远高于女性。有些反常于与我们传统观念中认为的女性为购物主力军。特别是26-35岁的男性用户,是本次黑五活动的采购主力军。

婚姻状况、性别、年龄与消费金额。

在0-45岁间,未婚男性购物金额是最多的,占据购物的主力军。46岁以上的消费人群中,已婚男性的消费金额开始居多。

③不同职业贡献消费金额情况如下:

可以看到,不同职业购买金额差异也很大,消费金额总数最大的为职业类型4,最小的为职业类型8。

五、结论和建议

1、本次黑五活动中,最畅销商品P00265242产品,其次是P00110742,P00025442。可以利用爆款单品陈列在最主要位置,为其他商品引流。

2、最畅销商品类目分别为:商品品类5,品类1和品类8,这三类都属于爆款分类。仓库管理需要按照畅销商品名单,分类,及时安排库存,以防止缺货。

3、仓库管理需要针对消费需求旺盛的城市B提前备货,节省调度。

4、城市A和B的高端消费者比较多,这部分人群消费能力强。所以,平台需要有针对性的去维护好这些重点客户,增强品牌认识。

城市C客单价是最低的,可以将目标锁定在销量提升上,下次活动前,可以针对城市C策划大型促销活动,拉动消费,吸引人气,以提升销量。

5、此次黑五活动,26-35岁男未婚用户为购物主力军。平台可针对该年龄段男性未婚用户赠送优惠券,或其他优惠方案,保持这部分购物主力军的粘性。

你可能感兴趣的:(美国黑色星期五活动的交易数据分析)