【分析流程】
一、项目背景及目的
在美国,“黑色星期五”(每年11月的第四个星期五)已成为一种购物文化,商家在这一期间的促销力度空前,消费者们也纷纷抓住时机剁手血拼。由于活动涉及人群较多,商品品类繁杂,如何通过准确、精细化运营实现利益最大化,成了各大商家关心的重要问题。
本项目旨在通过对某平台“黑五”销售数据的分析,描绘相关消费特征并提出针对性建议,以更好的应对下一次活动。具体而言:
1)了解本次“黑五”整体销售情况
2)探究各地消费详情,指导市场推广
3)查找爆款商品,提早做好库存、陈列准备
4)分析消费基础属性及消费行为,进行精准营销
二、项目框架搭建
本次项目以常见零售指标搭建“人货场”分析框架,具体包括性别、年龄、职业等消费者基础属性指标,商品成交、客单价、销售额等消费者行为属性指标。
三、项目数据获取与处理
1、数据获取:
本次数据选自Kaggle上一个关于“Black Friday”的数据集, 记录了零售店在黑色星期五的交易记录样本。该数据集共包含537577条记录。
2、数据处理
用Excel、SPSS对数据进行预处理;
Mysql提取数据并分析
2.1字段描述
“Black Friday”数据集共包含12个字段,分别是User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase。
考虑后续观感,此次项目分析将上述字段替换为中文字段,具体如下表:
【字段解释】
零售商店中的交易数据,没有时间维度,职业、城市、婚姻状况进行了编码处理,产品分类进行了模糊处理。
该数据集包含537577条数据,5891个不同用户_id,3623个不同商品_id,7个年龄段,21类职业,3个城市,18种商品分类的不同维度数据。
a.年龄:分为0~17,18~25,26~35,36~45,46~50,51~55,55+共7个字段;
b.职业:共21类职业,分别以编号0~20处理;
c.商品类别:共3大类,18种商品,同一种商品可同时可以属于不同类别。
2.2数据清洗
【去重】
因数据量较大,Excel中“删除重复项”和“高级筛选”操作方法耗时太长,此处选择数据透视表查重法。
数据集中,同一用户有多次购买记录,故以用户_ID 和商品_ID作为主要查询对象,对用户_ID 和商品_ID进行纵向排列,统计交叉记录出现次数,结果显示537577条记录交叉次数均为1。故本例中无重复值。
【缺失值】
根据上表中“记录数”,仅“商品类别_2”和“商品类别_3”分别缺失166986、373299条记录。但同一种商品可同时可以属于不同类别,该数据集中“商品类别_2”记录完整,故此处不用处理缺失值。
【格式错误】
该数据集中无格式错误。
【离群值】
利用SPSS对连续性变量“购买金额”计算Z标准化得分,结果显示,最小Z值为-1.83674,最大Z值为2.93396,均在3倍标准差内。故数据集中无离群值。
【数据重构】
因需对该数据集中“年龄”进行分析,而原始数据中年龄以分段数据展示,故对年龄进行重构,计算平均年龄。
使用Excel中分列功能,插入最低,最高及平均年龄3列。结果显示,“平均年龄”列共出现20903条异常记录,均为55+字段,此处将异常记录平均值替换为55。
【字段选择】
根据分析需求,选取用户_ID、商品_ID等原始表中12个字段,加上重构后的“平均年龄”字段,另外为原始表每条记录附“ID”字段,共14个字段。
四、项目分析过程
1、商品交易统计
统计显示,本数据集“黑五”期间零售店交易共537577笔订单,销售总额为5017668378亿美元,人均购买金额为851751.55美元。
2、商品销售情况
2.1畅销品品类分布
统计显示,在商品类别_1中,销售总量排名前三的商品分别是:商品品类5,商品品类1,商品品类8,三款商品累计销量占所有商品销量的74.24%,累计销售额累计占比也高达72.74%。可见,品类5,品类1,品类8是客户集中购买的主力产品,是名副其实的畅销品类。
在商品类别_2中,畅销商品品类排名前三的分别是品类8,品类14,品类2,三款商品累计销量占总体销量的44.71%,累计销售额占总体的45.36%。
在商品类别_3中,畅销商品品类排名前三的分别是品类16,品类15,品类14,三款商品累计销量占总体销量的47.41%。
2.2畅销商品分布
统计显示,P00265242, P00110742, P00025442三款商品占据销量排行榜前3名。
此外,在销售量排名前10的商品中,有7款商品在商品类别_1中归属于品类1;有5款商品在商品类别_2中归属于品类2,商品类别_3中,畅销商品所属品类较为分散。
3、各地区消费群体结构
统计显示,C城市的消费人数最多,共3139人,占比达总购买人数的53.28%,但消费总额贡献却只占了32.66%;B城市的消费总额贡献是三个城市中最高的,占比达41.52%,客户总量仅次于C城市,占到28.98%; A城市的客户数量和消费金额占比都是最低的,但客单价却是最高的。
值得注意的是,A,B城市的人均消费金额分别是C城市的近似2倍,由此可以推测A,B城市的消费水平较高。
建议,在C城市的商家可通过折扣、优惠、套餐捆绑等活动激发客户购买欲,促进客单价提升;B城市是消费主力城市,客户需求旺盛且消费能力较强,建议可做捆绑销售进一步提升客单价;A城市的客单价最高,但消费总金额和消费人群较少,建议商家提升活动宣传力度,尝试引入高端商品。
4、用户画像分析
4.1性别、年龄分布
统计显示,5891个客户中,男性共4225人,占比71.72%,消费总金额占比达76.79%;女性客户人数占28.28%,消费占比23.21%。可以看出,本次“黑五”零售店的消费超7成由男性消费者拉动,男性成为本次大促的主力军。
其中,26—35岁年龄段的男性购买能力最强。这与我们的认知有一定差别,普遍认为女性消费欲望更高。推测认为,该年龄段的男性收入趋稳定,可能部分人为家庭或配偶买单,也有可能为自己购置高端产品,如电子产品、奢侈品、旅游产品等。当然,若要验证上述结论,还需对男性购买的商品做进一步分析,本数据集中商品类别已做模糊处理,此处略过。
4.2性别、婚姻分布
统计显示,未婚消费者的消费人数、消费金额远胜过已婚消费者。其中,男性未婚消费者的数量最多,占总人数的41.93%,消费金额也是最高的;男性已婚消费者的数量约占29.79%,这一数字占比甚至高于所有女性消费者数量的占比。
4.3职业分布
从职业分布看,职业为4,0,7的3类人群消费金额和购买人数累计排名靠前,购买欲望强烈。
人均消费金额排名前三的分别是职业20,19和15,这三类群体的消费能力较强。
4.4消费贡献力度排名
根据年龄、性别、职业字段对客户进行细分,可以看到,消费金额贡献度最大的群体是年龄在18-25岁,职业为4的男性;排在第二位的是年龄在26-35岁,职业为0的男性;年龄在26-35岁职业为7的男性贡献率排第三。
人均支出方面,剔除细分人群中人数占比不足1%的分类,购买能力排在前五的均为年龄在26-35的男性,分别是职业1,职业0,职业4,职业2,职业20的群体。
综合看来,消费群体较大且个人消费能力较强的群体包括年龄在26-35,职业为0,7,4,1的男性和年龄在18-25职业为4的男性。
五、项目分析结论及建议
1、畅销类目及爆款商品
在商品类别_1中,类目5,8,1为畅销品类,三款商品的累计销售贡献率高达70%,是客户集中购买的主力商品类目。建议在下次活动前,可提高此类商品库存,防止断货;另外提前按商品名单、类别等做好仓库管理工作,方便调度。
此外,本次活动中包括P00265242, P00110742, P00025442等在内销量排名前10的商品作为爆款商品,可通过位置陈列、捆绑销售等方式为其它商品引流,提升销量与销售额。
2、城市消费特征
A,B城市人均消费金额分别是C城市的2倍,可见A,B城市消费水平更高。其中B城市是消费主力城市,消费额贡献高达40%,客户需求旺盛且消费能力较强,建议客户运营部门做好客户维护工作,增强对品牌的认同;A城市个人消费能力虽强,但客户数量和消费金额占比都是最低的,建议在维护老客户的同时,举办促销活动吸引人气,同时加强活动宣传力度,以提高销量,另外可尝试引入高端消费品。
C城市的客户数量最高,占比超总人数5成,但客单价确实最低的,建议C城市的商家可通过折扣、套餐捆绑等活动激发客户购买欲,促进客单价提升。
3、客户消费特征
本次“黑五”零售店的消费超7成由男性消费者拉动。具体而言,年龄在26-35岁之间,职业分别为0,7,4,1的男性和年龄在18-25职业为4的男性属于消费中坚力量,不仅客户数量庞大,人均消费能力同样不容小觑。
后期可针对此类客户进行精准营销。例如,下次活动前可在一些社交媒体平台,常用APP等优质渠道上做线上活动推广,突出亮点,吸引消费者关注,同时有针对性的对此类客户进行邮件、短信推送营销。
另外,针对男性消费者群体比重较大这一分析结论,还需进一步拆解分析,了解其背后真实的用户偏好和购买行为,以达到精准营销的目的。