第一篇文章,是一篇搬砖文,基本是复制其他大佬的分析思路和分析流程啦,自己照着做一遍。前段时间疯狂看excel的视频,现在终于派上了用场,也很是欣慰。最近一直在纠结要不要面试,因为自己的准备一点也不充分,感觉自己都无法交代自己;写简历的时候,也觉得没什么东西可写,所以,真的很想放弃了,就像是。。。逃婚的新娘?算了,简历只是个小插曲,容我再跟自己大战三百回合,反正离deadline还有4天,归根结底,我还是要在我的打怪升级路上继续前行,这才是真正的漫漫长路吧。
哈哈哈,果然废话写起来就停不下来,言归正传。其实写这篇文章之前,自己已经跟着|全糖布丁烤奶|的思路做了一遍,但做完发现不写篇总结报告真的如同“水过地皮湿”啊,当然啦,那苦苦思索的过程还是记忆犹新的,不得不说,苦苦思索过后发现真相的感觉真是豁然开朗。
这次,是真的要进入正题啦!
日常科普数据分析背景:黑色星期五即十一月的最后一个星期五,意为美国的圣诞大采购日(跟国内的双十一差不多,就是一个购物节)。在这一天,美国的商场都会推出大量的打折和优惠活动,以在年底进行最后一次大规模的促销。因为美国的商场一般以红笔记录赤字,以黑笔记录盈利,而感恩节后的这个星期五人们疯狂的抢购使得商场利润大增,因此被商家们称作黑色星期五。而商店的员工则使用黑色星期五这一名字来自嘲,表示这一天会忙得要死。商家期望通过以这一天开始的圣诞大采购为这一年获得最多的盈利。
数据来源:kaggel,不过现在找不到下载地址了,我在csdn上下载了,地址如下:链接: https://pan.baidu.com/s/1P1pOXeWC8R_esJ2rl2t8sg 提取码: hkhv
该数据共有537577条记录,12个字段,简介如下:
User_ID:顾客编码
Product_ID:商品编码
Gender:顾客性别(F-女性,M-男性)
Age:顾客年龄(分为7个年龄段:0-17、18-25、26-35、36-45、46-50、51-55、55+)
Occupation:顾客职业(简单用0-20的数字代替)
City_Category:顾客所在城市(简化为字母,本表涵盖A,B和C三个城市)Stay_In_Current_City_Years:在当前城市的居住年数(分为5个类别:0、1、2、3、4+,此处居住0年为一个存疑点,猜测是未统计该顾客的居住年数)
Marital_Status:婚姻状况(0-未婚,1-已婚)
Product_Category_1:商品所属分类1,不可为空
Product_Category_2:商品所属分类2,有空值
Product_Category_3:商品所属分类3,有空值
Purchase:购买金额(美元)
分析思路:
做分析之前,首先明确分析思路。该数据属于电商平台销售数据,其中电商数据分析的指标主要包含:
(1)流量指标
包括浏览量(访问量)、访客数(包括新访客数和回访客数)、当前在线人数、平均在线时间、平均访问量、日均流量、跳失率。
(2)转化指标
包括转化率、注册转化率、客服转化率、收藏转化率、添加转化率、成交准化率、(渠道转化率、事件转化率)。
(3)营运指标
成交指标:包括成交金额、成交数量、成交用户数;
订单指标:包括订单金额、订单数量、订单用户数、有效订单、无效订单;
退货指标:包括退货金额、退货数量、退货用户数、金额退货率、数量退货率、订单退货率;
效率指标:包括客单价、件单价、连带率、动销率;
采购指标:包括采购金额和采购数量;
库存指标:包括库存金额、库存数量、库存天数、库存周转率、售馨率;
供应链指标:包括送货金额、送货数量、订单满足率、订单响应时间、平均送货时间。
(4)会员指标
包括注册会员数、活跃会员数、活跃会员比率、会员复购率、平均购买次数、会员回购率、会员留存率、会员流失率。
(5)财务指标
包括新客成本、单人成本、单笔订单成本、费销比、物流相关的财务指标(包括仓储费占比、物流费占比等)。还包括利润、资金周转率等常规财务分析指标
由于本数据未涵盖上述所有的分析指标,所以本文从以下几个指标方面进行分析:
数据清洗
(1)选择子集
经过笔者对该数据检查,该数据集所包含的12个数据类别中,Product_Category_2列和Product_Category_3列在分析过程中不会使用,因此对以上两列进行隐藏操作。
(2)列名重命名
经过笔者对该数据检查,该数据集所包含的12列的列名表达清晰简洁,无需进行列名重命名。
(3)删除重复值
简单插一句嘴,这个数据表是以user_id + product_id来作为主键的(唯一标识一条记录的字段)。因此只要在定位选项卡中对这两列筛选无重复值即可认为整张表是不重复的。
(4)缺失值处理
经过笔者对该数据检查,分析需要用到的列(User_ID,Product_ID,Gender,Age, Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1和Purchase,下同)无缺失值,计数均为537577。
(5)一致化处理
针对Stay_In_Current_City_Years列中的4+为文本格式,先通过替换方式将“4+”替换为“4”,再对该列设置单元格格式将文本转化为数字。
(6)数据排序
经过笔者对该数据检查,该数据集默认以用户ID从小到大排序,其他分析需要用到的列无需特定排序,因此未进行数据重新排序。
(7)异常值处理
经过笔者对该数据检查,分析需要用到的列均无异常值,无需异常值处理。
(8)替换字段
为显示方便,对列Gender和列Marital_Status进行值替换。列Gender,替换“M”为“男”,“F”为“女”;列Marital_Status,替换“0”为“未婚”,“1”为“已婚”。
数据分析
人:
消费者的性别比例:
话说,做到一步的时候我已经遇到了问题,所以就把具体的分析过程和做法写出来以供参考。
因为数据透视图是按照用户ID做的汇总,因此一定要保证user_id无重复值,具体做法为:选中user_id列-》数据-》筛选-》高级筛选-》选择不重复记录
可以看到用户id重复的列都被隐藏了。接下来将筛选出的数据表复制到另外一张表。alt+a全选单元格,直接复制粘贴是肯定不行的,因为把隐藏起来的行也一起复制了,我们希望只留下显示出来的行。做法是:ctrl+f调出查找替换窗口-》定位选项卡-》勾选可见单元格。这样就把可见单元格(不含隐藏的)选中了,然后复制粘贴到另一张表就好了,结果如下:
接下来就是对这张表生成数据透视表了。点选某一单元格,数据-》数据透视表,在新表中建立数据透视表,在数据透视表的行字段放入gender,值字段放入用户ID(不带重复的哦),就自动汇总出每个性别的总和了。右键按图所示选总计百分比,就显示出来想要的结果了。
消费者年龄分布
消费者职业分布:
消费者所在城市居住时间分布:
消费者婚姻状况:
关于对消费者的分析,可以看到26-35岁的消费者人数最多,18-25和36-45也是主要消费力量;职业分布中,4,0,7职业是消费主力;在城市居住年数统计中,在城市居住一年的人群是消费主力,其他居住年数的消费者人数差异性不大,猜测是刚搬来该城市的人员需要添置的物件较多,因此占据了多数的人群百分比;消费者婚姻状况中,两类消费群体的人员占比差异性不大。
货
该部分的筛选要在原始表格上进行,不能有折叠的记录
销售额最高的产品类别
可以看到,销售额最高的产品类别是品类1,品类5和8的销售额也较为靠前
按性别细分,则可得到如下结果:
这张图较上一张能给出更多的信息,比如男性消费者在每类商品中贡献出的交易额占76.79%,女性则占23.21%,还可以看出男女消费者在每个品类的商品中贡献消费额的占比。
不同年龄段的销售额贡献率:
在热销品类1,5,8中,26-35岁的消费者依然是销售额贡献最大的人群。
销售额最高的产品(仅截取了部分)
销售额最高的产品是P00025442,销售额是27532426美元。
销量最高的产品类别
销量最高的产品类别是第5类
销量最高的产品:
销量最高的产品是P00265242。
场:
各城市的产品销售额:
各城市的产品销售量:
可以发现,B城市无论在产品销售额还是产品销售量方面都是最高的。
结论:
1.26-35是消费主力群体,分析这类人群的特点:不是学生身份,有一定的购买力但不强,有充足的个人时间,因此可选择一些依靠消耗时间多少来获得相应力度折扣的打折方式。
2.针对来城市城市不久的人可以推出一些家电、家具类的打折促销。
3.针对销量高的产品和销售额高的产品应优化选品,为消费者提供更好的产品购买体验。
霍。。。。。终于写完了,不得不说,想写好一个技术总结也没那么容易,百看不如一试,真正写才发现写博关注的东西不是技术如何实现,而是如何清晰条理的把自己做的思路呈现出来,以及如何针对操作的结果做分析。自我感觉分析的没那么好,主要是因为没接触过真实的电商销售,对业务完全不了解,因此感觉自己提的建议完全就是纸上谈兵。
这次的总结,能再加点生成的图之类的就更清晰啦,当然有更强大的数据可视化工具tableau,期待ing~
总之,打怪升级之路开始了!下周学习的内容就比较简单啦,是 MySQL,对我来说是复习➕精进,要多做练习呀!