Excel数据分析项目——电商数据分析实战

Excel数据分析项目——电商数据分析实战

  • 一、明确目的——以业务为核心目的
  • 二、理解数据
    • ①商品购买记录数据
    • 购买用户信息表
  • 三、提出问题
  • 四、数据清洗
    • ①选择子集
    • ②列名重命名
    • ③数据类型转换
    • ④数据去重
    • ⑤缺失值处理
    • ⑥异常值处理
    • ⑦关联数据表
    • ⑧数据整理
  • 五、描述性统计
  • 六、数据可视化
    • ①哪些类别(细分)的商品比较特效,总销量前五的产品是哪些类别?各自占比是多少?——确定哪些商品应该多供应
    • ②不同种类商品的销售趋势是怎么样?增长还是下降?——选出畅销类商品
    • ③商品对应的哪个年龄段而言较为畅销?——若有规律,可以尝试将该年龄段的其他商品尝试增加
    • ④用户中的性别分布是怎么样的?商品购买数量和用户性别分布是否有关系?
    • ⑤哪些客户更具有购买力,更具有付费意愿?
  • 七、总结分析

一、明确目的——以业务为核心目的

案例背景:有一份“淘宝母婴用品店的销售数据”需要帮助商家实现盈利最大化
目标:确定产品销量和哪些因素有关。产品种类、时间、用户年龄段、客户性别。以及它们之间的变化趋势,找出可以改善的点

二、理解数据

①商品购买记录数据

有表格如下
Excel数据分析项目——电商数据分析实战_第1张图片
近3w条数据,7个字段,分别代表如下意义

字段英文名 字段中文名 注释
user_id 用户id 具有唯一识别性,可作为分析主键
分析某一个用户的行为时,作为识别键
auction_id 购买行为ID 购买行为的唯一标识编号
可以用来细化用户的购买行为数据
cat1 商品大类 用户购买的商品类别
可通过该数据分析用户喜欢的商品类型
cat_id 商品小类 用户购买商品的细分小类
可进一步分析用户喜欢的类型
property 商品属性 简单理解分析数据集,发现商品属性字段分析意义不大
所以后面将会在表中隐藏
buy_mount 购买数量 用户购买商品数量的真实情况
进一步可通过多用户购买数量判断该商品是否热销
day 购买时间 用户购买行为发生的时间
可推测商品销售趋势,也是比较重要的字段

P.S:ctrl+tab键可以快速切换到另一个表

购买用户信息表

有表格如下
Excel数据分析项目——电商数据分析实战_第2张图片
900+数据,3个字段,分别代表如下意义

字段英文名 字段中文名 注释
user_id 用户id 用户账户名称,我们将会通过这个字段来连接两张表
birthday 出生日期 可了解用户的年龄段,是比较重要的字段
gender 性别 0 男性,1 女性。可分析购买商品的男女婴儿比例
是这次分析中的重要字段

三、提出问题

再次明晰分析目标,并根据目标提出问题
目标:确定产品销量和哪些因素有关。产品种类、时间、用户年龄段、客户性别。以及它们之间的变化趋势,找出可以改善的点,实现盈利最大化

  • 哪些类别(细分)的商品比较特效,总销量前五的产品是哪些类别?各自占比是多少?——确定哪些商品应该多供应
  • 不同种类商品的销售趋势是怎么样?增长还是下降?——选出畅销类商品
  • 商品对应的哪个年龄段而言较为畅销?——若有规律,可以尝试将该年龄段的其他商品尝试增加
  • 用户中的性别分布是怎么样的?商品购买数量和用户性别分布是否有关系?
  • 哪些客户更具有购买力,更具有付费意愿?

四、数据清洗

一般包括以下8个部分
选择子集、列名重命名、数据类型转化、数据去重、缺失值处理、关联数据表、异常值处理、数据整理八个步骤
在清洗之前,要对原始数据做好备份

①选择子集

对不需要的字段直接进行删除,本次分析中property字段与整个分析无关,所以选择对此字段进行删除

②列名重命名

将英文字段转换为中文字段,方便理解分析,改完后的表格如下Excel数据分析项目——电商数据分析实战_第3张图片
Excel数据分析项目——电商数据分析实战_第4张图片

③数据类型转换

1> 购买数量中的单位不统一,无法进行分析计算,需要进行数据类型转换,可以使用left函数进行字符串提取,会使用到以下几个函数

  • left:字符串从左到右进行切片
  • len = 数字个数+字符个数
  • lenb = 数字个数+字符个数×2

使用方法如下:
因为都是数字+【件】的字符串都是从左到右排列的,数字个数就是位置数,根据以上公式,那么len*2-lenb即为数字个数=位置数

只保留数字的购买数量公式即为(假设原购买数量单元格为E8)
=LEFT(E8,LEN(E8)*2-LENB(E8)*1 后面 *1可以快速转化为数字

以上步骤完成数据类型转换以后即可对原购买数量字段进行删除,选择新字段复制-粘贴值即可全部转化为数值而非公式

2> 购买时间为常规字符串,不是时间型,选中购买时间整个字段 - 数据 - 分列 - 下一步 - 继续选择下一步,选中【日期】,默认为YMD,点击完成 - 最后即可转化为含斜杠的日期格式,同理出生日期同样需要修改

④数据去重

把数据中所有字段完全一致的信息删除
两个表都需要做后面的操作:单击任意一个单元格 - 数据 - 删除重复值

⑤缺失值处理

有两种处理方法:
填充数据:数据量较少,删除会影响分析结果
删除数据:适用于数据量很多,删除数据不会影响到分析结果时

通过对比发现,商品大类和商品小类两个字段是有缺失的,但是缺失数据相对于整体数据量占比很少,所以直接删除即可

单击数据区域任何一个单元格,快捷键Ctrl+g进行定位,定位条件选择控制,然后在开始界面的【删除】中选择【删除工作行】即可对有空值的行进行删除

⑥异常值处理

使用筛选功能查看异常值

选择数据区域任意单元格,Ctrl+shift+L快速调出筛选,发现购买记录表中的购买数量的最大值是1w,偏离了正常值,所以需要对此行进行删除
用户信息表中出生日期有一个1984年,也偏离了正常值,需要对此行进行删除;性别列也有一个2无意义,进行删除

⑦关联数据表

两个数据表在不同的表格文件中,需要对数据进行合并,使用vlookup函数
举例查找出生日期,函数为(有些匹配不到),然后用筛选将null值删除

=VLOOKUP(A3,[2购买用户信息表.xlsx]购买用户信息表! $ A: $ B,2,0)

用同样的方法求出性别,隐藏null值

⑧数据整理

使用到year函数计算用户年龄,用购买时间-出生日期的年份即可得到用户年龄,然后隐藏负值

使用IF函数来将性别变为【男女】=IF(H3=0,“男”,“女”)

五、描述性统计

需要用到Excel描述统计分析库,需要进行设置添加

文件 - 选项 - 加载项 - 转到 - 勾选【分析工具库】
转到数据菜单点击【数据分析】,双击【描述统计】
Excel数据分析项目——电商数据分析实战_第5张图片
Excel数据分析项目——电商数据分析实战_第6张图片
【输入区域】即为需要分析的区域,勾选【标志位于第一行】【汇总统计】【平均数置信度(95%)】,可以生成下面的图表
Excel数据分析项目——电商数据分析实战_第7张图片
中位数和众数都是1,代表大多数客户购买力较低

六、数据可视化

解决刚开始提出的5个问题

  • 哪些类别(细分)的商品比较特效,总销量前五的产品是哪些类别?各自占比是多少?——确定哪些商品应该多供应
  • 不同种类商品的销售趋势是怎么样?增长还是下降?——选出畅销类商品
  • 商品对应的哪个年龄段而言较为畅销?——若有规律,可以尝试将该年龄段的其他商品尝试增加
  • 用户中的性别分布是怎么样的?商品购买数量和用户性别分布是否有关系?
  • 哪些客户更具有购买力,更具有付费意愿?

首先创建数据透视表,区域为所有数据,在新的sheet中创建,然后就可以分析上面的5个问题了

①哪些类别(细分)的商品比较特效,总销量前五的产品是哪些类别?各自占比是多少?——确定哪些商品应该多供应

使用数据透视表,【行】设置为商品大类,【值】设置为购买数量,得到下面的数据透视表
Excel数据分析项目——电商数据分析实战_第8张图片
选中购买数量列,按降序排列,为了求比例,需要在【值】处再拖入一个购买数量,然后点击此“行”任意一个单元格,右键选择值显示方式 - 总计百分比,就可以显示每个大类的百分比,最终效果图如下
Excel数据分析项目——电商数据分析实战_第9张图片
p.s:先选中行再用Ctrl+shift+L可以快速选中下面的所有行

②不同种类商品的销售趋势是怎么样?增长还是下降?——选出畅销类商品

【购买时间】拖到行,【商品大类】拖到列,【购买数量】拖到值
此时因为只有2013和2014有比较完整的数据,所以对数据进行筛选,只保留2013和2014年的数据,展开可以看到各个季度的具体数据

对数据进行趋势图绘制,选择需要绘制的数据集,点击【插入】选择折线图,得到图表如下,即可直观看出各类商品的销量趋势
Excel数据分析项目——电商数据分析实战_第10张图片

③商品对应的哪个年龄段而言较为畅销?——若有规律,可以尝试将该年龄段的其他商品尝试增加

将【年龄】字段拖到行,【购买数量】字段拖到值,可以得到不同年龄的购买数量情况透视表,再拖一个【购买数量】到值并选择显示百分比,可以更直观地看出各年龄购买量占总销量的百分比

此时采用柱状图进行可视化展示,如下,可以看出0~3岁的销量是最好的
Excel数据分析项目——电商数据分析实战_第11张图片

④用户中的性别分布是怎么样的?商品购买数量和用户性别分布是否有关系?

将【性别】分别拖到行和值里,可以计算出两个性别的人数,插入饼图可以看出两个性别占比,得到结果如下,可以发现女性用户的数量和购买量都是要高于男性的
Excel数据分析项目——电商数据分析实战_第12张图片

⑤哪些客户更具有购买力,更具有付费意愿?

新建透视表,用户ID设置为【行】,购买数量设置为【列】
点击行标签筛选 - 值筛选,选择显示前五项,即可得到购买数量前五的用户,选中数据进行排序,选择降序排列,即可获得购买力为前五的用户ID,对于购买力最强的用户可以进一步分析其用户行为,并采取针对性的维护措施,数据透视表如下
Excel数据分析项目——电商数据分析实战_第13张图片

七、总结分析

通过明确问题、理解数据、数据清洗、分析、数据可视化等步骤,可以得出以下三个结论

  1. 婴幼儿阶段的商品卖得比较好,7岁以上年龄段产品的传化率不高
  2. 14年的销量相较13年有明显升高,其中5008168编号的产品的增量最为明显
  3. 女性产品的销量明显比男性的高,其中有一些商品的销量比较突出,如50084815卖得最好
  4. 通过分析得到了一个高价值用户信息表,对表中的用户应当给予维护,防止流失
  5. 但由于商品信息表和用户信息表的数量差较大,所以分析结果可能会有一定的偏差,如果有更多的用户信息,分析结果会更准确一些

你可能感兴趣的:(Excel数据分析项目,excel)