世界上最深入人心的数据分析工具,是Excel,在日本的程序员考试中,程序语言部分,是可以选择Excel表格工具作为考试选项的。可见其重要性。
数据分析的步骤:
提出问题
理解数据
数据清洗
构建模型
数据可视化
Excel中的数据类型主要有:文本型,数值型,逻辑型。
如果右键单元格显示为常规型,表示和数据本身表示出的类型相同。
数值类型一般是右对齐的。
数据清洗
1. 选择子集
对列进行隐藏和再表示。
2. 列名重命名
直接对列名进行重新命名。
3. 删除重复值
数据选项卡,删除重复值,选择主键。
4. 缺失值处理
通过查看列的总数据数量进行比较是否缺失,如果发现缺失值,点击开始选项卡中的查找和选项,点击定位条件,选择空值找到缺失值。对其中的一个缺失值处进行填写,ctrl+enter使其他的空格也填入同样的值。
5. 一致化处理
进行单元格的复制和拆分处理,函数的运用。
几个重要的函数:
AVERAGE
FIND(要查找的字符串,字符串所在单元格)→返回一个数字,也就是位置。
LEFT/RIGHT(字符串所在的单元格,从左/右开始到要截取的字符数)
MID(字符串所在的单元格,开始位置数,截取长度)
LEN(单元格)→返回字符串的长度是个数字。
COUNT
IF(条件,条件成立值,条件不成立值)
VLOOKUP(查找目标,查找范围,返回列,精确0还是模糊1查找)
其他:
函数的复制:双击十字架。
使用数据筛选功能,处理没有正确适应函数的单元格。
一般函数报错,可能是因为数值类型是文字类型的数字,因此无法计算。可以进行数据类型转换,或者使用单元格拆分处理进行转换。
6. 数据排序
排序可以使用开始菜单的排序和筛选功能。
数据透视表的原理:
Split(数据分组)→Apply(应用函数)→Combine(组合结果)
插入选项卡,选择数据透视表,选择新工作表,将需要进行数据分组的分析轴,拖入对应的行和列。
7. 异常值处理
找到不需要的数据,和异常的数据。
数据清洗后,将文本另存为清洗结果文本,方便后续使用。
构建模型
1. 使用数据透视表进行模型构建
构建后任意值右键,将值的显示方式设置为列汇总的百分比,可以改变显示方式。
2. 分析工具加载
文件选项卡,选项按钮,加载项按钮,选择跳转,加载宏中选择分析工具库,确定即可。
3. 描述统计分析
选择数据选项卡,选择数据分析按钮,弹出框中选择描述统计,输入选项即可生成新的统计表。
透视表中的值汇总依据,选择平均值。
日期处理
对日期的处理可以让我们提高工作效率。总结学习到的日期处理的小例子。
1. 购买年份和出生年份的差,求年龄。
A出生日期,B购买日期
=left(B1,4)-left(A1,4)
2. 日期差取整数。
=round((B1-A1)/365)
3. 如果业务要求取月份差,天数差,使用datedif函数。
又叫隐藏函数。Datedif(起始日期,结束日期,返回值)
返回年使用=datedif(B1,A1, "y"),其他还有返回月数的m和返回日数的d。
使用时,要注意,起始日期要小于结束日期,不然会返回错误。
动态计算到今天的天数等,可以再结束日期处使用today()。
电商数据分析
1. 重新熟悉一下数据字段
2. 对数据进行清理和整理
对商品购买表进行数据的简单清洗,主要是提取子集,对日期字段进行处理。
对婴儿信息表进行数据的简单清洗,主要是通过vlookup函数匹配购买日期,datedif函数算出年龄字段,以及对日期字段进行处理。
3. 描述统计分析
主要对购买量和婴儿年龄进行了统计。购买统计中的最大值为10000,暂做保留。
4. 使用数据透视表进行进一步分析
① 各个历史时间段内的购买数据分析
分年进行统计:可以看出2014年购买量达到峰值。
按照月份进行统计,可以看到各个年份11月12月购买量最大,推测是双十一双十二的影响。
② 对一级商品分类进行统计,可以看到编码为50018831的商品具有最高的购买量,可以针对此进行用户需求的分析。
③ 对婴儿年龄进行分析,可以看出,用户大部分集中在0~3岁,男性宝宝的用户量略微高于女性宝宝,少数用户没有记录年龄。
学习感悟
Excel是简单易于上手的分析工具,不需要复杂的安装,数据就可以在眼前通过各种形式表现出来,数据透视表更是功能强大堪比BI软件。简单一击就能将分析轴排布在右侧进行使用。
最初的印象是小看Excel的,对于自己不会的功能,总是以我不太懂Excel为借口蒙混过关,而通过学习发现,很多的大型公司也都在用Excel进行出色的分析。
另外关于数据分析的流程和思考方式,也非常实用,一切都要在实操中升华成自己的技能。遇到问题,发现问题,查找方法,积极交流,找到解决方案,无论是自己学习还是商业分析,都是很好用的方法论。
作者:SW字母妞
来源:简书
延伸阅读
都说经典,同期群分析到底是个啥? Pandas熟练?进来测测这50道题吧! 实战解读:数据分析,如何更进一步?
数据不吹牛读者群已经建立,后台回复“入群”,即可加入有趣讨论,交流数据干货
“还不错”