7周入门数据分析:(2)分析界的No.1——Excel

在数据分析界(结构化数据)也同样有二八法则,Excel就是最重要的那20%。本文结构如下:
1、 必须掌握的Excel函数
2、Excel常用技巧
3、用Excel画图
4、Excel分析数据过程中的基本原则
5、练习的数据集

1 必须掌握的Excel函数

具体使用方法可阅读WPS学院,绝大多数office-excel和WPS-excel中的函数是很接近的。

数据清洗类

实践过程中发现,主要需要对:数据缺失,奇异值数据,数据中的格式存在问题三种情况进行数据清洗
(1)Trim
清除掉字符串两边的空格。称之为保险函数,用了准没错,不用可能有错,还是那种很难排查的错误。
(2)Concatenate
=== Concatenate(单元格1,单元格2……)==
合并单元格中的内容,还有另一种合并方式是& 。你还在为合并单元格后不能同时保留单元格内容而烦恼?
(3)replace
=Replace(指定字符串,哪个位置开始替换,替换几个字符,替换成什么)
终于知道表格里身份证号码和电话号码的“158****5678”的格式是怎么做出来的了
(4)Left/Right/Mid
=Left(指定字符串,截取长度)
(5)Len/Lenb
返回字符串的长度,在len中,中文计算为一个,在lenb中,中文计算为两个。查看一列数据数据长度是否相同,有没有长度奇异值。
(6)Find
=Find(要查找字符,指定字符串,第几个字符)
查找某字符串出现的位置,可以指定为第几次出现,与Left/Right/Mid结合能完成简单的文本提取。
(7)search
和Find类似,区别是Search大小写不敏感,但支持*通配符
(8)Text
判断日期是星期几

关联匹配类

(1)Vlookup
=Vlookup(查找的值,哪里找,找哪个位置的值,是否精准匹配)
应该是Excel最牛的函数之一,多表关联的作用,相当于SQL的join函数
(2)Index
=Index(查找的区域,区域内第几行,区域内第几列)
返回的是表格内容(给坐标,返回内容)
(3)Match
=Match(查找指定的值,查找所在区域,查找方式的参数)
返回的是坐标(给内容,返回坐标)
(4)Row/Column
返回单元格所在的行或列

逻辑运算类

IF、And\Or\、Is系列:常用判断检验,返回的都是布尔数值True和False。常用ISERR,ISERROR,ISNA,ISTEXT,可以和IF嵌套使用。

计算统计类

(1)Max、Min、Averagea、Rank:排序,返回指定值在引用区域的排名,重复值同一排名。
(2)Rand/Randbetween:常用随机抽样,前者返回0~1之间的随机值,后者可以指定范围。模拟实验时候会用到,相当于numpy.rand.random()
(3)Int/Round:取整函数,int向下取整,round按小数位取数。e:round(3.1415,2) =3.14 ;
Python中的int()也是向下取整,np.ceil向上取整,np.floor向下取整(取整后依然是float)

时间序列类

(1)Year、Month、Day:将年月日拆分开
(2)Weekday:(=Weekday(指定时间,参数))
返回指定时间为一周中的第几天,参数为1代表从星期日开始算作第一天,参数为2代表从星期一开始算作第一天(中西方差异)。我们中国用2为参数即可。
(3)Date:将年月日合并
(4)Today、Now:返回当前时间戳,动态函数,(2020/1/2 21:21)

2 Excel常用技巧

快捷键

Crtl+方向键,对单元格光标快速移动,移动到数据边缘(空格位置,真香,一举两得)
Crtl+Shift+方向键,对单元格快读框选,选择到数据边缘(空格位置)
Alt+Enter,换行(拯救表格内容的丑陋排版)
(其他的还有一些,但是这三个快捷键是我比较偏爱的,也是新学的)

格式转换

时间格式在Excel中可以和数值直接互换,也能用加减法进行天数换算。
列举是一些较通用的范例(不同编程语言还是有差异的)。
YYYY代表通配的四位数年格式
MM代表通配的两位数月格式
DD代表通配的两位数日格式
HH代表通配的的两位数小时(24小时)格式
hh代表通配的两位数小(12小时制)格式
mm代表通配的两位数分格式
ss代表通配的两位数秒格式
例如2016/11/11可以写成:yyyy/MM/dd
2016-11-11 23:59:59可以写成:yyyy-MM-dd HH:mm:ss

数组

先看数组的最基础使用。选择A1:D1区域,输入={1,2,3,4}。记住是大括号。然后Ctrl+Shift+Enter。我们发现数组里的四个值被分别传到四个单元格中,这是数组的独有用法。
7周入门数据分析:(2)分析界的No.1——Excel_第1张图片

分列

以将某一列按照特定规则拆分。常常用来进行数据清洗。

数据透视表

数据透视表,可以方便做很多统计分析的工作,能够将字段与字段进行关联,能够调节关联方式,也能够添加筛选条件,相当于一个综合了“groupby”、“where“等多种筛选条件的查询语句。直接将所有字段选中建立数据透视表,再在右侧选择”行“,”列“,”值“的地方筛选字段。其使用方法如下:
7周入门数据分析:(2)分析界的No.1——Excel_第2张图片
7周入门数据分析:(2)分析界的No.1——Excel_第3张图片

自定义下拉菜单

(WPS操作非常简单)
7周入门数据分析:(2)分析界的No.1——Excel_第4张图片

3 用Excel画图

秦老师的博客有详细绘制一副甘特图的教程,其他类型插图建议参看他的《七周成为数据分析师》

4 Excel分析数据过程中的基本原则

(1)五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论
(2)一切数据分析都是以业务为核心目的,而不是以数据为目的。
(3)尽量不删除数据,而是隐藏,保证原始数据的完整
(4)数据清洗首先关注数据有无缺失,如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段;数据是否一致化;数据是否有脏数据(乱码,错位,重复值,未匹配数据,加密数据等)
(5)数据是文本格式,偏向汇总统计的计算;数值型的数据比较多,就会涉及到统计、比例等概念;如果有时间类数据,那么还会有趋势、变化的概念。

5 练习的数据集

链接: https://pan.baidu.com/s/1_dym8tSOxjU_E-UkdKGsHg 提取码: jii9

你可能感兴趣的:(数据分析,数据分析)