《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理

这本书是基于Excel讲解的,顺便复习了下Excel的用法,笔记只记录我觉得有用的内容。

第一章 数据分析那些事儿
第二章 确定分析思路
第三章 数据准备
第四章 数据处理
第五章 数据分析
第六章 数据展现
第七章 图表优化
第八章 数据分析报告

第三章 数据准备

3.1 理解数据
对数据理解是数据分析的一个重要前提。
3.1.1 字段与记录
3.1.2 数据类型

常用数据类型课归结为两大类:字符型、数值型。
字符型数据
字符型数据不具有算术运算能力的文本数据类型。
字符型数据属于分类数据,即可按字符型数据进行分类统计,比如按性别、部门分类统计。
excel中字符型数据在单元格中默认左对齐
数值型数据
可进行算术运算的数据类型。
对数值型数据进行分类统计,一般先将数值型数据进行分区间处理,再按区间段进行分类统计。
excel中数值型数据在单元格中默认右对齐
3.1.3 数据表要求
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第1张图片
一维表的判断标准就是看其列的内容,每一列是否是一个独立的变量,如果是,即为一维表。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第2张图片
3.2 数据来源
导入外部数据、自己录入数据
3.2.1 导入数据
这里讲的是excel操作
3.2.2 问卷录入要求
问卷的数据类型分为以下几类:
数值题
数值题一般要求被调查者填入相应的数值,或者打分,录入时只需输入被调查者实际填入的数值即可。
单选题
答案只有一个选项,录入时可采用1、2、3、4分别代表A、B、C、D四个选项。
多选题
答案有多个选项,多选题的录入有两种方式:二分法和多重分类法。
**二分法:**把每个相应选项定义为一个变量,每一个变量值均进行如下定义,“0”代表未选,“1”代表已选,示例问卷中被调查者选ACF,则在ABCDEFG的选项中分别录入1、0、1、0、0、1、0。
**多重分类法:**比如用1、2、3、4、5、6、7分别代表选项A、B、C、D、E、F、G。
排序题
排序题的录入与多重分类法类似,先定义录入的数值,然后按照被调查者填写的顺序录入选项。
开放性文字题
定性分析

第四章 数据处理

数据清洗、数据合并、数据抽取(拆分)、数据计算、数据转换
4.2 数据清洗
4.2.1 重复数据处理
1、函数法
countif()
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第3张图片
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第4张图片
刀住范围与不刀住范围的区别
2、高级筛选法
筛选非重复值
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第5张图片
3、条件格式
4、数据透视表
行标签和值这里都用字段“编号”
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第6张图片
删除重复数据:
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第7张图片
4.2.2 缺失数据处理
一般情况下,可以接受的标准是缺失值在10%以下。
一般使用4种方法处理缺失值。
方法1:用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值。
方法2:用一个统计模型计算出来的值去代替缺失值。常用的模型如回归模型。
方法3:将包含缺失值的记录删除,但可能会导致样本量减少,需慎用。
方法4:将包含缺失值的记录保留,仅在相应的分析中做必要的排除,在调查样本比较大,缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失值比较可行。
1、批量填充
使用定位条件功能进行批量定位选择。
开始-查找与选择-定位条件(快捷键 CTRL+G或F5)
定位条件中选择空值,确定,则找出所有空值
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第8张图片
输入“=”,再按下“↑”,再按CTRL+enter,所有控制都填充为“↑”所指的单元格中的数值。
再通过复制-粘贴-值得方式批量去除公式,可以提升excel得运行速度与效率。
2、查找替换
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第9张图片
4.2.3 空格数据处理
处理空格数据常用得方法有2种,一种是查找替换得方法,另一种就是使用trim函数将空格批量去除。
trim函数只会删除字符串(不限中英文)中前后的空格,字符串中间的空格不会被删除。

4.3 数据合并
4.3.1 字段合并

1、concat函数
经过concat函数连接得到的结果是字符型数据。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第10张图片
合并年月日字段,=concat(A1,’-’,B1,’-’,C1)
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第11张图片
2、连接符&
不关连接的数据为数值型数据还是字符型数据,连接得到的结果都是字符型数据。
合并年月日字段,=A1&"-"&B1&’’-’’&C1
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第12张图片
concat和连接符&得到的日期都是字符型数据,就不能进行日期计算了,EXCEL能识别的日期类型是date函数。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第13张图片
合并年月日,=date(A1,B1,C1)
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第14张图片
4.3.2 字段匹配
vlookup函数查找匹配
根据查找值,再数据表的首列搜索制定的查找值,并返回指定的查找值所在行中的制定列处的值。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第15张图片
注意:table_array的第一列的值必须包含要查找的值(lookup_value),否则就会出现错误标识符“#N/A”,
还有两种情况会出现#N/A,
1、数据存在空格,此时可用替换功能或函数trim批量将空格去除;
2、共同的关键字段数据类型不一致,此时将类型转为一致即可。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第16张图片
4.4 数据抽取(拆分)
4.4.1 字段拆分
1、菜单法
数据-分列
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第17张图片
得到的结果是数值型数据。
2、函数法
用left、right、mid函数进行字段拆分。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第18张图片
字符串开始位置为1,从身份证号中提取年份,是mid(A1,7,4)第七个数字开始取4位。
经过文本类别函数处理后的结果均为字符型数据,字符型数据在单元格中默认靠左对齐。
4.4.2 随机抽样
EXCEL随机抽样可用rand函数。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第19张图片
若要产生60~70之间的随机数,写成 =rand()*10+60,要取整的话用公式 =int( rand()*10+60)
还可使用randbetween()函数,比如=randbetween(1,23),随机生成1~23之间的序号。

4.5 数据计算
4.5.1 简单计算
简单计算就是字段通过加、减、乘、除等简单算术运算就能得到结果。
4.5.2 函数计算
1、日期计算
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第20张图片
而直接相减只能得到天数。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第21张图片
2、数据分组
在EXCEL中使用IF和vlookup两个函数可实现数据分组。
IF函数分组
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第22张图片
分为2组,用1个IF
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第23张图片
分为3组,用2个IF
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第24张图片
VLOOKUP函数分组
IF函数有嵌套层数限制,且嵌套越多越繁琐,可以使用VLOOKUP函数的模糊匹配功能进行数据分组。
第一步,准备一个分组对应表。下图中J列“阈值”是指每组覆盖的数值范围中的最低值,K列“分组”记录每一组的组名、标签。
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第25张图片
这里VLOOKUP函数最后一个参数range_lookup为1,表示使用的是模糊匹配(不为0或省略)。

4.6 数据转换
4.6.1 数据表行列互换
选择性粘贴-转置
其它常用选择性粘贴
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第26张图片
4.6.2 二维表转一维表
利用数据透视表实现,这里很神奇
ALT+D,P 打开“数据透视表及数据透视图导向”,选择“多重合并计算数据区域”
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第27张图片
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第28张图片
选中数据源,添加,下一步
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第29张图片
生成下表,双击E10单元格,数据透视表变为普通表格,并得到一维表
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第30张图片
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第31张图片

4.6.3 数据类型转换
1、文本转数值
数据-分列,并非真的分列,而是改成常规数据类型
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第32张图片
还可用value函数、或者对它自己本身做一个不改变大小的运算,如加0,减0,乘1,除1,数据量大时,使用分列功能效率最高。
2、数值转文本
数据-分列,改变为文本数据类型
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第33张图片
还可用text函数。
3、数值转日期
数据-分列,换成日期型
《谁说菜鸟不会数据分析》学习笔记 第三章数据准备 第四章数据处理_第34张图片

你可能感兴趣的:(数据分析,excel)