《谁说菜鸟不会数据分析——入门篇》学习笔记 ——第四章 数据处理

第四章 数据处理

一 、数据处理简介

1.1 定义

根据数据分析的目的,将收集到的数据进行加工整理,以形成适合数据分析要求的样式。

1.2 常用方法

数据清洗、数据抽取、数据计算、数据转换

 

二 、数据清洗

2.1 定义

筛选清除多余重复数据,补充完整缺失的数据,纠正或删除错误的数据。

2.2 常用方法

重复数据处理、缺失数据处理、空格数据处理

2.3 重复数据处理

(1)函数法

COUNTIF(range,criteria)对区域中满足单个指定条件的单元格进行计数。

(2)高级筛选法

步骤:选中区域、高级筛选,选择不重复的记录

(3)条件格式法

步骤:开始、条件格式、突出显示单元格规则、重复值

(4)数据透视法

步骤:插入数据透视表操作

(5)重复数据删除

步骤:数据工具里的删除重复值

2.4 缺失数据处理

(1)批量填充

案例:存在合并单元格的情况

方法:

A.(取消合并单元格)选中该区域、开始、对齐方式、合并后居中

B.(批量定位填充缺失值)选中该区域、Ctrl+G,定位条件,空值;=、向上箭头、“Ctrl+Enter”,然后粘贴为数值。具体见P68-P69

(2)查找替换

Ctrl+F操作

2.5 空格数据处理

(1)TRIM(text)函数删除文本前后的空格

 

三 、数据合并

3.1 字段合并

(1)contact(A2,"-",B2,"-",C2)函数,得到字符型数据

(2)连接符&,=A2&"-"&B2&"&",C2,得到字符型数据

(3)DATE函数,=DATE(year,month,day)合并年、月、日,得到数值型数据

3.2 字段匹配

(1)前提:需要匹配的表,关键字段相同且数据类型一致。

(2)VLOOKUP函数

注意:出现“#N/A”的情况有,

A.区域选错了

B.数据存在空格

C.关键字段数据类型不一样

 

四、数据抽取

4.1 字段拆分

(1)菜单法

数据、数据工具、分列

(2)函数法

LEFT、RIGHT、MID

4.2 随机抽样

(1)RAND()函数

返回[0,1]的均匀分布随机数,若想生成AB之间的随机实数,可用公式“=RAND()*(B-A)+A”,或者“=RANDBETWEEN()”函数,然后再用VLOOUP函数匹配序号对应的字段。

 

五、数据计算

5.1 简单计算

5.2 函数计算

(1)日期计算

DATEDIF(起始日期,结束日期,年/月/天)

(2)数据分组

A.IF函数分组

B.VLOOKUP函数分组,见P87

 

六、数据转换

6.1 行列互换

选择性粘贴,转置还有运算

6.2 二维表转一维

运用数据透视表,见P89-P93

6.3 数据类型转换

(1)文本转数值

A.数据量较大

使用分列,常规格式

B.VALUE()函数

(2)数值转文本

A.数据量较大

使用分列,文本格式

B.TEXT()函数

(3)数值转日期

A.数据量较大

使用分列,日期格式

你可能感兴趣的:(初学,数据分析)