PowerQuery:如何清洗数据?

这是我在知乎上的一个回答,原问题是:

如何清洗数据?

有一些技术实力的站长都会想要在网上抓取一些数据,而这些数据如果直接利用的话,可能会被搜索引擎认为是低质站点、也就是我们常常见到的采集站。那么为了避免搜索引擎认为站点内容的低质,清洗数据成为了一项重要的工作。

以下是我的回答:

其实清洗数据就要有个专业的清洗工具,而PowerQuery就是一个专业且易用的绝佳工具,下面我们就来认识Power Query 的强大数据清洗功能。

01 提升标题

在Excel中第一行为标题行,从第二行开始才是数据,但在PQ中,从第一行开始就需要是数据记录,标题在数据之上,

PowerQuery:如何清洗数据?_第1张图片

因此从Excel导入数据的第一步就是要提升标题,点击「转换」的将第一行作为标题,标题提升就完成了。

PowerQuery:如何清洗数据?_第2张图片

点击将第一行作为标题旁边的下拉按钮,还有个将标题作为第一行,实际上就是拉低标题,这个功能也特别有用,下面会介绍到。

02 更改数据类型

更改数据类型虽然很简单,但设置正确的数据类型非常重要,后期数据建模和可视化过程中,很有可能会出现一些意想不到的错误,最后发现是数据类型设置的不对,所以一开始就养成设置数据类型的好习惯。有两种方式设置数据类型,

PowerQuery:如何清洗数据?_第3张图片

03 删除错误/空值

数据导入后,有可能出现错误(Error)或者空值(null),

PowerQuery:如何清洗数据?_第4张图片

做数据分析之前,要想达到右边的效果,需要把它们去掉,操作如下:

PowerQuery:如何清洗数据?_第5张图片

04 删除重复项

删除重复项在PQ中非常简单,选中需要删重的列,右键选择「删除重复项」即可:

PowerQuery:如何清洗数据?_第6张图片

05 填充

在Excel数据中经常会见到合并单元格的情况,导入后就变成了空值,像下面这样:

PowerQuery:如何清洗数据?_第7张图片

在PQ中直接向下填充即可:

PowerQuery:如何清洗数据?_第8张图片

06 合并列

在PQ中选择需要合并的列,然后在「转换」中找到”合并列“,弹出合并列窗口:

PowerQuery:如何清洗数据?_第9张图片

比如刚才的表格,把[区域]和[城市]合并:

PowerQuery:如何清洗数据?_第10张图片

07 拆分

拆分相当于是合并列的反动作,不过功能更丰富,可以选着按字符数,也可以选择按分隔符,如果列中包含多个分隔符,还可以选择按哪个位置的分隔符来拆分:

PowerQuery:如何清洗数据?_第11张图片

我们把刚才的合并列再拆分一下,又变成合并前的格式了:

PowerQuery:如何清洗数据?_第12张图片

08 分组

相当于Excel中的分类汇总功能,比如刚才的数据,我们要计算各区域1月份的合计金额,点击分组依据:

PowerQuery:如何清洗数据?_第13张图片

把相应参数填上以后,分组完成:

PowerQuery:如何清洗数据?_第14张图片

09 提取

PQ的提取功能可以按照长度、首字符、尾字符、范围等来提取,比如下面这个例子,提取前2个字符:

PowerQuery:如何清洗数据?_第15张图片

10 行列转置

数据处理有的时候需要行列互相转换一下,比如把各各城市变成列标签,月份变成行标签,点击行列转置,

PowerQuery:如何清洗数据?_第16张图片

是不是发现哪里有些不对劲?月份不见了,这是因为转置的时候,只转数据的部分,月份并不在数据区,我们要想保留月份,先要把月份降下来,这里用到我们前面介绍的”将标题作为第一行“,

PowerQuery:如何清洗数据?_第17张图片

标题下降以后,再进行转置就可以了,

PowerQuery:如何清洗数据?_第18张图片

转置完成,不过还要再把第一行城市提升为标题。

11 行列操作

PQ的行列操作十分灵活,非常大规模的数据操作。

PowerQuery:如何清洗数据?_第19张图片

12 逆透视列

这是PQ非常便捷的逆天功能,由于数据分析的需要,我们经常要将二维表变为一维表,之前在Excel中需要很多操作步骤才能完成,而通过逆透视功能,可以一键降为一维表,

PowerQuery:如何清洗数据?_第20张图片

13 透视列

做分析需要一维表,而为了展现的需要,常常还要把一维表变成二维表,也就是Excel中的数据透视,在PQ中同样可以一键透视,比如把刚才的一维表变成原样,聚合方式选择“不要聚合”。

PowerQuery:如何清洗数据?_第21张图片

点击确定就变回原来的二维表了,

PowerQuery:如何清洗数据?_第22张图片

以上这些是最基本也是最常用的数据清洗功能,看上去也都很简单,动手操作才能更好的掌握,熟练运用以后基本能搞定大部分数据处理的工作,这些不仅是学习Power BI的必备技能,更能让你的Excel水平短时间内大大提升。


我是采悟,PowerBI星球作者,如果你刚开始接触Power BI,可在微信公众号后台回复"PowerBI",获取《七天入门PowerBI》电子书,轻松上手。

你可能感兴趣的:(PowerQuery:如何清洗数据?)