Python数据分析清洗常用4板斧

这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。

首先，导入案例数据集。因为案例数据存放在同一个Excel表的不同Sheet下，我们需要指定sheetname分别读取：

image

下面开始清洗的正餐。

01 增——拓展数据维度

1.1 纵向合并

这三个sheet的数据，维度完全一致（每列数据都是一样），纵向合并起来分析十分方便。说到纵向合并，concat大佬不请自来，他的招式简单明了——pd.concat([表1，表2，表3])，对于列字段统一的数据，我们只需把表依次传入参数：

image

concat大佬继续说到：“其实把我参数axis设置成1就可以横向合并.."说时迟那时快，我一个箭步冲上去捂住他的嘴巴“牛逼的人做好一件事就够了，横向的就交给merge吧~”

小Z温馨提示：pandas中很多函数功能十分强大，能够实现多种功能，但对于萌新来说，过多甚至交叉的功能往往会造成懵B的状态，所以这里一种功能先只用一种方式来实现。

1.2 横向合并

横向合并涉及到连接问题，为方便理解，我们构造一些更有代表性的数据集练手：

image

两个DataFrame是两张成绩表，h1是5位同学的数学、英语、语文成绩，h2是4位同学的篮球和舞蹈成绩，现在想找到并合并两张表同时出现的同学及其成绩，可以用merge方法：

image

我们来详解一下merge的参数，left和rgiht分别对应着需要连接的左表和右表，这里语数外成绩表是左表，篮球、舞蹈成绩是右表。

left_index与right_index是当我们用索引（这两个表的名字在索引中）连接时指定的参数，设置为on表示用该表的索引作为连接的条件（或者说桥梁）。假设姓名是单独的一列值，且需要根据姓名进行匹配，那就需要用“left_on = '姓名',right_on = '姓名'”，我们可以分别指定左表的匹配列和右表的匹配列。

how是指定连接方式，这里用的inner，表示我们基于姓名索引来匹配，只返回两个表中共同（同时出现）姓名的数据。下面详解一下inner还涉及到的其他参数——left,right,outer。

左右连接（left和right）：

image

左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

外连接（outer）：

image

外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着。

02 删——删空去重

2.1 删空

在一些场景，源数据的缺失（空值）对于分析来说是干扰项，需要系统的删除。上文我们合并后的df数据集就是有缺失数据的：

image

要删除空值，一个dropna即可搞定：

image

dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除。我们可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除。

2.2 去重

说是讲去重，但是案例数据比较干净，没有两行数据是完全一样的，所以我们要制造点困难，增加几行重复值：

image

把源数据重复两遍，赋值给repeat，这样每一行数据都有重复的数据。要把重复数据删掉，一行代码就搞定：

image

drop_duplicates方法去重默认会删掉完全重复的行（每个值都一样的行），如果我们要删除指定列重复的数据，可以通过指定subset参数来实现，假如我们有个奇葩想法，要基于“流量级别”这列进行去重，则可以：

image

我们会发现，流量有三个级别，通过指定subset参数，我们删除了这个字段重复的行，保留了各自不重复的第一行。继续展开讲，在源数据中，流量渠道为“一级”的有7行数据，每行数据其他字段都不相同，这里我们删除了后6行，只保留了第一行，但如果我们想在去重的过程中删除前面6行，保留最后一行数据怎么操作？答案很简单，指定keep参数即可。

image

keep值等于last，保留最后一行数据，不输入keep值时，系统默认会给keep赋值为first，就会保留第一行数据而删掉其他的。

03 查——基于条件查询

查，不是单纯的返回几行数据，而是根据业务实际需求，基于一定的条件查看和选择数据。

3.1 按条件索引/筛选

loc独白：你没有看错，哥的分量实在是太重了，所以又来抢个沙发，刷个脸熟。

这次需求是筛选出访客数大于10000的一级渠道，loc一下：

image

在行参数设置好同时满足访客数大于10000和流量级别等于“一级”这两个条件即可。

3.2 排序

很多情况下，我们都需要通过排序来观察数据规律，以及快速筛选出TOP N的数据项。对于案例数据，我们怎么样按交易金额进行排序并筛选出TOP3的渠道呢？

问题的关键就在于排序，这个时候sort_values函数就派上用场了：

image

整个操作十分简单，sort_values函数，顾名思义是按照数值进行排序，首先要传入的参数是列参数，即我们根据哪一列的数值来进行排序，ascending参数决定了排序顺序，等于Flase则是从大到小的降序，设置为True则是升序。

排序完之后，筛选TOP3渠道就非常简单：

image

补充一个知识点，如果跟着文章操作，会发现无论是删空的dropna，还是去重的drop_duplicates，或者是排序的sort_values，在对源数据进行操作后，源数据并未改变，这是因为我们没有对这几个函数的inplace值进行设置，如果设置成inplace = True，删空、去重和排序都会在源数据上生效。

但这里为了避免出现不必要的错误而无法更改，更建议大家把操作后的源数据赋值给新的变量，如new = df.dropna()，而不是将源数据的inplace参数设置为True。

04 分——分组和切分

话天下大势，合久必分，数据亦是如此。在分组的版块中，我们重点介绍groupby分组和cut切分。

4.1分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。

groupby是分组函数，最主要的参数是列参数，即按照哪一列或者哪几列（多列要用列表外括）进行汇总，这里是按照流量级别：