文章来源:可乐的数据分析之路
作者:虾壳可乐
之前我们读取完了数据(Python数据分析实战:获取数据),下面就要对数据进行清洗了,首先是对缺失值的处理。缺失值也就是空值,先找出来再处理。
可以使用isnull方法来查看空值,得到的结果是布尔值。
# 查看缺失值
df_list.isnull()
结果:
# 查看空值
df_list.info()
结果:
其实还有一个方法,更简单了:
# 查看空值
df_list.isnull().sum()
对取出来的isnull的布尔值求和,就很明显地看到,id列是没有空值的,name列有一个空值,结果:
也可以对单独的某一列这样查看空值,对name列查看空值
# 对单独一列查看空值
df_list["name"].isnull().sum()
结果为1,说明name列有1个空值:
找到缺失值以后如何处理呢?删除或填充。
删除缺失值
用dropna方法,默认是只要一行中有一个缺失值这一行就全都删除
# 删除缺失值
df_list.dropna()
结果就是这个数据集里的数据全被删掉了,因为其中的neighbourhood_group这个字段全为空,按照dropna的尿性,有一个为空就整行删除,就得到了如下结果:
当然也可以给这个方法传入how="all"参数,只有在整行为空的前提下才删除。
# 整行都为空才删除
df_list.dropna(how = "all")
结果是一条都没有删除,因为这个数据集里没有所有字段都为空的记录:
# 删除列
df_list = df_list.drop(columns = "neighbourhood_group")
df_list
结果:
# 定位到name列的空值
df_list[df_list["name"].isnull()]
结果如下,这一行还是删了吧。
# 删除name列的空值的行
df_list = df_list.drop(index = 456)
df_list
结果可以看到变成了28451行,之前一直都是28452行。
缺失值填充
当然缺失值除了删除外,还可以进行填充,可以用0填充,也可以用均值、众数填充。用fillna方法进行缺失值的填充。
last_review和reviews_per_month这两列也有缺失值,我们用众数填充(mode)last_review列的缺失值,用均值(mean)填充reviews_per_month列的缺失值。
# 缺失值填充
df_list.fillna({"last_review":df_list.last_review.mode(),
"reviews_per_month":df_list.reviews_per_month.mean()})
结果
这里只是举例缺失值也可以被填充这样处理,在这个案例里,不建议这两列填充,空着就空着吧。下节内容来处理重复值和异常值。
如果你觉得文章不错的话,分享、收藏、在看、留言666是对老表的最大支持。
老表Pro已经满了
所以大家加老表Max吧
每日留言
说说你最近遇到的一个编程问题?
或者新学的一个小技巧?
完整Python基础知识要点
Python小知识 | 这些技能你不会?(一) Python小知识 | 这些技能你不会?(二) Python小知识 | 这些技能你不会?(三) Python小知识 | 这些技能你不会?(四)近期推荐阅读:
【1】整理了我开始分享学习笔记到现在超过250篇优质文章,涵盖数据分析、爬虫、机器学习等方面,别再说不知道该从哪开始,实战哪里找了 【2】【终篇】Pandas中文官方文档:基础用法6(含1-5)好文章,我在看❤️