python数据分析学习(8)数据清洗与准备(2)

  上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。

一:删除重复值

  由于各种原因,DataFrame中会出现重复行,如下:
python数据分析学习(8)数据清洗与准备(2)_第1张图片

  用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。
python数据分析学习(8)数据清洗与准备(2)_第2张图片

  而drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分。
python数据分析学习(8)数据清洗与准备(2)_第3张图片

  上面的方法默认是对列进行操作,可以在drop_duplicates方法的括号里边加入参数指定需要去除重复的列,加入参数keep = 'last'将会返回最后一个观测到的值,如下:
python数据分析学习(8)数据清洗与准备(2)_第4张图片

二:使用函数或映射进行数据转换

  可以用map函数把一个函数或者包含映射关系的字典型对象加入到我们的数据列表中,如下:
python数据分析学习(8)数据清洗与准备(2)_第5张图片

三:替代值

  可以用replace方法替换一些值,生成新的对象,也可以用字典的形式。
python数据分析学习(8)数据清洗与准备(2)_第6张图片

你可能感兴趣的:(python数据分析学习(8)数据清洗与准备(2))