【pandas 基本操作:数据清洗】

pandas 基本操作

第一章 数据清洗
第二章 数据合并
第三章 数据重塑
第四章 数据转换


文章目录

  • pandas 基本操作
  • 前言
  • 1.空值和缺失值的处理
  • 2.重复值的处理
  • 3.更改数据类型


前言

数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。

数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性唯一性权威性合法性一致性等特点

脏数据在这里指的是对数据分析没有实际意义格式非法不在指定范围内的数据。


1.空值和缺失值的处理

空值一般表示数据未知不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的

一般空值使用None表示,缺失值使用NaN表示。

详细处理可以看:pandas 数据清洗:空值None和缺失值NaN的处理

2.重复值的处理

处理数据时难免会发现数据中存在部分重复值,对于重复值的查询及删除可以使用duplicated()方法和drop_duplicates()方法
对于这两种方法的使用可以参考:pandas 重复值的处理:duplicated及drop_duplicates

3.更改数据类型

在处理数据时,可能会遇到数据类型不一致的问题。例如,通过爬虫采集到的数据都是整型的数据,在使用数据时希望保留两位小数点,这时就需要将数据的类型转换成浮点型。

我们可以通过astype()方法强制转换数据的类型。
但是次方法又存局限性,所以可以通过to_numeric()函数进行更改;
对于这两种方法的使用可以参考:pandas 数据类型转换 :astype()和to_numeric()用法

你可能感兴趣的:(数据处理,pandas,数据分析,python)