pandas数据清洗

pandas数据清洗

    • 1、使用pandas进行数据清洗
      • 1.1、数据问题
      • 1.2、读取数据
      • 1.3、切分列
      • 1.4、删除列
      • 1.5、使用布尔索引筛选
      • 1.6、应用函数
      • 1.7、删除空行
      • 1.8、去重

1、使用pandas进行数据清洗

1.1、数据问题

  1. 没有列头
  2. 一个列有多个参数
  3. 列数据的单位不统一
  4. 缺失值
  5. 重复数据
  6. 非ASCII 字符
  7. 有些列头应该是数据,而不应该是列名参数

1.2、读取数据

使用pandas读取数据时,如果原数据没有列名,需要指定列名,否则pandas将会默认使用第一行数据当做列名
pandas数据清洗_第1张图片

1.3、切分列

函数用法:split(sep,n,expand=false)

sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为DataFrame,True输出Series,False输出Dataframe。

像name列含有firstname和lastname 需要将其拆分成两列
pandas数据清洗_第2张图片

1.4、删除列

pandas数据清洗_第3张图片

1.5、使用布尔索引筛选

pandas数据清洗_第4张图片

1.6、应用函数

pandas数据清洗_第5张图片

1.7、删除空行

pandas数据清洗_第6张图片

1.8、去重

处理前
pandas数据清洗_第7张图片

pandas数据清洗_第8张图片
去重后
pandas数据清洗_第9张图片

你可能感兴趣的:(python,数据挖掘,数据分析,python)