数据清洗和数据处理

文章目录

  • 1.数据清洗
  • 2.数据清洗方法
  • 3.数据清洗的八大场景
  • 4.数据处理方法

1.数据清洗

  • 对数据进行检查,删除重复信息和纠正错误信息,提供数据一致性。

2.数据清洗方法

  • 解决缺失值:平均值,最大值,最小值或复杂的概率估计来代替缺失值
  • 去重:合并或清除
  • 解决错误值:统计分析方法识别可能的错误值或异常值,如偏差分析,识别不遵守分布或回归的值,也可以用简单的规则库检查数据值,使用不同属性间的约束,外部的数据来检测和清理数据
  • 解决数据的不一致性:比如数据是类别型或者次序型

3.数据清洗的八大场景

  • 删除多列
  • 更改数据类型
  • 将分类变量转换为数字变量
  • 检查缺失数据
  • 删除列中的字符串
  • 删除列中空格
  • 用字符串连接两列
  • 转换时间戳(字符串到日期)

4.数据处理方法

  • 对数变换
  • 标准缩放
  • 转换数据类型
  • 独热编码
  • 标签编码

你可能感兴趣的:(kaggle学习笔记)