kaggle比赛数据清洗方法

数据清洗的定义:

对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性;

数据清洗的难点:

数据清洗一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法;

数据清洗方法

  1. 解决缺失值方法:使用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值;
  2. 去重:相等的记录合并为一条记录(即合并/清除);
  3. 解决错误值:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据;
  4. 解决数据的不一致性:比如数据是类别型或者次序型;

数据清洗的八大场景

  1. 删除多列;
  2. 更改数据类型;将文本数据或者类别数据转换为数值信息;
  3. 将分类变量转换为数字变量;
  4. 检查缺失数据(空值为NAN);
  5. 删除列中的字符串(比如把姓名删除,姓名和是否富有没有关系,可以把姓名删除);
  6. 删除列中的空格(空格NA);
  7. 用字符串连接两列(带条件);
  8. 转换时间戳(从字符串到日期时间格式)

何为数据处理?

数据处理是对数据(包括数值和非数值的)进行分析和加工的技术过程;

总结起来就是一句话
让数据更好的能够拟合我们的模型,更便于计算,减少计算量,但是具体问题要具体分析;

数据处理方法

  1. 对数变换;
  2. 标准缩放;
  3. 转换数据类型;
  4. 独热编码;
  5. 标签编码;

你可能感兴趣的:(kaggle比赛)