数据预处理一:数据探索与数据清洗(缺失值+异常值)

一.基本概述

数据探索与数据清洗没有严格的先后顺序,经常在一个阶段进行。

数据探索

  • 数据质量分析(与数据清洗密切相关)
  • 数据特征分析(分布/对比/周期/相关性/描述性统计分析/常见统计量等)

数据清洗

  • 缺失值处理
  • 异常值处理

 

二.数据探索

1.描述性统计分析
定性变量

  • 频率
  • 频数

定量变量

  • 集中趋势的度量:均值、众数、中位数、四分位
  • 变异程度的度量:极差、方差、标准差
  • 相对位置的度量:标准得分
  • 偏度和峰度:

 

2.分布分析

极差

组距:极差 / 组数

直方图

 

三.数据清洗-缺失值
删除法

  • 删除观测样本
  • 删除变量
  • 使用完整原始数据进行分析
  • 改变权重

插补法

  • 抽样填补
  • 均值差补
  • 回归模型
  • 热平台差补
  • 冷平台差补
  • 拉格朗日插值法
  • 随机森林插值

替换法

  • 缺失值所在变量为数值型:用该变量在其他所有对象的取值的均值/特定值来替换变量的缺失值
  • 缺失值所在变量为非数值型:用该变量其他全部有效观测值的中位数或众数进行替换

参考: http://blog.csdn.net/qq_31584157/article/details/52562830

 

四.数据清洗-异常值(离群点)

异常值定义:测定值中与平均值的偏差超过三倍标准差的值

异常值大概包括离群值、重复值、数据不一致。

 

1.判断异常值方法汇总

简单统计量分析:描述性统计,判断变量的取值是否超出合理的范围

3O原则:正态分布假设下,P(|x-u|>3o)<=0.003,属于极个别的小概率事件

箱型图分析:1.5倍四分位间距的值

图像法汇总:绘制直方图、绘制点图、绘制箱形图、绘制qq图、绘制单变量散点图

局部异常因子检测:基于密度识别异常值的算法,只对数值型数据有效

通过聚类检测异常值

 

2.异常值处理方法(数据光滑)
分析异常值出现的原因,再判断是否取舍,如果数据正确,可直接在数据上进行挖掘建模


删除法:直接把相应的记录删除
把异常值视为缺失值:利用缺失值处理的方法进行处理
平均值修正:可用前后两个观测值的平均值修正该异常值
不处理:直接在具有异常值的数据集上进行挖掘建模

 

转载于:https://www.cnblogs.com/xyp666/p/9246830.html

你可能感兴趣的:(数据预处理一:数据探索与数据清洗(缺失值+异常值))