数据预处理

数据分析入门篇之数据预处理

Data Wrangling with Pandas,Numpy,and IPython.

一、数据预处理:概述

数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

不完整的:缺少属性值或某些感兴趣的属性,或仅包含聚集数据。
不正确的或含噪声的:包含错误或存在偏离期望的值。
不一致的:例如,用于商品分类的部门编码存在差异。
时效性也影响数据的质量。
可信性反映有多少数据是用户信赖的。
可解释性反映数据是否容易理解。

二、数据预处理的主要任务

数据清理、数据集成、数据归约和数据变换。

1、数据清理

1.1、缺失值
(1)忽略元组
(2)人工填写缺失值
(3)使用一个全局常量填充缺失值
(4)使用属性的中心度量填充缺失值
(5)使用与给定元组属同一类的所有样本的属性均值或中位数
(6)使用最可能的值填充缺失值
1.2、噪声数据
(1)分箱
(2)回归
(3)离群点分析

2、数据集成

2.1、实体识别问题
2.2、冗余和相关分析
(1)标称数据的卡方相关检验
(2)数值数据的相关系数
(3)数值数据的协方差
2.3、元组重复
2.4、数据值冲突的检测与处理

3、数据归约

数据归约策略包括维归约、数量归约和数据压缩。

3.1、小波变换
3.2、主成分分析
3.3、属性子集选择
3.4、回归和对数线性模型:参数化数据归约
3.5、直方图
3.6、聚类
3.7、抽样
3.8、数据立方体聚集

4、数据变换与数据离散化

4.1、数据变换策略
(1)光滑
(2)属性构造
(3)聚集
(4)规范化
(5)离散化
(6)由标称数据产生概念分层
4.2、通过规范化变换数据
4.3、通过分箱离散化
4.4、通过直方图分析离散化
4.5、通过聚类、决策树和相关分析离散化
4.6、标称数据的概念分层产生

你可能感兴趣的:(数据分析)