(三) 数据预处理

数据质量:准确性,完整性,时效性,一致性,可信性,可解释性

数据清理:填写缺失值,光滑噪声数据,识别或删除离群点
1,缺失值


image.png

2,光滑
2.1,分箱

image.png

2.2,回归

2.3,离群点分析

image.png

数据集成:不同数据源集合在一起
数据归约:
1,维归约:数据压缩技术(小波变换和主成分分析),去掉没用的属性值
2,数值归约:参考模型(回归和对数线型模型)或非参数模型(直方图,聚类,抽样或数据聚集)

image.png

冗余与相关分析

1,标称数据的X2相关检验

1,
image.png
image.png
image.png

2,数值数据的相关系数

image.png

3,数值数据的协方差

image.png
image.png

元组重复

属性项重复了

数据值冲突的监测与处理

对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是表示尺度或编码不同。例如,公斤与磅的重量单位

数据归约

image.png

聚类

image.png

抽样

image.png

数据变换策略概述

image.png

image.png

通过规范化变换数据

你可能感兴趣的:((三) 数据预处理)