数据预处理的过程

1.数据预处理的原因

因为挖掘中的数据存在不完整,不一致,含噪声错误的情况。

2.数据预处理包含的步骤

2.1 数据汇总

2.2 数据清理

2.3数据集成和变换

数据集成合并多个数据源中的数据,存放在一个一致的数据存储中。
数据变换将数据转换或统一成适合挖掘的形式。
可能包含如下内容:
  1. 光滑:去掉数据中的噪声。
  2. 聚集:对数据进行汇总或聚集。
  3. 数据泛化:使用概念对数据属性进行分层。
  4. 规范化:将属性数据按比例缩放,使之落入到一个小的特定区间。
  5. 属性构造:可以构造新的属性并添加到属性集中,以帮助数据挖掘。

2.4数据规约

数据规约技术可以用来得到数据集的规约表示,它小的多,但仍接近保持原数据的完整性。
数据规约的策略如下:
(1)数据立方体聚集。
(2)属性子集选择:可以检测并删除不相关,弱相关或冗余的属性或维。
(3)维度规约:使用编码机制减少数据集的规模。
(4)数值规约:用替代的,较小的数据表示替换或估计数据。
(5)离散化和概念分成产生:属性的原始数据值用区间值或较高层的概念替换。

你可能感兴趣的:(数据挖掘,存储)