读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.1 为什么要预处理数据

《数据挖掘:概念与技术(原书第2版)》
第2章     数据预处理
Ø 有大量数据预处理技术。 数据清理可以去掉数据中的噪音,纠正不一致。 数据集成将数据由多个源合并成一致的数据存储,如数据仓库。 数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。 数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些技术不是互斥的,可以一起使用。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
2.1 为什么要预处理数据
Ø 存在 不完整的含噪音的不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。
Ø  不完整数据的出现可能有多种原因。 有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其它数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解 错误,或者因为设备故障。此外,记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据,特别是某些属性上缺少值的元组可能需要推 导出来。
Ø  数据含噪音(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人的或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。
Ø  数据清理例程通过填写缺失的值、光滑噪音数据、识别或删除离群点,并解决不一致性来“清理”数据
Ø 假定你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件,即 数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。
Ø  数据变换操作,如规格化和聚集,是导向挖掘过程成功的预处理过程。
Ø  数据归约得 到数据集的压缩表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。有许多数据归约策略,包括数据聚集(例如,建立数据立方体)、属性子集选择 (例如,通过相关分析去掉不相关的属性)、维度归约(例如,使用诸如最小长度编码或小波等编码方案)和数值归约(例如,使用聚类或参数模型等较小的表示“ 替换”数据)。使用概念分层泛化也可以“归约”数据。泛化用较高层的概念替换较低层的概念;例如,用地区或省/州替换城市。概念分层将概念组织在不同的抽 象层。

Ø  图2-1 数据预处理的形式。 概言之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决 策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策制定时得到高回报。

你可能感兴趣的:(数据挖掘)