数据挖掘之数据预处理

       数据挖掘,显然数据是问题的核心。但一贯是核心最有问题,因为并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这些问题就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以数据挖掘的第一项工作就是要对数据进行预处理,使数据能够被用来进行数据挖掘,方便挖掘,从而获得有用的模式。通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。
     【一】数据清理包含:遗漏值处理、噪音数据处理以及不一致数据的处理三类。    
     (1)对于大型数据库而言,要分析的某一维的某个属性中数据有遗漏是再正常不过的事情了,对于这种情况,有如下处理办法;忽略该元祖、人工填写、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元组属同一类的所有样本的平均值、使用最可能的值填充遗漏值。在此最常用的也是最合理个人认为是最后一种方法,可能值可以通过回归分析、贝叶斯形式方法或判定树等得出。(2)噪音数据:正如自然界有很多噪音一样,数据也会参杂很多杂质,除噪音的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后用合理的数值替换原先数据,致使出去原数据中的噪音;聚类技术是通过“距离”等判别把数据进行概念分层,过渡到更高一级的层次;回归技术则是利用回归模型,用模型预测值代替原有数据。(3)不一致数据:可以查资料进行手动更正。
     【二】数据集成和变换:数据集成顾名思义是把多个原数据中的数据结合、存放到一个数据存储。如数据仓库。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。数据变换是数据处理的必然结果,主要有平滑、聚集、数据泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。
     【三】数据规约:当你面临大型数据库中的海量数据时,要分析这些数据是个很庞大的工程,如果对所有数据进行分析和挖掘,将要耗费很长的时间。如果我们能把握主要数据,那么分析起来将快捷很多。此类技术主要有如下几类:数据方聚集、维规约(检测并删除不相关、弱相关或冗余的属性或维)、数据压缩(小波或傅立叶变换以及主成份分析)、数值规约(用替代的、较小的数据表示替换或估计数据):主要有回归、直方图、聚类、选样等操作;还有概念分层。
     以上,大致介绍了一些数据预处理的基本方法和思路。

本文章转自:数据挖掘之数据预处理:http://bbs.pinggu.org/thread-1037092-1-1.html

你可能感兴趣的:(数据挖掘,数据挖掘,数据库,数据仓库,数据分析,存储,工作)