1、数据集成:将多个数据源中的数据合并并存放在一个一致的数据仓库中。
数值属性数据判断重复:计算属性A和属性B的相关系数。其中相关系数在[-1,1]之间,若相关系数大于0且值越大说明相关性越强,若相关系数等于0说明相互独立不存在相关性,若小于0说明负相关。
离散属性A和B之间的相关关系可以通过卡方检验,自由度为(r-1)(c-1),其中A的c个值构成列,B的r个值构成行。
属性冗余还可能是因为元祖重复,如单位不统一的同一个变量。
2、数据变换
数据变换是指将数据转换或统一成适合挖掘的形式。
数据变换涉及:1)光滑:去掉数据中的噪声,分箱、回归和聚类等方法
2)聚集:对数据进行汇总或聚集,如计算日销售数据、年销售数据。
3)数据泛化:使用概念分层(工资水平高中低)
4)规范化:将属性数据按比例缩放,使之落在特定的区间([-1,0])
5)属性构造:指由给定的属性构造和添加新的属性,帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中。
数据规范化的方法:1)最大最小值规范化:v'=(v-min)/(max-min)
2)z-score规范化:v'=(v-均值)/标准差
3)小数定标:用1000除每个值
3、维度归约:指通过使用数据编码或变换,得到原数据的归约或“压缩”表示。
两种有损的维度归约方法:小波变换和主成分分析。
离散小波变换是一种线性信号处理技术,当用于数据向量X时,将它变换成数值上不同的小波系数向量X'。小波变换后数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据。
小波变换还可以消除噪声,而不会光滑所有数据特征。
应用离散小波变换的一般过程是使用一种分层金字塔算法(pyramid algorithm),它在每次迭代中将数据减半,导致很快的计算速度。
过程:1)输入数据向量的长度L必须是2的整数幂 2)每个变换涉及两个函数,第一个使用某种数据光滑,第二个进行加权差分 3)两个函数作用于X中的数据点对 4)两个函数递归地作用于前面的循环得到的数据集
主成分分析:假定待归约的数据由N个属性或维描述的元组或数据向量组成。主成分分析搜索K个最能代表数据的n维正交向量,其中k<=n。
过程:1)对输入数据规范化,使得每个属性落在相同的区域(确保较大的定义域的属性不会支配较小定义域的属性) 2)PCA计算K个标准正交向量,作为规范化输入数据的基
3)对主成分按“重要性”或强度进行降序排列
4)去掉较弱成分(即方差较小)来归约数据的规模
PCA通过寻找变量最大的投影轴,判断有多少个独立变量,并将相关量合成新量,在保留了向量x的绝大多数特征信息的前提下,通过使用低维的向量Y来替代原来维数较多的X,实习降维的目的。
PCA计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。
总结:小波变换适合高维数据;PCA适合稀疏数据。
4、数据归约的策略:1)数据立方体聚集 2)属性子集选择 3)维度归约 4)数值归约 5)离散化和概念分层
属性子集选择:可以检测并删除不想关、弱相关或冗余的属性。属性子集选择常用贪心算法,通过局部最优解,期望导致全局最优解。
属性子集选择包括:逐步向前、逐步向后、向前和向后一起删除、决策树归纳