数据集成、数据变换、维度归约、属性子集选择

1、数据集成:将多个数据源中的数据合并并存放在一个一致的数据仓库中。

数值属性数据判断重复:计算属性A和属性B的相关系数。其中相关系数在[-1,1]之间,若相关系数大于0且值越大说明相关性越强,若相关系数等于0说明相互独立不存在相关性,若小于0说明负相关。

离散属性A和B之间的相关关系可以通过卡方检验,自由度为(r-1)(c-1),其中A的c个值构成列,B的r个值构成行。

属性冗余还可能是因为元祖重复,如单位不统一的同一个变量。


2、数据变换

数据变换是指将数据转换或统一成适合挖掘的形式。

数据变换涉及:1)光滑:去掉数据中的噪声,分箱、回归和聚类等方法

                       2)聚集:对数据进行汇总或聚集,如计算日销售数据、年销售数据。

                       3)数据泛化:使用概念分层(工资水平高中低)

                       4)规范化:将属性数据按比例缩放,使之落在特定的区间([-1,0])

                       5)属性构造:指由给定的属性构造和添加新的属性,帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中。

数据规范化的方法:1)最大最小值规范化:v'=(v-min)/(max-min)

                              2)z-score规范化:v'=(v-均值)/标准差

                              3)小数定标:用1000除每个值    

 

3、维度归约:指通过使用数据编码或变换,得到原数据的归约或“压缩”表示。

两种有损的维度归约方法:小波变换和主成分分析。

离散小波变换是一种线性信号处理技术,当用于数据向量X时,将它变换成数值上不同的小波系数向量X'。小波变换后数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据。

小波变换还可以消除噪声,而不会光滑所有数据特征。

应用离散小波变换的一般过程是使用一种分层金字塔算法(pyramid algorithm),它在每次迭代中将数据减半,导致很快的计算速度。

过程:1)输入数据向量的长度L必须是2的整数幂  2)每个变换涉及两个函数,第一个使用某种数据光滑,第二个进行加权差分  3)两个函数作用于X中的数据点对  4)两个函数递归地作用于前面的循环得到的数据集

主成分分析:假定待归约的数据由N个属性或维描述的元组或数据向量组成。主成分分析搜索K个最能代表数据的n维正交向量,其中k<=n。

过程:1)对输入数据规范化,使得每个属性落在相同的区域(确保较大的定义域的属性不会支配较小定义域的属性)  2)PCA计算K个标准正交向量,作为规范化输入数据的基

3)对主成分按“重要性”或强度进行降序排列

4)去掉较弱成分(即方差较小)来归约数据的规模

PCA通过寻找变量最大的投影轴,判断有多少个独立变量,并将相关量合成新量,在保留了向量x的绝大多数特征信息的前提下,通过使用低维的向量Y来替代原来维数较多的X,实习降维的目的。

PCA计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。

总结:小波变换适合高维数据;PCA适合稀疏数据。


4、数据归约的策略:1)数据立方体聚集 2)属性子集选择 3)维度归约 4)数值归约  5)离散化和概念分层

属性子集选择:可以检测并删除不想关、弱相关或冗余的属性。属性子集选择常用贪心算法,通过局部最优解,期望导致全局最优解。

属性子集选择包括:逐步向前、逐步向后、向前和向后一起删除、决策树归纳


你可能感兴趣的:(数据挖掘)