数据预处理05_ 数据归约

数据归约

数据集非常大的时候在海量数据上进行复杂的数据分析和挖掘需要很长的时间,使得这种分析不现实或者不可行 。

数据归约:可以用来将得到的数据集进行归约表示,它小的多,但是仍然接近于保持原始数据的完整性。在归约后的数据集上挖掘将更有效,仍然产生相同(或者几乎相同)的分析结果。

1.数据归约策略概述

数据归约包括维归约、数量归约和数据压缩。

(1)维归约(dimensionality reduction)

减少所考虑的的随机变量或者属性的个性。维归约的方法包括小波变换和主成分分析,他们把原数据变换或投影到较小的空间。

属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。

(2)数量归约

用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的。

参数方法:使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据(离群点可能也要存放),例如回归、对数线性模型

非参数方法:直方图、聚类、抽样、数据立方体聚集。

(3)数据压缩

无损:使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不所示信息,则该数据归约称为无损的。

有损:如果我们只能近似重构原数据,则该数归约称为有损的。

2.小波变换

离散小波变换(DWT)是一种线性信号处理技术。用于数据向量X时,他将变换成不同的数值小波系数向量X’。两个向量具有相同的长度。当这种技术用于数据归约是,每个元组看做一个n维数据向量,描述n个数据库属性在元组上的n个测量值。

(1)DWT和离散傅里叶变换(DFT)的关系。

DFT是一种涉及正弦和余弦的信号处理技术。一

你可能感兴趣的:(数仓设计和数据预处理,数仓设计和数据处理)