学习笔记(五)数据预处理之数据归约

数据归约:原始数据用数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同的分析结果。

1数据归约包括维归约、数量归约和数据压缩。

维归约:减少所考虑的随机变量或属性的个数。方法有小波变换、主成分分析,把原始数据变换或投影到较小的空间。属性自己选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。

数量归约:用替代的、较小的数据表示形式换原始数据。这些技术可以是参数或者非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数而不是实际数据(离群点需存放)。非参数方法包括:直方图、聚类、抽样和数据立方体聚类。

数据压缩:使用变换,一遍得到原始数据的归约或“压缩”表示。如果数据可以在压缩后的数据重构,而不损失信息,则该数据归约被称为无损的。如果是近似重构原数据,称为有损的。

2小波变换:离散小波变换(DWT)是一种现行信号处理技术,勇于数据向量X时,将他变换成不同的数值小波系数向量X{}'.两个向量具有相同的长度。每个元组被看作一个n维数据向量。

DWT与离散傅里叶变换(DFT)有密切关系,DFT是一种涉及正弦和余弦信号处理技术。一般地,DWT是一种更好的有损压缩,提供原始数据更准确的近似,切且需要的空间更小。

只有一种DFT但是有若干族DWT。离散小波变换的一般过程使用一种金字塔算法,在每一次迭代时将数据减半,故计算速度快:(1)输入数据向量长度L必须是2的整数幂。必要时,通在数据向量后添加0,这一条件即可满足(L大于等于n)                 (2)每个变换涉及应用两个函数。第一个使用某种数据光滑,如求和或加权平均。第二个进行加权差分,提取数据细节特征。  (3)两个函数作用于X中的数据点对,即作用于所有的测量对(x_{2i},x_{2i+1})这导致两个长度为L/2的数据集。一般而言,特们分别代表数据光滑后的版本或低频版本和它的高频内容。                                                                                                                     (4)两个函数递归地作用于前面循环得到的数据集,直到得到的结果数据集的长度为2。                                                              (5)由以上迭代得到的数据集中选择的值被指定为数据变换的小波系数。

3主成分分析PCA:(又称Karhunen-Loeve或K-L方法)搜索k个最能代表数据的n维正交向量,其中k\leq n。这样原数据投影到一个小得多的空间上导致维归约。PCA常常能够揭示先前未曾察觉的联系,并因此允许解释不寻常的结果:                                        (1)对输入数据规范化,使得每个属性都落入相同的区间。    (2)PCA计算k个标准正交向量,作为规范化输入数据的基。这些是单位向量,每一个都垂直于其他向量。这些向量称为主成分,输入数据是主成分的线性组合。(3)对主成分按照‘重要性’或强度降序排列。本质上充当数据的新坐标系,提供关于方差的重要信息。对于坐标轴进行排序,第一个坐标轴显示数据的最大方差,第二个显示数据的次大方差,如此次下去  (4)主成分可以根据“重要性”降序排列,因此可以通过去掉较弱的成分(方差较小的)来归约数据。

PCA可以用于有序和无序的属性,并且可以处理稀疏和倾斜的数据。与小波变换相比,PCA更好的处理稀疏数据,而小波变换更适合高维数据。

4属性子集选择:通过删除不相关或者冗余属性(或维)减少数据量。基本启发式方法包括以下技术:(1)逐步向前选择(2)逐步向后删除(3)逐步向前选择和逐步向后删除的组合(4)决策树归纳

5回归和对数线性模型:参数化数据归约

(简单)线性回归,对数据建模使之拟合到一条直线。y=wx+b其中,假定y的方差是常量。在数据挖掘中,回归系数可以用最小二乘法求解。多元回归是线性回归的扩展。对数线性模型近似离散的多维概率分布。给定n维元组的集合,我们可以把每个元组看作n维空间的点。基于维组合的一个较小子集,估计多维空间中每个点的概率。

6直方图:使用分箱来近似数据分布,是一种流行的数据归约形式。对于存放具有高频率的离群点,单桶值是有用的。

7聚类:把数据元组看作对象。它将对象划分为群或簇,使得一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。通常,相似性基于距离函数,形心距离是另一种度量。

8抽样:无放回简单随机抽样(SRSWOR)、有放回简单随机抽样(SRSWR)、簇抽样、分层抽样

9数据立方体聚集:在最低抽样层创建的立方体称为基本方体。基本方体应当对应于感兴趣的个体,最高层抽象立方体称为顶点立方体(例如汇总值)。

 

你可能感兴趣的:(概念与基础知识)