数据集特征提取_模式识别5-特征提取

一. 概述

模式识别过程中,如果数据的维度较多,一方面可能是多个维度携带了同样的信息,一方面如果在数据集较大的情况下也会增加计算的时长,特征提取的意义在于通过合并相同的信息,达到降低维度的目的。

二,主成分分析(Principal Components Analysis)

定义:对于一个N维的数据空间,我们希望可以找到一个M(M < N)维的正交向量,让N映射过去后,还可以尽量多的保持原有数据空间的信息量。

如下图所示,将3维的数据点映射到一个2维的样本空间。

数据集特征提取_模式识别5-特征提取_第1张图片

1. Karhunen-Loève Transform (KLT)
对于PCA(Principal Components Analysis)的计算方法有很多,其中使用最广的为KLT法。

a.计算所有数据向量的均值向量:

513396f141aeb9c217e36dc1b80e4968.png

b.计算所有向量进行0均值变换后的协方差矩阵:

2a85a77861eb6b7ccfd0b30a5b228ce6.png

注:0均值变换为 将原向量减去均值后所得到的向量

c.找出C 的特征值(E)和特征向量(V):

13733de7c95078d53d192633d28f7b34.png

d.将特征向量按照所对应的特征值从大到小排列,删除较小的特征值所对应的特征向量,并将剩余的特征向量组成向量矩阵 V^.

e.对于每一个原始向量,其最终降为后的向量为: yi=V^ T (xi−μ)

2.基于神经网络求解PCA

该方法为基于Oja's迭代规则,通过对于神经网络中W的迭代来寻找特征向量,在通过上文中的e步骤来计算降为后的y值。

Oja's的迭代规则为:

0ec04fce4d28295d40a2f036621af04e.png

该方法的推导原理在于△W = XtY - YtYW=XtXW -WtXtXWW = CW- WtCWW

cw =
W, 而W则为C的特征向量。

三,线性判别分析( Linear Discriminant Analysis )

PCA在投影的过程中更多的考虑的是信息的完整性,忽视了信息的分类问题。LDA(Linear Discriminant Analysis)则在降为的时候利用数据标签,最大化的保留了数据的可分信息。

数据集特征提取_模式识别5-特征提取_第2张图片
PCA降维方式

数据集特征提取_模式识别5-特征提取_第3张图片
LDA降维方式

1.Fisher's method

55f2c68258ba8dfb9e20246b92b674d5.png

其中:

8cf1f18c2f5c1612602eedc0805819cf.png

数据集特征提取_模式识别5-特征提取_第4张图片

数据集特征提取_模式识别5-特征提取_第5张图片

三. 稀疏编码(Sparse coding)

PCA,LDA,ICA常用于降维操作,稀疏编码的意义在于将一些非线性可分的数据投射到更高的维度中,以便在新的空间中线性可分。

a.对于每一个类别,定义一个字典Di,该字典D对应的是每一个分类的所有样本数据

b.如果需要对新样本X进行分类,则需要找到X的稀疏编码yi, x≈Diyi .

c.对于不同类别的Di和稀疏编码yi,则需要计算 ei=Σ(x-Diyi) **2.

d.最后选择ei最小的所对应的类别,则为新样本X所属的类别。

你可能感兴趣的:(数据集特征提取)