【统计计算】课程总结笔记

传统的主成分分析法(PCA)缺陷在于:对于“小样本问题”(样本维数d远大于样本个数N),样本协方差矩阵规模(d×d)太大了,在后续求特征值问题中计算量较大。
于是,针对传统PCA算法中的协方差矩阵,提出改进方法–快速PCA:形成新的“协方差矩阵”,其规模为(N×N),接着复原出需要的投影矩阵。
【统计计算】课程总结笔记_第1张图片


线性判别分析(LDA)提出类内(within)、类间(between)的概念,有点像计算机专业中什么软件程序模块设计的准则–“高内聚,低耦合”,并据此提出目标函数–迹比率。处理过程中,考虑到“矩阵迹做出来的比值”是非线性的,不便于数学处理,又将其改进为“矩阵比的迹”。
寻找-能够使得新目标函数(矩阵比的迹)达到最大的-矩阵V,也就是,
寻找-由类间矩阵、类内矩阵所构成的广义特征值问题-,
求得的-前(k-1)个最大特征值所对应的特征向量-就是-矩阵V。
求解上述的广义特征值问题中,会出现 矩阵奇异,影响最终结果,基于此,提出了新方法RLDA(正则化的LDA)【统计计算】课程总结笔记_第2张图片
此外,还有一种新方法来解决此问题,即EDA(指数判别分析法)。通过对矩阵引入指数函数,解决矩阵奇异的情况出现。比如说:exp(0) = I I I,也就是说取指数这个变换太厉害了,零矩阵都能变成非奇异的。
而这一方法的具体实现,只需要把LDA中的类内、类间矩阵改为取指数的类内、类间矩阵就行了。
【统计计算】课程总结笔记_第3张图片


上述PCA方法需要把二维的图像矩阵拉成向量(一张图对应一个二维矩阵,再被拉成一维向量),这样会破坏矩阵的数据结构,还会造成小样本问题。基于此,提出了2D-PCA方法:不再拉长原矩阵,而是直接对原二维的图像矩阵进行处理。
step1 特征提取,采样:
利用投影矩阵W对原矩阵A进行投影,Y = AW , 即得到特征矩阵Y,这时Y的规模小于A矩阵。
那么,如何选取投影矩阵?类似于PCA中的想法:计算样本协方差矩阵,解其特征向量,即可得到投影矩阵W。
step2 模式分类:
对-未知矩阵A进行特征提取后的-特征矩阵Y,与已知训练集中的特征矩阵进行比较,如果和训练集中第i类的特征矩阵距离很近,那么就把矩阵A分入第i类。
如何衡量矩阵的距离?这里使用矩阵的F范数。
如何 重构图像:
由于特征矩阵的规模小于原矩阵(主要体现在列数上),把投影矩阵的转置 W T W^{T} WT右乘在特征矩阵上,从而使得重构出的矩阵和原矩阵同样大小。根据矩阵乘法秩的关系,可知重构出的矩阵的秩小于原矩阵的秩,所以是其低秩近似。

同样地,对LDA也可修整出2D-LDA.
【统计计算】课程总结笔记_第4张图片
【统计计算】课程总结笔记_第5张图片


典型相关分析法(CCA):
该方法特点在于:一个样本点是由成对的数据构成,出现在双视图中。
值得注意的是:在某些空间的定义下,相关系数可以视作向量夹角的余弦值,那么可想而知–余弦值越大,夹角越小,也就是越相关。
在该算法中希望找到使得定义中的相关系数最大的向量。使用拉格朗日乘子法,可以把问题归结为求矩阵的广义特征值问题。不过, C y y C_{yy} Cyy矩阵可能无法正常求逆,于是需要进行正则化(也就是在对角线位置加入正的纯量矩阵),以此保证是可求逆的。
【统计计算】课程总结笔记_第6张图片
【统计计算】课程总结笔记_第7张图片


核方法:
针对非线性结构的数据处理提出的一种算法。具体实施:把低维样本空间上的非线性数据,通过非线性映射,到高维的核空间上呈现出线性,而后再使用线性方法处理数据。其中非线性映射称为核映射,并引入核函数的概念。核函数,是样本空间上的二元函数,定义为核空间中的内积。从核函数出发,又定义了核矩阵。
核主成分分析法(KPCA):
利用核函数,把原始的样本空间上的数据映射到核空间中,并在核空间上进行主成分分析。
根据PCA的思想,目标是找到使得总体散度最大的投影向量w,也就是,计算协方差矩阵的最大特征值所对应的特征向量。
值得注意的是:核空间的维数很高,甚至是无穷维的,于是实际中的协方差矩阵是无法形成的。不过,注意到可以使用低维的向量α把向量w线性表示出来,而向量α是不难得到的(也是求解特征值问题,只是矩阵规模小了),从而得到降维矩阵Q。
根据矩阵Q,可以将原来的样本向量x进行降维,得到向量y.
【统计计算】课程总结笔记_第8张图片

【统计计算】课程总结笔记_第9张图片
【统计计算】课程总结笔记_第10张图片

你可能感兴趣的:(一地鸡毛)