降维方法:PCA、SVD、LDA、LLE

参考文献:

1.SVD原理与在降维中的应用
2.PCA和SVD傻傻分不清楚?
3.线性代数中,特征值与特征向量在代数和几何层面的实际意义是什么?
4.线性判别分析(Linear Discriminant Analysis)(一)


前提:降维的客观必要性

降维方法:PCA、SVD、LDA、LLE_第1张图片
简而言之,这里的分析反映出,高维数据普遍分布较为稀疏,这使得由此直接训练出来的模型将会有很高的风险出现过拟合。因此降维操作并不仅仅从计算量和简化问题的角度考虑的,降维操作本身对于模型泛化能力的提高也是很有必要的。

降维带来的效果:

1.从直接效果来说,当然是降低数据维度,便于计算和加速训练;
2.众所周知“天下没有免费的午餐”,降维所带来的问题就是造成数据一定信息的损失,这会使得系统维护成本上升,系统性能略微降低;因此建议还是尽可能使用原始数据,当计算量出现问题时再考虑降维;


一、PCA(主成分分析)

主成分分析寻找的是对差异性贡献度最高的前k条轴。

图示:
降维方法:PCA、SVD、LDA、LLE_第2张图片
步骤:
降维方法:PCA、SVD、LDA、LLE_第3张图片
原理:
降维方法:PCA、SVD、LDA、LLE_第4张图片

SVD(奇异值分解):是一个能适用于任意的矩阵的一种分解的方法。

奇异值分解(SVD)原理与在降维中的应用
这篇博客非常详细介绍了SVD的推导过程;
这篇也非常直观易懂
降维方法:PCA、SVD、LDA、LLE_第5张图片
SVD求解步骤:(分为U的求解、V的求解和 ∑ 的求解)
降维方法:PCA、SVD、LDA、LLE_第6张图片
奇异值分解的几何含义是:
对于任何的一个矩阵,我们都能找到一组坐标轴,它是由原来的坐标轴通过旋转和缩放得到的。奇异值就是这组变换后新的坐标轴的长度。


降维方法:PCA、SVD、LDA、LLE_第7张图片


(旋转-伸缩-旋转)
降维方法:PCA、SVD、LDA、LLE_第8张图片


二、kPCA(kernel PCA核主成分分析)

在SVM那一章,对“核技巧”进行了介绍。核技巧属于一种数学技巧,能够隐性地将实例映射到非常高维的特征空间,从而使SVM能够进行非线性分类和回归。
事实上,同样的技巧可以应用于PCA,使复杂的非线性投影降维成为可能。
降维方法:PCA、SVD、LDA、LLE_第9张图片
直白的说,kPCA所做的就是:
Step1.将原来不好直接进行PCA操作的样本数据,通过映射函数 φ 先将其映射到无限维空间;
Step2.而后用线性PCA操作将转换后的训练集投影到低维空间;


三、LLE(流形学习)

LLE原理推导参考这篇博客
降维方法:PCA、SVD、LDA、LLE_第10张图片
降维方法:PCA、SVD、LDA、LLE_第11张图片
如果大家熟悉谱聚类和PCA的优化,就会发现优化过程几乎一样。其实最小化损失函数J(Y)对应的Y就是M的最小的d个特征值所对应的d个特征向量组成的矩阵。

LLE是广泛使用的图形图像降维方法,它实现简单,但是对数据的流形分布特征有严格的要求。比如不能是闭合流形,不能是稀疏的数据集,不能是分布不均匀的数据集等等,这限制了它的应用。(限制较大,因此实用性要打大折扣)


四、LDA(线性判别分析)

原理分析可以参考这篇博客
LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。因此目标函数也是依据这一思路建立的:
在这里插入图片描述
(当然这是针对二分类的目标函数,多分类目标函数与之类似)
降维方法:PCA、SVD、LDA、LLE_第12张图片


五、关于SVD和PCA的关系

我们讲到要用PCA降维,需要找到样本协方差矩阵的最大的k个特征向量,然后用这最大的k个特征向量张成的矩阵来做低维投影降维。

注意,SVD也可以得到协方差矩阵最大的k个特征向量张成的矩阵。

但是SVD有个好处:有一些SVD的实现算法可以不求先求出协方差矩阵,也能求出右奇异矩阵VV。也就是说,PCA算法可以不用做特征分解,而是做SVD来完成。这也是为什么很多工具包中PCA算法的背后真正的实现是用的SVD,而不是我们认为的暴力特征分解。

另一方面,注意到PCA仅仅使用了我们SVD的右奇异矩阵,没有使用左奇异矩阵。而左奇异矩阵可以用于行数的压缩,右奇异矩阵可以用于列数,也就是PCA降维。所以,有了SVD就可以得到两个方向的PCA。


六、关于PCA和LDA的比较

LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

相同点:
1)两者均可以对数据进行降维。
2)两者在降维时均使用了矩阵特征分解的思想。
3)两者都假设数据符合高斯分布。

不同点:
1)LDA是有监督的降维方法,而PCA是无监督的降维方法
2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
3)LDA除了可以用于降维,还可以用于分类。
4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

你可能感兴趣的:(机器学习)