两种降维方法的比较：PCA（主成分分析法）与LDA（线性鉴别分析法）

姓名：何源学号：21011210073 学院：通信工程学院

转载：降维方法之PCA,LDA

【嵌牛导读】PCA算法与LDA算法降维方式

【嵌牛鼻子】PCA、LDA

【嵌牛提问】两种算法的相同点和共同点有哪些

【嵌牛正文】

PCA算法

主成分分析法（Principal Component Analysis，PCA），是最常用的线性降维方法,无监督的，它通过某种线性映射，将高维的向量转化为低维空间表示，并且希望在所投影的低维空间上数据方差尽可能的大。即所有数据点映射后，方差尽可能的大，那么数据点则会分散开来，以此来保留更多的信息。所以，PCA是丢失原始数据信息最少的一种线性降维方式。

PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题，这导致使用PCA在很多情况下的分类效果并不好。具体如下图所示，若使用PCA将数据点投影至一维空间上时，PCA会选择2轴，这使得原本很容易区分的两簇点被揉杂在一起变得无法区分；而这时若选择1轴将会得到很好的区分结果。

图1-数据分布

LDA算法

线性鉴别分析法（Linear Discriminant Analysis，LDA），是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”，使降维后的数据点尽可能地容易被分开。如图1所示，为了使数据尽可能的区分开来，LDA算法会映射到1轴。

PCA and LDA 比较

相同点：

（1）两者均可以对数据进行降维；

（2）两者在降维时均使用了矩阵特征分解的思想；

（3）两者都假设数据符合高斯分布。

不同点：

（1）LDA是有监督的降维方法，而PCA是无监督的降维方法；

（2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制；

（3）LDA除了可以用于降维，还可以用于分类；

（4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

数据降维方法介绍（七）