数据降维方法介绍(七)

两种降维方法的比较:PCA(主成分分析法)与LDA(线性鉴别分析法)

姓名:何源  学号:21011210073  学院:通信工程学院

转载:降维方法之PCA,LDA

【嵌牛导读】PCA算法与LDA算法降维方式

【嵌牛鼻子】PCA、LDA

【嵌牛提问】两种算法的相同点和共同点有哪些

【嵌牛正文】

PCA算法

主成分分析法(Principal Component Analysis,PCA),是最常用的线性降维方法,无监督的,它通过某种线性映射,将高维的向量转化为低维空间表示,并且希望在所投影的低维空间上数据方差尽可能的大。即所有数据点映射后,方差尽可能的大,那么数据点则会分散开来,以此来保留更多的信息。所以,PCA是丢失原始数据信息最少的一种线性降维方式。

PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致使用PCA在很多情况下的分类效果并不好。具体如下图所示,若使用PCA将数据点投影至一维空间上时,PCA会选择2轴,这使得原本很容易区分的两簇点被揉杂在一起变得无法区分;而这时若选择1轴将会得 到很好的区分结果。


图1-数据分布

LDA算法

线性鉴别分析法(Linear Discriminant Analysis,LDA),是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”,使降维后的数据点尽可能地容易被分开。如图1所示,为了使数据尽可能的区分开来,LDA算法会映射到1轴。

PCA and LDA 比较

相同点:

(1)两者均可以对数据进行降维;

(2)两者在降维时均使用了矩阵特征分解的思想;

(3)两者都假设数据符合高斯分布。

不同点:

(1)LDA是有监督的降维方法,而PCA是无监督的降维方法;

(2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制;

(3)LDA除了可以用于降维,还可以用于分类;

(4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

你可能感兴趣的:(数据降维方法介绍(七))