百面机器学习—6.PCA与LDA要点总结

文章目录

      • 一、分析PCA与LDA的各自特点
        • 1.从求解方法来看
        • 2. 从目标来看
        • 3. 从结果来看
        • 4. 从应用角度来看
      • 二、分析PCA降维的一些优缺点

一、分析PCA与LDA的各自特点

1.从求解方法来看

PCA求解方法:
百面机器学习—6.PCA与LDA要点总结_第1张图片
LDA求解方法:
百面机器学习—6.PCA与LDA要点总结_第2张图片
从PCA和LDA两种降维方法的求解过程来看,它们确实有着很大的相似性,但对应的原理却有所区别。

2. 从目标来看

  PCA选择的是投影后数据方差最大的方向。由于它是无监督的,因此PCA假设方差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度,达到降维。而LDA选择的是投影后类内方差小、类间方差大的方向。其用到了类别标签信息,为了找到数据中具有判别性的维度,使得原始数据在这些方向上投影后,不同类别尽可能区分开。

3. 从结果来看

  利用PCA进行降维时,一般情况下保留的是最佳描述特征(主成分)而非分类特征。利用LDA进行降维时,一般能够保留更多的分类特征,使特征具有一定的区分性。

4. 从应用角度来看

  对无监督任务使用PCA进行降维,对有监督的则应用LDA进行降维。降维可以寻找数据内部的特性,从而提高特征表达能力,降低训练复杂度。在sklearn中分别通过下面两个来调用,

from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

二、分析PCA降维的一些优缺点

  作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪,因此在实际场景应用很广泛。为了克服PCA 的一些缺点,出现了很多PCA的变种,比如为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA算法的主要优点有:

  1. 仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
  2. 各主成分之间正交,可消除原始数据成分间的相互影响的因素。
  3. 计算方法简单,主要运算是特征值分解,易于实现。

PCA算法的主要缺点有:

  1. 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
  2. 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

你可能感兴趣的:(#,百面机器学习,百面机器学习,PCA,LDA,PCA与LDA对比,PDA优缺点)