西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)

文章目录

  • 0. 前言
  • 1. 主成分分析PCA

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

0. 前言

维数灾难:在高维情形下出现的数据样本稀疏、距离计算困难等问题。

缓解维数灾难的方法是降维

降维的好处:

  1. 舍弃部分信息后能使得样本的采样密度增大
  2. 当数据受到噪声影响时,舍弃的无关信息往往与噪声有关

1. 主成分分析PCA

主成分分析(Principal Component Analysis)是常用的降维方法。

PCA假设存在这样的超平面:

  • 最近重构性:样本点到这个超平面的距离都足够近
  • 最大可分性:样本点在这个超平面上的投影能尽可能分开,即方差最大化

PCA算法如下图所示(图源:机器学习),基于线性变换进行降维: Z = W T X Z=W^TX Z=WTX
西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)_第1张图片

奇异值分解SVD:通常可以使用SVD代替特征值分解: s v d = U Σ V T svd=U\Sigma V^T svd=UΣVT Σ \Sigma Σ的对角线元素为奇异值,选择最大的 d ′ d' d个奇异值,对应向量为矩阵 U U U的前 d ′ d' d列。

设置一个阈值确定降维后需要保持多少的原始信息,以此来设定降维维度:
∑ i = 1 d ′ λ i ∑ i = 1 d λ i ⩾ t \frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^d\lambda_i}\geqslant t i=1dλii=1dλit
其中, λ \lambda λ表示特征值或者奇异值。


如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

你可能感兴趣的:(机器学习,机器学习,降维,PCA,主成分分析,最大方差)