【数学与算法】PCA主成分分析与降维的通俗理解

1.PCA与降维

PCA主成分分析简单的理解,就是把某物的很多个能直接获取到的特征,经过变换得到很多个新特征,所有的新特征就是该物的成分。这些新特征对该物体来说,有的影响很大,有的影响很小,只需要使用这些影响大的新特征,舍弃很多影响小的新特征,就是使用主要的一些成分来分析,舍弃不重要的成分,这就是主成分分析的方法。相当于把特征维度给降低了,所以也叫降维

2.举例

例如,假如我们想要用新方法衡量一个学生综合素质,目前可以(直接采集)得到一个学生的特征有20个,例如身高体重年龄分数等,那么这个学生可以用20维向量来描述,但是这20维特征描述起来就太麻烦了。但是又不知道这些特征哪个重要,哪个不重要,不能随意舍弃。怎么办呢?

我们想要用新方法衡量一个学生综合素质,可以这样做:

  • 先采集很多学生样本来,例如1000个学生,每个学生采集20个特征;
  • 然后把这1000个学生的这20个特征进行处理,每个特征都求平均值,然后减去对应特征均值,后续处理直接参考下面求解步骤
  • 然后我们可以用新的20维特征组成的特征向量向量来描述该学生。但是我们可以只取 k = 5 \color{red}k=5 k=5,即,只取这新的20维特征前5个主要特征;这样也就把用20维向量描述一个学生,转化为只需要5维向量来描述一个学生。这就是降维

注意,PCA并不是直接舍弃原始20个特征的某些特征,而是变换处理后,舍弃变换后的新的20个特征的一些不重要的新特征,只保留比较重要的前 k \color{red}k k 个比较重要的特征。

【数学与算法】PCA主成分分析与降维的通俗理解_第1张图片

例如:1000个样本,每个样本是20维向量。

  • 每列表示一个样本,共1000列,20行,那么矩阵 X \color{blue}X X 20 ∗ 1000 \color{blue}20*1000 201000
  • 协方差矩阵是 20 ∗ 20 \color{blue}20*20 2020,那么得到的特征向量组成的矩阵也为 20 ∗ 20 \color{blue}20*20 2020
  • 如果取前 k = 5 \color{blue}k=5 k=5 行,那么矩阵 P \color{blue}P P就是 P 5 ∗ 20 \color{blue}P_{5*20} P520
    那么 Y = P 5 ∗ 20 ∗ X 20 ∗ 1000 \color{blue}Y=P_{5*20}*X_{20*1000} Y=P520X201000 Y \color{blue}Y Y就是 5 ∗ 1000 \color{blue}5*1000 51000的矩阵,表示把1000个 20 \color{blue}20 20维特征的样本降维到了 5 \color{blue}5 5个特征。
    【数学与算法】PCA主成分分析与降维的通俗理解_第2张图片

PCA主成分分析的讲解博客:
如何通俗易懂地讲解什么是 PCA(主成分分析)?

【机器学习】降维——PCA(非常详细)。

你可能感兴趣的:(数学和算法,pca降维)