PCA(2018-05-05)

  1. PCA是最受欢迎的降维算法。
  • 思路:将数据集转换到低维空间,同时尽可能的保护数据的信息。
  • 应用:常用字损失数据压缩,特征提取,数据视觉化
  • 是一种无监督学习
  • 通常数据很难被学习出特点时,再使用PCA。
  1. 为什么需要降维?
  • 为了数据视觉化,因为高维数据太难视觉出来了。
  • 数据压缩;移除冗余和噪声特征;减少内存;加快训练速度
  1. variance、covariance、covariance matrix
  • 方差:测量数据的分散程度


    image.png
  • 协方差:测量两个变量如何一起变化


    image.png
  • 协方差矩阵:


    image.png
  1. PCA步骤
  • 减去均值
  • 计算协方差矩阵
  • 计算特征值和特征向量
  • 从特征值中选择元素(特征值最大的那个特征向量),形成新的特征向量
  • 造成新的数据集


    image.png
  1. 在PCA中,到底选择几组特征向量?
  • Kaiser法,

  • Screen test,


    image.png
  • Percentage of variation explained.


    image.png

你可能感兴趣的:(PCA(2018-05-05))