Udacity 数据分析进阶课程笔记L43:主成分分析PCA

  1. PCA(Principal Component Analysis)是一套全面用于各类数据分析的分析方法,包括特征集压缩。每当需要将数据直观化的时候,都可以采用。

    • PAC特别适用于坐标系的位移和旋转问题
    • 通过一系列小测试,理解数据维度的转变
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第1张图片
      数据维度测试.png
  2. 对于任何形式和形状(分布)的数据,PCA从旧坐标系统仅通过转换translation和旋转rotation,移动原坐标原点,将X轴移动到新的坐标系统的主轴,该主轴使所有数据有最大方差;进一步将另一坐标轴移至正交处(第二主成分),使其处于重要性较低的方向。PCA找到这些轴,并证明其重要性。

    Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第2张图片
    PCA

  3. 一些手动PCA的练习,练习中的△X△Y可视为新坐标轴在原坐标系中的分量。

    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第3张图片
      练习一
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第4张图片
      练习二
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第5张图片
      练习三:可用于PCA的数据
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第6张图片
      练习四:轴何时占主导地位
  4. 保留信息,同时压缩特征数量的操作

    • 在许多特征中,假设只有少量特征驱动数据模式
    • 寻找一个特征组合(即主要成分principal component),以便弄清楚深层次的现象
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第7张图片
      复合特征
  5. 如何决定主要成分:

    • 主成分是数据分布具有最大方差,也就是说在该方向上,数据更加分散。
    • 这样做的原因是,在主成分的方向上进行投射(数据压缩)时,可以尽可能多地保留原始数据所含的信息。
    • Udacity 数据分析进阶课程笔记L43:主成分分析PCA_第8张图片
      主要成分使数据分布具有最大方差
  6. 最大方差和信息损失

  7. 用于特征转换的PCA:非监督学习的强大之处

  8. PCA的回顾和释义

    • PCA是将特征转为主成分的系统化方式
    • 主成分可被用作新的特征
    • 主成分是数据中使方差最大化的分布方向,它可以使压缩特征时信息损失降到最低
    • 可以对主要的成分划分等级,数据因特定主成分产生的方差越大,该成分的等级越高
    • 主成分之间彼此正交
    • 主成分的数量有限,最大值为输入的特征数量
  9. sklearn中的PCA

  10. 何时使用PCA

    • 驱动数据模式的隐藏特征(如big shots in Enron)
    • 降维,如以下情况时:可视化高维数据;降噪;使用另一算法之前对数据进行预处理
  11. PCA迷你项目

你可能感兴趣的:(Udacity 数据分析进阶课程笔记L43:主成分分析PCA)