十二、主成分分析PCA

PCA(Principal Component Analgesic)

    降维、数据压缩、可做数据可视化

降维分析:找到数据最重要的方向(方差最大的方向),第一个主成分就是从数据差异性最大(方差最大)的方向提取出来的,第二个主成分则来自于数据差异性次大的方向,且要与主成分方向正交

PCA不是线性回归

PCA算法流程

    1、数据预处理:中心化

    2、求样本的协方差矩阵

    3、对协方差矩阵做特征值分解

    4、选出最大的k个特征值对应的k个特征向量

    5、将原始数据投影到选取的特征向量上

    6、输出投影后的数据集

方差:用以描述一个数据集的离散程度

协方差:描述两个数据的相关性,接近1就是正相关,接近-1就是负相关,接近0就是不相关

协方差只能处理二维问题,维数若更多,需要计算多个协方差,可以使用矩阵来组织这些数据。

协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差

eg:


协方差矩阵:

    n个特征,m个样本,n行m列


n*m乘m*n ——》n*n

通过数据集的协方差矩阵及其特征值分析,我们可以得到协方差矩阵的特征向量与特征值。我们需要保留k个维度的特征就选取最大的k个特征值。

你可能感兴趣的:(十二、主成分分析PCA)