PCA(principal Component Analysis) 主成分分析

PCA(principal Component Analysis) 主成分分析

本文解决以下疑问:

1、什么是PCA?

2、为什么要求最大特征值?

3、为什么要投影到对应的特征向量?

——————————————————————————————————————————

1、什么是PCA?

有两种经常使⽤的PCA的定义,它们会给出同样的算法。这里讲第一种定义。

PCA可以被定义为数据在低维线性空间上的正交投影,这个线性空间被称为主⼦空间(principal subspace),使得投影数据的⽅差被最⼤化(Hotelling, 1933)。等价地,它也可以被定义为使得平均投影代价最⼩的线性投影。平均投影代价是指数据点和它们的投影之间的平均平⽅距离(Pearson, 1901)

PCA(principal Component Analysis) 主成分分析_第1张图片

PCA(principal Component Analysis) 主成分分析_第2张图片

2、为什么要求最大特征值?

PCA(principal Component Analysis) 主成分分析_第3张图片

此处的求偏导根据《Matrix cookbook》中公式:
这里写图片描述
PCA(principal Component Analysis) 主成分分析_第4张图片
这就是为什么我们需要选取特征值最大的原因,都是由定义所推导出来的

3、为什么要投影到对应的特征向量?

PCA的初衷,就是找到一个变换使得坐标系旋转的效果能够实现削弱相关性或将主要信息集中在少数几个维度上这一任务


参考书籍:
《PRML》、《Matrix cookbook》

你可能感兴趣的:(PCA(principal Component Analysis) 主成分分析)