PCA(主成分分析)

主成分分析(Principal components analysis,以下简称PCA)是一种统计过程,是目前最重要的降维方法之一,它使用正交变换将一组可能相关的变量的观察值转换为一组称为主成分的线性不相关变量的值。

明确一点:PCA并不是单纯的减少原始数据的维数,而是对原始数据(n维)进行重构,生成新的维数(k维),k

PCA(主成分分析)_第1张图片

对于上图为一些二维变量分布而成,如果我们想要把这些变量降为一维,理想情况是这个一维新变量包含原始数据最多的信息,那我们便选择右斜向上方向,因为右斜向上方向方差最大,离散程度最大,包含的信息量最多。

也许你会问为什么方差越大,包含的信息量越大?接下来,我们便要讨论这样的问题。

一般是从信息熵的概念来解释,我们可以简单地这样理解,方差越大,变量的差异也就越大,所含的信息量就越多,就像一个包含一些相似的汽车的集合和不同的汽车、火车、电瓶车所组成集合,当然是后者包含的信息量较大。

其实严格来说,方差刻画的是变量的离散程度,信息熵描述的变量的不确定程度,两者既有联系又有区别,因为一组离散程度很小的变量不确定可以很大,所以变量方差越大,包含信息量越多这样的说法是有些牵强的。

具体的算法流程如下图:

PCA(主成分分析)_第2张图片

具体的公式在 http://blog.jobbole.com/109015/

                     http://www.cnblogs.com/pinard/p/6239403.html

                     https://www.cnblogs.com/hadoop2015/p/7419087.html讲解得很详细


参考:

图片来自于维基百科;

算法流程来自于 http://www.cnblogs.com/pinard/p/6239403.html


你可能感兴趣的:(PCA(主成分分析))