主成分分析(PCA)的来龙去脉

1.介绍

    说起PCA,还真一时说不上来它的定义,遂百度了一下,看看度娘如何说?主成分分析 ( Principal Component Analysis , PCA )或者主元分析,是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,计算主成分的目的是将高维数据投影到较低维空间。这几句话其实已经把PCA的主要思想讲到了,就是抽取出数据的主要因素,从多个变量中提取出少数几个可以代替所有变量的综合变量,目的当然就是减少变两个数,简化计算。

    最简单的一个例子就是,量体裁衣,古时候做衣服都会拿卷尺量一下胸围、腰围、臀围等等,会有好几个指标,现在我们去买衣服会发现,我们只要说一个180或者175就基本可以买到一件符合自己的衣服,这是如何做到的呢?这就是一个很简单的PCA的例子,我们买衣服不再需要那么多的身体指标,那是因为这些指标都已经化作一个综合指标也就是上面所说的180或者175,这个180可能既不是你的身高也不是你的体重,也不是你的胸围,也不是你的腰围,但是它却可以来衡量你穿衣服的大小,而且一个指标足矣。

    说到这里,要进一步说一下PCAPCA就是把几个相关的变量,转化成少数几个不相关的变量来对原始数据进行表示。再拿上面所说的例子进行解释,就是身高、体重,腰围、胸围、臀围这几个指标中,一般情况下,身高越高、体重越重,体重越重当然一般情况下这个人越胖,当然腰围、胸围、臀围就越大,这满足基本规律,也就是说上面几个变量是存在相关关系的,那么对于大多数人来说,是成正相关的,那么我们综合成一个指标就可以啦,180号的就代表身高**,体重**,腰围**,胸围**,臀围**等等,当然这个事满足大多数人的要求的,对于少部分人来说可能是不满足的,这时候我们就会发现,在一些特别胖的人买裤子的时候,会要特别大的号,然后裤子就会特别长,不合适。这当然也是PCA对于少数奇异点的不合适。

     主成分分析方法是K.Pearson在一个多世纪前提出的一种数据分析方法,其出发点是从一组特征中计算出一组按重要性从小到大排列的新特征,他们是原有特征的线性组合并且互不相关。

 

主成分分析(PCA)的来龙去脉_第1张图片

他等于各个原始特征的方差之和。


见链接(师兄写的一个例子)http://blog.csdn.net/mpbchina/article/details/7384425

很抱歉,csdn编辑公式太麻烦,所以最后才整个截图传上来

你可能感兴趣的:(主成分分析(PCA)的来龙去脉)