主成成分分析简介

1.背景

     在sift特征之后,有一种PCA-sift的特征提取,其基本原理和步骤和sift是基本一样的,只是在特征子描述方面,由sift的128维特征描述,利用主成成分分析的方法,降为了36维的特征描述子。下面就简单介绍一些主成成分分析的相关信息。


2.基本原理

       主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

       设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。

主成成分分析简介_第1张图片

根据以上分析得知:

    (1)Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵。

    (2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。

F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。


    由以上分析可见,主成分分析法的主要任务有两点:

   (1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2 ,…, p)的表达式,即系数( i=1,2,…,m; j=1,2 ,…,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数,为了加以限制,系数启用的是对应的单位化的特征向量,即有= 1。

   (2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度:    



3.主成成分分析的作用

1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。


2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。


3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。


4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。


5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

   



4.主成成分分析计算

主成成分分析简介_第2张图片

主成成分分析简介_第3张图片





补充.协方差矩阵和相关系数矩阵

变量说明:

为一组随机变量,这些随机变量构成随机向量 ,每个随机变量有m个样本,则有样本矩阵

                                                           (1)

其中 对应着每个随机向量X的样本向量, 对应着第i个随机单变量的所有样本值构成的向量。

 

单随机变量间的协方差:

随机变量 之间的协方差可以表示为

                                                                   (2)

根据已知的样本值可以得到协方差的估计值如下:

                                                           (3)

可以进一步地简化为:

                           (4)

 协方差矩阵: 

  

                         (5)

其中 ,从而得到了协方差矩阵表达式。

如果所有样本的均值为一个零向量,则式(5)可以表达成:

    (6)

 

补充说明:

 

1、协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差,而不是不同样本之间的协方差,如元素Cij就是反映的随机变量Xi, Xj的协方差

2、协 方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合,为了使 随机向量的长度较小,可以采用主成分分析的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后就可以舍弃一些能量较小的分量了(对角线上的元素 反映的是方差,也就是交流能量)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,经常需要做这样的处理

3、必须注意的是,这里所得到的式(5)和式(6)给出的只是随机向量协方差矩阵真实值的一个估计(即由所测的样本的值来表示的,随着样本取值的不同会发生变化),故而所得的协方差矩阵是依赖于采样样本的,并且样本的数目越多,样本在总体中的覆盖面越广,则所得的协方差矩阵越可靠。

4、 如同协方差和相关系数的关系一样,我们有时为了能够更直观地知道随机向量的不同分量之间的相关性究竟有多大,还会引入相关系数矩阵。


在概率论和统计学中,相关或称相关系数关联系数,显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

对于不同数据特点,可以使用不同的系数。最常用的是皮尔逊积差相关系数。其定义是两个变量协方差除以两个变量的标准差(方差)。

皮尔逊积差系数


数学特征

/rho_{X,Y}={/mathrm{cov}(X,Y) /over /sigma_X /sigma_Y} ={E((X-/mu_X)(Y-/mu_Y)) /over /sigma_X/sigma_Y},

其中,E是数学期望,cov表示协方差。

因为μX = E(X),σX2 = E(X2) − E2(X),同样地,对于Y,可以写成

/rho_{X,Y}=/frac{E(XY)-E(X)E(Y)}{/sqrt{E(X^2)-E^2(X)}~/sqrt{E(Y^2)-E^2(Y)}}.

当两个变量的标准差都 不为零,相关系数才有定义。从柯西—施瓦茨不等式可知,相关系数不超过1. 当两个变量的线性关系增强时,相关系数趋于1或-1。当一个变量增加而另一变量也增加时,相关系数大于0。当一个变量的增加而另一变量减少时,相关系数小 于0。当两个变量独立时,相关系数为0.但反之并不成立。 这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说,X是区间[-1,1]上的一个均匀分布的随机变量。Y =X2. 那么Y是完全由X确定。因此Y 和X是不独立的。但是相关系数为0。或者说他们是不相关的。当Y 和X服从联合正态分布时,其相互独立和不相关是等价的。

当一个或两个变量带有测量误差时,他们的相关性就受到削弱,这时,“反衰减”性(disattenuation)是一个更准确的系数。

主成成分分析简介_第4张图片


你可能感兴趣的:(Math)