SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解

一直想弄明白SVD分解后面蕴含的直观意义,可这牵扯到矩阵乘法和线性变换的物理含义的理解。在考虑SVD用途时又牵扯到PCA降维,而PCA降维里又扯到特征值和特征向量。于是,索性全记下来,供诸位探讨学习。


全文将解答如下问题:

一.线性变换

   经常看到在一个向量的左侧乘以一个矩阵,那矩阵乘法到底有什么样的含义?直观的解释又是什么?文章将从拉伸和基变换两个方面做解释。请重视对线性变换的理解,它对理解特征向量,SVD有很大好处。

二.特征值和特征向量

在我们的直观世界中特征值和特征向量到底是一种怎样的存在?

三.SVD分解

为什么要进行SVD分解?他有什么直观的物理或者几何含义?

SVD分解的公式又是如何推导出来的?

四.PCA降维

数据降维是干嘛?为什么能丢掉一些维度,为什么特征值大就是主成分?SVD分解在降维中的应用。


一.线性变换

      什么是线性变换?在数学中,线性映射(也叫做线性变换或线性算子)是在两个向量空间之间的函数,它保持向量加法和标量乘法的运算。术语线性变换特别常用,尤其是对从向量空间到自身的线性映射

      如果 和 是有限维的,并且在这些空间中有选择好的,则从 到 的所有线性映射可以被表示为矩阵;(来自维基百科)

      上面说的这么迷糊,线性变换就是向量加法和标量乘法的运算,而矩阵乘法正好就只有加和乘的运算。

      所以这里,我要解释的是线性变换在这种加法和乘法里所带来的拉伸效果或者说是解释向量如何在不同矩阵空间中表示。

       这部分首先用两个特例来演示线性变换的拉伸效果(其实也就是一个矩阵左乘一个向量),然后用基底的变换来解释矩阵乘法,以及为什么会产生这种效果。

     先通过两个二维的简单特例来图示线性变换的拉伸效果:

1.假设有一个对角矩阵MM乘以一个向量(x,y)可以看做M将点(x,y)变换为另一个点

               

变换的效果如下,变换后的平面仅仅是沿 X 水平方面进行了拉伸3倍,垂直方向是并没有发生变化。


   2.看另一个矩阵


                                                     

用这个矩阵乘以其他向量,产生的效果:

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第1张图片

图片来源 http://www.ams.org/samplings/feature-column/fcarc-svd

这种效果的另一种演示,请注意基底的变化(即图中矩阵的边界,原来是正交的,变化后不是)

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第2张图片

图片来源 http://blog.stata.com/2011/03/03/understanding-matrices-intuitively-part-1/

      在进行下面的解释之前,我想灌输一个概念,一个矩阵的列向量就是一组“基底"(先不谈奇异矩阵)。这些基底就张成了一个空间。如3阶单位矩阵I,它的列向量就张成了我们熟知的三维坐标系笛卡尔空间。

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第3张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第4张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第5张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第6张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第7张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第8张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第9张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第10张图片


SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第11张图片

这一部分主要讲特征值和特征向量背后的物理或者几何方面的直观解释。

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第12张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第13张图片

    SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第14张图片 

参考地址:http://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%90%91%E9%87%8F

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第15张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第16张图片


SVD 与 PCA 的直观解释(3): SVD的直观解释及推导

引子:SVD分解就是把一个实数矩阵M分拆成UDV。U,V都是正交旋转矩阵。这个分拆可以形象的理解为,我要看看这个空间M性质怎么样?那我可以用标准笛卡尔空间来构造出一个一模一样的M空间。想象M空间是个特殊形状的泥塑,笛卡尔空间是块标准的正方形泥块。把笛卡尔空间放在手里,先旋转着看看(即左乘V),再找合适的地方捏捏它(再左乘D),好让它和M一样。最后再旋转(再左乘U),把它摆得和M一样。这样就360度无死角的构造了一个M空间。如果发现M空间有的地方很扁,那么我就掉丢这个维度,这就是SVD的降维,也是SVD的核心。

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第17张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第18张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第19张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第20张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第21张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第22张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第23张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第24张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第25张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第26张图片

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第27张图片

注释:关于上面为何是特征向量的说明。

         

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第28张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第29张图片


PS:一室友秦屌,问我M不是方阵,是3*2的矩阵。作用在2*1的向量 x 上,Mx 就变成了三维的了。这还能通过两次旋转达到效果吗?注意,旋转也可以是不同维度的,不只是在平面内旋转。一个正方形我可以让它绕着原点立起来旋转。这就由二维变成三维了。


reference:

http://www.ams.org/samplings/feature-column/fcarc-svd

http://en.wikipedia.org/wiki/Singular_value_decomposition#History

http://diaorui.net/archives/61


SVD 与 PCA 的直观解释(4): PCA 主成分分析


这部分主要讲解 特征向量空间和SVD分解 在PCA中的应用。

SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第30张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第31张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第32张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第33张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第34张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第35张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第36张图片SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第37张图片


reference:

A Tutorial on Principal Component Analysis .pdf (通俗易懂)

http://math.stackexchange.com/questions/3869/what-is-the-intuitive-relationship-between-svd-and-pca



 

径向基(Radial basis function)神经网络、核函数的一些理解



径向基函数(RBF)在神经网络领域扮演着重要的角色,如RBF神经网络具有唯一最佳逼近的特性,径向基作为核函数在SVM中能将输入样本映射到高维特征空间,解决一些原本线性不可分的问题。

      本文主要讨论:

       1. 先讨论核函数是如何把数据映射到高维空间的,然后引入径向基函数作核函数,并特别说明高斯径向基函数的几何意义,以及它作为核函数时为什么能把数据映射到无限维空间。

       2.提到了径向基函数,就继续讨论下径向基函数神经网络为什么能用来逼近。

       再看这文章的时候,注意核函数是一回事,径向基函数是另一回事。核函数表示的是高维空间里由于向量内积而计算出来的一个函数表达式(后面将见到)。而径向基函数是一类函数,径向基函数是一个它的值(y)只依赖于变量(x)距原点距离的函数,即 ;也可以是距其他某个中心点的距离,即  引用自wiki . 也就是说,可以选定径向基函数来当核函数,譬如SVM里一般都用高斯径向基作为核函数,但是核函数不一定要选择径向基这一类函数。如果感觉这段话有点绕没关系,往下看就能慢慢体会了。

为什么要将核函数和RBF神经网络放在一起,是希望学习它们的时候即能看到它们的联系又能找到其差别。

    一.由非线性映射引入核函数概念,之后介绍高斯径向基及其几何意义。

    预先规定是一个非线性映射函数,能够把空间中任一点,映射到空间

    下面先用一个例子说明这种映射的好处。

     例:假设二维平面上有一些系列样本点,他们的分布近似是一个围绕着原点的圆(见图1)。那么在这个二维的样本空间里,这些样本点满足的曲线方程为:

                                         

如果设非线性映射为: 

                                         

那么在映射后的的空间里,曲线方程变成了:   

                                 

这意味着在新空间里,样本点是分布在一条近似直线上的,而不是之前的圆,很明显这是有利于我们的。

                   SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第38张图片

                                                     图1.左图为原来的x所在的二维空间,右图为映射后的新的y空间

继续这个例子,我们已经知道了映射关系,那么在y空间中的向量内积会是什么样子的呢?

                        SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第39张图片

注意公式里的各种括号。[x]代表样本x,圆括号(,)表示样本的坐标,尖括号<,>代表代表向量内积。

由此我们知道y空间里两向量的内积,在x空间里确实一个关于的函数,这个k函数就称为核函数

      所以总结一下核函数就是:在原样本空间中非线性问题,我们希望通过一种映射把他映射到高维空间里使问题变得线性。然后在高维空间里使用我们的算法就能解决问题。当然这里按照前面的推导我们在高维空间里的运算是以向量内积为基础的。

      回顾SVM里的应用得到的分类器表达式为:

                                     

x经过映射后得到的表达式为:

                                    

由此就可以看到这里有高维空间里的内积,就能够用核函数代替这种内积了,而往往把高斯径向基函数作为核函数。

高斯径向基函数公式如下:

                                  

那么它有什么几何意义呢。

先看看x经过映射以后,在高维空间里这个点到原点的距离公式:

                                    

这表明样本x映射到高维空间后,存在于一个超球面上.

        接下来将讨论核函数为什么能映射到高维空间,径向基核又为什么能够映射到无限维空间。

先考虑普通的多项式核函数:

                             其中,并且 .

因此这个多项式核函数能够写成:

                             . 

现在回到之前的映射

                       

并取  ,注意此时是3维空间了,那么有

                              .

这就是前面的k(x,y),因此,该核函数就将2维映射到了3维空间。

看完了普通核函数由2维向3维的映射,再来看看高斯径向基函数会把2维平面上一点映射到多少维。

                             
                                             
                                             
                                              

呃,看看它的泰勒展开式你就会恍然大悟:

                              

这个时候 (x)就是一个无限维的了。


二、RBF神经网络

       最基本的径向基函数(RBF)神经网络的构成包括三层,其中每一层都有着完全不同的作用。输入层由一些感知单元组成,它们将网络与外界环境连接起来;第二层是网络中仅有的一个隐层,它的作用是从输入空间到隐层空间之间进行非线性变换,在大多数情况下,隐层空间有较高的维数;输出层是线性的,它为作用于输入层的激活模式提供响应。

 SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第40张图片       SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第41张图片

函数逼近的形式:

                        

     个人觉得,隐含层的每个节点就是就是空间中的一个基底,经过线性组合加权以后就变成了输出。这种理解是通过逼近理论来理解的。


这里的多项式P就是由基底组成。

隐含层每个节点对应的响应输出就像这些基底的相应一样,训练权值就是找到每个基底前面的系数。

      第二角度理解:

      不知大家是否熟悉混合高斯模型,这里的逼近有点像混合高斯模型。也就是每个高斯函数在自己的中心附近作出突出贡献。

                         SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第42张图片

在这里推介zouxy09的博文《径向基网络(RBF network)之BP监督训练》,他的文章演示的比较清楚。我摘抄如下:

      当年径向基函数的诞生主要是为了解决多变量插值的问题。可以看下面的图。具体的话是先在每个样本上面放一个基函数,图中每个蓝色的点是一个样本,然后中间那个图中绿色虚线对应的,就表示的是每个训练样本对应一个高斯函数(高斯函数中心就是样本点)。然后假设真实的拟合这些训练数据的曲线是蓝色的那根(最右边的图),如果我们有一个新的数据x1,我们想知道它对应的f(x1)是多少,也就是a点的纵坐标是多少。那么由图可以看到,a点的纵坐标等于b点的纵坐标加上c点的纵坐标。而b的纵坐标是第一个样本点的高斯函数的值乘以一个大点权值得到的,c的纵坐标是第二个样本点的高斯函数的值乘以另一个小点的权值得到。而其他样本点的权值全是0,因为我们要插值的点x1在第一和第二个样本点之间,远离其他的样本点,那么插值影响最大的就是离得近的点,离的远的就没什么贡献了。所以x1点的函数值由附近的b和c两个点就可以确定了。拓展到任意的新的x,这些红色的高斯函数乘以一个权值后再在对应的x地方加起来,就可以完美的拟合真实的函数曲线了。

                     SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解_第43张图片

      我个人比较倾向径向基神经网络是把输入的样本映射到了另一个空间,在另一个空间经过线性组合后形成输出,得到逼近的结果,这种理解也有利于去窥探神经网络的本质。个人愚见,有错请指出。


(转载请注明作者和出处:http://blog.csdn.net/heyijia0327 未经允许请勿用于商业用途)


reference:

1.Michael Eigensatz《Insights into the Geometry of the Gaussian Kernel and an Application in Geometric Modeling》

2.Quora 上的问题 Why does the RBF (radial basis function) kernel map into infinite dimensional space?

3.zouxy09 博文《径向基网络(RBF network)之BP监督训练

4.如果想学SVM, JerryLead 的 《支持向量机》系列 当然不能漏掉.

5.男神 Andrew Ng 的讲义是师祖.

版权声明:本文为博主原创文章,未经博主允许不得转载。



你可能感兴趣的:(SVD 与 PCA 的直观解释 && 径向基(Radial basis function)神经网络、核函数的一些理解)