奇异值分解

        从几何 的角度上来看奇异值分解:

奇异值分解_第1张图片

         上图表明任意的矩阵 A 是可以分解成三个矩阵相乘的形式。V表示了原始域的标准正交基,U表示经过A 变换后的co-domain的标准正交基,Σ表示了V 中的向量与U中相对应向量之间的关系。我们仔细观察上图发现,线性变换A可以分解为旋转、缩放、旋转这三种基本线性变换。

          ,Σ是对角阵,表示奇异值,A矩阵的作用是将一个向量在V这组正交基向量的空间旋转,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值。然后在U这组正交基向量的空间再次旋转。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果,分解出来了。


          接下来我们从分解的角度重新理解前面的表达式,我们把原来的矩阵A表达成了n个矩阵的和:

\[A={{\sigma }_{1}}{{u}_{1}}v_{1}^{T}+{{\sigma }_{2}}{{u}_{2}}v_{2}^{T}+\cdots +{{\sigma }_{n}}{{u}_{n}}v_{n}^{T}=\sum\limits_{i=1}^{n}{{{\sigma }_{i}}{{u}_{i}}v_{i}^{T}}=\sum\limits_{i=1}^{n}{{{M}_{i}}}\]



          若假定是按降序排列的,它在某种程度上反映了对应项Mi在A中的“贡献”。“贡献”越大,说明对应的Mi在A的分解中占据的比重也越大。所以一个很自然的想法是,我们是不是可以提取出Mi中那些对A贡献最大的项,把它们的和作为对A的近似?          答案是肯定的,在多元统计分析中经典的主成分分析就是这样做的。在主成分分析中,我们把数据整体的变异分解成若干个主成分之和,然后保留方差最大的若干个主成分,而舍弃那些方差较小的。事实上,主成分分析就是对数据的协方差矩阵进行了类似的分解(特征值分解),但这种分解只适用于对称的矩阵,而 SVD 则是对任意大小和形状的矩阵都成立。
          奇异值包含了矩阵的“本质信息”,而具体什么是一个矩阵的“本质信息”呢?这是个很抽象的概念,在不同的应用领域自然有不同的解释,而本文将从矩阵本身的角度尽量直观地解释。本文认为奇异值分解的结果,解释了矩阵的“奇异程度”。

          我们知道非满秩的矩阵就是奇异矩阵,但是有没有量化的标准衡量哪个矩阵更不满秩,或者更奇异呢?比如同样两个满秩矩阵,能否看出哪个更“满”,或者两个非满秩且同为秩r的矩阵,哪个更“奇异”呢?也许你回答不上来,但你心里隐隐约约觉得似乎是有的。让我们来看看下面这两个n=3,r=2的奇异阵:

 


        虽说都是秩2矩阵,但A显得更奇异,因为它似乎离秩1矩阵更接近。如果A33不是7,而是6.9, 6.5, 6.1, 6.001呢?如果很接近6但不是6的话,理论上A依旧是个秩2矩阵,但也许计算机会告诉你这是一个秩1矩阵了。我们不讨论计算机的精度问题,接着看这两个矩阵。我们对其进行SVD,得到的两个奇异值矩阵:



         这是符合我们的认知的,正如在PCA或者图像压缩方面的例子应用一样,Σ的“头部”集中了更多的“质量”,忽略远离“头部”的奇异值对恢复矩阵的影响越小,这意味着:一个矩阵越“奇异”,其越少的奇异值蕴含了更多的矩阵信息,矩阵的信息熵越小(这也符合我们的认知,矩阵越“奇异”,其行(或列)向量彼此越线性相关,越能彼此互相解释,矩阵所携带的信息自然也越少)。这些奇异值就是开头我们所谈论的“本质信息”,而从矩阵Σ中也能得到矩阵的“奇异程度”。

 

 

你可能感兴趣的:(学习笔记)