线性代数学习笔记10-2:特征值分解EVD/奇异值分解SVD的几何意义

前置知识

  • 矩阵对应于线性变换,并且要明确讨论所依赖的基(坐标系):同一个变换,在不同的基下对应的矩阵不同
    具体来说,矩阵中的列向量对应了基变换,而基的变换造成了原空间中所有向量的变换
  • B = P − 1 A P \mathbf B=\mathbf {P^{-1}AP} B=P1AP B \mathbf B B本质上是与 A \mathbf A A相同的变换,只不过是同一种变换在不同坐标系下的表现(理解为在另一坐标系下施加变换,然后再还原到之前的坐标系)

特征值分解EVD

特征值分解的前提:矩阵是方阵!

特征值分解EVD/相似对角化,表示为 A = P − 1 Λ P \mathbf{A=P^{-1} \Lambda P} A=P1ΛP
特征向量给出了:在某个线性变换中,仅受拉伸/压缩的向量(伸缩倍数为特征值)

可见,特征值分解EVD/相似对角化的几何意义是:

  • 对于线性变换 A \mathbf A A找到了一组特殊的基,在这组基(坐标系)下,该线性变换表示为对角阵 Λ \mathbf\Lambda Λ(相当于只是将各个基向量做伸缩)
    或者说,从原坐标系变换到(以特征向量为基的)新坐标系,线性变换在这个坐标系下表示为“对角矩阵”(对角矩阵的好处:对应的线性变换只是将各个基向量做伸缩,计算方便)

特征值分解的理解

  • 角度一:在另一坐标系下的等效线性变换,可分解为三步:基变换、在另一组基下的空间变换、反向的基变换
  • 角度二:将一个线性变换,分解为三次连续的线性变换: P \mathbf{P} P Λ \mathbf{\Lambda} Λ P − 1 \mathbf{P^{-1}} P1

奇异值分解SVD

特征值分解的前提较严格:矩阵必须为方阵,且能够相似对角化(有n个线性无关的特征向量/为实对称矩阵)
一个简单的例子是,剪切变换由于只有“一个”特征向量,不能张成这个二维平面,无法进行特征值分解
SVD则适用于一般的矩阵

A = U Σ V T \mathbf{A=U \Sigma}\mathbf V^T A=UΣVT
其中, U \mathbf U U V \mathbf V V为正交矩阵, Σ \mathbf \Sigma Σ为对角矩阵(元素为非负实数)

类似特征值分解EVD,奇异值分解SVD目的是:
找一组特殊的基,在这组基(坐标系)下,线性变换能够被拆分为旋转、缩放、投影三种基本的简单变换

  • 投影:由于不是方阵,而是m x n矩阵,一定存在高维到低维的映射
  • 旋转:旋转对应的矩阵是正交矩阵,因此在SVD中,基变换过程要用到正交矩阵
  • 缩放:两次基变换中间的基向量的缩放

最终,线性变换被分解为三步:简单旋转、缩放、简单旋转
线性代数学习笔记10-2:特征值分解EVD/奇异值分解SVD的几何意义_第1张图片
如图,向量 x \mathbf x x经过线性变换 A \mathbf A A后得到 A x = U Σ V T x \mathbf A\mathbf x=\mathbf U\mathbf \Sigma\mathbf V^T\mathbf x Ax=UΣVTx
V T \mathbf V^T VT将其旋转为 V T x \mathbf V^T\mathbf x VTx [将单位正交向量v1、v2旋转到水平和垂直方向]
Σ \mathbf \Sigma Σ缩放了坐标系的基向量,将向量对应变为 Σ V T x \mathbf \Sigma\mathbf V^T\mathbf x ΣVTx
U \mathbf U U将其旋转为 U Σ V T x \mathbf U\mathbf \Sigma\mathbf V^T\mathbf x UΣVTx [将放缩后的向量旋转到最终位置]

对奇异值分解的理解

角度一:将一个线性变换,分解为三次连续的变换

V H \mathbf V^H VH Σ \mathbf \Sigma Σ U \mathbf U U,分别对应了简单旋转、缩放、简单旋转
ps. 正交矩阵的作用都是旋转矩阵

角度二:将SVD一种特殊的特征值分解

  • 特征值分解为 A = P Λ P − 1 \mathbf{A=P \Lambda P^{-1}} A=PΛP1
  • 奇异值分解为 A = U Σ V H = U Σ V − 1 \mathbf{A=U \Sigma\mathbf V^H=U \Sigma\mathbf V^{-1}} A=UΣVH=UΣV1

对比可知,奇异值分解可视为特征值分解: A = U Σ V T = V ( E Σ ) V T = V Q V − 1 \mathbf A=\mathbf U \mathbf \Sigma\mathbf V^T=\mathbf {V (E \Sigma)\mathbf V^T}=\mathbf {V QV^{-1}} A=UΣVT=V(EΣ)VT=VQV1变换 Q = E Σ \mathbf {Q=E \Sigma} Q=EΣ(包含伸缩 Σ \mathbf \Sigma Σ和旋转 E \mathbf E E,而我们把左侧的 V E \mathbf{VE} VE合并为 U \mathbf U U,最终就得到SVD

由上可见,奇异值分解与特征值分解,关键区别在于多了一个旋转的变换
(另外若空间维度发生了变化,还包括投影的变换)

角度三:从映射角度理解

线性变换 A \mathbf A A,将向量 x \mathbf x x映射为向量 A x \mathbf A\mathbf x Ax,即:原空间映射到像空间

  • 奇异值分解的几何意义:在原空间与像空间中分别找到一组标准正交基,把原空间中第 i i i个基向量,映射为像空间的第 i i i个基向量的非负倍向量,或映射为零向量
  • 上面的话,隐含了维度变换的投影;也隐含了旋转的变换(原空间与像空间中都是正交基,但是其指向如果不同,就对应于旋转)

EVD和SVD的对比

特征值和奇异值都可用于分解矩阵,但它们有如下区别:
(两者关系的基本讨论见前文,这里简要总结)
从 相似对角化 的角度:

  • 特征值分解是将特征向量作为新的基向量,在新的坐标系下进行伸缩,完成同一个线性变换
  • 奇异值分解是将标准正交基作为新的基向量,在新的坐标系下进行伸缩+旋转(可能还包含投影),完成同一个线性变换

无法进行特征值分解,正是因为线性变换包含旋转,导致不存在只被简单缩放的向量,即找不到特征向量

从适用范围上:

  • 特征值分解只能用于方阵,对应于从空间到空间自身的映射
  • 奇异值分解用于m x n的矩阵/或奇异矩阵(不可逆的方阵),对应从一个空间到另一个空间的映射(降维)

从几何直观上:

“作用”的概念:几何上简单理解为对向量的旋转和拉伸

  • 特征向量是变换后仅受缩放的向量/不变作用的向量(如左图,变换后方向一定不变)
  • 奇异向量是变换后拉伸效果最大的向量/最大作用的向量(如右图,变换后方向可能改变,但在所有向量中,受到了最大程度的拉伸
    线性代数学习笔记10-2:特征值分解EVD/奇异值分解SVD的几何意义_第2张图片

reference:矩阵分析(二):从特征值到奇异值、奇异值与特征值辨析
扩展:特征值分解(EVD)、相似对角化、QR分解、Schur分解、奇异值分解(SVD)详解

你可能感兴趣的:(线性代数学习笔记,线性代数,学习,矩阵)