7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

根据奇异值分解,秩为 r r r 的任意矩阵 A A A 可分解为 r r r 个简单矩阵(秩为 1 1 1 σ i u i v i T \sigma_i\mathbf{u}_i\mathbf{v}^T_i σiuiviT 之和,且 σ 1 ≥ σ 2 ≥ ⋯ σ r > 0 \sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0 σ1σ2σr>0,按重要性排序,即 A = U Σ V T = σ 1 u 1 v 1 T + ⋯ + σ r u r v r T A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r A=UΣVT=σ1u1v1T++σrurvrT 。如果我们用秩为 k < r k < r k<r 的矩阵 B B B 来最优近似矩阵 A A A ,则 B B B 为多少呢?大家猜测应该是 B k = σ 1 u 1 v 1 T + ⋯ + σ k u k v k T B_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_k Bk=σ1u1v1T++σkukvkT 即取 A A A k k k 个主成分近似 A A A ,这个就是 Eckart-Young-Mirsky 定理,称为矩阵低秩近似定理。

这里面有个问题是,矩阵 B B B 最优近似矩阵 A A A,那如何度量两个矩阵相似度?我们度量向量相似度是利用向量范数,即 ∥ a − b ∥ \|\mathbf{a} - \mathbf{b} \| ab 越小则向量越相似。矩阵是一种变换,矩阵越相似则变换也越相似,即同一向量变换后的向量应该越相似,利用这个性质可以定义矩阵相似度。令 x A = A x \mathbf{x}_A = A\mathbf{x} xA=Ax x B = B x \mathbf{x}_B = B\mathbf{x} xB=Bx ,记 ∥ A − B ∥ \|A-B\| AB 为矩阵相似度度量,为实数,值越小矩阵越相似,称为矩阵 A − B A-B AB 范数,则
∥ A − B ∥ = ∥ x A − x B ∥ = ∥ A x − B x ∥ = ∥ ( A − B ) x ∥ \|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\| AB=xAxB=AxBx=(AB)x

x = 0 \mathbf{x}=\mathbf{0} x=0 是零向量时, ∥ A − B ∥ \|A-B\| AB 等于 0 0 0 ,即任意矩阵都完全相似,这显然不符合常识,故需对向量 x \mathbf{x} x 进行限定。不失一般性,令 ∥ x ∥ = 1 \|\mathbf{x}\|=1 x=1 x \mathbf{x} x 限定为单位向量。

向量 ( A − B ) x (A-B)\mathbf{x} (AB)x 的范数随单位向量 x \mathbf{x} x 改变而改变,故应该采用 ( A − B ) x (A-B)\mathbf{x} (AB)x 最大范数来度量矩阵范数 ∥ A − B ∥ \|A-B\| AB

矩阵之差范数 ∥ A − B ∥ = m a x x ∥ ( A − B ) x ∥ \|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\| AB=maxx(AB)x x \mathbf{x} x 为单位向量。

根据矩阵 A − B = U Σ V T A-B = U\Sigma V^T AB=UΣVT 奇异值分解,得
( A − B ) x = ( U Σ V T ) x = ( σ 1 u 1 v 1 T + ⋯ + σ r u r v r T ) x = σ 1 u 1 v 1 T x + ⋯ + σ r u r v r T x = ( σ 1 v 1 T x ) u 1 + ⋯ + ( σ r v r T x ) u r (A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r (AB)x=(UΣVT)x=(σ1u1v1T++σrurvrT)x=σ1u1v1Tx++σrurvrTx=(σ1v1Tx)u1++(σrvrTx)ur

由于 u i \mathbf{u}_i ui 正交,故
∥ ( A − B ) x ∥ = ∥ ( σ 1 v 1 T x ) u 1 + ⋯ + ( σ r v r T x ) u r ∥ = ( σ 1 v 1 T x ) 2 + ⋯ + ( σ r v r T x ) 2 ≤ ( σ 1 v 1 T x ) 2 + ⋯ + ( σ 1 v r T x ) 2 = σ 1 ( v 1 T x ) 2 + ⋯ + ( v r T x ) 2 ≤ σ 1 ( v 1 T x ) 2 + ⋯ + ( v r T x ) 2 + ⋯ + ( v n T x ) 2 = σ 1 ∥ x ∥ = σ 1 \|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1 (AB)x=(σ1v1Tx)u1++(σrvrTx)ur=(σ1v1Tx)2++(σrvrTx)2 (σ1v1Tx)2++(σ1vrTx)2 =σ1(v1Tx)2++(vrTx)2 σ1(v1Tx)2++(vrTx)2++(vnTx)2 =σ1x=σ1

所以矩阵之差范数 ∥ A − B ∥ = σ 1 \|A-B\| =\sigma_1 AB=σ1,即矩阵 A − B A-B AB 最大奇异值。

根据矩阵低秩近似定理, A − B k = σ k + 1 u k + 1 v k + 1 T + ⋯ + σ r u r v r T A-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r ABk=σk+1uk+1vk+1T++σrurvrT ,故 ∥ A − B k ∥ = σ k + 1 \|A-B_k\| = \sigma_{k+1} ABk=σk+1 即最优近似矩阵 B k B_k Bk 与矩阵 A A A 之差范数为 σ k + 1 \sigma_{k+1} σk+1 ,对其它任意秩为 k k k 的矩阵 B B B 均有 ∥ A − B ∥ ≥ ∥ A − B k ∥ \|A-B\| \ge \|A-B_k\| ABABk

根据矩阵之差范数 ∥ A − B ∥ = σ 1 \|A-B\| = \sigma_1 AB=σ1,令矩阵 B = O B=\mathbf{O} B=O 为零矩阵,得矩阵范数 ∥ A ∥ = σ 1 \|A\| =\sigma_1 A=σ1,即矩阵 A A A 最大奇异值。 根据范数定义,对任意单位向量 v \mathbf{v} v ∥ A v ∥ ≤ ∥ A ∥ = σ 1 \|A\mathbf{v}\| \le \|A\| = \sigma_1 AvA=σ1 成立,所以矩阵范数就是变换单位向量的最大长度, v = v 1 \mathbf{v} = \mathbf{v}_1 v=v1 时等号成立。

根据范数定义,范数具有如下性质:

齐次性:对任意实数 k k k ∥ k A ∥ = ∣ k ∣ ∥ A ∥ \|kA\| = |k|\|A\| kA=kA

范数相融性:对任意向量 x \mathbf{x} x,有 ∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ \|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\| AxAx 成立。

三角不等式: ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \|A+B\| \le \|A\| + \|B\| A+BA+B

证:根据向量范数三角不等式,对任意单位向量 x \mathbf{x} x ∥ ( A + B ) x ∥ = ∥ A x + B x ∥ ≤ ∥ A x ∥ + ∥ B x ∥ \|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\| (A+B)x=Ax+BxAx+Bx ,两边取范数得证。

矩阵乘积不等式: ∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ \|AB\| \le \|A\|\|B\| ABAB

证:根据范数相融性,对任意单位向量 x \mathbf{x} x ∥ A B x ∥ ≤ ∥ A ∥ ∥ B x ∥ \|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\| ABxABx ,两边取范数得证。

范数还具有如下性质: ∥ A T ∥ = ∥ A ∥ ; ∥ A T A ∥ = ∥ A A T ∥ = ∥ A ∥ 2 \|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2 AT=AATA=AAT=A2 ∥ A A + ∥ = ∥ A + A ∥ = 1 \|AA^{+}\|=\|A^{+}A\| = 1 AA+=A+A=1
任意正交矩阵 U , V U,V U,V,有 ∥ U ∥ = 1 ; ∥ A ∥ = ∥ U A ∥ = ∥ A V ∥ = ∥ U A V ∥ \|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\| U=1A=UA=AV=UAV

任意可逆矩阵 A A A,有 ∥ A − 1 ∥ = 1 / σ n \|A^{-1}\|=1/\sigma_n A1=1/σn ,故 ∥ A ∥ ∥ A − 1 ∥ = σ 1 / σ n ≥ 1 \|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1 AA1=σ1/σn1 ∥ A A − 1 ∥ = 1 \|AA^{-1}\| = 1 AA1=1

根据 σ 1 = ∥ A ∥ ≥ ∥ A v ∥ \sigma_1 = \|A\| \ge \|A\mathbf{v}\| σ1=AAv 可知最大奇异值或矩阵范数很大,大于矩阵任意列向量的长度和任意元素,取 v = e i \mathbf{v} = \mathbf{e}_i v=ei σ 1 = ∥ A ∥ ≥ ∥ A e i ∥ = ∥ a i ∥ ≥ ∣ a j i ∣ \sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}| σ1=AAei=aiaji 。由于 ∥ A T ∥ = ∥ A ∥ \|A^T\| = \|A\| AT=A 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。

奇异值有个重要且有趣的结论:任意矩阵 A A A σ 1 2 + ⋯ + σ r 2 = ∑ i j a i j 2 \sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij} σ12++σr2=ijaij2 即奇异值平方和等于所有元素平方和,这个相当于能量守恒定律,矩阵能量是为所有元素平方和(类似动能为速度平方),奇异值能量为奇异值平方和。因为 r ≪ m n r \ll mn rmn 可知奇异值很大。
证:根据 A T A = V Σ 2 V T A^TA = V\Sigma^2 V^T ATA=VΣ2VT 证明。
A T A = [ a 1 T a 1 a 1 T a 2 ⋯   , a 1 T a n ⋮ a n T a 1 a n T a 2 ⋯   , a n T a n ] A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right] ATA=a1Ta1anTa1a1Ta2,a1TananTa2,anTan
矩阵 A T A A^TA ATA 对角元素之和为 a 1 T a 1 + ⋯ + a n T a n = ∑ i j a i j 2 \mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij} a1Ta1++anTan=ijaij2 为所有元素平方和。由于矩阵对角元素之和很重要,为此定义矩阵的迹。
矩阵迹 方阵对角元素之和,记为 t r A = ∑ i a i i tr A = \sum_i a_{ii} trA=iaii
矩阵迹重要性质:对同型方阵 A , B A,B A,B,有 t r A B = t r B A tr AB = tr BA trAB=trBA 成立,这表明矩阵迹满足矩阵乘法交换律
t r ( V Σ 2 V T ) = t r ( V T V Σ 2 ) = t r ( Σ 2 ) = ∑ i σ i 2 tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_i tr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=iσi2 ,故 ∑ i j a i j 2 = ∑ i σ i 2 \sum_{ij} a^2_{ij} = \sum_i \sigma^2_i ijaij2=iσi2 得证。

现证 t r A B = t r B A tr AB = tr BA trAB=trBA
t r A B = a r 1 T b 1 + ⋯ + a r n T b n = ∑ i j a i j b j i tr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji} trAB=ar1Tb1++arnTbn=ijaijbji

t r B A = b r 1 T a 1 + ⋯ + b r n T a n = ∑ i j b i j a j i = ∑ i j a i j b j i = t r A B tr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB trBA=br1Ta1++brnTan=ijbijaji=ijaijbji=trAB

根据对称矩阵谱分解定理 S = Q Λ Q T S=Q \Lambda Q^T S=QΛQT,可得矩阵迹另一重要性质, t r S = t r ( Q Λ Q T ) = t r ( Q T Q Λ ) = t r Λ = ∑ i λ i tr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_i trS=tr(QΛQT)=tr(QTQΛ)=trΛ=iλi 即对称矩阵的迹等于特征值之和

你可能感兴趣的:(#,线性代数)