奇异值分解(Singular Value Decomposition,SVD)是一种矩阵分解(Matrix Decomposition)的方法。除此之外,矩阵分解还有很多方法,例如特征分解(Eigendecomposition)、LU分解(LU decomposition)、QR分解(QR decomposition)和极分解(Polar decomposition)等。这篇文章主要说下奇异值分解,这个方法在机器学习的一些算法里占有重要地位。
参考自维基百科。
下面引用 SVD 在维基百科中的定义。
In linear algebra, the singular value decomposition (SVD) is a factorization of a real or complex matrix. It is the generalization of the eigendecomposition of a positive semidefinite normal matrix (for example, a symmetric matrix with positive eigenvalues) to any $ m\times n $ matrix via an extension of polar decomposition.
也就是说 SVD 是线代中对于实数矩阵和复数矩阵的分解,将特征分解从 半正定矩阵 推广到任意 m × n m \times n m×n 矩阵。
注意:本篇文章内如未作说明矩阵均指实数矩阵。
假设有 m × n m \times n m×n 的矩阵 A A A ,那么 SVD 就是要找到如下式的这么一个分解,将 A A A 分解为 3 个矩阵的乘积:
A m × n = U m × m Σ m × n V n × n T A_{m \times n} = U_{m \times m}\Sigma_{m \times n} V^T_{n \times n} Am×n=Um×mΣm×nVn×nT
其中, U U U 和 V V V 都是正交矩阵 (Orthogonal Matrix),在复数域内的话就是酉矩阵(Unitary Matrix),即
U T U = E m × m U^TU = E_{m \times m} UTU=Em×m
V T V = E n × n V^TV=E_{n \times n} VTV=En×n
换句话说,就是说 U U U 的转置等于 U U U 的逆, V V V 的转置等于 V V V 的逆:
U T = U − 1 U^T = U^{-1} UT=U−1
V T = V − 1 V^T = V^{-1} VT=V−1
而 Σ \Sigma Σ 就是一个非负实对角矩阵。
那么 U U U 和 V V V 以及 Σ \Sigma Σ 是如何构成的呢?
U U U 和 V V V 的列分别叫做 A A A 的 左奇异向量(left-singular vectors)和 右奇异向量(right-singular vectors), Σ \Sigma Σ 的对角线上的值叫做 A A A 的奇异值(singular values)。
其实整个求解 SVD 的过程就是求解这 3 个矩阵的过程,而求解这 3 个矩阵的过程就是求解特征值和特征向量的过程,问题就在于 求谁的特征值和特征向量。
知道了这些,那么求解 SVD 的步骤就显而易见了:
假设
A = ( 2 4 1 3 0 0 0 0 ) A = \begin{pmatrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} A=⎝⎜⎜⎛21004300⎠⎟⎟⎞
那么可以计算得到
A A T = ( 20 14 0 0 14 10 0 0 0 0 0 0 0 0 0 0 ) AA^T = \begin{pmatrix} 20 & 14 & 0 & 0 \\ 14 & 10 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ \end{pmatrix} AAT=⎝⎜⎜⎛20140014100000000000⎠⎟⎟⎞
接下来就是求这个矩阵的特征值和特征向量了
A A T x = λ x AA^T x = \lambda x AATx=λx
( A A T − λ E ) x = 0 (AA^T - \lambda E)x = 0 (AAT−λE)x=0
要想该方程组有非零解(即非零特征值),那么系数矩阵 A A T − λ E AA^T - \lambda E AAT−λE 的行列式必须为 0
∣ 20 − λ 14 0 0 14 10 − λ 0 0 0 0 − λ 0 0 0 0 − λ ∣ = 0 \begin{vmatrix} 20-\lambda & 14 & 0 & 0 \\ 14 & 10-\lambda & 0 & 0 \\ 0 & 0 & -\lambda & 0 \\ 0 & 0 & 0 & -\lambda \\ \end{vmatrix} = 0 ∣∣∣∣∣∣∣∣20−λ14001410−λ0000−λ0000−λ∣∣∣∣∣∣∣∣=0
求解这个行列式我就不再赘述了,这个直接使用行列式展开定理就可以了,可以得到 λ 1 ≈ 29.86606875 , λ 2 ≈ 0.13393125 , λ 3 = λ 4 = 0 \lambda_1 \approx 29.86606875,\lambda_2 \approx 0.13393125,\lambda_3 = \lambda_4 = 0 λ1≈29.86606875,λ2≈0.13393125,λ3=λ4=0,有 4 个特征值,因为特征多项式 ∣ A A T − λ E ∣ \vert AA^T - \lambda E \vert ∣AAT−λE∣ 是一个 4 次多项式。对应的单位化过的特征向量为
( 0.81741556 − 0.57604844 0 0 0.57604844 0.81741556 0 0 0 0 1 0 0 0 0 1 ) \begin{pmatrix} 0.81741556 & -0.57604844 & 0 & 0 \\ 0.57604844 & 0.81741556 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{pmatrix} ⎝⎜⎜⎛0.817415560.5760484400−0.576048440.817415560000100001⎠⎟⎟⎞
这就是矩阵 U U U 了。
同样的过程求解 A T A A^TA ATA 的特征值和特征向量,求得 λ 1 ≈ 0.13393125 , λ 2 ≈ 29.86606875 \lambda_1 \approx 0.13393125,\lambda_2 \approx 29.86606875 λ1≈0.13393125,λ2≈29.86606875,将特征值降序排列后对应的单位化过的特征向量为
( 0.40455358 − 0.9145143 0.9145143 0.40455358 ) \begin{pmatrix} 0.40455358 & -0.9145143 \\ 0.9145143 & 0.40455358 \\ \end{pmatrix} (0.404553580.9145143−0.91451430.40455358)
这就是矩阵 V V V 了。
而矩阵 Σ \Sigma Σ 根据上面说的为特征值的平方根构成的对角矩阵
( 5.4649857 0 0 0.36596619 0 0 0 0 ) \begin{pmatrix} 5.4649857 & 0 \\ 0 & 0.36596619 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} ⎝⎜⎜⎛5.464985700000.3659661900⎠⎟⎟⎞
到此,SVD 分解就结束了,原来的矩阵 A A A 就被分解成了 3 个矩阵的乘积。
A 4 × 2 = U 4 × 4 Σ 4 × 2 V 2 × 2 T A_{4 \times 2} = U_{4 \times 4}\Sigma_{4 \times 2} V^T_{2 \times 2} A4×2=U4×4Σ4×2V2×2T
( 2 4 1 3 0 0 0 0 ) = ( 0.81741556 − 0.57604844 0 0 0.57604844 0.81741556 0 0 0 0 1 0 0 0 0 1 ) ( 5.4649857 0 0 0.36596619 0 0 0 0 ) ( 0.40455358 − 0.9145143 0.9145143 0.40455358 ) T \begin{pmatrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} = \begin{pmatrix} 0.81741556 & -0.57604844 & 0 & 0 \\ 0.57604844 & 0.81741556 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{pmatrix} \begin{pmatrix} 5.4649857 & 0 \\ 0 & 0.36596619 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} \begin{pmatrix} 0.40455358 & -0.9145143 \\ 0.9145143 & 0.40455358 \\ \end{pmatrix} ^ T ⎝⎜⎜⎛21004300⎠⎟⎟⎞=⎝⎜⎜⎛0.817415560.5760484400−0.576048440.817415560000100001⎠⎟⎟⎞⎝⎜⎜⎛5.464985700000.3659661900⎠⎟⎟⎞(0.404553580.9145143−0.91451430.40455358)T
Python 中可以使用 numpy 包的 linalg.svd()
来求解 SVD。
import numpy as np
A = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
print(np.linalg.svd(A))
输出
(array([[-0.81741556, -0.57604844, 0. , 0. ],
[-0.57604844, 0.81741556, 0. , 0. ],
[ 0. , 0. , 1. , 0. ],
[ 0. , 0. , 0. , 1. ]]),
array([ 5.4649857 , 0.36596619]),
array([[-0.40455358, -0.9145143 ],
[-0.9145143 , 0.40455358]]))