机器学习系列笔记,主要参考李航的《机器学习方法》,见参考资料。
第一章 机器学习简介
第二章 感知机
第三章 支持向量机
第四章 朴素贝叶斯分类器
第五章 Logistic回归
第六章 线性回归和岭回归
第七章 多层感知机与反向传播【Python实例】
第八章 主成分分析【PCA降维】
第九章 隐马尔可夫模型
第十章 奇异值分解
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。奇异值分解在统计中的主要应用为主成分分析(PCA),PCA算法的作用是把数据集映射到低维空间中去。 数据集的特征值(在SVD中用奇异值表征)按照重要性排列,降维的过程就是舍弃不重要的特征向量的过程,而剩下的特征向量组成的空间即为降维后的空间。
对非零矩阵 A ∈ R m × n A\in\mathbb{R}^{m\times n} A∈Rm×n,其秩 rank ( A ) = r (A)=r (A)=r , r ≤ min { m , n } . r\leq\min\{m,n\}. r≤min{m,n}. A A A的四个基本子空间:
N ( A T ) = { x ∈ R m ∣ A T x = 0 } . N(A^T)=\{x\in\mathbb{R}^m|A^Tx=0\}. N(AT)={x∈Rm∣ATx=0}.
四个子空间的关系如下图所示,我们证明其中两条:
证明:
∀ z ∈ R ( A ) , y ∈ N ( A T ) \forall z\in R(A),y\in N(A^T) ∀z∈R(A),y∈N(AT),有
< z , y > = z T y = ( A x ) T y = x T A T y = 0=z^Ty=(Ax)^Ty=x^TA^Ty=0 <z,y>=zTy=(Ax)Ty=xTATy=0
所以 z ⊥ y z\perp y z⊥y,证毕.
证明:
矩阵A的零空间就Ax=0的解的集合,则零空间的维数为n-r。因为秩为r,则自由变量的个数为n-r,有几个自由变量,零空间就可以表示成几个特解的线性组合,也即是零空间的维数为自由变量的个数。
在介绍奇异值分解之前,我们首先介绍一下Schur分解,利用Schur分解,可以导出奇异值分解.
Schur decomposition
For each KaTeX parse error: Undefined control sequence: \C at position 5: A\in\̲C̲^{n\times{n}} with eigenvalue λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn in any prescribed order,there exist unitary matrix U ∈ C n × n s.t . T = U ∗ A U U\in C^{n\times n} \operatorname{s.t}. T=U^*AU U∈Cn×ns.t.T=U∗AU is an upper triangle matrix with diagonal entries t i i = λ i t_{ii}=\lambda_i tii=λi:
T = [ λ 1 t 12 ⋯ t 1 n 0 λ 2 ⋯ ⋮ 0 ⋯ λ n − 1 t n − n 0 ⋯ ⋯ λ n ] . T = \left.\left[\begin{matrix} \lambda_{1}&t_{12}&\cdots&t_{1n}\\ 0 &\lambda_{2}&\cdots&\vdots\\ 0 &\cdots &\lambda_{n-1}&t_{n-n}\\ 0 &\cdots &\cdots &\lambda_{n}\end{matrix}\right.\right]. T= λ1000t12λ2⋯⋯⋯⋯λn−1⋯t1n⋮tn−nλn .
因为 A ∈ R m × n A\in\mathbb{R}^{m\times n} A∈Rm×n(不妨设 m > n m>n m>n,且 rank ( A ) = r \operatorname{rank}( A) = r rank(A)=r),所以 A T A A^TA ATA和 A A T AA^T AAT都是对称的实矩阵,我们以 A T A A^TA ATA为例,由Schur分解知,一定存在正交矩阵 V ∈ R n × n V\in\mathbb{R}^{n\times n} V∈Rn×n,使得:
V T A T A V = Λ = diag ( λ 1 , λ 2 , ⋯ , λ n ) = Σ T Σ V^TA^TAV=\Lambda=\operatorname{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)=\Sigma^T\Sigma VTATAV=Λ=diag(λ1,λ2,⋯,λn)=ΣTΣ其中 λ 1 ≥ λ 2 ≥ ⋯ λ n ≥ 0 \lambda_1\geq\lambda_2\geq\cdots\lambda_n\geq 0 λ1≥λ2≥⋯λn≥0,此时矩阵 V V V我们已经有了,就是 A T A A^TA ATA的特征向量矩阵,那么如何构造 U U U呢?我们首先给出一个引理:
rank ( A T A ) = rank ( A ) = r . \operatorname{rank}( A^TA) = \operatorname{rank}( A) = r. rank(ATA)=rank(A)=r.
证明:设 x ∈ R n x\in\mathbb{R}^n x∈Rn,则
A x = 0 ⇒ A T A x = 0 ; Ax=0\Rightarrow A^TAx=0; Ax=0⇒ATAx=0;
反之,
A T A x = 0 ⇒ x T A T A x = 0 ⇒ ∥ A x ∥ 2 2 = 0 ⇒ A x = 0. A^TAx=0\quad\Rightarrow\quad x^TA^TAx=0\quad\Rightarrow\parallel Ax\parallel_2^2=0\quad\Rightarrow Ax=0. ATAx=0⇒xTATAx=0⇒∥Ax∥22=0⇒Ax=0.
A T A A^TA ATA和 A A A的零空间相同,因此 rank ( A T A ) = rank ( A ) = r . \operatorname{rank}( A^TA) = \operatorname{rank}( A) = r. rank(ATA)=rank(A)=r.
由 rank ( A T A ) = rank ( A ) = r \operatorname{rank}( A^TA) = \operatorname{rank}( A) = r rank(ATA)=rank(A)=r,则
λ 1 ≥ λ 2 ≥ ⋯ ≥ λ r > 0 , λ r + 1 = ⋯ = λ n = 0. \lambda_1\geq\lambda_2\geq\cdots\geq\lambda_r>0,\\ \lambda_{r+1}=\cdots=\lambda_n=0. λ1≥λ2≥⋯≥λr>0,λr+1=⋯=λn=0.
我们将 V V V分成两部分 V = [ V 1 , V 2 ] V=[V_1,V_2] V=[V1,V2],其中 V 1 = [ v 1 , ⋯ , v r ] V_1=[v_1,\cdots,v_r] V1=[v1,⋯,vr], V 2 = [ v r + 1 , ⋯ , v n ] . V_2=[v_{r+1},\cdots,v_n]. V2=[vr+1,⋯,vn].
同样的我们将 U U U分为两部分 U = [ U 1 , U 2 ] U=[U_1,U_2] U=[U1,U2],考察 A V = U Σ AV=U \Sigma AV=UΣ:
A [ v 1 … v r … v n ] = [ u 1 ⋯ u m ] [ σ 1 0 ⋯ σ r 0 0 ] A v 1 = σ 1 u 1 ⇒ u 1 = A v 1 σ 1 ( σ 1 ≠ 0 ) . \begin{aligned} & A\left[\begin{array}{lll} v_1 & \ldots & v_r &\ldots v_n \end{array}\right]=\left[\begin{array}{lll} u_1 & \cdots & u_m \end{array}\right]\left[\begin{array}{ccc} \sigma_1 & 0 \\ \cdots & \sigma_r \\ 0 & & 0 \end{array}\right] \\ & Av_1=\sigma_1u_1\Rightarrow u_1=\frac{A v_1}{\sigma_1} \quad\left(\sigma_1 \neq 0\right) . \\ \end{aligned} A[v1…vr…vn]=[u1⋯um] σ1⋯00σr0 Av1=σ1u1⇒u1=σ1Av1(σ1=0).
若 σ 1 … σ r ≠ 0 \sigma_1 \ldots \sigma_r \neq 0 σ1…σr=0,则有:
u i = A v i σ i , i = 1 , 2 ⋯ , r . u_i=\frac{A v_i}{\sigma_i} \quad ,i=1,2\cdots,r. ui=σiAvi,i=1,2⋯,r.于是我们从 V 1 = [ v 1 , v 2 , ⋯ , v r ] V_1=[v_1,v_2,\cdots,v_r] V1=[v1,v2,⋯,vr]出发,构造 U 1 = [ u 1 , ⋯ , u r ] U_1=[u_1,\cdots,u_r] U1=[u1,⋯,ur]如下:
u i = 1 λ i A v i , i = 1 , ⋯ , r . u_i=\frac1{\sqrt{\lambda_i}}Av_i,i=1,\cdots,r. ui=λi1Avi,i=1,⋯,r.
下面验证 U 1 U_1 U1中的列向量是否正交:
u i T u j = 1 λ i λ j v i T A T A v j = 1 λ i λ j v i T λ j v j = δ i j = { 1 , i = j 0 , i ≠ j . u_i^Tu_j=\frac1{\sqrt{\lambda_i\lambda_j}}v_i^TA^TAv_j=\frac1{\sqrt{\lambda_i\lambda_j}}v_i^T\lambda_jv_j=\delta_{ij}= \begin{cases} 1,i=j\\ 0,i\neq j. \end{cases} uiTuj=λiλj1viTATAvj=λiλj1viTλjvj=δij={1,i=j0,i=j.
这说明
[ u 1 , ⋯ , u r ] [u_1,\cdots,u_r] [u1,⋯,ur]
是 A A A的列空间 R ( A ) R(A) R(A)的一组标准正交基.接着我们构造 U 2 U_2 U2,补全 U = [ U 1 , U 2 ] U=[U_1,U_2] U=[U1,U2].我们知道 R ( A ) R(A) R(A)的正交补空间为 N ( A T ) N(A^T) N(AT),设 u r + 1 , ⋯ , u m u_{r+1},\cdots,u_m ur+1,⋯,um为 N ( A T ) N(A^T) N(AT)的一组标准正交基.令
U 2 = [ u r + 1 , ⋯ , u m ] U_2=[u_{r+1},\cdots,u_m] U2=[ur+1,⋯,um]那么此时 U = [ U 1 , U 2 ] U=[U_1,U_2] U=[U1,U2]为正交矩阵,整个 U U U我们就都得到了!
再来观察:
A [ V 1 , V 2 ] = [ U 1 , U 2 ] Σ A[V_1,V_2]=[U_1,U2]\Sigma A[V1,V2]=[U1,U2]Σ
由上面的证明过程我们知道:
矩阵A的奇异值分解的左右奇异向量刚好是 A A A的四大基本子空间的基!
由 A = U Σ V T A=U\Sigma V^T A=UΣVT可推出
奇异值分解的一个应用是低秩矩阵估计,在F范数最小意义下,可以用秩为k(k 下面首先给出紧奇异值分解和截断奇异值分解的概念: 这里我们采用 F F F范数来刻画两个矩阵 A A A和 X X X的差异: ∥ A − X ∥ F \|A-X\|_F ∥A−X∥F,下面我们通过定理2会知道,在 F F F范数的意义下,截断奇异值分解就是秩不超过 k k k的矩阵中对 A A A的最好的近似. 引理1 设 A ∈ R m × n A\in\mathbb{R}^{m\times n} A∈Rm×n的奇异值分解为 U Σ V T U\Sigma V^T UΣVT,其中 Σ = \Sigma= Σ=diag ( σ 1 , ⋯ , σ n ) ( \sigma_1, \cdots , \sigma_n) (σ1,⋯,σn) ,则: 引理2 设 A ∈ R m × n A\in\mathbb{R}^{m\times n} A∈Rm×n 且 rank ( A ) = r \operatorname{rank}(A)=r rank(A)=r,并设 M M M为 R m × n \mathbb{R}^{m\times n} Rm×n中所有秩不超过 k k k的矩阵集合, 0 < k < r 0 设 A ∈ R m × n A\in\mathbb{R}^{m\times n} A∈Rm×n且 其奇异值分解为 U Σ V T U\Sigma V^T UΣVT,则 A = U Σ V T = [ σ 1 u 1 , ⋯ , σ n u n ] [ v 1 T ⋮ v n T ] = σ 1 u 1 v 1 T + ⋯ + σ n u n v n T . \begin{aligned} A&=U\Sigma V^T\\ &=[\sigma_1u_1,\cdots,\sigma_nu_n] \left[\begin{array}{l}v_1^T\\\vdots\\v_n^T\end{array}\right]\\ &=\sigma_1u_1v_1^T+\cdots+\sigma_nu_nv_n^T. \end{aligned} A=UΣVT=[σ1u1,⋯,σnun] v1T⋮vnT =σ1u1v1T+⋯+σnunvnT.(1)低秩矩阵估计
∥ A ∥ F = ∑ i = 1 n σ i 2 \parallel A\parallel_F=\sqrt{\sum_{i=1}^n\sigma_i^2} ∥A∥F=i=1∑nσi2
证明: ∥ A ∥ F = ∥ U Σ V T ∥ F = ∥ Σ ∥ F = ∑ i = 1 n σ i 2 . \|A\|_F=\|U\Sigma V^T\|_F=\|\Sigma\|_F=\sqrt{\sum_{i=1}^n\sigma_i^2}. ∥A∥F=∥UΣVT∥F=∥Σ∥F=∑i=1nσi2.
∥ A − X ∥ F = min S ∈ M ∥ A − S ∥ F . \|A-X\|_F=\min_{S\in\mathcal{M}}\|A-S\|_F. ∥A−X∥F=S∈Mmin∥A−S∥F.
称矩阵 X X X为矩阵 A A A在Frobenius范数意义下的最优近似.
(2)矩阵的外积展开
称 A = σ 1 u 1 v 1 T + ⋯ + σ n u n v n T A=\sigma_1u_1v_1^T+\cdots+\sigma_nu_nv_n^T A=σ1u1v1T+⋯+σnunvnT为 A A A的外积展开式. 令
A k = ∑ i = 1 k σ i u i v i T A_k=\sum_{i=1}^k\sigma_iu_iv_i^T Ak=i=1∑kσiuiviT
则 A k A_k Ak的秩为 k k k, 是 A A A的截断奇异值分解, A k A_k Ak是秩为 k k k的矩阵中在F范数意义下 A A A的最优近似矩阵.参考资料