《深度学习》 第2章 线性代数

《深度学习》 第2章 线性代数

标量、向量、矩阵和张量

矩阵和向量相乘

单位矩阵和逆矩阵

线性相关和生成子空间

范数

衡量向量的大小用范数, L P L^P LP范数定义如下:
∣ ∣ x ∣ ∣ p = ( ∑ i ∣ x i ∣ p ) 1 p ||x||_p = \left(\sum_i|x_i|^p\right)^{\frac{1}{p}} xp=(ixip)p1
其中 p ∈ R , p ≥ 1 p\in \mathbb{R},p \ge 1 pR,p1

Frobenius范数:
∣ ∣ A ∣ ∣ F = ∑ i , j A i , j 2 ||A||_F = \sqrt{\sum_{i,j}A_{i,j}^{2}} AF=i,jAi,j2

特殊类型的矩阵和向量

特征分解

A v = λ v Av = \lambda v Av=λv
A = V d i a g ( λ ) V − 1 A = Vdiag(\lambda)V^{-1} A=Vdiag(λ)V1

奇异值分解

A = U D V T A = UDV^T A=UDVT

Moore-Penrose伪逆

A + = V D + U T A^+ = VD^+U^T A+=VD+UT
伪逆得到的 x x x使得 ∣ ∣ x ∣ ∣ 2 ||x||_2 x2 ∣ ∣ A x − y ∣ ∣ 2 ||Ax-y||_2 Axy2最小

迹运算

T r ( A ) = ∑ i A i , i Tr(A) = \sum_iA_{i,i} Tr(A)=iAi,i
∣ ∣ A ∣ ∣ F = T r ( A A T ) ||A||_F = \sqrt{Tr(AA^T)} AF=Tr(AAT)
T r ( A B C ) = T r ( C A B ) = T r ( B C A ) Tr(ABC) = Tr(CAB) = Tr(BCA) Tr(ABC)=Tr(CAB)=Tr(BCA)

行列式

d e t ( A ) det(A) det(A)可以衡量矩阵参与矩阵乘法后空间变化多少

实例:主成分分析

奇异值分解正是对线性变换这三种效应的一个析构。
A = μ Σ σ T A=\mu \Sigma \sigma ^{T} A=μΣσT μ \mu μ σ \sigma σ是两组正交单位向量, Σ \Sigma Σ是对角阵,表示奇异值,它表示我们找到了 μ \mu μ σ \sigma σ这样两组基, A A A矩阵的作用是将一个向量从 σ \sigma σ这组正交基向量的空间旋转到 μ \mu μ这组正交基向量空间,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值。如果 σ \sigma σ维度比 μ \mu μ大,则表示还进行了投影。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果,分解出来了。

而特征值分解其实是对旋转缩放两种效应的归并。(有投影效应的矩阵不是方阵,没有特征值)特征值,特征向量由 A x = λ x Ax=\lambda x Ax=λx得到,它表示如果一个向量 v v v处于 A A A的特征向量方向,那么 A v Av Av v v v的线性变换作用只是一个缩放。也就是说,求特征向量和特征值的过程,我们找到了这样一组基,在这组基下,矩阵的作用效果仅仅是存粹的缩放。对于实对称矩阵,特征向量正交,我们可以将特征向量式子写成 A = x λ x T A=x\lambda x^{T} A=xλxT,这样就和奇异值分解类似了,就是 A A A矩阵将一个向量从 x x x这组基的空间旋转到 x x x这组基的空间,并在每个方向进行了缩放,由于前后都是 x x x,就是没有旋转或者理解为旋转了0度。

矩阵的奇异值与特征值有什么相似之处与区别之处? - 赵文和的回答 - 知乎

你可能感兴趣的:(读后笔记)