机器学习中的数学——线性代数笔记

线性代数笔记

1.1 矩阵基本概念

矩阵Hadamard乘积:矩阵对应元素的乘积,表示为 C = A C=A C=A

向量的点积:向量的行列数相同,行向量乘以列向量。用以求解两向量的夹角。

a ∙ b = ∣ a ∣ ∣ b ∣ c o s θ a \bullet b=|a||b| cos \theta ab=abcosθ
单位矩阵:保持n维向量不变的单位矩阵记做 I n I_n In。形式上, I n ∈ R n × n \boldsymbol I_n \in R^{n \times n} InRn×n

∀ x ∈ R n × n , I n x = x \forall \boldsymbol x \in R^{n \times n},\boldsymbol I_n \boldsymbol x=\boldsymbol x xRn×n,Inx=x
矩阵的广播:深度学习中允许矩阵和向量相加,产生另一个矩阵,即向量和矩阵的每一行相加。

矩阵的逆

A − 1 A = I n \boldsymbol A^{-1} \boldsymbol A=\boldsymbol I_n A1A=In

线性组合

A x = ∑ i x i A : , i \boldsymbol A \boldsymbol x =\sum_ix_i \boldsymbol A_{:,i} Ax=ixiA:,i

线性相关
若一组向量在等式 ∑ i = 1 n α n a n \sum_{i=1}^n\alpha_n a_n i=1nαnan只有当 α n = 0 \alpha_n=0 αn=0时成立,称为这组向量线性相关;这表明没有任何一个向量能够表示为其余向量的线性组合;

矩阵的秩
线性无关行的最大数量(等价地,线性无关的列的最大数量)

对称矩阵:矩阵转置和矩阵本身相等的矩阵。某些不依赖参数顺序的双参数函数生成元素时,对称矩阵通常会出现。

正交是指向量 x T y = 0 \boldsymbol x^T \boldsymbol y=0 xTy=0,即向量之间的夹角为90度。

标准正交:在 R n R^n Rn中,至多有n个范数非零向量相互正交,并且范数为1。

正交矩阵:行向量和列向量分别是标准正交的方阵,即
A T A = A A T = I \boldsymbol A^T \boldsymbol A=\boldsymbol A\boldsymbol A^T=\boldsymbol I ATA=AAT=I
这意味着
A − 1 = A T \boldsymbol A^{-1}=\boldsymbol A^T A1=AT

1.2 矩阵的基本性质

向量点积满足交换律

x T y = y T x \boldsymbol x^T \boldsymbol y=\boldsymbol y^T\boldsymbol x xTy=yTx
证明:向量点积的结果是标量,因此
x T y = ( x T y ) T = y T x \boldsymbol x^T \boldsymbol y=(\boldsymbol x^T \boldsymbol y)^T=\boldsymbol y^T\boldsymbol x xTy=(xTy)T=yTx
矩阵乘积 C = A B \boldsymbol C=\boldsymbol A\boldsymbol B C=AB

具体定义为:

C i , j = ∑ k A i , k B k , j \boldsymbol C_{i,j}=\sum_k \boldsymbol A_{i,k}\boldsymbol B_{k,j} Ci,j=kAi,kBk,j
因此,可以理解为矩阵 A A A的第i行和矩阵 B B B的第j列的点积。

矩阵乘积的性质

分配律

A ( B + C ) = A B + B C \boldsymbol A(\boldsymbol B+\boldsymbol C)=\boldsymbol A\boldsymbol B+\boldsymbol B\boldsymbol C A(B+C)=AB+BC
结合律
A ( B C ) = ( A B ) C \boldsymbol A(\boldsymbol B\boldsymbol C)=(\boldsymbol A\boldsymbol B)\boldsymbol C A(BC)=(AB)C
( A B ) T = B T A T \boldsymbol{(AB)}^T=\boldsymbol B^T\boldsymbol A^T (AB)T=BTAT
转置的定义
( A B ) T = B T A T (AB)^T=B^TA^T (AB)T=BTAT

逆矩阵
A A − 1 = A − 1 A = I AA^{-1}=A^{-1}A=I AA1=A1A=I

由于 A B B − 1 A − 1 = I ABB^{-1}A^{-1}=I ABB1A1=I

我们有 ( A B ) − 1 = B − 1 A − 1 (AB)^{-1}=B^{-1}A^{-1} (AB)1=B1A1

同时 ( A T ) − 1 = ( A − 1 ) T (A^T)^{-1}=(A^{-1})^T (AT)1=(A1)T

恒等式
( P − 1 + B T R − 1 B ) − 1 B T R − 1 = P B T ( B P B T ) + R − 1 (P^{-1}+B^T R^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T)+R ^{-1} (P1+BTR1B)1BTR1=PBT(BPBT)+R1
两侧同时右乘 ( B P B T + R ) (BPB^T+R) (BPBT+R)即可得证;

经常出现的一种情况是
( I + A B ) − 1 = A ( I + B A ) − 1 (I+AB)^{-1}=A(I+BA)^{-1} (I+AB)1=A(I+BA)1
Woodbury****恒等式
( A + B D − 1 C ) − 1 = A − 1 − A − 1 B ( D + C A − 1 B ) − 1 C A − 1 (A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)^{-1}CA^{-1} (A+BD1C)1=A1A1B(D+CA1B)1CA1
两边同时左乘 ( A + B D − 1 C ) (A+BD^{-1}C) (A+BD1C)即可证明;

1.3 矩阵的迹和行列式

迹和行列式适用于方阵,矩阵的迹被定义为主对角线元素的和;

T r ( A B ) = T r ( B A

你可能感兴趣的:(机器学习,机器学习,线性代数)