本文只会记录人工智能中所用到的线性代数知识,并不会记录大学线性代数教材中的所有知识。
只会介绍向量和矩阵、特征向量和特征值以及矩阵分解。
只有大小没有方向的量称为标量。
单个数字就是标量。
所谓的向量就是一组数字,可以用 v v v来表示
v = [ 1 2 3 ] v = \left[\begin{matrix}1 \\2 \\3 \end{matrix} \right] v=⎣⎡123⎦⎤ 或 v = [ 1 2 3 ] v = [1 ~ 2 ~ 3] v=[1 2 3]
当两个向量大小相等、方向相同时,说这两个向量相等。
这里由3个数组成,叫做3维向量,相应的,由n个数组成的称为n维向量。
左边排成一列的形式叫做列向量;右边叫做行向量
v i v_i vi表示向量中的第 i i i个元素,本例中 v 1 = 1 , v 2 = 2 , v 3 = 3 v_1 =1,v_2 = 2,v_3 = 3 v1=1,v2=2,v3=3
3维向量可以在3维空间中表示出来。
n维向量 α = ( a 1 , a 2 , . . . , a n ) \alpha = (a_1,a_2,...,a_n) α=(a1,a2,...,an),数值 a 1 2 + a 2 2 + . . . + a n 2 \sqrt{a_1^2 + a_2^2 + ... + a_n^2} a12+a22+...+an2称为向量 α \alpha α的长度或模,记为 ∥ α ∥ \left \| \alpha \right \| ∥α∥
∥ α ∥ = 1 \left \| \alpha \right \| = 1 ∥α∥=1 称 α \alpha α为单位向量。
注意 a ⃗ − b ⃗ \vec{a} - \vec{b} a−b得到的向量为 b ⃗ \vec{b} b指向 a ⃗ \vec{a} a。
a ⃗ ⋅ b ⃗ = ∣ a ⃗ ∣ ⋅ ∣ b ⃗ ∣ cos θ \vec{a} \cdot \vec{b} = | \vec{a} | \cdot |\vec{b}| \cos \theta a⋅b=∣a∣⋅∣b∣cosθ
相当于向量 b ⃗ \vec{b} b在向量 a ⃗ \vec{a} a的方向的投影与向量 ∣ a ⃗ ∣ | \vec{a} | ∣a∣相乘
向量的1-范数: ∥ X ∥ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ \left \| X \right \|_1 = |x_1| +|x_2| + ... + |x_n| ∥X∥1=∣x1∣+∣x2∣+...+∣xn∣ ;各元素的绝对值之和
向量的2-范数: ∥ X ∥ = x 1 2 + x 2 2 + . . . + x n 2 \left \| X \right \| = \sqrt{x_1^2 + x_2^2 + ... + x_n^2} ∥X∥=x12+x22+...+xn2 ; 每个元素的平方和再开方,也就是n维向量的长度;
向量的无穷范数: ∥ X ∥ ∞ = max ( ∣ x 1 ∣ , ∣ x 2 ∣ , . . . , ∣ x n ∣ ) \left \| X \right \|_\infty = \max(|x_1|,|x_2|,...,|x_n|) ∥X∥∞=max(∣x1∣,∣x2∣,...,∣xn∣) ;分量绝对值的最大者
向量的p-范数: ∥ X ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p , ( 1 ≤ p ≤ n ) \left \| X \right \|_p = (\sum_{i=1}^n |x_i| ^ p)^{\frac{1}{p}} , (1 \leq p \leq n) ∥X∥p=(∑i=1n∣xi∣p)p1,(1≤p≤n)
对于2-范数有: ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ≥ ∣ ∣ x + y ∣ ∣ ||x|| + ||y|| \geq || x + y|| ∣∣x∣∣+∣∣y∣∣≥∣∣x+y∣∣
当 ∣ ∣ x ⃗ ∣ ∣ ||\vec{x}|| ∣∣x∣∣ ≠ 0 0 0 , ∣ ∣ y ⃗ ∣ ∣ ||\vec{y}|| ∣∣y∣∣ ≠ 0 0 0 时,称
θ = arccos a ⃗ ⋅ y ⃗ ∣ ∣ x ⃗ ∣ ∣ ∣ ∣ y ⃗ ∣ ∣ \theta = \arccos \frac{ \vec{a} \cdot \vec{y}}{||\vec{x}|| || \vec{y}||} θ=arccos∣∣x∣∣∣∣y∣∣a⋅y
为向量 x ⃗ \vec{x} x与 y ⃗ \vec{y} y的夹角。
设有n维向量
x ⃗ = [ x 1 x 2 ⋮ x n ] , y ⃗ = [ y 1 y 2 ⋮ y n ] , \vec{x} = \left[ \begin{matrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right], \vec{y} = \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{matrix} \right], x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤,y=⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤,
令 [ x ⃗ , y ⃗ ] = ∑ i = 1 n x i y i = x 1 y 1 + x 2 y 2 + ⋯ + x n y n [\vec{x},\vec{y}] = \sum_{i=1}^n x_i y_i = x_1y_1 + x_2y_2 + \cdots+ x_ny_n [x,y]=∑i=1nxiyi=x1y1+x2y2+⋯+xnyn
上式称为向量的内积,内积的结果是一个标量。
这里要求一维向量 x ⃗ \vec{x} x和向量 y ⃗ \vec{y} y的行列数相同。
当 [ x ⃗ , y ⃗ ] = 0 [\vec{x},\vec{y}] = 0 [x,y]=0时,称向量 x ⃗ \vec{x} x和向量 y ⃗ \vec{y} y正交。
一组两两相交的非零向量,称为正交向量组。
若干个同维的列向量(行向量)所组成的集合称为向量组。
如 a 1 ⃗ , a 2 ⃗ , a 3 ⃗ , ⋯ , a n ⃗ \vec{a_1},\vec{a_2},\vec{a_3},\cdots,\vec{a_n} a1,a2,a3,⋯,an
[ a 11 a 21 ⋯ a m 1 a 12 a 22 ⋯ a m 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n ⋯ a m n ] \left[ \begin{matrix} a_{11} & a_{21} & \cdots & a_{m1}\\ a_{12} & a_{22} & \cdots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \end{matrix} \right] ⎣⎢⎢⎢⎡a11a12⋮a1na21a22⋮a2n⋯⋯⋱⋯am1am2⋮amn⎦⎥⎥⎥⎤
向量组的线性组合:
对于向量组 a 1 ⃗ , a 2 ⃗ , a 3 ⃗ , ⋯ , a n ⃗ \vec{a_1},\vec{a_2},\vec{a_3},\cdots,\vec{a_n} a1,a2,a3,⋯,an,如果有一组数 k 1 , k 2 , ⋯ , k n k_1,k_2,\cdots,k_n k1,k2,⋯,kn,使
β ⃗ = k 1 a 1 ⃗ + k 2 a 2 ⃗ + ⋯ + k n a n ⃗ , \vec{\beta} = k_1 \vec{a_1} + k_2\vec{a_2} + \cdots + k_n\vec{a_n}, β=k1a1+k2a2+⋯+knan,
则称向量 β ⃗ \vec{\beta} β是向量组 a 1 ⃗ , a 2 ⃗ , a 3 ⃗ , ⋯ , a n ⃗ \vec{a_1},\vec{a_2},\vec{a_3},\cdots,\vec{a_n} a1,a2,a3,⋯,an的一个线性组合,或称 β ⃗ \vec{\beta} β可由向量组 a 1 ⃗ , a 2 ⃗ , a 3 ⃗ , ⋯ , a n ⃗ \vec{a_1},\vec{a_2},\vec{a_3},\cdots,\vec{a_n} a1,a2,a3,⋯,an线性表示。
向量组的线性相关:
给定向量组 A = a 1 ⃗ , a 2 ⃗ , a 3 ⃗ , ⋯ , a n ⃗ A= \vec{a_1},\vec{a_2},\vec{a_3},\cdots,\vec{a_n} A=a1,a2,a3,⋯,an,如果存在不全为零的数 k 1 , k 2 , ⋯ , k n k_1,k_2,\cdots,k_n k1,k2,⋯,kn使
k 1 a 1 ⃗ + k 2 a 2 ⃗ + ⋯ + k n a n ⃗ = 0 k_1\vec{a_1} + k_2\vec{a_2} + \cdots + k_n\vec{a_n} = 0 k1a1+k2a2+⋯+knan=0
则称向量组 A A A是线性相关的,否则称它为线性无关。
对于任一向量组,不是线性无关就是线性相关。
设 V V V是 n n n维实向量构成的集合,对于向量的加法运算及数乘运算满足:
则称集合 V V V为 R R R上的实向量空间,简称向量空间。
已知 V 1 , V 2 V_1,V_2 V1,V2是向量空间,若 V 1 ∈ V 2 V_1 \in V_2 V1∈V2,则称 V 1 V_1 V1是 V 2 V_2 V2的子空间。
设 V V V是一个向量空间,如果存在一组向量 α 1 , α 2 , ⋯ , α r ∈ V \alpha_1,\alpha_2,\cdots,\alpha_r \in V α1,α2,⋯,αr∈V,满足:
矩阵是一个按照长方阵列排列的复数或实数集合。
由 m × n m × n m×n个数组成的一个 m m m行 n n n列的矩形表格,组成矩阵的每一个数,均称为矩阵的元素。如图所示:
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] A = \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right] A=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤
单位矩阵:从左上角到右下角的对角线(称为主对角线)上的元素均为1。除此以外全都为0,如:
[ 1 0 0 0 1 0 0 0 1 ] \left[ \begin{matrix} 1 & 0 & 0\\ 0& 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right] ⎣⎡100010001⎦⎤
两个矩阵的行数和列数分别相等,称它们为同型矩阵。
矩阵的加法只能在两个同型矩阵之间进行,两个矩阵相加时,对应元素进行相加。
如:
[ 1 2 3 4 5 7 ] + [ 0 0 2 2 1 3 ] = [ 1 2 5 6 6 10 ] \left[ \begin{matrix} 1 & 2 & 3\\ 4 & 5 & 7 \end{matrix} \right] + \left[ \begin{matrix} 0 & 0 & 2\\ 2 & 1 & 3 \end{matrix} \right] = \left[ \begin{matrix} 1 & 2 & 5\\ 6 & 6 & 10 \end{matrix} \right] [142537]+[020123]=[1626510]
数 λ \lambda λ与矩阵 A A A的乘积记作 λ A \lambda A λA或 A λ A\lambda Aλ,规定为
λ A = A λ = [ λ a 11 λ a 12 ⋯ λ a 1 n λ a 21 λ a 22 ⋯ λ a 2 n ⋮ ⋮ ⋱ ⋮ λ a m 1 λ a m 2 ⋯ λ a m n ] \lambda A = A\lambda = \left[ \begin{matrix} \lambda a_{11} & \lambda a_{12} & \cdots & \lambda a_{1n}\\ \lambda a_{21} & \lambda a_{22} & \cdots & \lambda a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda a_{m1} & \lambda a_{m2} & \cdots & \lambda a_{mn} \end{matrix} \right] λA=Aλ=⎣⎢⎢⎢⎡λa11λa21⋮λam1λa12λa22⋮λam2⋯⋯⋱⋯λa1nλa2n⋮λamn⎦⎥⎥⎥⎤
必须满足矩阵 A A A的列数与矩阵 B B B的行数相等,或者矩阵 A A A的行数与矩阵 B B B的列数相等。
记 C = A B C=AB C=AB,矩阵 C C C的第 i i i行第 j j j列的元素等于矩阵 A A A的第 i i i行的所有元素与矩阵 B B B的第 j j j列的对应元素的乘积之和,即:
C i j = ∑ k = 1 n a i k b k j C_{ij} = \sum_{k=1}^na_{ik}b_{kj} Cij=k=1∑naikbkj
如:
[ 1 2 3 ] 1 × 3 [ 4 5 6 ] 3 × 1 = 1 × 4 + 2 × 5 + 3 × 6 = 32 \left[ \begin{matrix} 1 & 2 & 3 \end{matrix} \right] _{1×3} \left[ \begin{matrix} 4 \\ 5 \\6 \end{matrix} \right]_{3×1} = 1×4 + 2×5 + 3×6 =32 [123]1×3⎣⎡456⎦⎤3×1=1×4+2×5+3×6=32
[ 1 2 3 ] 3 × 1 [ 4 5 6 ] 1 × 3 = [ 4 5 6 8 10 12 12 15 18 ] 3 × 3 \left[ \begin{matrix} 1 \\ 2 \\3 \end{matrix} \right]_{3×1} \left[ \begin{matrix} 4 & 5 & 6 \end{matrix} \right] _{1×3} = \left[ \begin{matrix} 4 & 5 & 6\\ 8 & 10 & 12\\12 & 15 & 18 \end{matrix} \right]_{3×3} ⎣⎡123⎦⎤3×1[456]1×3=⎣⎡48125101561218⎦⎤3×3
矩阵的乘法不满足交换律
矩阵 A A A的转置矩阵,记作 A T A^T AT,是将 A A A的行列互换后所得矩阵,如果 A A A是一个 m × n m ×n m×n阶矩阵, A T A^T AT是一个 n × m n×m n×m阶矩阵。
A = [ 1 4 2 5 3 6 ] A T = [ 1 2 3 4 5 6 ] A = \left[ \begin{matrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{matrix} \right] A^T = \left[ \begin{matrix} 1 & 2 & 3\\ 4 & 5 & 6 \end{matrix} \right] A=⎣⎡123456⎦⎤AT=[142536]
矩阵的转置的性质:
设 A A A为 n n n阶方阵( n × n n×n n×n),若存在 n n n阶方阵 B B B使得: A B = B A = E AB=BA=E AB=BA=E(单位矩阵),则称 A A A是可逆的且矩阵 B B B是矩阵 A A A的逆矩阵,记为 A − 1 = B A^{-1} = B A−1=B
矩阵的秩等于行向量组或列向量组最大线性无关组所包含的向量的个数。(矩阵的所有不等于零的子式的最高阶数称为矩阵的秩)
设 A A A是 n n n阶矩阵,如果数 λ \lambda λ和 n n n维非零列向量 x x x使关系式
A x = λ x Ax = \lambda x Ax=λx
成立, λ \lambda λ称为方阵 A A A的特征值,非零向量 x x x称为 A A A的对应于特征值 λ \lambda λ的特征向量。
方阵 A A A的特征值,就是使齐次线性方程组 ( A − λ E ) x = 0 (A-\lambda E)x = 0 (A−λE)x=0有非零解的 λ \lambda λ值,
即满足方程 ∣ A − λ E ∣ = 0 |A-\lambda E |= 0 ∣A−λE∣=0的 λ \lambda λ都是矩阵 A A A的特征值。
设 A , B A,B A,B都是 n n n阶矩阵,若有可逆矩阵 P P P,使
P − 1 A P = B , P^{-1}AP = B, P−1AP=B,
则称 B B B是 A A A的相似矩阵,或说矩阵 A A A与 B B B相似。