视频链接:MIT-B站视频
笔记部分:总结参考子实
投影矩阵 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT, P b Pb Pb将会把向量 b b b投影在 A A A的列空间中。
在第一个极端情况中,如果 b ∈ C ( A ) b\in C(A) b∈C(A)则有 b = A x b=Ax b=Ax。带入投影矩阵 p = P b = A ( A T A ) − 1 A T A x = A x p=Pb=A(A^TA)^{-1}A^TAx=Ax p=Pb=A(ATA)−1ATAx=Ax,得证。
在第二个极端情况中,如果 b ⊥ C ( A ) b\bot C(A) b⊥C(A)则有 b ∈ N ( A T ) b\in N(A^T) b∈N(AT),即 A T b = 0 A^Tb=0 ATb=0。则 p = P b = A ( A T A ) − 1 A T b = 0 p=Pb=A(A^TA)^{-1}A^Tb=0 p=Pb=A(ATA)−1ATb=0,得证。
1. 问题:找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: y = C + D t y=C+Dt y=C+Dt。
根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} ⎩⎪⎨⎪⎧C+DC+2DC+3D=1=2=2
写作矩阵形
[ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} ⎣⎡111123⎦⎤[CD]=⎣⎡122⎦⎤
也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。
2. 问题转化:
我们需要在 b b b的三个分量上都增加某个误差 e e e,使得三点能够共线,同时使得 e 1 2 + e 2 2 + e 3 2 e_1^2+e_2^2+e_3^2 e12+e22+e32最小,找到拥有最小平方和的解(即最小二乘),即 ∥ A x − b ∥ 2 = ∥ e ∥ 2 \left\|Ax-b\right\|^2=\left\|e\right\|^2 ∥Ax−b∥2=∥e∥2最小。
此时向量 b b b变为向量 p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix} p=⎣⎡p1p2p3⎦⎤(在方程组有解的情况下, A x − b = 0 Ax-b=0 Ax−b=0,即 b b b在 A A A的列空间中,误差 e e e为零。)
我们现在做的运算也称作线性回归(linear regression),使用误差的平方和作为测量总误差的标准。
注:如果有另一个点,如 ( 0 , 100 ) (0, 100) (0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响,通常使用最小二乘时会去掉明显离群的点。
3. 问题求解:
现在我们尝试解出 x ^ = [ C ^ D ^ ] \hat x=\begin{bmatrix}\hat C\\ \hat D\end{bmatrix} x^=[C^D^]与 p = [ p 1 p 2 p 3 ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix} p=⎣⎡p1p2p3⎦⎤。
A T A x ^ = A T b A T A = [ 3 6 6 14 ] A T b = [ 5 11 ] [ 3 6 6 14 ] [ C ^ D ^ ] = [ 5 11 ] A^TA\hat x=A^Tb\\ A^TA= \begin{bmatrix}3&6\\6&14\end{bmatrix}\qquad A^Tb= \begin{bmatrix}5\\11\end{bmatrix}\\ \begin{bmatrix}3&6\\6&14\end{bmatrix} \begin{bmatrix}\hat C\\\hat D\end{bmatrix}= \begin{bmatrix}5\\11\end{bmatrix}\\ ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]
写作方程形式为
{ 3 C ^ + 16 D ^ = 5 6 C ^ + 14 D ^ = 11 \begin{cases}3\hat C+16\hat D&=5\\6\hat C+14\hat D&=11\\\end{cases} {3C^+16D^6C^+14D^=5=11
也称作正规方程组(normal equations)。
4. 解法验证:
回顾前面提到的“使得误差最小”的条件, e 1 2 + e 2 2 + e 3 2 = ( C + D − 1 ) 2 + ( C + 2 D − 2 ) 2 + ( C + 3 D − 2 ) 2 e_1^2+e_2^2+e_3^2=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2 e12+e22+e32=(C+D−1)2+(C+2D−2)2+(C+3D−2)2,使该式取最小值,如果使用微积分方法,则需要对该式的两个变量 C , D C, D C,D分别求偏导数,再令求得的偏导式为零即可,正是我们刚才求得的正规方程组。(正规方程组中的第一个方程是对 C C C求偏导的结果,第二个方程式对 D D D求偏导的结果,无论使用哪一种方法都会得到这个方程组。)
解方程得 C ^ = 2 3 , D ^ = 1 2 \hat C=\frac{2}{3}, \hat D=\frac{1}{2} C^=32,D^=21,则“最佳直线”为 y = 2 3 + 1 2 t y=\frac{2}{3}+\frac{1}{2}t y=32+21t,带回原方程组解得 p 1 = 7 6 , p 2 = 5 3 , p 3 = 13 6 p_1=\frac{7}{6}, p_2=\frac{5}{3}, p_3=\frac{13}{6} p1=67,p2=35,p3=613,即 e 1 = − 1 6 , e 2 = 1 3 , e 3 = − 1 6 e_1=-\frac{1}{6}, e_2=\frac{1}{3}, e_3=-\frac{1}{6} e1=−61,e2=31,e3=−61
于是我们得到 p = [ 7 6 5 3 13 6 ] , e = [ − 1 6 1 3 − 1 6 ] p=\begin{bmatrix}\frac{7}{6}\\\frac{5}{3}\\\frac{13}{6}\end{bmatrix}, e=\begin{bmatrix}-\frac{1}{6}\\\frac{1}{3}\\-\frac{1}{6}\end{bmatrix} p=⎣⎡6735613⎦⎤,e=⎣⎡−6131−61⎦⎤,易看出 b = p + e b=p+e b=p+e,同时我们发现 p ⋅ e = 0 p\cdot e=0 p⋅e=0即 p ⊥ e p\bot e p⊥e。
误差向量 e e e不仅垂直于投影向量 p p p,它同时垂直于列空间,如 [ 1 1 1 ] , [ 1 2 3 ] \begin{bmatrix}1\\1\\1\end{bmatrix}, \begin{bmatrix}1\\2\\3\end{bmatrix} ⎣⎡111⎦⎤,⎣⎡123⎦⎤。
接下来我们观察 A T A A^TA ATA,如果 A A A的各列线性无关,求证 A T A A^TA ATA是可逆矩阵。
证明:
先假设 A T A x = 0 A^TAx=0 ATAx=0,两边同时乘以 x T x^T xT有 x T A T A x = 0 x^TA^TAx=0 xTATAx=0,即 ( A x ) T ( A x ) = 0 (Ax)^T(Ax)=0 (Ax)T(Ax)=0。
一个矩阵乘其转置结果为零,则这个矩阵也必须为零( ( A x ) T ( A x ) (Ax)^T(Ax) (Ax)T(Ax)相当于 A x Ax Ax长度的平方)。
则 A x = 0 Ax=0 Ax=0,结合题设中的“ A A A的各列线性无关”,可知 x = 0 x=0 x=0,也就是 A T A A^TA ATA的零空间中有且只有零向量,得证。
注:这里使用了一个技巧:两边同时乘以 x T x^T xT
我们再来看一种线性无关的特殊情况:互相垂直的单位向量一定是线性无关的。
标准正交向量(orthonormal): q i T q j = { 0 i ≠ j 1 i = j q_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qiTqj={0i=j1i=j
将标准正交向量放入矩阵中,有 Q = [ q 1 q 2 ⋯ q n ] Q=\Bigg[q_1 q_2 \cdots q_n\Bigg] Q=[q1q2⋯qn]。
上一讲我们研究了 A A A^A AA的特性,现在来观察 Q T Q = [ q 1 T q 2 T ⋮ q n T ] [ q 1 q 2 ⋯ q n ] Q^TQ=\begin{bmatrix} & q_1^T & \\ & q_2^T & \\ & \vdots & \\ & q_n^T & \end{bmatrix}\Bigg[q_1 q_2 \cdots q_n\Bigg] QTQ=⎣⎢⎢⎢⎡q1Tq2T⋮qnT⎦⎥⎥⎥⎤[q1q2⋯qn]
根据标准正交向量的定义,计算 Q T Q = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] = I Q^TQ=\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{bmatrix}=I QTQ=⎣⎢⎢⎢⎡10⋮001⋮0⋯⋯⋱⋯00⋮1⎦⎥⎥⎥⎤=I
把 Q Q Q成为标准正交矩阵(orthonormal matrix)。
特别的,当 Q Q Q恰好是方阵时,由于正交性,易得 Q Q Q是可逆的,又 Q T Q = I Q^TQ=I QTQ=I,所以 Q T = Q − 1 Q^T=Q^{-1} QT=Q−1。
再来看标准正交化有什么好处,假设要做投影,将向量 b b b投影在标准正交矩阵 Q Q Q的列空间中,根据上一讲的公式得 P = Q ( Q T Q ) − 1 Q T P=Q(Q^TQ)^{-1}Q^T P=Q(QTQ)−1QT,易得 P = Q Q T P=QQ^T P=QQT。我们断言,当列向量为标准正交基时, Q Q T QQ^T QQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时 Q Q T = I QQ^T=I QQT=I。可以验证一下投影矩阵的两个性质: ( Q Q T ) T = ( Q T ) T Q T = Q Q T (QQ^T)^T=(Q^T)^TQ^T=QQ^T (QQT)T=(QT)TQT=QQT,得证; ( Q Q T ) 2 = Q Q T Q Q T = Q ( Q T Q ) Q T = Q Q T (QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T (QQT)2=QQTQQT=Q(QTQ)QT=QQT,得证。
我们计算的 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb,现在变为 Q T Q x ^ = Q T b Q^TQ\hat x=Q^Tb QTQx^=QTb,也就是 x ^ = Q T b \hat x=Q^Tb x^=QTb,分解开来看就是 x ^ i = q i T b ‾ \underline{\hat x_i=q_i^Tb} x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第 i i i个分量为基的第 i i i个分量乘以 b b b,在第 i i i个基方向上的投影就等于 q i T b q_i^Tb qiTb。
我们有两个线性无关的向量 a , b a, b a,b,先把它们化为正交向量 A , B A, B A,B,再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|} q1=∥A∥A,q2=∥B∥B:
我们取定 a a a向量的方向, a = A a=A a=A;
接下来将 b b b投影在 A A A的法方向上得到 B B B,也就是求子空间投影一讲中,我们提到的误差向量 e = b − p e=b-p e=b−p,即 B = b − A T b A T A A B=b-\frac{A^Tb}{A^TA}A B=b−ATAATbA。
检验一下 A ⊥ B A\bot B A⊥B, A T B = A T b − A T A T b A T A A = A T b − A T A A T A A T b = 0 A^TB=A^Tb-A^T\frac{A^Tb}{A^TA}A=A^Tb-\frac{A^TA}{A^TA}A^Tb=0 ATB=ATb−ATATAATbA=ATb−ATAATAATb=0。( A T b A T A A \frac{A^Tb}{A^TA}A ATAATbA就是 A x ^ = p A\hat x=p Ax^=p。)
我们有三个线性无关的向量 a , b , c a, b, c a,b,c,则我们现需要求它们的正交向量 A , B , C A, B, C A,B,C,再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ , q 3 = C ∥ C ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|}, q_3=\frac{C}{\left\|C\right\|} q1=∥A∥A,q2=∥B∥B,q3=∥C∥C:
前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于 A , B A, B A,B;
我们依然沿用上面的方法,从 c c c中减去其在 A , B A, B A,B上的分量,得到正交与 A , B A, B A,B的 C C C
C = c − A T c A T A A − B T c B T B B C=c-\frac{A^Tc}{A^TA}A-\frac{B^Tc}{B^TB}B C=c−ATAATcA−BTBBTcB
则 A = a = [ 1 1 1 ] A=a=\begin{bmatrix}1\\1\\1\end{bmatrix} A=a=⎣⎡111⎦⎤;
根据公式有 B = a − h A B=a-hA B=a−hA, h h h是比值 A T b A T A = 3 3 \frac{A^Tb}{A^TA}=\frac{3}{3} ATAATb=33,则 B = [ 1 1 1 ] − 3 3 [ 1 0 2 ] = [ 0 − 1 1 ] B=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{3}{3}\begin{bmatrix}1\\0\\2\end{bmatrix}=\begin{bmatrix}0\\-1\\1\end{bmatrix} B=⎣⎡111⎦⎤−33⎣⎡102⎦⎤=⎣⎡0−11⎦⎤。验证一下正交性有 A ⋅ B = 0 A\cdot B=0 A⋅B=0。
单位化, q 1 = 1 3 [ 1 1 1 ] , q 2 = 1 2 [ 1 0 2 ] q_1=\frac{1}{\sqrt 3}\begin{bmatrix}1\\1\\1\end{bmatrix},\quad q_2=\frac{1}{\sqrt 2}\begin{bmatrix}1\\0\\2\end{bmatrix} q1=31⎣⎡111⎦⎤,q2=21⎣⎡102⎦⎤,则标准正交矩阵为 Q = [ 1 3 0 1 3 − 1 2 1 3 1 2 ] Q=\begin{bmatrix}\frac{1}{\sqrt 3}&0\\\frac{1}{\sqrt 3}&-\frac{1}{\sqrt 2}\\\frac{1}{\sqrt 3}&\frac{1}{\sqrt 2}\end{bmatrix} Q=⎣⎢⎡3131310−2121⎦⎥⎤,对比原来的矩阵 D = [ 1 1 1 0 1 2 ] D=\begin{bmatrix}1&1\\1&0\\1&2\end{bmatrix} D=⎣⎡111102⎦⎤
D , Q D, Q D,Q的列空间是相同的,只是将原来的基标准正交化。
用矩阵的眼光审视消元法,有 A = L U A=LU A=LU。
同样的,用矩阵表达标准正交化, A = Q R A=QR A=QR。
设矩阵 A A A有两个列向量 [ a 1 a 2 ] \Bigg[a_1 a_2\Bigg] [a1a2],则标准正交化后有
[ a 1 a 2 ] = [ q 1 q 2 ] [ a 1 T q 1 a 2 T q 1 a 1 T q 2 a 2 T q 2 ] = [ q 1 q 2 ] [ a 1 T q 1 a 2 T q 1 0 a 2 T q 2 ] \Bigg[a_1 a_2\Bigg]\\=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1&a_2^Tq_1\\a_1^Tq_2&a_2^Tq_2\end{bmatrix}\\=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1&a_2^Tq_1\\0&a_2^Tq_2\end{bmatrix} [a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2]=[q1q2][a1Tq10a2Tq1a2Tq2]
而左下角的 a 1 T q 2 a_1^Tq_2 a1Tq2始终为 0 0 0。
因为Gram-Schmidt正交化总是使得 a 1 ⊥ q 2 a_1\bot q_2 a1⊥q2,后来构造的向量总是正交于先前的向量。所以这个 R R R矩阵是一个上三角矩阵。
行列式(determinant)的**前三条性质(重要)**可以推导出其他7条性质
det I = 1 \det{I}=1 detI=1,单位矩阵行列式值为一。
交换行行列式变号。
在给出第三个性质之前,先由前两个性质可知,对置换矩阵有 det P = { 1 e v e n − 1 o d d \det P=\begin{cases}1\quad &even\\-1\quad &odd\end{cases} detP={1−1evenodd。
举例: ∣ 1 0 0 1 ∣ = 1 , ∣ 0 1 1 0 ∣ = − 1 \begin{vmatrix}1&0\\0&1\end{vmatrix}=1,\quad\begin{vmatrix}0&1\\1&0\end{vmatrix}=-1 ∣∣∣∣1001∣∣∣∣=1,∣∣∣∣0110∣∣∣∣=−1,于是我们猜想,对于二阶方阵,行列式的计算公式为 ∣ a b c d ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}=ad-bc ∣∣∣∣acbd∣∣∣∣=ad−bc。
a. ∣ t a t b t c t d ∣ = t ∣ a b c d ∣ \begin{vmatrix}ta&tb\\tc&td\end{vmatrix}=t\begin{vmatrix}a&b\\c&d\end{vmatrix} ∣∣∣∣tatctbtd∣∣∣∣=t∣∣∣∣acbd∣∣∣∣。
b. ∣ a + a ′ b + b ′ c d ∣ = ∣ a b c d ∣ + ∣ a ′ b ′ c d ∣ \begin{vmatrix}a+a'&b+b'\\c&d\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix} ∣∣∣∣a+a′cb+b′d∣∣∣∣=∣∣∣∣acbd∣∣∣∣+∣∣∣∣a′cb′d∣∣∣∣。
如果两行相等,则行列式为零。使用性质2交换两行易证。
从第 k k k行中减去第 i i i行的 l l l倍,行列式不变。这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。
举例: ∣ a b c − l a d − l b ∣ = 3. b ∣ a b c d ∣ + ∣ a b − l a − l b ∣ = 3. a ∣ a b c d ∣ − l ∣ a b a b ∣ = 4 ∣ a b c d ∣ \begin{vmatrix}a&b\\c-la&d-lb\end{vmatrix}\stackrel{3.b}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a&b\\-la&-lb\end{vmatrix}\stackrel{3.a}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix}-l\begin{vmatrix}a&b\\a&b\end{vmatrix}\stackrel{4}{=}\begin{vmatrix}a&b\\c&d\end{vmatrix} ∣∣∣∣ac−labd−lb∣∣∣∣=3.b∣∣∣∣acbd∣∣∣∣+∣∣∣∣a−lab−lb∣∣∣∣=3.a∣∣∣∣acbd∣∣∣∣−l∣∣∣∣aabb∣∣∣∣=4∣∣∣∣acbd∣∣∣∣
如果方阵的某一行为零,则其行列式值为零。
使用性质3.a对为零行乘以不为零系数 l l l,使 l det A = det A l\det A=\det A ldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。
有上三角行列式 U = ∣ d 1 ∗ ⋯ ∗ 0 d 2 ⋯ ∗ ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ U=\begin{vmatrix}d_{1}&*&\cdots&*\\0&d_{2}&\cdots&*\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&d_{n}\end{vmatrix} U=∣∣∣∣∣∣∣∣∣d10⋮0∗d2⋮0⋯⋯⋱⋯∗∗⋮dn∣∣∣∣∣∣∣∣∣,则 det U = d 1 d 2 ⋯ d n \det U=d_1d_2\cdots d_n detU=d1d2⋯dn。
使用性质5,从最后一行开始,将对角元素上方的 ∗ * ∗元素依次变为零,可以得到型为 D = ∣ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ D=\begin{vmatrix}d_{1}&0&\cdots&0\\0&d_{2}&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&d_{n}\end{vmatrix} D=∣∣∣∣∣∣∣∣∣d10⋮00d2⋮0⋯⋯⋱⋯00⋮dn∣∣∣∣∣∣∣∣∣的对角行列式
再使用性质3将对角元素提出得到 d n d n − 1 ⋯ d 1 ∣ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ∣ d_nd_{n-1}\cdots d_1\begin{vmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{vmatrix} dndn−1⋯d1∣∣∣∣∣∣∣∣∣10⋮001⋮0⋯⋯⋱⋯00⋮1∣∣∣∣∣∣∣∣∣,得证。
当矩阵 A A A为奇异矩阵时, det A = 0 \det A=0 detA=0;当且仅当 A A A可逆时,有 det A ≠ 0 \det A\neq0 detA=0。
如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。
再回顾二阶情况: ∣ a b c d ∣ → 消 元 ∣ a b 0 d − c a b ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}\xrightarrow{消元}\begin{vmatrix}a&b\\0&d-\frac{c}{a}b\end{vmatrix}=ad-bc ∣∣∣∣acbd∣∣∣∣消元∣∣∣∣a0bd−acb∣∣∣∣=ad−bc,前面的猜想得到证实。
det A B = ( det A ) ( det B ) \det AB=(\det A)(\det B) detAB=(detA)(detB)。
使用这一性质, det I = det A − 1 A = det A − 1 det A \det I=\det{A^{-1}A}=\det A^{-1}\det A detI=detA−1A=detA−1detA,所以 det A − 1 = 1 det A \det A^{-1}=\frac{1}{\det A} detA−1=detA1。
同时还可以得到: det A 2 = ( det A ) 2 \det A^2=(\det A)^2 detA2=(detA)2,以及 det 2 A = 2 n det A \det 2A=2^n\det A det2A=2ndetA。(物理含义:类比体积)
det A T = det A \det A^T=\det A detAT=detA
前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。
证明: ∣ A T ∣ = ∣ A ∣ → ∣ U T L T ∣ = ∣ L U ∣ → ∣ U T ∣ ∣ L T ∣ = ∣ L ∣ ∣ U ∣ \left|A^T\right|=\left|A\right|\rightarrow\left|U^TL^T\right|=\left|LU\right|\rightarrow\left|U^T\right|\left|L^T\right|=\left|L\right|\left|U\right| ∣∣AT∣∣=∣A∣→∣∣UTLT∣∣=∣LU∣→∣∣UT∣∣∣∣LT∣∣=∣L∣∣U∣,值得注意的是, L , U L, U L,U的行列式并不因为转
二阶方阵行列式:
∣ a b c d ∣ = ∣ a 0 c d ∣ + ∣ 0 b c d ∣ = ∣ a 0 c 0 ∣ + ∣ a 0 0 d ∣ + ∣ 0 b c 0 ∣ + ∣ 0 b 0 d ∣ = a d − b c \begin{vmatrix}a&b\\c&d\end{vmatrix}=\begin{vmatrix}a&0\\c&d\end{vmatrix}+\begin{vmatrix}0&b\\c&d\end{vmatrix}=\begin{vmatrix}a&0\\c&0\end{vmatrix}+\begin{vmatrix}a&0\\0&d\end{vmatrix}+\begin{vmatrix}0&b\\c&0\end{vmatrix}+\begin{vmatrix}0&b\\0&d\end{vmatrix}=ad-bc ∣∣∣∣acbd∣∣∣∣=∣∣∣∣ac0d∣∣∣∣+∣∣∣∣0cbd∣∣∣∣=∣∣∣∣ac00∣∣∣∣+∣∣∣∣a00d∣∣∣∣+∣∣∣∣0cb0∣∣∣∣+∣∣∣∣00bd∣∣∣∣=ad−bc
三阶方阵行列式:
∣ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ∣ = ∣ a 11 0 0 0 a 22 0 0 0 a 33 ∣ + ∣ a 11 0 0 0 0 a 23 0 a 32 0 ∣ + ∣ 0 a 12 0 a 21 0 0 0 0 a 33 ∣ + ∣ 0 a 12 0 0 0 a 23 a 31 0 0 ∣ + ∣ 0 0 a 13 a 21 0 0 0 a 32 0 ∣ + ∣ 0 0 a 13 0 a 22 0 a 31 0 0 ∣ \begin{vmatrix}a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\end{vmatrix}=\begin{vmatrix}a_{11}&0&0\\0&a_{22}&0\\0&0&a_{33}\end{vmatrix}+\begin{vmatrix}a_{11}&0&0\\0&0&a_{23}\\0&a_{32}&0\end{vmatrix}+\begin{vmatrix}0&a_{12}&0\\a_{21}&0&0\\0&0&a_{33}\end{vmatrix}+\begin{vmatrix}0&a_{12}&0\\0&0&a_{23}\\a_{31}&0&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\a_{21}&0&0\\0&a_{32}&0\end{vmatrix}+\begin{vmatrix}0&0&a_{13}\\0&a_{22}&0\\a_{31}&0&0\end{vmatrix} ∣∣∣∣∣∣a11a21a31a12a22a32a13a23a33∣∣∣∣∣∣=∣∣∣∣∣∣a11000a22000a33∣∣∣∣∣∣+∣∣∣∣∣∣a110000a320a230∣∣∣∣∣∣+∣∣∣∣∣∣0a210a120000a33∣∣∣∣∣∣+∣∣∣∣∣∣00a31a12000a230∣∣∣∣∣∣+∣∣∣∣∣∣0a21000a32a1300∣∣∣∣∣∣+∣∣∣∣∣∣00a310a220a1300∣∣∣∣∣∣
我们只需要找到不为零的行列式,求和即可:
原 式 = a 11 a 22 a 33 − a 11 a 23 a 32 − a 12 a 21 a 33 + a 12 a 23 a 31 + a 13 a 21 a 32 − a 13 a 22 a 31 原式=a_{11}a_{22}a_{33}-a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{13}a_{22}a_{31} 原式=a11a22a33−a11a23a32−a12a21a33+a12a23a31+a13a21a32−a13a22a31
n阶方阵行列式推广:
按照上面的式子可知 n n n阶行列式应该可以分解成 n ! n! n!个非零行列式(占据第一行的元素有 n n n种选择,占据第二行的元素有 n − 1 n-1 n−1种选择,以此类推得 n ! n! n!):
det A = ∑ n ! ± a 1 α a 2 β a 3 γ ⋯ a n ω , ( α , β , γ , ω ) = P n n (2) \det A=\sum_{n!} \pm a_{1\alpha}a_{2\beta}a_{3\gamma}\cdots a_{n\omega}, (\alpha, \beta, \gamma, \omega)=P_n^n\tag{2} detA=n!∑±a1αa2βa3γ⋯anω,(α,β,γ,ω)=Pnn(2)
符号确定的规律:
上述公式还不完全,接下来需要考虑如何确定符号:
∣ 0 0 1 ‾ 1 ‾ 0 1 ‾ 1 ‾ 0 1 ‾ 1 ‾ 0 0 1 ‾ 0 0 1 ‾ ∣ \begin{vmatrix}0&0&\overline 1&\underline 1\\0&\overline 1&\underline 1&0\\\overline 1&\underline 1&0&0\\\underline 1&0&0&\overline 1\end{vmatrix} ∣∣∣∣∣∣∣∣0011011011001001∣∣∣∣∣∣∣∣
此处引入代数余子式(cofactor)的概念,它的作用是把 n n n阶行列式化简为 n − 1 n-1 n−1阶行列式。
定义 a i j a_{ij} aij的代数余子式:
将原行列式的第 i i i行与第 j j j列抹去后得到的 n − 1 n-1 n−1阶行列式记为 C i j C_{ij} Cij, i + j i+j i+j为偶时时取 + + +, i + j i+j i+j为奇时取 − - −。
将行列式 A A A沿第一行展开:
det A = a 11 C 11 + a 12 C 12 + ⋯ + a 1 n C 1 n \det A=a_{11}C_{11}+a_{12}C_{12}+\cdots+a_{1n}C_{1n} detA=a11C11+a12C12+⋯+a1nC1n
到现在为止,我们了解了三种求行列式的方法:
本讲主要介绍逆矩阵的应用。
对于二阶矩阵有
[ a b c d ] − 1 = 1 a d − b c [ d − b − c a ] \begin{bmatrix}a&b\\c&d\end{bmatrix}^{-1}=\frac{1}{ad-bc}\begin{bmatrix}d&-b\\-c&a\end{bmatrix} [acbd]−1=ad−bc1[d−c−ba]
观察易得,系数项就是行列式的倒数,而矩阵则是由一系列代数余子式组成的。先给出公式:
A − 1 = 1 det A C T A^{-1}=\frac{1}{\det A}C^T A−1=detA1CT
观察这个公式的运作,化简公式得 A C T = ( det A ) I AC^T=(\det A)I ACT=(detA)I,写成矩阵形式:
[ a 11 a 12 ⋯ a 1 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ] [ C 11 ⋯ C n 1 C 12 ⋯ C n 2 ⋮ ⋱ ⋮ C 1 n ⋯ C n n ] = R e s R e s = [ det A 0 ⋯ 0 0 det A ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ det A ] = ( det A ) I \begin{bmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\\vdots&\vdots&\ddots&\vdots\\a_{n1}&a_{n2}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}C_{11}&\cdots&C_{n1}\\C_{12}&\cdots&C_{n2}\\\vdots&\ddots&\vdots\\C_{1n}&\cdots&C_{nn}\end{bmatrix}=Res\\ Res=\begin{bmatrix}\det A&0&\cdots&0\\0&\det A&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\det A\end{bmatrix}=(\det A)I ⎣⎢⎡a11⋮an1a12⋮an2⋯⋱⋯a1n⋮ann⎦⎥⎤⎣⎢⎢⎢⎡C11C12⋮C1n⋯⋯⋱⋯Cn1Cn2⋮Cnn⎦⎥⎥⎥⎤=ResRes=⎣⎢⎢⎢⎡detA0⋮00detA⋮0⋯⋯⋱⋯00⋮detA⎦⎥⎥⎥⎤=(detA)I
下面从结果的对角线和非对角线元素出发进行解释:
R e s Res Res对角线元素:
观察其结果的元素 R e s 11 = a 11 C 11 + a 12 C 12 + ⋯ + a 1 n C 1 n Res_{11}=a_{11}C_{11}+a_{12}C_{12}+\cdots+a_{1n}C_{1n} Res11=a11C11+a12C12+⋯+a1nC1n,这正是上一讲提到的将行列式按第一行展开的结果。
同理,对 R e s 22 , ⋯ , R e s n n Res_{22}, \cdots, Res_{nn} Res22,⋯,Resnn都有 R e s i i = det A Res_{ii}=\det A Resii=detA,即对角线元素均为 det A \det A detA。
R e s Res Res非对角线元素:
元素 R e s 1 n = a 11 C n 1 + a 12 C n 2 + ⋯ + a 1 n C n n Res_{1n}=a_{11}C_{n1}+a_{12}C_{n2}+\cdots+a_{1n}C_{nn} Res1n=a11Cn1+a12Cn2+⋯+a1nCnn,该元素是第一行与最后一行的代数余子式相乘之积。
这个式子也可以写成一个特殊矩阵的行列式,即矩阵
A s = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n − a 1 a n − 12 ⋯ a n − 1 n a 11 a 12 ⋯ a 1 n ] A_{s}=\begin{bmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{n-a1}&a_{n-12}&\cdots&a_{n-1n}\\a_{11}&a_{12}&\cdots&a_{1n}\end{bmatrix} As=⎣⎢⎢⎢⎢⎢⎡a11a21⋮an−a1a11a12a22⋮an−12a12⋯⋯⋱⋯⋯a1na2n⋮an−1na1n⎦⎥⎥⎥⎥⎥⎤
计算此矩阵的行列式,将 det A s \det A_{s} detAs按最后一行展开,也得到 det A s = a 11 C n 1 + a 12 C n 2 + ⋯ + a 1 n C n n \det A_{s}=a_{11}C_{n1}+a_{12}C_{n2}+\cdots+a_{1n}C_{nn} detAs=a11Cn1+a12Cn2+⋯+a1nCnn。
行列式 A s A_{s} As有两行相等,其值为零。
综上,结合对角线元素与非对角线元素的结果,得到 R e s Res Res就是 ( det A ) I (\det A)I (detA)I,得证。
因为我们现在有了逆矩阵的计算公式,所以对 A x = b Ax=b Ax=b有
x = A − 1 b = 1 det A C T b x=A^{-1}b=\frac{1}{\det A}C^Tb x=A−1b=detA1CTb
这就是计算 x x x的公式,即克莱默法则(Cramer’s rule)。
克拉默理解:
观察 x = 1 det A C T b x=\frac{1}{\det A}C^Tb x=detA1CTb,我们将得到的解拆分开来,对 x x x的第一个分量有 x 1 = y 1 det A x_1=\frac{y_1}{\det A} x1=detAy1,这里 y 1 y_1 y1是一个数字,其值为
y 1 = b 1 C 11 + b 2 C 21 + ⋯ + b n C n 1 y_1=b_1C_{11}+b_2C_{21}+\cdots+b_nC_{n1} y1=b1C11+b2C21+⋯+bnCn1
当我们看到数字与代数余子式乘之积求和时,都应该联想到求行列式,也就是说 y 1 y_1 y1可以看做是一个矩阵的行列式
我们设这个矩阵为 B 1 B_1 B1。所以有 x 1 = det B 1 det A x_1=\frac{\det B_1}{\det A} x1=detAdetB1。
而 B 1 B_1 B1是一个形为
[ b a 2 a 3 ⋯ a n ] \Bigg[b \quad a_2 \quad a_3 \cdots a_n\Bigg] [ba2a3⋯an]
的矩阵,即将矩阵 A A A的第一列变为 b b b向量而得到的新矩阵。其实很容易看出, det B 1 \det B_1 detB1可以沿第一列展开得到
y 1 = b 1 C 11 + b 2 C 21 + ⋯ + b n C n 1 y_1=b_1C_{11}+b_2C_{21}+\cdots+b_nC_{n1} y1=b1C11+b2C21+⋯+bnCn1
一般的,有 B j = [ a 1 a 2 ⋯ a j − 1 b a j + 1 ⋯ a n ] B_j=\Bigg[a_1 a_2 \cdots a_{j-1} b a_{j+1} \cdots a_n\Bigg] Bj=[a1a2⋯aj−1baj+1⋯an],即将矩阵 A A A的第 j j j列变为 b b b向量而得到的新矩阵。
所以,对于解的分量有
x j = det B j det A x_j=\frac{\det B_j}{\det A} xj=detAdetBj
克莱默法则公式虽然很漂亮简洁但是计算并不方便。
命题:行列式的绝对值等于一个箱子的体积。
对于 3 3 3阶方阵 A A A,取第一行 ( a 1 , a 2 , a 3 ) (a_1,a_2,a_3) (a1,a2,a3),令其为三维空间中点 A 1 A_1 A1的坐标,同理有点 A 2 , A 3 A_2, A_3 A2,A3。连接这三个点与原点可以得到三条边,使用这三条边展开得到一个平行六面体, ∥ det A ∥ \left\|\det A\right\| ∥detA∥就是该平行六面体的体积。
对于三阶单位矩阵,其体积为 det I = 1 \det I=1 detI=1,此时这个箱子是一个单位立方体。这其实也证明了前面学过的行列式性质1。于是我们想,如果能接着证明性质2、3即可证明体积与行列式的关系。
对于行列式性质2,我们交换两行并不会改变箱子的大小,同时行列式的绝对值也没有改变,得证。
对于标准正交矩阵,现在我们取矩阵 A = Q A=Q A=Q,而 Q Q Q是一个标准正交矩阵,此时这个箱子是一个立方体,可以看出其实这个箱子就是刚才的单位立方体经过旋转得到的。对于标准正交矩阵,有 Q T Q = I Q^TQ=I QTQ=I,等式两边取行列式得 det ( Q T Q ) = 1 = ∣ Q T ∣ ∣ Q ∣ \det(Q^TQ)=1=\left|Q^T\right|\left|Q\right| det(QTQ)=1=∣∣QT∣∣∣Q∣,而根据行列式性质10有 ∣ Q T ∣ = ∣ Q ∣ \left|Q^T\right|=\left|Q\right| ∣∣QT∣∣=∣Q∣,所以 原 式 = ∣ Q ∣ 2 = 1 , ∣ Q ∣ = ± 1 原式=\left|Q\right|^2=1, \left|Q\right|=\pm 1 原式=∣Q∣2=1,∣Q∣=±1。
接下来在考虑不再是“单位”的立方体,即长方体。 假设 Q Q Q矩阵的第一行翻倍得到新矩阵 Q 2 Q_2 Q2,此时箱子变为在第一行方向上增加一倍的长方体箱子,也就是两个“标准正交箱子”在第一行方向上的堆叠。易知这个长方体箱子是原来体积的两倍,而根据行列式性质3.a有 det Q 2 = det Q \det Q_2=\det Q detQ2=detQ,于是体积也符合行列式的数乘性质。
二阶方阵的情形, ∣ a + a ′ b + b ′ c d ∣ = ∣ a b c d ∣ + ∣ a ′ b ′ c d ∣ \begin{vmatrix}a+a'&b+b'\\c&d\end{vmatrix}=\begin{vmatrix}a&b\\c&d\end{vmatrix}+\begin{vmatrix}a'&b'\\c&d\end{vmatrix} ∣∣∣∣a+a′cb+b′d∣∣∣∣=∣∣∣∣acbd∣∣∣∣+∣∣∣∣a′cb′d∣∣∣∣。
在二阶情况中,行列式就是一个求平行四边形面积的公式,原来我们求由四个点 ( 0 , 0 ) , ( a , b ) , ( c , d ) , ( a + c , b + d ) (0,0), (a,b), (c,d), (a+c,b+d) (0,0),(a,b),(c,d),(a+c,b+d)围成的四边形的面积,需要先求四边形的底边长,再做高求解,现在只需要计算 det A = a d − b c \det A=ad-bc detA=ad−bc即可(更加常用的是求由 ( 0 , 0 ) , ( a , b ) , ( c , d ) (0,0), (a,b), (c,d) (0,0),(a,b),(c,d)围成的三角形的面积,即 1 2 ( a d − b c ) \frac{1}{2}(ad-bc) 21(ad−bc))。
也就是说,如果知道了歪箱子的顶点坐标,求面积(二阶情形)或体积(三阶情形)时,我们不再需要开方、求角度,只需要计算行列式的值就行了。
更一般情形下:
由点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) (x_1,y_1), (x_2,y_2), (x_3,y_3) (x1,y1),(x2,y2),(x3,y3)围成的三角形面积等于
1 2 ∣ x 1 y 1 1 x 2 y 2 1 x 3 y 3 1 ∣ \frac{1}{2}\begin{vmatrix}x_1&y_1&1\\x_2&y_2&1\\x_3&y_3&1\end{vmatrix} 21∣∣∣∣