线性代数原文 MIT 18.06 线性代数笔记
矩阵论笔记来自 工程矩阵理论
综合线性代数 机器学习的数学基础
配合视频 线性代数 工程矩阵理论
本讲我们介绍一种图片有损压缩的一种方法:JPEG。
假设我们有一张图片,长宽皆为 512 512 512个像素,我们用 x i x_i xi来表示第 i i i个像素,如果是灰度照片,通常 x i x_i xi可以在 [ 0 , 255 ] [0,255] [0,255]上取值,也就是8 bits。对于这承载这张图片信息的向量 x x x来说,有 x ∈ R n , n = 51 2 2 x\in\mathbb{R}^n, n=512^2 x∈Rn,n=5122。而如果是彩色照片,通常需要三个量来表示一个像素,则向量长度也会变为现在的三倍。
如此大的数据不经过压缩很难广泛传播。教学录像采用的压缩方法就是JPEG(Joint Photographic Expert Group,联合图像专家组),该方法采用的就是基变换的方式压缩图像。比如说一块干净的黑白,其附近的像素值应该非常接近,此时如果一个像素一个像素的描述黑白灰度值就太浪费空间了,所以标准基在这种情况下并不能很好的利用图片的特性。
我们知道,标准基是 [ 1 0 ⋮ 0 ] [ 0 1 ⋮ 0 ] ⋯ [ 0 0 ⋮ 1 ] \begin{bmatrix}1\\0\\\vdots\\0\end{bmatrix}\begin{bmatrix}0\\1\\\vdots\\0\end{bmatrix}\cdots\begin{bmatrix}0\\0\\\vdots\\1\end{bmatrix} ⎣⎢⎢⎢⎡10⋮0⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡01⋮0⎦⎥⎥⎥⎤⋯⎣⎢⎢⎢⎡00⋮1⎦⎥⎥⎥⎤,我们想寻找一个更好的基。
我们试试使用别的基描述图片,比如:
现在我们来介绍傅里叶基,以 8 × 8 8\times 8 8×8傅里叶基为例(这表示我们每次只处理 8 × 8 8\times 8 8×8像素的一小块图像):
F n = [ 1 1 1 ⋯ 1 1 w w 2 ⋯ w n − 1 1 w 2 w 4 ⋯ w 2 ( n − 1 ) ⋮ ⋮ ⋮ ⋱ ⋮ 1 w n − 1 w 2 ( n − 1 ) ⋯ w ( n − 1 ) 2 ] , w = e i 2 π / n , n = 8 F_n=\begin{bmatrix}1&1&1&\cdots&1\\1&w&w^2&\cdots&w^{n-1}\\1&w^2&w^4&\cdots&w^{2(n-1)}\\\vdots&\vdots&\vdots&\ddots&\vdots\\1&w^{n-1}&w^{2(n-1)}&\cdots&w^{(n-1)^2}\end{bmatrix},\ w=e^{i2\pi/n},\ n=8 Fn=⎣⎢⎢⎢⎢⎢⎡111⋮11ww2⋮wn−11w2w4⋮w2(n−1)⋯⋯⋯⋱⋯1wn−1w2(n−1)⋮w(n−1)2⎦⎥⎥⎥⎥⎥⎤, w=ei2π/n, n=8,我们不需要深入 8 8 8阶傅里叶基的细节,先看看使用傅里叶基的思路是怎样的。
每次处理 8 × 8 8\times 8 8×8的一小块时,会遇到 64 64 64个像素,也就是 64 64 64个基向量, 64 64 64个系数,在 64 64 64维空间中利用傅里叶向量做基变换:
输入信号 x x x为 64 64 64维向量 → 基 变 换 \xrightarrow{基变换} 基变换输出信号 c c c为 x x x在傅里叶基下的 64 64 64个系数。
注意前面做的都是无损的步骤,我们只是选了 R 6 4 \mathbb{R}^64 R64的一组基,接着把信号用这组基表达出来。
接下来的步骤就涉及到压缩和损失了:
一种方法是扔掉较小的系数,这叫做阈值量化(thresholding),我们设定一个阈值,任何不在阈值范围内的基向量、系数都将丢弃,虽然有信息损失,但是只要阈值设置合理,肉眼几乎无法区别压缩前后的图片。经由此步处理,向量 c c c变为 c ^ \hat c c^,而 c ^ \hat c c^将有很多 0 0 0。
通常 [ 1 1 ⋯ 1 ] T \begin{bmatrix}1&1&\cdots&1\end{bmatrix}^T [11⋯1]T向量很难被丢弃,它通常具有较大的系数。但是 [ 1 − 1 ⋯ 1 − 1 ] T \begin{bmatrix}1&-1&\cdots&1&-1\end{bmatrix}^T [1−1⋯1−1]T向量在平滑信号中的可能性就很小了。前一个的向量称作低频信号,频率为 0 0 0,后一个向量称作高频信号,也是我们能够得到的最高频率的信号,如果是噪音或抖动输出的就是它。
比如讲课的视频图像信号,这种平滑的情形下输出的大多是低频信号,很少出现噪音。
接着我们用这些系数 c ^ \hat c c^来重构信号,用这些系数乘以对应的基向量 x ^ = ∑ c ^ i v i \hat x=\sum \hat{c}_iv_i x^=∑c^ivi,但是这个求和不再是 64 64 64项求和了,因为压缩后的系数中有很多零存在,比如说我们压缩后 c ^ \hat c c^中仅有三个非零项,那么压缩比将近达到 21 : 1 21:1 21:1。
我们再来提一下视频压缩:视频是一系列连续图像,且相近的帧非常接近,而我们的压缩算法就需要利用这个相近性质。在实际生活中,从时间与空间的角度讲,事物不会瞬间改变。
接下来介绍另一组基,它是傅里叶基的竞争对手,名为小波(wavelets),同样以 8 × 8 8\times 8 8×8为例:
[ 1 1 1 1 1 1 1 1 ] [ 1 1 1 1 − 1 − 1 − 1 − 1 ] [ 1 1 − 1 − 1 0 0 0 0 ] [ 0 0 0 0 1 1 − 1 − 1 ] [ 1 − 1 0 0 0 0 0 0 ] [ 0 0 1 − 1 0 0 0 0 ] [ 0 0 0 0 1 − 1 0 0 ] [ 0 0 0 0 0 0 1 − 1 ] \begin{bmatrix}1\\1\\1\\1\\1\\1\\1\\1\end{bmatrix} \begin{bmatrix}1\\1\\1\\1\\-1\\-1\\-1\\-1\end{bmatrix} \begin{bmatrix}1\\1\\-1\\-1\\0\\0\\0\\0\end{bmatrix} \begin{bmatrix}0\\0\\0\\0\\1\\1\\-1\\-1\end{bmatrix} \begin{bmatrix}1\\-1\\0\\0\\0\\0\\0\\0\end{bmatrix} \begin{bmatrix}0\\0\\1\\-1\\0\\0\\0\\0\end{bmatrix} \begin{bmatrix}0\\0\\0\\0\\1\\-1\\0\\0\end{bmatrix} \begin{bmatrix}0\\0\\0\\0\\0\\0\\1\\-1\end{bmatrix} ⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡11111111⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1111−1−1−1−1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡11−1−10000⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡000011−1−1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1−1000000⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡001−10000⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡00001−100⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡0000001−1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤。
可以看出傅里叶基中频率最高的向量为小波后四个基向量之和。
在标准基下的一组(按八个一组计算, P ∈ R 8 P\in\mathbb{R}^8 P∈R8)像素 P = [ p 1 p 2 ⋮ p 8 ] = c 1 w 1 + c 2 w 2 + ⋯ + c n w n = [ w 1 w 2 ⋯ w n ] [ c 1 c 2 ⋮ c n ] P=\begin{bmatrix}p_1\\p_2\\\vdots\\p_8\end{bmatrix}=c_1w_1+c_2w_2+\cdots+c_nw_n=\Bigg[w_1\ w_2\ \cdots\ w_n\Bigg]\begin{bmatrix}c_1\\c_2\\\vdots\\c_n\end{bmatrix} P=⎣⎢⎢⎢⎡p1p2⋮p8⎦⎥⎥⎥⎤=c1w1+c2w2+⋯+cnwn=[w1 w2 ⋯ wn]⎣⎢⎢⎢⎡c1c2⋮cn⎦⎥⎥⎥⎤,即 P = W C P=WC P=WC,我们需要计算像素向量在另一组基下系数,所以有 C = W − 1 P C=W^{-1}P C=W−1P。
此时我们发现,如果选取“好的基”会使得逆矩阵的求解过程变简单,所谓“好的基”:
计算快;
我们需要大量使用 P = W C P=WC P=WC来计算整幅图在另一个基下的表达,在傅里叶变换中我们学习了快速傅里叶变换(FFT),同样的在小波变换中也有快速小波变换(FWT);
另外的,我们需要计算其逆矩阵,所以这个逆矩阵计算也必须快,观察小波基不难发现基向量相互正交,假设我们已经对小波基做了标准化处理,则小波基是一组标准正交基,所以有 W − 1 = W T W^{-1}=W^T W−1=WT。
仅需少量向量即可最大限度的重现图像。
因为在图像压缩时,我们会舍弃较小的系数,比如 c 5 , c 6 , c 7 , c 8 c_5,c_6,c_7,c_8 c5,c6,c7,c8,所以后四个的基向量都会被舍弃,重现图像时仅使用前四个基向量的线性组合,而好的基选取会在使用较少基的前提下保证图像质量不会有较大损失。
题外话:JPEG2000标准会将小波基纳入压缩算法。我们上面介绍的是最简单的一组小波基,而FBI的指纹识别或JPEG2000的压缩算法纳入的是更加平滑的小波基,不会使用像上面介绍的那种直接从 1 1 1变为 − 1 -1 −1的基。
要想继续了解小波基,可以参考一篇非常精彩的文章能不能通俗的讲解下傅立叶分析和小波分析之间的关系?——“咚懂咚懂咚“的答案
前面介绍小波基的时候我们就已经做了一次基变换。
将目标基的向量按列组成矩阵 W W W,则基变换就是 [ x ] → x = W c [ c ] \Bigg[x\Bigg]\xrightarrow{x=Wc}\Bigg[c\Bigg] [x]x=Wc[c]。
看一个例子,有线性变换 T : R 8 → R 8 T:\mathbb{R}^8\to\mathbb{R}^8 T:R8→R8,在第一组基 v 1 , v 2 , ⋯ , v 8 v_1,v_2,\cdots,v_8 v1,v2,⋯,v8上计算得到矩阵 A A A,在第二组基 w 1 , w 2 , ⋯ , w n w_1,w_2,\cdots,w_n w1,w2,⋯,wn上计算得到矩阵 B B B。先说结论,矩阵 A , B A,B A,B是相似的,也就是有 B = M − 1 A M B=M^{-1}AM B=M−1AM,而 M M M就是基变换矩阵。
进行基变换时会发生两件事:
每个向量都会有一组新的坐标,而 x = W c x=Wc x=Wc就是新旧坐标的关系;
每个线性变换都会有一个新的矩阵,而 B = M − 1 A M B=M^{-1}AM B=M−1AM就是新旧矩阵的关系。
再来看什么是 A A A矩阵?
对于第一组基 v 1 , v 2 , ⋯ , v 8 v_1,v_2,\cdots,v_8 v1,v2,⋯,v8,要完全了解线性变换 T T T,只需要知道 T T T作用在基的每一个向量上会产生什么结果即可。因为在这个基下的每一个向量都可以写成 x = c 1 v 1 + c 2 v 2 + ⋯ + c 8 v 8 x=c_1v_1+c_2v_2+\cdots+c_8v_8 x=c1v1+c2v2+⋯+c8v8的形式,所以 T ( x ) = c 1 T ( v 1 ) + c 2 T ( v 2 ) + ⋯ + c 8 T ( v 8 ) T(x)=c_1T(v_1)+c_2T(v_2)+\cdots+c_8T(v_8) T(x)=c1T(v1)+c2T(v2)+⋯+c8T(v8)。
而且 T ( v 1 ) = a 11 v 1 + a 21 v 2 + ⋯ + a 81 v 8 , T ( v 2 ) = a 12 v 1 + a 22 v 2 + ⋯ + a 82 v 8 , ⋯ T(v_1)=a_{11}v_1+a_{21}v_2+\cdots+a_{81}v_8,\ T(v_2)=a_{12}v_1+a_{22}v_2+\cdots+a_{82}v_8,\ \cdots T(v1)=a11v1+a21v2+⋯+a81v8, T(v2)=a12v1+a22v2+⋯+a82v8, ⋯,则矩阵 [ A ] = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] \begin{bmatrix}A\end{bmatrix}=\left[\begin{array}{c|c|c|c}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{m1}&a_{m2}&\cdots&a_{mn}\\\end{array}\right] [A]=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤
这些都是上一讲结尾所涉及的知识。
最后我们以一个更加特殊的基收场,设 v 1 , v 2 , ⋯ , v n v_1,v_2,\cdots,v_n v1,v2,⋯,vn是一组特征向量,也就是 T ( v i ) = λ 1 v i T(v_i)=\lambda_1v_i T(vi)=λ1vi,那么问题就是矩阵 A A A是什么?
继续使用线性变换中学到的,输入的第一个向量 v 1 v_1 v1经由 T T T加工后得到 λ 1 v 1 \lambda_1v_1 λ1v1,第二个向量 v 2 → T λ 2 v 2 v_2\xrightarrow{T}\lambda_2v_2 v2Tλ2v2,继续做下去,最终有 v n = v n → T λ n v n v_n=v_n\xrightarrow{T}\lambda_nv_n vn=vnTλnvn。除了 λ i v i \lambda_iv_i λivi外的其他基向量都变为 0 0 0,那么矩阵 A = [ λ 1 λ 2 ⋱ λ n ] A=\begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&\ddots&\\&&&\lambda_n\end{bmatrix} A=⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤。
这是一个非常完美的基,我们在图像处理中最想要的就是这种基,但是找出像素矩阵的特征向量代价太大,所以我们找了一些代价小同时效果也不错的基,比如小波基、傅里叶基等等。
在上一次复习中,我们已经涉及了求特征值与特征向量(通过解方程 ∣ A − λ E ∣ = 0 |A-\lambda E|=0 ∣A−λE∣=0得出 λ \lambda λ,再将 λ \lambda λ带入 A − λ E A-\lambda E A−λE求其零空间得到 x x x)。
接下的章节来我们学习了:
现在,我们继续通过例题复习这些知识点。
解方程 d u d t = A u = [ 0 − 1 0 1 0 − 1 0 1 0 ] u \frac{\mathrm{d}u}{\mathrm{d}t}=Au=\begin{bmatrix}0&-1&0\\1&0&-1\\0&1&0\end{bmatrix}u dtdu=Au=⎣⎡010−1010−10⎦⎤u。
首先通过 A A A的特征值/向量求通解 u ( t ) = c 1 e λ 1 t x 1 + c 2 e λ 2 t x 2 + c 3 e λ 3 t x 3 u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2+c_3e^{\lambda_3t}x_3 u(t)=c1eλ1tx1+c2eλ2tx2+c3eλ3tx3,很明显矩阵是奇异的,所以有 λ 1 = 0 \lambda_1=0 λ1=0;
继续观察矩阵会发现 A T = − A A^T=-A AT=−A,这是一个反对称矩阵(anti-symmetric)或斜对陈矩阵(skew-symmetric),这与我们在第二十一讲介绍过的旋转矩阵类似,它的特征值应该为纯虚数(特征值在虚轴上),所以我们猜测其特征值应为 0 ⋅ i , b ⋅ i , − b ⋅ i 0\cdot i,\ b\cdot i,\ -b\cdot i 0⋅i, b⋅i, −b⋅i。通过解 ∣ ( A − λ E ) = 0 |(A-\lambda E)=0 ∣(A−λE)=0验证一下: [ − λ − 1 0 1 − λ − 1 0 1 λ ] = λ 3 + 2 λ = 0 , λ 2 = 2 i , λ 3 = − 2 i \begin{bmatrix}-\lambda&-1&0\\1&-\lambda&-1\\0&1&\lambda\end{bmatrix}=\lambda^3+2\lambda=0, \lambda_2=\sqrt 2i, \lambda_3=-\sqrt 2i ⎣⎡−λ10−1−λ10−1λ⎦⎤=λ3+2λ=0,λ2=2i,λ3=−2i。
此时 u ( t ) = c 1 + c 2 e 2 i t x 2 + c 3 e − 2 i t x 3 u(t)=c_1+c_2e^{\sqrt 2it}x_2+c_3e^{-\sqrt 2it}x_3 u(t)=c1+c2e2itx2+c3e−2itx3, e 2 i t e^{\sqrt 2it} e2it始终在复平面单位圆上,所以 u ( t ) u(t) u(t)及不发散也不收敛,它只是具有周期性。当 t = 0 t=0 t=0时有 u ( 0 ) = c 1 + c 2 + c 3 u(0)=c_1+c_2+c_3 u(0)=c1+c2+c3,如果使 e 2 i T = 1 e^{\sqrt 2iT}=1 e2iT=1即 2 i T = 2 π i \sqrt 2iT=2\pi i 2iT=2πi则也能得到 u ( T ) = c 1 + c 2 + c 3 u(T)=c_1+c_2+c_3 u(T)=c1+c2+c3,周期 T = π 2 T=\pi\sqrt 2 T=π2。
另外,反对称矩阵同对称矩阵一样,具有正交的特征向量。当矩阵满足什么条件时,其特征向量相互正交?答案是必须满足 A A T = A T A AA^T=A^TA AAT=ATA。所以对称矩阵 A = A T A=A^T A=AT满足此条件,同时反对称矩阵 A = − A T A=-A^T A=−AT也满足此条件,而正交矩阵 Q − 1 = Q T Q^{-1}=Q^T Q−1=QT同样满足此条件,这三种矩阵的特征向量都是相互正交的。
上面的解法并没有求特征向量,进而通过 u ( t ) = e A t u ( 0 ) u(t)=e^{At}u(0) u(t)=eAtu(0)得到通解,现在我们就来使用指数矩阵来接方程。如果矩阵可以对角化(在本例中显然可以),则 A = S Λ S − 1 , e A t = S e Λ t S − 1 = S [ e λ 1 t e λ 1 t ⋱ e λ 1 t ] S − 1 A=S\Lambda S^{-1}, e^{At}=Se^{\Lambda t}S^{-1}=S\begin{bmatrix}e^{\lambda_1t}&&&\\&e^{\lambda_1t}&&\\&&\ddots&\\&&&e^{\lambda_1t}\end{bmatrix}S^{-1} A=SΛS−1,eAt=SeΛtS−1=S⎣⎢⎢⎡eλ1teλ1t⋱eλ1t⎦⎥⎥⎤S−1,这个公式在能够快速计算 S , λ S,\lambda S,λ时很方便求解。
已知矩阵的特征值 λ 1 = 0 , λ 2 = c , λ 3 = 2 \lambda_1=0,\lambda_2=c,\lambda_3=2 λ1=0,λ2=c,λ3=2,特征向量 x 1 = [ 1 1 1 ] , x 2 = [ 1 − 1 0 ] , x 3 = [ 1 1 − 2 ] x_1=\begin{bmatrix}1\\1\\1\end{bmatrix},x_2=\begin{bmatrix}1&-1&0\end{bmatrix},x_3=\begin{bmatrix}1\\1\\-2\end{bmatrix} x1=⎣⎡111⎦⎤,x2=[1−10],x3=⎣⎡11−2⎦⎤:
c c c如何取值才能保证矩阵可以对角化?
答:其实可对角化只需要有足够的特征向量即可,而现在特征向量已经足够,所以 c c c可以取任意值。
c c c如何取值才能保证矩阵对称?
答:我们知道,对称矩阵的特征值均为实数,且注意到给出的特征向量是正交的,有了实特征值及正交特征向量,我们就可以得到对称矩阵。
c c c如何取值才能使得矩阵正定?
答:已经有一个零特征值了,所以矩阵不可能是正定的,但可以是半正定的,如果 c c c去非负实数。
c c c如何取值才能使得矩阵是一个马尔科夫矩阵?
答:在第二十四讲我们知道马尔科夫矩阵的性质:必有特征值等于 1 1 1,其余特征值均小于 1 1 1,所以 A A A不可能是马尔科夫矩阵。
c c c取何值才能使得 P = A 2 P=\frac{A}{2} P=2A是一个投影矩阵?
答:我们知道投影矩阵的一个重要性质是 P 2 = P P^2=P P2=P,所以有对其特征值有 λ 2 = λ \lambda^2=\lambda λ2=λ,则 c = 0 , 2 c=0,2 c=0,2
题设中的正交特征向量意义重大,如果没有正交这个条件,则矩阵 A A A不会是对称、正定、投影矩阵。因为特征向量的正交性我们才能直接去看特征值的性质。
复习奇异值分解, A = U Σ V T A=U\varSigma V^T A=UΣVT:
先求正交矩阵 V V V: A T A = V Σ T U T U Σ V T = V ( Σ T Σ ) V T A^TA=V\varSigma^TU^TU\varSigma V^T=V\left(\varSigma^T\varSigma\right)V^T ATA=VΣTUTUΣVT=V(ΣTΣ)VT,所以 V V V是矩阵 A T A A^TA ATA的特征向量矩阵,而矩阵 Σ T Σ \varSigma^T\varSigma ΣTΣ是矩阵 A T A A^TA ATA的特征值矩阵,即 A T A A^TA ATA的特征值为 σ 2 \sigma^2 σ2。
接下来应该求正交矩阵 U U U: A A T = U Σ T V T V Σ U T = U ( Σ T Σ ) U T AA^T=U\varSigma^TV^TV\varSigma U^T=U\left(\varSigma^T\varSigma\right)U^T AAT=UΣTVTVΣUT=U(ΣTΣ)UT,但是请注意,我们在这个式子中无法确定特征向量的符号,我们需要使用 A v i = σ i u i Av_i=\sigma_iu_i Avi=σiui,通过已经求出的 v i v_i vi来确定 u i u_i ui的符号(因为 A V = U Σ AV=U\varSigma AV=UΣ),进而求出 U U U。
已知 A = [ u 1 u 2 ] [ 3 0 0 2 ] [ v 1 v 2 ] T A=\bigg[u_1\ u_2\bigg]\begin{bmatrix}3&0\\0&2\end{bmatrix}\bigg[v_1\ v_2\bigg]^T A=[u1 u2][3002][v1 v2]T
从已知的 Σ \varSigma Σ矩阵可以看出, A A A矩阵是非奇异矩阵,因为它没有零奇异值。另外,如果把 Σ \varSigma Σ矩阵中的 2 2 2改成 − 5 -5 −5,则题目就不再是奇异值分解了,因为奇异值不可能为负;如果将 2 2 2变为 0 0 0,则 A A A是奇异矩阵,它的秩为 1 1 1,零空间为 1 1 1维, v 2 v_2 v2在其零空间中。
A A A是正交对称矩阵,那么它的特征值具有什么特点?
首先,对于对称矩阵,有特征值均为实数;然后是正交矩阵,直觉告诉我们 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1。来证明一下,对于 Q x = λ x Qx=\lambda x Qx=λx,我们两边同时取模有 ∥ Q x ∥ = ∣ λ ∣ ∥ x ∥ \|Qx\|=|\lambda|\|x\| ∥Qx∥=∣λ∣∥x∥,而正交矩阵不会改变向量长度,所以有 ∥ x ∥ = ∣ λ ∣ ∥ x ∥ \|x\|=|\lambda|\|x\| ∥x∥=∣λ∣∥x∥,因此 λ = ± 1 \lambda=\pm1 λ=±1。
A A A是正定的吗?
答:并不一定,因为特征向量可以取 − 1 -1 −1。
A A A的特征值没有重复吗?
答:不是,如果矩阵大于 2 2 2阶则必定有重复特征值,因为只能取 ± 1 \pm1 ±1。
A A A可以被对角化吗?
答:是的,任何对称矩阵、任何正交矩阵都可以被对角化。
A A A是非奇异矩阵吗?
答:是的,正交矩阵都是非奇异矩阵。很明显它的特征值都不为零。
证明 P = 1 2 ( A + E ) P=\frac{1}{2}(A+E) P=21(A+E)是投影矩阵。
我们使用投影矩阵的性质验证,首先由于 A A A是对称矩阵,则 P P P一定是对称矩阵;接下来需要验证 P 2 = P P^2=P P2=P,也就是 1 4 ( A 2 + 2 A + E ) = 1 2 ( A + E ) \frac{1}{4}\left(A^2+2A+E\right)=\frac{1}{2}(A+E) 41(A2+2A+E)=21(A+E)。来看看 A 2 A^2 A2是什么, A A A是正交矩阵则 A T = A − 1 A^T=A^{-1} AT=A−1,而 A A A又是对称矩阵则 A = A T = A − 1 A=A^T=A^{-1} A=AT=A−1,所以 A 2 = I A^2=I A2=I。带入原式有 1 4 ( 2 A + 2 I ) = 1 2 ( A + E ) \frac{1}{4}(2A+2I)=\frac{1}{2}(A+E) 41(2A+2I)=21(A+E),得证。
我们可以使用特征值验证, A A A的特征值可以取 ± 1 \pm1 ±1,则 A + E A+E A+E的特征值可以取 0 , 2 0,2 0,2, 1 2 ( A + E ) \frac{1}{2}(A+E) 21(A+E)的特征值为 0 , 1 0,1 0,1,特征值满足投影矩阵且它又是对称矩阵,得证。