线性代数原文 MIT 18.06 线性代数笔记
矩阵论笔记来自 工程矩阵理论
综合线性代数 机器学习的数学基础
配合视频 线性代数 工程矩阵理论
微分方程不在本讲的范围内。下面通过往年例题复习上面的知识。
求 a = [ 2 1 2 ] a=\begin{bmatrix}2\\1\\2\end{bmatrix} a=⎣⎡212⎦⎤的投影矩阵 P P P: ( \Bigg( (由 a ⊥ ( b − p ) → A T ( b − A x ^ ) = 0 a\bot(b-p)\rightarrow A^T(b-A\hat x)=0 a⊥(b−p)→AT(b−Ax^)=0得到 x ^ = ( A T A ) − 1 A T b \hat x=\left(A^TA\right)^{-1}A^Tb x^=(ATA)−1ATb,求得 p = A x ^ = A ( A T A ) − 1 A T b = P b p=A\hat x=A\left(A^TA\right)^{-1}A^Tb=Pb p=Ax^=A(ATA)−1ATb=Pb最终得到 P ) P\Bigg) P) P = A ( A T A ) − 1 A T ‾ = a a a T a T a = 1 9 [ 4 2 4 2 1 2 4 2 4 ] \underline{P=A\left(A^TA\right)^{-1}A^T}\stackrel{a}=\frac{aa^T}{a^Ta}=\frac{1}{9}\begin{bmatrix}4&2&4\\2&1&2\\4&2&4\end{bmatrix} P=A(ATA)−1AT=aaTaaaT=91⎣⎡424212424⎦⎤。
求 P P P矩阵的特征值:观察矩阵易知矩阵奇异,且为秩一矩阵,则其零空间为 2 2 2维,所以由 P x = 0 x Px=0x Px=0x得出矩阵的两个特征向量为 λ 1 = λ 2 = 0 \lambda_1=\lambda_2=0 λ1=λ2=0;而从矩阵的迹得知 t r a c e ( P ) = 1 = λ 1 + λ 2 + λ 3 = 0 + 0 + 1 trace(P)=1=\lambda_1+\lambda_2+\lambda_3=0+0+1 trace(P)=1=λ1+λ2+λ3=0+0+1,则第三个特征向量为 λ 3 = 1 \lambda_3=1 λ3=1。
求 λ 3 = 1 \lambda_3=1 λ3=1的特征向量:由 P x = x Px=x Px=x我们知道经其意义为, x x x过矩阵 P P P变换后不变,又有 P P P是向量 a a a的投影矩阵,所以任何向量经过 P P P变换都会落在 a a a的列空间中,则只有已经在 a a a的列空间中的向量经过 P P P的变换后保持不变,即其特征向量为 x = a = [ 2 1 2 ] x=a=\begin{bmatrix}2\\1\\2\end{bmatrix} x=a=⎣⎡212⎦⎤,也就是 P a = a Pa=a Pa=a。
有差分方程 u k + 1 = P u k , u 0 = [ 9 9 0 ] u_{k+1}=Pu_k,\ u_0=\begin{bmatrix}9\\9\\0\end{bmatrix} uk+1=Puk, u0=⎣⎡990⎦⎤,求解 u k u_k uk:我们先不急于解出特征值、特征向量,因为矩阵很特殊(投影矩阵)。首先观察 u 1 = P u 0 u_1=Pu_0 u1=Pu0,式子相当于将 u 0 u_0 u0投影在了 a a a的列空间中,计算得 u 1 = a a T u 0 a T a = 3 a = [ 6 3 6 ] u_1=a\frac{a^Tu_0}{a^Ta}=3a=\begin{bmatrix}6\\3\\6\end{bmatrix} u1=aaTaaTu0=3a=⎣⎡636⎦⎤(这里的 3 3 3相当于做投影时的系数 x ^ \hat x x^),其意义为 u 1 u_1 u1在 a a a上且距离 u 0 u_0 u0最近。再来看看 u 2 = P u 1 u_2=Pu_1 u2=Pu1,这个式子将 u 1 u_1 u1再次投影到 a a a的列空间中,但是此时的 u 1 u_1 u1已经在该列空间中了,再次投影仍不变,所以有 u k = P k u 0 = P u 0 = [ 6 3 6 ] u_k=P^ku_0=Pu_0=\begin{bmatrix}6\\3\\6\end{bmatrix} uk=Pku0=Pu0=⎣⎡636⎦⎤。
上面的解法利用了投影矩阵的特殊性质,如果在一般情况下,我们需要使用 A S = S Λ → A = S Λ S − 1 → u k + 1 = A u k = A k + 1 u 0 , u 0 = S c → u k + 1 = S Λ k + 1 S − 1 S c = S Λ k + 1 c AS=S\Lambda\rightarrow A=S\Lambda S^{-1} \rightarrow u_{k+1}=Au_k=A^{k+1}u_0, u_0=Sc\rightarrow u_{k+1}=S\Lambda^{k+1}S^{-1}Sc=S\Lambda^{k+1}c AS=SΛ→A=SΛS−1→uk+1=Auk=Ak+1u0,u0=Sc→uk+1=SΛk+1S−1Sc=SΛk+1c,最终得到公式 A k u 0 = c 1 λ 1 k x 1 + c 2 λ 2 k x 2 + ⋯ + c n λ n k x n A^ku_0=c_1\lambda_1^kx_1+c_2\lambda_2^kx_2+\cdots+c_n\lambda_n^kx_n Aku0=c1λ1kx1+c2λ2kx2+⋯+cnλnkxn。题中 P P P的特殊性在于它的两个“零特征值”及一个“一特征值”使得式子变为 A k u 0 = c 3 x 3 A^ku_0=c_3x_3 Aku0=c3x3,所以得到了上面结构特殊的解。
将点 ( 1 , 4 ) , ( 2 , 5 ) , ( 3 , 8 ) (1,4),\ (2,5),\ (3,8) (1,4), (2,5), (3,8)拟合到一条过零点的直线上:设直线为 y = D t y=Dt y=Dt,写成矩阵形式为 [ 1 2 3 ] D = [ 4 5 8 ] \begin{bmatrix}1\\2\\3\end{bmatrix}D=\begin{bmatrix}4\\5\\8\end{bmatrix} ⎣⎡123⎦⎤D=⎣⎡458⎦⎤,即 A D = b AD=b AD=b,很明显 D D D不存在。利用公式 A T A D ^ = A T b A^TA\hat D=A^Tb ATAD^=ATb得到 14 D = 38 , D ^ = 38 14 14D=38,\ \hat D=\frac{38}{14} 14D=38, D^=1438,即最佳直线为 y = 38 14 t y=\frac{38}{14}t y=1438t。这个近似的意义是将 b b b投影在了 A A A的列空间中。
求 a 1 = [ 1 2 3 ] a 2 = [ 1 1 1 ] a_1=\begin{bmatrix}1\\2\\3\end{bmatrix}\ a_2=\begin{bmatrix}1\\1\\1\end{bmatrix} a1=⎣⎡123⎦⎤ a2=⎣⎡111⎦⎤的正交向量:找到平面 A = [ a 1 , a 2 ] A=\Bigg[a_1,a_2\Bigg] A=[a1,a2]的正交基,使用Gram-Schmidt法,以 a 1 a_1 a1为基准,正交化 a 2 a_2 a2,也就是将 a 2 a_2 a2中平行于 a 1 a_1 a1的分量去除,即 a 2 − x a 1 = a 2 − a 1 T a 2 a 1 T a 1 a 1 = [ 1 1 1 ] − 6 14 [ 1 2 3 ] a_2-xa_1=a_2-\frac{a_1^Ta_2}{a_1^Ta_1}a_1=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{6}{14}\begin{bmatrix}1\\2\\3\end{bmatrix} a2−xa1=a2−a1Ta1a1Ta2a1=⎣⎡111⎦⎤−146⎣⎡123⎦⎤
有 4 × 4 4\times 4 4×4矩阵 A A A,其特征值为 λ 1 , λ 2 , λ 3 , λ 4 \lambda_1,\lambda_2,\lambda_3,\lambda_4 λ1,λ2,λ3,λ4,则矩阵可逆的条件是什么:矩阵可逆,则零空间中只有零向量,即 A x = 0 x Ax=0x Ax=0x没有非零解,则零不是矩阵的特征值。
∣ A ∣ − 1 |A|^{-1} ∣A∣−1是什么: ∣ A ∣ − 1 = 1 ∣ A ∣ |A|^{-1}=\frac{1}{|A|} ∣A∣−1=∣A∣1,而 ∣ A ∣ = λ 1 λ 2 λ 3 λ 4 |A|=\lambda_1\lambda_2\lambda_3\lambda_4 ∣A∣=λ1λ2λ3λ4,所以有 ∣ A ∣ − 1 = 1 λ 1 λ 2 λ 3 λ 4 |A|^{-1}=\frac{1}{\lambda_1\lambda_2\lambda_3\lambda_4} ∣A∣−1=λ1λ2λ3λ41。
t r a c e ( A + E ) trace(A+E) trace(A+E)的迹是什么:我们知道 t r a c e ( A ) = a 11 + a 22 + a 33 + a 44 = λ 1 + λ 2 + λ 3 + λ 4 trace(A)=a_{11}+a_{22}+a_{33}+a_{44}=\lambda_1+\lambda_2+\lambda_3+\lambda_4 trace(A)=a11+a22+a33+a44=λ1+λ2+λ3+λ4,所以有 t r a c e ( A + E ) = a 11 + 1 + a 22 + 1 + a 33 + 1 + a 44 + 1 = λ 1 + λ 2 + λ 3 + λ 4 + 4 trace(A+E)=a_{11}+1+a_{22}+1+a_{33}+1+a_{44}+1=\lambda_1+\lambda_2+\lambda_3+\lambda_4+4 trace(A+E)=a11+1+a22+1+a33+1+a44+1=λ1+λ2+λ3+λ4+4。
有矩阵 A 4 = [ 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 ] A_4=\begin{bmatrix}1&1&0&0\\1&1&1&0\\0&1&1&1\\0&0&1&1\end{bmatrix} A4=⎣⎢⎢⎡1100111001110011⎦⎥⎥⎤,求 D n = ? D n − 1 + ? D n − 2 D_n=?D_{n-1}+?D_{n-2} Dn=?Dn−1+?Dn−2:求递归式的系数,使用代数余子式将矩阵按第一行展开得 ∣ A ∣ 4 = 1 ⋅ ∣ 1 1 0 1 1 1 0 1 1 ∣ − 1 ⋅ ∣ 1 1 0 0 1 1 0 1 1 ∣ = 1 ⋅ ∣ 1 1 0 1 1 1 0 1 1 ∣ − 1 ⋅ ∣ 1 1 1 1 ∣ = ∣ A ∣ 3 − ∣ A ∣ 2 |A|_4=1\cdot\begin{vmatrix}1&1&0\\1&1&1\\0&1&1\end{vmatrix}-1\cdot\begin{vmatrix}1&1&0\\0&1&1\\0&1&1\end{vmatrix}=1\cdot\begin{vmatrix}1&1&0\\1&1&1\\0&1&1\end{vmatrix}-1\cdot\begin{vmatrix}1&1\\1&1\end{vmatrix}=|A|_3-|A|_2 ∣A∣4=1⋅∣∣∣∣∣∣110111011∣∣∣∣∣∣−1⋅∣∣∣∣∣∣100111011∣∣∣∣∣∣=1⋅∣∣∣∣∣∣110111011∣∣∣∣∣∣−1⋅∣∣∣∣1111∣∣∣∣=∣A∣3−∣A∣2。则可以看出有规律 D n = D n − 1 − D n − 2 , D 1 = 1 , D 2 = 0 D_n=D_{n-1}-D_{n-2}, D_1=1, D_2=0 Dn=Dn−1−Dn−2,D1=1,D2=0。
使用我们在差分方程中的知识构建方程组 { D n = D n − 1 − D n − 2 D n − 1 = D n − 1 \begin{cases}D_n&=D_{n-1}-D_{n-2}\\D_{n-1}&=D_{n-1}\end{cases} {DnDn−1=Dn−1−Dn−2=Dn−1,用矩阵表达有 [ D n D n − 1 ] = [ 1 − 1 1 0 ] [ D n − 1 D n − 2 ] \begin{bmatrix}D_n\\D_{n-1}\end{bmatrix}=\begin{bmatrix}1&-1\\1&0\end{bmatrix}\begin{bmatrix}D_{n-1}\\D_{n-2}\end{bmatrix} [DnDn−1]=[11−10][Dn−1Dn−2]。计算系数矩阵 A c A_c Ac的特征值, ∣ 1 − λ 1 1 − λ ∣ = λ 2 − λ + 1 = 0 \begin{vmatrix}1-\lambda&1\\1&-\lambda\end{vmatrix}=\lambda^2-\lambda+1=0 ∣∣∣∣1−λ11−λ∣∣∣∣=λ2−λ+1=0,解得 λ 1 = 1 + 3 i 2 , λ 2 = 1 − 3 i 2 \lambda_1=\frac{1+\sqrt{3}i}{2},\lambda_2=\frac{1-\sqrt{3}i}{2} λ1=21+3i,λ2=21−3i,特征值为一对共轭复数。
要判断递归式是否收敛,需要计算特征值的模,即实部平方与虚部平方之和 1 4 + 3 4 = 1 \frac{1}{4}+\frac{3}{4}=1 41+43=1。它们是位于单位圆 e i θ e^{i\theta} eiθ上的点,即 cos θ + i sin θ \cos\theta+i\sin\theta cosθ+isinθ,从本例中可以计算出 θ = 6 0 ∘ \theta=60^\circ θ=60∘,也就是可以将特征值写作 λ 1 = e i π / 3 , λ 2 = e − i π / 3 \lambda_1=e^{i\pi/3},\lambda_2=e^{-i\pi/3} λ1=eiπ/3,λ2=e−iπ/3。注意,从复平面单位圆上可以看出,这些特征值的六次方将等于一: e 2 π i = e 2 π i = 1 e^{2\pi i}=e^{2\pi i}=1 e2πi=e2πi=1。继续深入观察这一特性对矩阵的影响, λ 1 6 = λ 6 = 1 \lambda_1^6=\lambda^6=1 λ16=λ6=1,则对系数矩阵有 A c 6 = I A_c^6=I Ac6=I。则系数矩阵 A c A_c Ac服从周期变化,既不发散也不收敛。
有这样一类矩阵 A 4 = [ 0 1 0 0 1 0 2 0 0 2 0 3 0 0 3 0 ] A_4=\begin{bmatrix}0&1&0&0\\1&0&2&0\\0&2&0&3\\0&0&3&0\end{bmatrix} A4=⎣⎢⎢⎡0100102002030030⎦⎥⎥⎤,求投影到 A 3 A_3 A3列空间的投影矩阵:有 A 3 = [ 0 1 0 1 0 2 0 2 0 ] A_3=\begin{bmatrix}0&1&0\\1&0&2\\0&2&0\end{bmatrix} A3=⎣⎡010102020⎦⎤,按照通常的方法求 P = A ( A T A ) A T P=A\left(A^TA\right)A^T P=A(ATA)AT即可,但是这样很麻烦。我们可以考察这个矩阵是否可逆,因为如果可逆的话, R 4 \mathbb{R}^4 R4空间中的任何向量都会位于 A 4 A_4 A4的列空间,其投影不变,则投影矩阵为单位矩阵 E E E。所以按行展开求行列式 ∣ A ∣ 4 = − 1 ⋅ − 1 ⋅ − 3 ⋅ − 3 = 9 |A|_4=-1\cdot-1\cdot-3\cdot-3=9 ∣A∣4=−1⋅−1⋅−3⋅−3=9,所以矩阵可逆,则 P = E P=E P=E。
求 A 3 A_3 A3的特征值及特征向量: ∣ A 3 − λ E ∣ = ∣ − λ 1 0 1 − λ 2 0 2 − λ ∣ = − λ 3 + 5 λ = 0 \left|A_3-\lambda E\right|=\begin{vmatrix}-\lambda&1&0\\1&-\lambda&2\\0&2&-\lambda\end{vmatrix}=-\lambda^3+5\lambda=0 ∣A3−λE∣=∣∣∣∣∣∣−λ101−λ202−λ∣∣∣∣∣∣=−λ3+5λ=0,解得 λ 1 = 0 , λ 2 = 5 , λ 3 = − 5 \lambda_1=0,\lambda_2=\sqrt 5,\lambda_3=-\sqrt 5 λ1=0,λ2=5,λ3=−5。
我们可以猜测这一类矩阵的规律:奇数阶奇异,偶数阶可逆
前面我们学习了矩阵的特征值与特征向量,也了解了一些特殊的矩阵及其特征值、特征向量,特殊矩阵的特殊性应该会反映在其特征值、特征向量中。如马尔科夫矩阵,有一特征值为 1 1 1,本讲介绍(实)对称矩阵。
先提前介绍两个对称矩阵的特性:
典型的状况是,特征值不重复,特征向量相互正交。
观察它,我们发现这个分解本身就代表着对称, ( Q Λ Q T ) T = ( Q T ) T Λ T Q T = Q Λ Q T \left(Q\varLambda Q^T\right)^T=\left(Q^T\right)^T\varLambda^TQ^T=Q\varLambda Q^T (QΛQT)T=(QT)TΛTQT=QΛQT。此式在数学上叫做谱定理(spectral theorem),谱就是指矩阵特征值的集合。(该名称来自光谱,指一些纯事物的集合,就像将特征值分解成为特征值与特征向量。)在力学上称之为主轴定理(principle axis theorem),从几何上看,它意味着如果给定某种材料,在合适的轴上来看,它就变成对角化的,方向就不会重复。
现在我们来证明性质1。对于矩阵 A x = λ x ‾ \underline{Ax=\lambda x} Ax=λx,对于其共轭部分总有 A ˉ x ˉ = λ ˉ x ˉ \bar A\bar x=\bar\lambda \bar x Aˉxˉ=λˉxˉ,根据前提条件我们只讨论实矩阵,则有 A x ˉ = λ ˉ x ˉ A\bar x=\bar\lambda \bar x Axˉ=λˉxˉ,将等式两边取转置有 x ˉ T A = x ˉ T λ ˉ ‾ \overline{\bar{x}^TA=\bar{x}^T\bar\lambda} xˉTA=xˉTλˉ。将“下划线”式两边左乘 x ˉ T \bar{x}^T xˉT有 x ˉ T A x = x ˉ T λ x \bar{x}^TAx=\bar{x}^T\lambda x xˉTAx=xˉTλx,“上划线”式两边右乘 x x x有 x ˉ T A x = x ˉ T λ ˉ x \bar{x}^TAx=\bar{x}^T\bar\lambda x xˉTAx=xˉTλˉx,观察发现这两个式子左边是一样的,所以 x ˉ T λ x = x ˉ T λ ˉ x \bar{x}^T\lambda x=\bar{x}^T\bar\lambda x xˉTλx=xˉTλˉx,则有 λ = λ ˉ \lambda=\bar{\lambda} λ=λˉ(这里有个条件, x ˉ T x ≠ 0 \bar{x}^Tx\neq 0 xˉTx=0),证毕。
观察这个前提条件, x ˉ T x = [ x ˉ 1 x ˉ 2 ⋯ x ˉ n ] [ x 1 x 2 ⋮ x n ] = x ˉ 1 x 1 + x ˉ 2 x 2 + ⋯ + x ˉ n x n \bar{x}^Tx=\begin{bmatrix}\bar x_1&\bar x_2&\cdots&\bar x_n\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=\bar x_1x_1+\bar x_2x_2+\cdots+\bar x_nx_n xˉTx=[xˉ1xˉ2⋯xˉn]⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤=xˉ1x1+xˉ2x2+⋯+xˉnxn,设 x 1 = a + i b , x ˉ 1 = a − i b x_1=a+ib, \bar x_1=a-ib x1=a+ib,xˉ1=a−ib则 x ˉ 1 x 1 = a 2 + b 2 \bar x_1x_1=a^2+b^2 xˉ1x1=a2+b2,所以有 x ˉ T x > 0 \bar{x}^Tx>0 xˉTx>0。而 x ˉ T x \bar{x}^Tx xˉTx就是 x x x长度的平方。
拓展这个性质,当 A A A为复矩阵,根据上面的推导,则矩阵必须满足 A = A ˉ T A=\bar{A}^T A=AˉT时,才有性质1、性质2成立(教授称具有这种特征值为实数、特征向量相互正交的矩阵为“好矩阵”)。
继续研究 A = Q Λ Q T = [ q 1 q 2 ⋯ q n ] [ λ 1 ⋯ λ 2 ⋯ ⋮ ⋮ ⋱ ⋮ ⋯ λ n ] [ q 1 T q 1 T ⋮ q 1 T ] = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T A=Q\varLambda Q^T=\Bigg[q_1\ q_2\ \cdots\ q_n\Bigg]\begin{bmatrix}\lambda_1& &\cdots& \\&\lambda_2&\cdots&\\\vdots&\vdots&\ddots&\vdots\\& &\cdots&\lambda_n\end{bmatrix}\begin{bmatrix}\quad q_1^T\quad\\\quad q_1^T\quad\\\quad \vdots \quad\\\quad q_1^T\quad\end{bmatrix}=\lambda_1q_1q_1^T+\lambda_2q_2q_2^T+\cdots+\lambda_nq_nq_n^T A=QΛQT=[q1 q2 ⋯ qn]⎣⎢⎢⎢⎡λ1⋮λ2⋮⋯⋯⋱⋯⋮λn⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡q1Tq1T⋮q1T⎦⎥⎥⎥⎤=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT,注意这个展开式中的 q q T qq^T qqT, q q q是单位列向量所以 q T q = 1 q^Tq=1 qTq=1,结合我们在第十五讲所学的投影矩阵的知识有 q q T q T q = q q T \frac{qq^T}{q^Tq}=qq^T qTqqqT=qqT是一个投影矩阵,很容易验证其性质,比如平方它会得到 q q T q q T = q q T qq^Tqq^T=qq^T qqTqqT=qqT于是多次投影不变等。
每一个对称矩阵都可以分解为一系列相互正交的投影矩阵。
在知道对称矩阵的特征值皆为实数后,我们再来讨论这些实数的符号,因为特征值的正负号会影响微分方程的收敛情况(第二十三讲,需要实部为负的特征值保证收敛)。用消元法取得矩阵的主元,观察主元的符号,主元符号的正负数量与特征向量的正负数量相同。
理解二次型
关于二次型的意义
对称矩阵的特征值矩阵可以用于将二次型化为标准型(正交变换法)
需要注意,二次型的标准形不唯一(但规范形是唯一的),但不同标准形中所含项数是相同的(即二次型的秩),而且标准形中正项个数(或负项个数)也是相同的,即惯性定理。
如果对称矩阵是“好矩阵”,则正定矩阵(positive definite)是其一个更好的子类:正定矩阵指特征值均为正数的对称矩阵(根据上面的性质有矩阵的主元均为正)。
举个例子, [ 5 2 2 3 ] \begin{bmatrix}5&2\\2&3\end{bmatrix} [5223],由行列式消元知其主元为 5 , 11 5 5,\frac{11}{5} 5,511,按一般的方法求特征值有 ∣ 5 − λ 2 2 3 − λ ∣ = λ 2 − 8 λ + 11 = 0 , λ = 4 ± 5 \begin{vmatrix}5-\lambda&2\\2&3-\lambda\end{vmatrix}=\lambda^2-8\lambda+11=0, \lambda=4\pm\sqrt 5 ∣∣∣∣5−λ223−λ∣∣∣∣=λ2−8λ+11=0,λ=4±5
正定矩阵的另一个性质是,所有子行列式为正。对上面的例子有 ∣ 5 ∣ = 5 , ∣ 5 2 2 3 ∣ = 11 \begin{vmatrix}5\end{vmatrix}=5, \begin{vmatrix}5&2\\2&3\end{vmatrix}=11 ∣∣5∣∣=5,∣∣∣∣5223∣∣∣∣=11。
我们看到正定矩阵将早期学习的的消元主元、中期学习的的行列式、后期学习的特征值结合在了一起。
一些结论:
本讲主要介绍复数向量、复数矩阵的相关知识(包括如何做复数向量的点积运算、什么是复数对称矩阵等),以及傅里叶矩阵(最重要的复数矩阵)和快速傅里叶变换。
先介绍复数向量,我们不妨换一个字母符号来表示: z = [ z 1 z 2 ⋮ z n ] z=\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix} z=⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤,向量的每一个分量都是复数。此时 z z z不再属于 R n \mathbb{R}^n Rn实向量空间,它现在处于 C n \mathbb{C}^n Cn复向量空间。
复数域中,与正交矩阵对应的是酉矩阵,与对称矩阵对应的是Hermit矩阵(H矩阵),它们的性质基本相似,只需要把转置 A T A^T AT替换为共轭转置 A H = A A^H=A AH=A,而正规阵指在复数域中符合 A H A = A A H A^HA=AA^H AHA=AAH的矩阵, C C C是正规阵和 C = P H Λ P C=P^H\Lambda P C=PHΛP等价,其中 P P P是酉矩阵
对比实向量,我们计算模只需要计算 ∣ v ∣ = v T v \left|v\right|=\sqrt{v^Tv} ∣v∣=vTv即可,而如果对复向量使用 z T z z^Tz zTz则有 z T z = [ z 1 z 2 ⋯ z n ] [ z 1 z 2 ⋮ z n ] = z 1 2 + z 2 2 + ⋯ + z n 2 z^Tz=\begin{bmatrix}z_1&z_2&\cdots&z_n\end{bmatrix}\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix}=z_1^2+z_2^2+\cdots+z_n^2 zTz=[z1z2⋯zn]⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤=z12+z22+⋯+zn2,这里 z i z_i zi是复数,平方后虚部为负,求模时本应相加的运算变成了减法。(如向量 [ 1 i ] \begin{bmatrix}1&i\end{bmatrix} [1i],右乘其转置后结果为 0 0 0,但此向量的长度显然不是零。)
根据上一讲我们知道,应使用 ∣ z ∣ = z ˉ T z \left|z\right|=\sqrt{\bar{z}^Tz} ∣z∣=zˉTz,即 [ z ˉ 1 z ˉ 2 ⋯ z ˉ n ] [ z 1 z 2 ⋮ z n ] \begin{bmatrix}\bar z_1&\bar z_2&\cdots&\bar z_n\end{bmatrix}\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix} [zˉ1zˉ2⋯zˉn]⎣⎢⎢⎢⎡z1z2⋮zn⎦⎥⎥⎥⎤,即使用向量共轭的转置乘以原向量即可。(如向量 [ 1 i ] \begin{bmatrix}1&i\end{bmatrix} [1i],右乘其共轭转置后结果为 [ 1 − i ] [ 1 i ] = 2 \begin{bmatrix}1&-i\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=2 [1−i][1i]=2。)
我们把共轭转置乘以原向量记为 z H z z^Hz zHz, H H H读作埃尔米特(人名为Hermite,形容词为Hermitian)
有了复向量模的计算公式,同理可得,对于复向量,内积不再是实向量的 y T x y^Tx yTx形式,复向量内积应为 y H x y^Hx yHx。
对于实矩阵, A T = A A^T=A AT=A即可表达矩阵的对称性。而对于复矩阵,我们同样需要求一次共轭 A ˉ T = A \bar{A}^T=A AˉT=A。举个例子 [ 2 3 + i 3 − i 5 ] \begin{bmatrix}2&3+i\\3-i&5\end{bmatrix} [23−i3+i5]是一个复数情况下的对称矩阵。这叫做埃尔米特矩阵,有性质 A H = A A^H=A AH=A。
在第十七讲中,我们这样定义标准正交向量: q i T q j = { 0 i ≠ j 1 i = j q_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qiTqj={0i=j1i=j。现在,对于复向量我们需要求共轭: q ˉ i T q j = q i H q j = { 0 i ≠ j 1 i = j \bar{q}_i^Tq_j=q_i^Hq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qˉiTqj=qiHqj={0i=j1i=j。
第十七讲中的标准正交矩阵: Q = [ q 1 q 2 ⋯ q n ] Q=\Bigg[q_1\ q_2\ \cdots\ q_n\Bigg] Q=[q1 q2 ⋯ qn]有 Q T Q = E Q^TQ=E QTQ=E。现在对于复矩阵则有 Q H Q = E Q^HQ=E QHQ=E。
就像人们给共轭转置起了个“埃尔米特”这个名字一样,正交性(orthogonal)在复数情况下也有了新名字,酉(unitary),酉矩阵(unitary matrix)与正交矩阵类似,满足 Q H Q = E Q^HQ=E QHQ=E的性质。而前面提到的傅里叶矩阵就是一个酉矩阵。
n n n阶傅里叶矩阵 F n = [ 1 1 1 ⋯ 1 1 w w 2 ⋯ w n − 1 1 w 2 w 4 ⋯ w 2 ( n − 1 ) ⋮ ⋮ ⋮ ⋱ ⋮ 1 w n − 1 w 2 ( n − 1 ) ⋯ w ( n − 1 ) 2 ] F_n=\begin{bmatrix}1&1&1&\cdots&1\\1&w&w^2&\cdots&w^{n-1}\\1&w^2&w^4&\cdots&w^{2(n-1)}\\\vdots&\vdots&\vdots&\ddots&\vdots\\1&w^{n-1}&w^{2(n-1)}&\cdots&w^{(n-1)^2}\end{bmatrix} Fn=⎣⎢⎢⎢⎢⎢⎡111⋮11ww2⋮wn−11w2w4⋮w2(n−1)⋯⋯⋯⋱⋯1wn−1w2(n−1)⋮w(n−1)2⎦⎥⎥⎥⎥⎥⎤,对于每一个元素有 ( F n ) i j = w i j i , j = 0 , 1 , 2 , ⋯ , n − 1 (F_n)_{ij}=w^{ij}\quad i,j=0,1,2,\cdots,n-1 (Fn)ij=wiji,j=0,1,2,⋯,n−1。矩阵中的 w w w是一个非常特殊的值,满足 w n = 1 w^n=1 wn=1,其公式为 w = e i 2 π / n w=e^{i2\pi/n} w=ei2π/n。易知 w w w在复平面的单位圆上, w = cos 2 π n + i sin 2 π n w=\cos\frac{2\pi}{n}+i\sin\frac{2\pi}{n} w=cosn2π+isinn2π。
在傅里叶矩阵中,当我们计算 w w w的幂时, w w w在单位圆上的角度翻倍。比如在 6 6 6阶情形下, w = e 2 π / 6 w=e^{2\pi/6} w=e2π/6,即位于单位圆上 6 0 ∘ 60^\circ 60∘角处,其平方位于单位圆上 12 0 ∘ 120^\circ 120∘角处,而 w 6 w^6 w6位于 1 1 1处。从开方的角度看,它们是 1 1 1的 6 6 6个六次方根,而一次的 w w w称为原根。
我们现在来看 4 4 4阶傅里叶矩阵,先计算 w w w有 w = i , w 2 = − 1 , w 3 = − i , w 4 = 1 w=i,\ w^2=-1,\ w^3=-i,\ w^4=1 w=i, w2=−1, w3=−i, w4=1, F 4 = [ 1 1 1 1 1 i i 2 i 3 1 i 2 i 4 i 6 1 i 3 i 6 i 9 ] = [ 1 1 1 1 1 i − 1 − i 1 − 1 1 − 1 1 − i − 1 i ] F_4=\begin{bmatrix}1&1&1&1\\1&i&i^2&i^3\\1&i^2&i^4&i^6\\1&i^3&i^6&i^9\end{bmatrix}=\begin{bmatrix}1&1&1&1\\1&i&-1&-i\\1&-1&1&-1\\1&-i&-1&i\end{bmatrix} F4=⎣⎢⎢⎡11111ii2i31i2i4i61i3i6i9⎦⎥⎥⎤=⎣⎢⎢⎡11111i−1−i1−11−11−i−1i⎦⎥⎥⎤。
矩阵的四个列向量正交,我们验证一下第二列和第四列, c 2 ˉ T c 4 = 1 − 0 + 1 − 0 = 0 \bar{c_2}^Tc_4=1-0+1-0=0 c2ˉTc4=1−0+1−0=0,正交。不过我们应该注意到, F 4 F_4 F4的列向量并不是标准的,我们可以给矩阵乘上系数 1 2 \frac{1}{2} 21(除以列向量的长度)得到标准正交矩阵 F 4 = 1 2 [ 1 1 1 1 1 i − 1 − i 1 − 1 1 − 1 1 − i − 1 i ] F_4=\frac{1}{2}\begin{bmatrix}1&1&1&1\\1&i&-1&-i\\1&-1&1&-1\\1&-i&-1&i\end{bmatrix} F4=21⎣⎢⎢⎡11111i−1−i1−11−11−i−1i⎦⎥⎥⎤。此时有 F 4 H F 4 = I F_4^HF_4=I F4HF4=I,于是该矩阵的逆矩阵也就是其共轭转置 F 4 H F_4^H F4H。
对于傅里叶矩阵, F 6 , F 3 F_6,\ F_3 F6, F3、 F 8 , F 4 F_8,\ F_4 F8, F4、 F 64 , F 32 F_{64},\ F_{32} F64, F32之间有着特殊的关系。
举例,有傅里叶矩阵 F 6 4 F_64 F64,一般情况下,用一个列向量右乘 F 64 F_{64} F64需要约 6 4 2 64^2 642次计算,显然这个计算量是比较大的。我们想要减少计算量,于是想要分解 F 64 F_{64} F64,联系到 F 32 F_{32} F32,有 [ F 64 ] = [ E D I − D ] [ F 32 0 0 F 32 ] [ 1 ⋯ 0 ⋯ 0 ⋯ 1 ⋯ 1 ⋯ 0 ⋯ 0 ⋯ 1 ⋯ ⋱ ⋱ ⋱ ⋱ ⋯ 1 ⋯ 0 ⋯ 0 ⋯ 1 ] \Bigg[F_{64}\Bigg]=\begin{bmatrix}E&D\\I&-D\end{bmatrix}\begin{bmatrix}F_{32}&0\\0&F_{32}\end{bmatrix}\begin{bmatrix}1&&\cdots&&&0&&\cdots&&\\0&&\cdots&&&1&&\cdots&&\\&1&\cdots&&&&0&\cdots&&\\&0&\cdots&&&&1&\cdots&&\\&&&\ddots&&&&&\ddots&&\\&&&\ddots&&&&&\ddots&&\\&&&\cdots&1&&&&\cdots&0\\&&&\cdots&0&&&&\cdots&1\end{bmatrix} [F64]=[EID−D][F3200F32]⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1010⋯⋯⋯⋯⋱⋱⋯⋯100101⋯⋯⋯⋯⋱⋱⋯⋯01⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤。
我们分开来看等式右侧的这三个矩阵:
第一个矩阵由单位矩阵 E E E和对角矩阵 D = [ 1 w w 2 ⋱ w 31 ] D=\begin{bmatrix}1&&&&\\&w&&&\\&&w^2&&\\&&&\ddots&\\&&&&w^{31}\end{bmatrix} D=⎣⎢⎢⎢⎢⎡1ww2⋱w31⎦⎥⎥⎥⎥⎤组成,我们称这个矩阵为修正矩阵,显然其计算量来自 D D D矩阵,对角矩阵的计算量约为 32 32 32即这个修正矩阵的计算量约为 32 32 32,单位矩阵的计算量忽略不计。
第二个矩阵是两个 F 32 F_{32} F32与零矩阵组成的,计算量约为 2 × 3 2 2 2\times 32^2 2×322。
第三个矩阵通常记为 P P P矩阵,这是一个置换矩阵,其作用是讲前一个矩阵中的奇数列提到偶数列之前,将前一个矩阵从 [ x 0 x 1 ⋯ ] \Bigg[x_0\ x_1\ \cdots\Bigg] [x0 x1 ⋯]变为 [ x 0 x 2 ⋯ x 1 x 3 ⋯ ] \Bigg[x_0\ x_2\ \cdots\ x_1\ x_3\ \cdots\Bigg] [x0 x2 ⋯ x1 x3 ⋯],这个置换矩阵的计算量也可以忽略不计。(这里教授似乎在黑板上写错了矩阵,可以参考FFT、How the FFT is computed做进一步讨论。)
所以我们把 6 4 2 64^2 642复杂度的计算化简为 2 × 3 2 2 + 32 2\times 32^2+32 2×322+32复杂度的计算,我们可以进一步化简 F 32 F_{32} F32得到与 F 16 F_{16} F16有关的式子 [ I 32 D 32 I 32 − D 32 ] [ I 16 D 16 I 16 − D 16 I 16 D 16 I 16 − D 16 ] [ F 16 F 16 F 16 F 16 ] [ P 16 P 16 ] [ P 32 ] \begin{bmatrix}I_{32}&D_{32}\\I_{32}&-D_{32}\end{bmatrix}\begin{bmatrix}I_{16}&D_{16}&&\\I_{16}&-D_{16}&&\\&&I_{16}&D_{16}\\&&I_{16}&-D_{16}\end{bmatrix}\begin{bmatrix}F_{16}&&&\\&F_{16}&&\\&&F_{16}&\\&&&F_{16}\end{bmatrix}\begin{bmatrix}P_{16}&\\&P_{16}\end{bmatrix}\Bigg[\ P_{32}\ \Bigg] [I32I32D32−D32]⎣⎢⎢⎡I16I16D16−D16I16I16D16−D16⎦⎥⎥⎤⎣⎢⎢⎡F16F16F16F16⎦⎥⎥⎤[P16P16][ P32 ]。而 3 2 2 32^2 322的计算量进一步分解为 2 × 1 6 2 + 16 2\times 16^2+16 2×162+16的计算量,如此递归下去我们最终得到含有一阶傅里叶矩阵的式子。
来看化简后计算量, 2 ( 2 ( 2 ( 2 ( 2 ( 2 ( 1 ) 2 + 1 ) + 2 ) + 4 ) + 8 ) + 16 ) + 32 2\left(2\left(2\left(2\left(2\left(2\left(1\right)^2+1\right)+2\right)+4\right)+8\right)+16\right)+32 2(2(2(2(2(2(1)2+1)+2)+4)+8)+16)+32,约为 6 × 32 = log 2 64 × 64 2 6\times 32=\log_264\times \frac{64}{2} 6×32=log264×264,算法复杂度为 n 2 log 2 n \frac{n}{2}\log_2n 2nlog2n。
于是原来需要 n 2 n^2 n2的运算现在只需要 n 2 log 2 n \frac{n}{2}\log_2n 2nlog2n就可以实现了。不妨看看 n = 10 n=10 n=10的情况,不使用FFT时需要 n 2 = 1024 × 1024 n^2=1024\times 1024 n2=1024×1024次运算,使用FFT时只需要 n 2 log 2 n = 5 × 1024 \frac{n}{2}\log_2n=5\times 1024 2nlog2n=5×1024次运算,运算量大约是原来的 1 200 \frac{1}{200} 2001。
下一讲将继续介绍特征值、特征向量及正定矩阵。
本讲我们会了解如何完整的测试一个矩阵是否正定,测试 x T A x x^TAx xTAx是否具有最小值,最后了解正定的几何意义——椭圆(ellipse)和正定性有关,双曲线(hyperbola)与正定无关。另外,本讲涉及的矩阵均为实对称矩阵。
我们仍然从二阶说起,有矩阵 A = [ a b b d ] A=\begin{bmatrix}a&b\\b&d\end{bmatrix} A=[abbd],判断其正定性有以下方法:
矩阵的所有特征值大于零则矩阵正定: λ 1 > 0 , λ 2 > 0 \lambda_1>0,\ \lambda_2>0 λ1>0, λ2>0;
矩阵的所有顺序主子阵(leading principal submatrix)的行列式(即顺序主子式,leading principal minor)大于零则矩阵正定: a > 0 , a c − b 2 > 0 a>0,\ ac-b^2>0 a>0, ac−b2>0;
矩阵消元后主元均大于零: a > 0 , a c − b 2 a > 0 a>0,\ \frac{ac-b^2}{a}>0 a>0, aac−b2>0;
x T A x > 0 x^TAx>0 xTAx>0;
负定矩阵的性质:
对角线元素都是负数
若 A A A与 B B B都是 H H H阵,且共轭合同,那么 A A A与 B B B的负定是等价的
矩阵 A A A负定的等价条件:
半正定矩阵的性质:
矩阵 A A A半正定的等价条件:
大多数情况下使用4来定义正定性,而用前三条来验证正定性。
来计算一个例子: A = [ 2 6 6 ? ] A=\begin{bmatrix}2&6\\6&?\end{bmatrix} A=[266?],在 ? ? ?处填入多少才能使矩阵正定?
来试试 18 18 18,此时矩阵为 A = [ 2 6 6 18 ] A=\begin{bmatrix}2&6\\6&18\end{bmatrix} A=[26618], ∣ A ∣ = 0 |A|=0 ∣A∣=0,此时的矩阵成为半正定矩阵(positive semi-definite)。矩阵奇异,其中一个特征值必为 0 0 0,从迹得知另一个特征值为 20 20 20。矩阵的主元只有一个,为 2 2 2。
计算 x T A x x^TAx xTAx,得 [ x 1 x 2 ] [ 2 6 6 18 ] [ x 1 x 2 ] = 2 x 1 2 + 12 x 1 x 2 + 18 x 2 2 \begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}2&6\\6&18\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=2x_1^2+12x_1x_2+18x_2^2 [x1x2][26618][x1x2]=2x12+12x1x2+18x22这样我们得到了一个关于 x 1 , x 2 x_1,x_2 x1,x2的函数 f ( x 1 , x 2 ) = 2 x 1 2 + 12 x 1 x 2 + 18 x 2 2 f(x_1,x_2)=2x_1^2+12x_1x_2+18x_2^2 f(x1,x2)=2x12+12x1x2+18x22,这个函数不再是线性的,在本例中这是一个纯二次型(quadratic)函数,它没有线性部分、一次部分或更高次部分( A x Ax Ax是线性的,但引入 x T x^T xT后就成为了二次型)。
当 ? ? ?取 18 18 18时,判定1、2、3都是“刚好不及格”。
我们可以先看“一定不及格”的样子,令 ? = 7 ?=7 ?=7,矩阵为 A = [ 2 6 6 7 ] A=\begin{bmatrix}2&6\\6&7\end{bmatrix} A=[2667],二阶顺序主子式变为 − 22 -22 −22,显然矩阵不是正定的,此时的函数为 f ( x 1 , x 2 ) = 2 x 1 2 + 12 x 1 x 2 + 7 x 2 2 f(x_1,x_2)=2x_1^2+12x_1x_2+7x_2^2 f(x1,x2)=2x12+12x1x2+7x22,如果取 x 1 = 1 , x 2 = − 1 x_1=1,x_2=-1 x1=1,x2=−1则有 f ( 1 , − 1 ) = 2 − 12 + 7 < 0 f(1,-1)=2-12+7<0 f(1,−1)=2−12+7<0。
如果我们把 z = 2 x 2 + 12 x y + 7 y 2 z=2x^2+12xy+7y^2 z=2x2+12xy+7y2放在直角坐标系中,图像过原点 z ( 0 , 0 ) = 0 z(0,0)=0 z(0,0)=0,当 y = 0 y=0 y=0或 x = 0 x=0 x=0或 x = y x=y x=y时函数为开口向上的抛物线,所以函数图像在某些方向上是正值;而在某些方向上是负值,比如 x = − y x=-y x=−y,所以函数图像是一个马鞍面(saddle), ( 0 , 0 , 0 ) (0,0,0) (0,0,0)点称为鞍点(saddle point),它在某些方向上是极大值点,而在另一些方向上是极小值点。(实际上函数图像的最佳观测方向是沿着特征向量的方向。)
再来看一下“一定及格”的情形,令 ? = 20 ?=20 ?=20,矩阵为 A = [ 2 6 6 20 ] A=\begin{bmatrix}2&6\\6&20\end{bmatrix} A=[26620],行列式为 ∣ A ∣ = 4 |A|=4 ∣A∣=4,迹为 t r a c e ( A ) = 22 trace(A)=22 trace(A)=22,特征向量均大于零,矩阵可以通过测试。此时的函数为 f ( x 1 , x 2 ) = 2 x 1 2 + 12 x 1 x 2 + 20 x 2 2 f(x_1,x_2)=2x_1^2+12x_1x_2+20x_2^2 f(x1,x2)=2x12+12x1x2+20x22,函数在除 ( 0 , 0 ) (0,0) (0,0)外处处为正。我们来看看 z = 2 x 2 + 12 x y + 20 y 2 z=2x^2+12xy+20y^2 z=2x2+12xy+20y2的图像,式子的平方项均非负,所以需要两个平方项之和大于中间项即可,该函数的图像为抛物面(paraboloid)。在 ( 0 , 0 ) (0,0) (0,0)点函数的一阶偏导数均为零,二阶偏导数均为正(马鞍面的一阶偏导数也为零,但二阶偏导数并不均为正),函数在该点取极小值。
在微积分中,一元函数取极小值需要一阶导数为零且二阶导数为正 d u d x = 0 , d 2 u d x 2 > 0 \frac{\mathrm{d}u}{\mathrm{d}x}=0, \frac{\mathrm{d}^2u}{\mathrm{d}x^2}>0 dxdu=0,dx2d2u>0。在线性代数中我们遇到了了多元函数 f ( x 1 , x 2 , ⋯ , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,⋯,xn),要取极小值需要二阶偏导数矩阵为正定矩阵。
在本例中(即二阶情形),如果能用平方和的形式来表示函数(标准形),则很容易看出函数是否恒为正, f ( x , y ) = 2 x 2 + 12 x y + 20 y 2 = 2 ( x + 3 y ) 2 + 2 y 2 f(x,y)=2x^2+12xy+20y^2=2\left(x+3y\right)^2+2y^2 f(x,y)=2x2+12xy+20y2=2(x+3y)2+2y2。另外,如果是上面的 ? = 7 ?=7 ?=7的情形,则有 f ( x , y ) = 2 ( x + 3 y ) 2 − 11 y 2 f(x,y)=2(x+3y)^2-11y^2 f(x,y)=2(x+3y)2−11y2,如果是 ? = 18 ?=18 ?=18的情形,则有 f ( x , y ) = 2 ( x + 3 y ) 2 f(x,y)=2(x+3y)^2 f(x,y)=2(x+3y)2。
如果令 z = 1 z=1 z=1,相当于使用 z = 1 z=1 z=1平面截取该函数图像,将得到一个椭圆曲线。另外,如果在 ? = 7 ?=7 ?=7的马鞍面上截取曲线将得到一对双曲线。
再来看这个矩阵的消元, [ 2 6 6 20 ] = [ 1 0 − 3 1 ] [ 2 6 0 2 ] \begin{bmatrix}2&6\\6&20\end{bmatrix}=\begin{bmatrix}1&0\\-3&1\end{bmatrix}\begin{bmatrix}2&6\\0&2\end{bmatrix} [26620]=[1−301][2062],这就是 A = L U A=LU A=LU,可以发现矩阵 L L L中的项与配平方中未知数的系数有关,而主元则与两个平方项外的系数有关,这也就是为什么正数主元得到正定矩阵。
上面又提到二阶导数矩阵,这个矩阵型为 [ f x x f x y f y x f y y ] \begin{bmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{bmatrix} [fxxfyxfxyfyy],显然,矩阵中的主对角线元素(纯二阶导数)必须为正,并且主对角线元素必须足够大来抵消混合导数的影响。同时还可以看出,因为二阶导数的求导次序并不影响结果,所以矩阵必须是对称的。现在我们就可以计算 n × n n\times n n×n阶矩阵了。
接下来计算一个三阶矩阵, A = [ 2 − 1 0 − 1 2 − 1 0 − 1 2 ] A=\begin{bmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{bmatrix} A=⎣⎡2−10−12−10−12⎦⎤,它是正定的吗?函数 x T A x x^TAx xTAx是多少?函数在原点取最小值吗?图像是什么样的?