在欧式空间这个部分,我们将在线性空间上引入角度和长度。在解析几何中,角度和长度的引入依赖于一个概念叫内积。我们也希望在更一般的线性空间上建立内积,就是所谓的内积空间。但,首要的一个问题是内积满足什么样的性质?对这个问题的回答,决定了我们该如何对内积进行抽象。内积一个最基本的性质就是双线性,即:
(1) ( α a 1 + β a 2 , b ) = α ( a 1 , b ) + β ( a 2 , b ) (\alpha a_1+\beta a_2,b)=\alpha (a_1,b)+\beta (a_2,b) (αa1+βa2,b)=α(a1,b)+β(a2,b)
(2) ( a , α b 1 + β b 2 ) = α ( a , b 1 ) + β ( a , b 2 ) (a,\alpha b_1+\beta b_2)=\alpha (a,b_1)+\beta (a,b_2) (a,αb1+βb2)=α(a,b1)+β(a,b2)
当然,仅仅只有双线性是不能成为内积的。但双线性无疑是内积最重要的性质之一了,因此,本节就对双线性进行抽象。
定义6.1 V V V是 K K K上的线性空间, f f f是定义在 V × V V\times V V×V上的函数,如果满足: ∀ α , β ∈ K \forall \alpha,\beta \in K ∀α,β∈K, ∀ x , y , z ∈ V \forall x,y,z\in V ∀x,y,z∈V,都有 f ( α x + β y , z ) = α f ( x , z ) + β ( y , z ) f(\alpha x+\beta y,z)=\alpha f(x,z)+\beta (y,z) f(αx+βy,z)=αf(x,z)+β(y,z) f ( x , α y + β z ) = α f ( x , y ) + β f ( x , z ) f(x,\alpha y+\beta z)=\alpha f(x,y)+\beta f(x,z) f(x,αy+βz)=αf(x,y)+βf(x,z)则称 f f f是 V V V上的双线性函数
该如何取把握一个双线性函数呢?显然,在有限维线性空间上,我们还是应当从一组基入手,假设 dim ( V ) = n \dim(V)=n dim(V)=n,设 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en是其一组基,对任意的 x , y ∈ V x,y\in V x,y∈V,可唯一表示为
x = ∑ i = 1 n x i e i , y = ∑ i = 1 n y i e i x=\sum_{i=1}^n{x_ie_i},y=\sum_{i=1}^n{y_ie_i} x=i=1∑nxiei,y=i=1∑nyiei由 f f f对第一个变元是线性的,就有
f ( x , y ) = ∑ i = 1 n x i f ( e i , y ) f(x,y)=\sum_{i=1}^n{x_if(e_i,y)} f(x,y)=i=1∑nxif(ei,y)再由 f f f对第二个变元是线性的,就有
f ( x , y ) = ∑ i = 1 n ∑ j = 1 n x i y j f ( e i , e j ) f(x,y)=\sum_{i=1}^n\sum_{j=1}^n{x_iy_jf(e_i,e_j)} f(x,y)=i=1∑nj=1∑nxiyjf(ei,ej)可见,只要把握了矩阵
A = ( f ( e i , e j ) ) A=(f(e_i,e_j)) A=(f(ei,ej))就把握了整个双线性函数,当然,这对无穷维空间不一定成立,而我们这里仅讨论有限维线性空间。 A A A称为 f f f在 ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en)下的矩阵,于是
f ( x , y ) = x 0 T A y 0 f(x,y)=x_0^TAy_0 f(x,y)=x0TAy0 x 0 , y 0 x_0,y_0 x0,y0是 x , y x,y x,y在 ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en)下的坐标向量。实际上,
x 0 T A y 0 x_0^TAy_0 x0TAy0也是 K n K^n Kn上的双线性函数,特别地,我们讨论一类特殊的双线性函数,实际上,对于内积,还有如下的特点:
( x , y ) = ( y , x ) (x,y)=(y,x) (x,y)=(y,x)
定义6.2 V V V是 K K K上的线性空间, f f f是定义在 V V V上的双线性函数,如果 ∀ x , y ∈ V \forall x,y\in V ∀x,y∈V,都有
f ( x , y ) = f ( y , x ) f(x,y)=f(y,x) f(x,y)=f(y,x)则称 f f f是对称的双线性函数
在对称的条件下, A A A就是对称矩阵。下一个问题是,在不同的基下,双线性函数的矩阵有什么关系。假设 f f f在 ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en)下的矩阵为 A A A, ( β 1 , ⋯ , β n ) (\beta_1,\cdots,\beta_n) (β1,⋯,βn)是 V V V的另一组基,设
( β 1 , ⋯ , β n ) = ( e 1 , ⋯ , e n ) P (\beta_1,\cdots,\beta_n)=(e_1,\cdots,e_n)P (β1,⋯,βn)=(e1,⋯,en)P设 x x x在 ( β 1 , ⋯ , β n ) (\beta_1,\cdots,\beta_n) (β1,⋯,βn)下的坐标为 x 0 x_0 x0,在 ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en)下的坐标为 P x 0 Px_0 Px0,设 y y y在 ( β 1 , ⋯ , β n ) (\beta_1,\cdots,\beta_n) (β1,⋯,βn)下的坐标为 y 0 y_0 y0,则在 ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en)下的坐标为 P y 0 Py_0 Py0,再设 f f f在 ( β 1 , ⋯ , β n ) (\beta_1,\cdots,\beta_n) (β1,⋯,βn)下的矩阵为 B B B,则
f ( x , y ) = x 0 T B y 0 = x 0 T P T A P y 0 f(x,y)=x_0^TBy_0=x_0^TP^TAPy_0 f(x,y)=x0TBy0=x0TPTAPy0由 x , y x,y x,y任意性,对任意的 x 0 , y 0 ∈ K n x_0,y_0 \in K^n x0,y0∈Kn,都有
f ( x , y ) = x 0 T B y 0 = x 0 T P T A P y 0 f(x,y)=x_0^TBy_0=x_0^TP^TAPy_0 f(x,y)=x0TBy0=x0TPTAPy0成立,就有
B = P T A P B=P^TAP B=PTAP我们可以定义矩阵的合同关系,来描述这种状况
定义6.3 A , B ∈ M n ( K ) A,B\in M_n(K) A,B∈Mn(K),如果存在可逆矩阵 P P P,使得
B = P T A P B=P^TAP B=PTAP则称 A , B A,B A,B合同
同样地,容易验证:合同关系是一种等价关系。前面我们讲到,我们可以根据相似关系划分矩阵的等价类,同样地,我们可以根据合同关系划分矩阵的等价类。
定义6.4 A ∈ M n ( K ) A\in M_n(K) A∈Mn(K)是 n n n阶对称矩阵, K n K^n Kn上的函数 f f f称为 K n K^n Kn上的一个二次型,其中 f ( x , y ) = x T A x f(x,y)=x^TAx f(x,y)=xTAx, A A A称为二次型 f f f的矩阵
当然,二次型是 K n K^n Kn上对称的双线性函数。当然,给出可逆矩阵 P P P,作可逆线性替换 y = P − 1 x y=P^{-1}x y=P−1x,二次型又可以表示为
f ( x ) = x 1 T A x 2 = y P T A P y f(x)=x_1^TAx_2=yP^TAPy f(x)=x1TAx2=yPTAPy两个矩阵是合同关系。我们当然想要构造一个可逆线性变换使得矩阵最简单。最简单莫过于对角矩阵了,在对角矩阵下,二次型就可以表示成:
f ( x , y ) = ∑ i = 1 n λ i x i 2 f(x,y)=\sum_{i=1}^n{\lambda_i x_i^2} f(x,y)=i=1∑nλixi2可不可以做到呢?答案是肯定的,任何对称矩阵都可以合同于对角阵,下面我们来证明这一点,不过在证明之前,我们先以初等变换的角度来理解合同变换。首先,任何可逆矩阵都可以表示成一系列初等矩阵的乘积。对可逆矩阵 P P P,存在有限个初等矩阵 E 1 , ⋯ , E s E_1,\cdots,E_s E1,⋯,Es使得
P = E 1 ⋯ E s P=E_1\cdots E_s P=E1⋯Es对于对称矩阵 A A A,就有
B = P T A P = E s T ⋯ E 1 T A E 1 ⋯ E s B=P^TAP=E_s^T\cdots E_1^T A E_1 \cdots E_s B=PTAP=EsT⋯E1TAE1⋯Es(1)对于交换 i , j i,j i,j两行得到的初等矩阵
E ( i , j ) A E ( i , j ) T E(i,j) A E(i,j)^T E(i,j)AE(i,j)T相当于交换 i , j i,j i,j两行,同时交换 i , j i,j i,j两列
(2)对于将 i i i行 k k k倍加到 j j j行的初等矩阵 E ( i , j , k ) E(i,j,k) E(i,j,k)
E ( i , j , k ) A E ( i , j , k ) T E(i,j,k) A E(i,j,k)^T E(i,j,k)AE(i,j,k)T相当于将 i i i行 k k k倍加到 j j j行的同时,将 i i i列的 k k k被加到 j j j列
(3)对于将 i i i行乘以 k k k倍的初等矩阵 E i ( k ) E_i(k) Ei(k),则
E i ( k ) A E i T ( k ) E_i(k) A E_i^T(k) Ei(k)AEiT(k)相当于 i i i行乘以 k k k倍后 i i i列也乘以 k k k倍
命题6.1 A ∈ M n ( K ) A\in M_n(K) A∈Mn(K)是 n n n阶对称矩阵,则 A A A可以合同于一个对角矩阵
证:
对矩阵阶数进行归纳 n = 1 n=1 n=1时结论显然成立。
假设结论对所有 k k k阶对称矩阵成立,对 k + 1 k+1 k+1阶对称矩阵 A = ( a i j ) A=(a_{ij}) A=(aij),不妨设 a 11 , ⋯ , a 1 ( k + 1 ) a_{11},\cdots,a_{1(k+1)} a11,⋯,a1(k+1)不全为0,否则, A A A可表为
A = [ 0 B ] A=\left[\begin{matrix} 0&\\ &B \end{matrix}\right] A=[0B]其中, B B B是 k k k阶对称矩阵,由归纳假设,存在 k k k阶可逆矩阵 P P P,及 k k k阶对角矩阵 D D D,使得 B = P T D P B=P^TDP B=PTDP,于是
Q = ( 1 P ) Q=\left(\begin{matrix} 1&\\ &P \end{matrix}\right) Q=(1P)就有
A = Q T [ 0 D ] Q A=Q^T\left[\begin{matrix} 0&\\ &D \end{matrix}\right]Q A=QT[0D]Q设 a 1 i ≠ 0 a_{1i}\neq 0 a1i=0,将第 i i i行加到第 1 1 1行的同时将第 i i i列加到第 1 1 1列,就得到与 A A A合同的矩阵,此时 a 11 ≠ 0 a_{11}\neq 0 a11=0,不妨就设 a 11 ≠ 0 a_{11}\neq 0 a11=0。将第 1 1 1行的 − a 1 i a 11 -\frac{a_{1i}}{a_{11}} −a11a1i倍加到第 i i i行的同时,将第 1 1 1列的 − a 1 i a 11 -\frac{a_{1i}}{a_{11}} −a11a1i倍加到第 j j j列, A A A合同于如下形式的矩阵
[ 0 B ] \left[\begin{matrix} 0&\\ &B \end{matrix}\right] [0B]在应用归纳假设,就可以证得结论
上节我们论述了所有的对称矩阵对合同于一个对角矩阵,这就意味着所有的二次型都可以通过可逆线性变数替换化为如下的形式
f ( y 1 , ⋯ , y n ) = ∑ i = 1 n λ i y i 2 f(y_1,\cdots,y_n)=\sum_{i=1}^n{\lambda_i y_i^2} f(y1,⋯,yn)=i=1∑nλiyi2称为二次型的标准型。怎么样化成标准型呢?方法众多,最常用的方法是配方法。通过配方法,逐步消元,从而找到一个可逆线性替换,配成标准型。我们下面来举一例说明配方法的使用。下面分两种情况讨论:
情形1:对只含交叉项,不含平方项的的二次型
例6.1 f ( x 1 , x 2 , x 3 ) = 2 x 1 x 2 + 2 x 1 x 3 + 2 x 2 x 3 f(x_1,x_2,x_3)=2x_1x_2+2x_1x_3+2x_2x_3 f(x1,x2,x3)=2x1x2+2x1x3+2x2x3,如何作可逆线性替换使之含平方项。
解:
只需要利用平方差公式,令
{ x 1 = y 1 − y 2 x 2 = y 1 + y 2 x 3 = y 3 \begin{cases} x_1=y_1-y_2\\ x_2=y_1+y_2\\ x_3=y_3 \end{cases} ⎩⎪⎨⎪⎧x1=y1−y2x2=y1+y2x3=y3即
{ y 1 = 1 2 ( x 1 + x 2 ) y 2 = 1 2 x 2 − x 1 y 3 = x 3 \begin{cases} y_1=\frac{1}{2}(x_1+x_2)\\ y_2=\frac{1}{2}{x_2-x_1}\\ y_3=x_3 \end{cases} ⎩⎪⎨⎪⎧y1=21(x1+x2)y2=21x2−x1y3=x3代入,就得到
f ( y 1 , y 2 , y 3 ) = 2 y 1 2 − 2 y 2 2 + 4 y 1 y 3 f(y_1,y_2,y_3)=2y_1^2-2y_2^2+4y_1y_3 f(y1,y2,y3)=2y12−2y22+4y1y3这样,就使得二次型出现平方项
情形2:对于至少有一个平方项的二次元,可以利用平方项和完全平方公式消去一个元。
例6.2 f ( x 1 , x 2 , x 3 ) = 2 x 1 2 − 2 x 2 2 + 4 x 1 x 3 f(x_1,x_2,x_3)=2x_1^2-2x_2^2+4x_1x_3 f(x1,x2,x3)=2x12−2x22+4x1x3,利用完全平方公式消去 x 1 x_1 x1
解:
{ y 1 = x 1 + x 3 y 2 = x 2 y 3 = x 3 \begin{cases} y_1=x_1+x_3\\ y_2=x_2\\ y_3=x_3 \end{cases} ⎩⎪⎨⎪⎧y1=x1+x3y2=x2y3=x3
2 x 1 2 − 2 x 2 2 + 4 x 1 x 3 = 2 ( x 1 + x 3 ) 2 − 2 x 3 2 − 2 x 2 2 = 2 y 1 2 − 2 y 2 2 − 2 y 3 2 2x_1^2-2x_2^2+4x_1x_3=2(x_1+x_3)^2-2x_3^2-2x_2^2 =2y_1^2-2y_2^2-2y_3^2 2x12−2x22+4x1x3=2(x1+x3)2−2x32−2x22=2y12−2y22−2y32这样就把二次型化为了标准型
反复运用以上两种手段,二次型就可以化为标准型。化为标准型之后,我们就需要对实二次型和复二次型作分类讨论。
对于实二次型只需要再进行一次伸缩变换。就可以把二次型化成 ∑ i = 1 n λ i y i 2 \sum_{i=1}^n{\lambda_i y_i^2} i=1∑nλiyi2其中, λ i = 1 , 0 \lambda_i=1,0 λi=1,0或 − 1 -1 −1。我们称为是二次型的规范型。为了写法唯一,我们将系数为 − 1 -1 −1的项排在前面, − 1 -1 −1紧随其后, 0 0 0的项不写出来。
下面我们将说明,实二次型的规范型是唯一的。首先,合同变换不会改变矩阵的秩,所以非零项的个数是固定的。对于实对称矩阵 A A A,设 A A A合同于 D 1 D_1 D1和 D 2 D_2 D2,其中
D 1 = d i a g ( 1 , ⋯ , 1 , − 1 , ⋯ , − 1 , 0 , ⋯ , 0 ) D_1=diag(1,\cdots,1,-1,\cdots,-1,0,\cdots,0) D1=diag(1,⋯,1,−1,⋯,−1,0,⋯,0)其中 D 1 D_1 D1的对角元有 p p p个 1 1 1, r − p r-p r−p个 − 1 -1 −1。再设
D 2 = d i a g ( 1 , ⋅ , 1 , − 1 , ⋯ , − 1 , 0 , ⋯ , 0 ) D_2=diag(1,\cdot,1,-1,\cdots,-1,0,\cdots,0) D2=diag(1,⋅,1,−1,⋯,−1,0,⋯,0)其中 D 2 D_2 D2的对角元有 q q q个 1 1 1, r − q r-q r−q个 − 1 -1 −1。再设 A = P T D 1 P = Q T D 2 Q A=P^TD_1P=Q^TD_2Q A=PTD1P=QTD2Q。对二次型 x T A x x^TAx xTAx,作可逆线性替换 y = P x , z = Q x y=Px,z=Qx y=Px,z=Qx就可以将二次型化为
f ( x ) = f 2 ( y ) = f 3 ( z ) = x T A x = y T D 1 y = z T D 2 z f(x)=f_2(y)=f_3(z)=x^TAx=y^TD_1y=z^TD_2z f(x)=f2(y)=f3(z)=xTAx=yTD1y=zTD2z构造 R n R^n Rn的两个子空间
V 1 = { P − 1 ( y 1 , ⋯ , y p , 0 , ⋯ , 0 ) T : ( y 1 , ⋯ , y p ) ∈ R p } V_1=\{P^{-1}(y_1,\cdots,y_p,0,\cdots,0)^T:(y_1,\cdots,y_p) \in R^p \} V1={P−1(y1,⋯,yp,0,⋯,0)T:(y1,⋯,yp)∈Rp}以及
V 2 = { Q − 1 ( 0 , ⋯ , 0 , z q + 1 , ⋯ , z n ) : ( z q + 1 , ⋯ , z n ) ∈ R n − q } V_2=\{Q^{-1}(0,\cdots,0,z_{q+1},\cdots,z_n):(z_{q+1},\cdots,z_n)\in R^{n-q}\} V2={Q−1(0,⋯,0,zq+1,⋯,zn):(zq+1,⋯,zn)∈Rn−q}于是: dim ( V 1 ) = p , dim ( V 2 ) = n − q \dim(V_1)=p,\dim(V_2)=n-q dim(V1)=p,dim(V2)=n−q,注意到,对于任意的 ( y 1 , ⋯ , y p ) ∈ R p (y_1,\cdots,y_p) \in R^p (y1,⋯,yp)∈Rp,都有
f ( P − 1 ( y 1 , ⋯ , y p , 0 , ⋯ , 0 ) T ) = ∑ i = 1 p y i 2 ≥ 0 f(P^{-1}(y_1,\cdots,y_p,0,\cdots,0)^T)=\sum_{i=1}^p{y_i^2}\ge 0 f(P−1(y1,⋯,yp,0,⋯,0)T)=i=1∑pyi2≥0即对任意的 x ∈ V 1 x\in V_1 x∈V1,都有 f ( x ) ≥ 0 f(x)\ge 0 f(x)≥0, f ( x ) = 0 f(x)=0 f(x)=0当且仅当 x = 0 x=0 x=0,同理,对任意的 x ∈ V 2 x\in V_2 x∈V2, f ( x ) ≤ 0 f(x)\le 0 f(x)≤0,对任意的 x ∈ V 1 ∩ V 2 x\in V_1\cap V_2 x∈V1∩V2,就有 f ( x ) ≥ 0 , f ( x ) ≤ 0 f(x)\ge 0,f(x) \le 0 f(x)≥0,f(x)≤0同时成立,于是 x = 0 x=0 x=0。因此 V 1 + V 2 V_1+V_2 V1+V2是直和, V 1 + V 2 V_1+V_2 V1+V2的维数为 n − q + p ≤ n n-q+p\le n n−q+p≤n,就可以推出 p ≤ q p\le q p≤q,同理可以证明 q ≥ p q\ge p q≥p,于是 p = q p=q p=q。
p p p称为二次型的正惯性系数, r − p r-p r−p称为 p p p的负惯性系数, r r r称为二次型的秩。二次型就可以按照秩和正惯性系数进行分类。而对于复二次型,开根运算不受限制,二次型可以化为
y = ∑ i = 1 r y i 2 y=\sum_{i=1}^r{y_i^2} y=i=1∑ryi2复二次型可以通过简单的秩进行分类即可。
下面我们给出正定、负定、半正定和半负定的定义。
定义6.5 对实二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx:
(1)如果 ∀ x ∈ R n \forall x\in R^n ∀x∈Rn, f ( x ) ≥ 0 f(x)\ge 0 f(x)≥0,则称 f f f半正定
(2)如果 f f f半正定,并且 f ( x ) = 0 f(x)=0 f(x)=0可推出 x = 0 x=0 x=0,则称 f f f正定
(3)如果 − f -f −f半正定,则称 f f f半负定,如果 − f -f −f正定,则称 f f f负定
(4)如果 f f f既不半正定,也不半负定,则称 f f f不定
按照定义,我们只需要给出正定和半正定的判断准则即可。下面我们给出正定的判断准则。
命题6.2 对实二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,以下命题等价:
(1) f f f正定
(2) A A A合同于 E E E
(3) A A A的所有顺序主子式大于0
所谓顺序主子式,就是取前 i i i行前 i i i列组成的 i i i阶方阵的行列式,记为
A { 1 , ⋯ , i 1 , ⋯ , i } A\left\{\begin{matrix} 1,\cdots,i\\ 1,\cdots,i \end{matrix} \right\} A{1,⋯,i1,⋯,i}
其中 i = 1 , ⋯ , n i=1,\cdots,n i=1,⋯,n,下面我们来证明上面的命题。
解:
(1)和(2)等价是显然的。下面证明(1)和(3)等价。用数学归纳法证明,对二次型的阶数进行归纳,对一个变量的二次型,结论是显然成立的。
假设结论对 k k k个变量的二次型成立,对 k + 1 k+1 k+1个变量的二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx。先证明必要性。假设 f f f正定:
将 A A A分块为
A = [ A k α α T a ( k + 1 ) ( k + 1 ) ] A=\left[\begin{matrix} A_k&\alpha\\ \alpha^T&a_{(k+1)(k+1)} \end{matrix}\right] A=[AkαTαa(k+1)(k+1)]其中, α = ( a ( k + 1 ) 1 , ⋯ , a ( k + 1 ) k ) T \alpha=(a_{(k+1)1},\cdots,a_{(k+1)k})^T α=(a(k+1)1,⋯,a(k+1)k)T。对 y = ( y 1 , ⋯ , y k , 0 ) T y=(y_1,\cdots,y_k,0)^T y=(y1,⋯,yk,0)T, g ( y 1 , ⋯ , y k ) = f ( y ) g(y_1,\cdots,y_k)=f(y) g(y1,⋯,yk)=f(y)是关于 ( y 1 , ⋯ , y k ) (y_1,\cdots,y_k) (y1,⋯,yk)的正定二次型,并且矩阵为 A k A_k Ak,由归纳假设 A k A_k Ak的所有顺序主子式都大于 0 0 0,只需要证明 A A A的行列式大于0即可。 e k + 1 e_{k+1} ek+1是除了 k + 1 k+1 k+1个元为 1 1 1,其他元为 0 0 0的列向量,于是,由正定性
e k + 1 T A e k + 1 = a ( k + 1 ) ( k + 1 ) > 0 e_{k+1}^TAe_{k+1}=a_{(k+1)(k+1)}>0 ek+1TAek+1=a(k+1)(k+1)>0作可逆线性变换
y = P − 1 x y=P^{-1}x y=P−1x其中
P − 1 = [ I k 0 1 a ( k + 1 ) ( k + 1 ) α 1 ] P^{-1}=\left[\begin{matrix} I_k&0\\ \frac{1}{a_{(k+1)(k+1)}}\alpha&1 \end{matrix}\right] P−1=[Ika(k+1)(k+1)1α01]二次型化为 y T B y y^TBy yTBy,其中
B = [ B k 0 0 a ( k + 1 ) ( k + 1 ) ] B=\left[\begin{matrix} B_k&0\\ 0&a_{(k+1)(k+1)} \end{matrix}\right] B=[Bk00a(k+1)(k+1)]实际上,只相当于将 A A A的 ( k + 1 ) (k+1) (k+1)行的 − a i ( k + 1 ) a ( k + 1 ) ( k + 1 ) -\frac{a_{i(k+1)}}{a_{(k+1)(k+1)}} −a(k+1)(k+1)ai(k+1)被加到 i i i行,同时将 A A A的 ( k + 1 ) (k+1) (k+1)列的 − a i ( k + 1 ) a ( k + 1 ) ( k + 1 ) -\frac{a_{i(k+1)}}{a_{(k+1)(k+1)}} −a(k+1)(k+1)ai(k+1)被加到 i i i列,就可以得到 B B B,以上初等变换都不改变行列式的秩,故
det ( A ) = det ( B k ) \det(A)=\det(B_k) det(A)=det(Bk)再利用同样地方法, det ( B k ) > 0 \det(B_k)>0 det(Bk)>0,故 det ( A ) > 0 \det(A)>0 det(A)>0,这样就证得了 A A A的所有顺序主子式大于0。
再证明充分性,假设 A A A的所有顺序主子式都大于0,我们证明 x T A x x^TAx xTAx正定,将 A A A分块为
A = [ A k α α T a ( k + 1 ) ( k + 1 ) ] A=\left[\begin{matrix} A_k&\alpha\\ \alpha^T&a_{(k+1)(k+1)} \end{matrix}\right] A=[AkαTαa(k+1)(k+1)]按归纳假设,由 A A A的所有顺序主子式都大于 0 0 0,因此, A k A_k Ak合同于单位矩阵,设 A k = P k T P k A_k=P_k^TP_k Ak=PkTPk,于是,令
Q = [ P k − 1 0 0 1 ] Q=\left[\begin{matrix} P_k^{-1}&0\\ 0&1 \end{matrix}\right] Q=[Pk−1001]就有
Q T A Q = B = [ I k β β T a ( k + 1 ) ( k + 1 ) ] Q^TAQ=B=\left[\begin{matrix} I_k&\beta\\ \beta^T&a_{(k+1)(k+1)} \end{matrix} \right] QTAQ=B=[IkβTβa(k+1)(k+1)]于是
det ( B ) = [ det ( Q ) ] 2 det ( A ) > 0 \det(B)=[\det(Q)]^2\det(A)>0 det(B)=[det(Q)]2det(A)>0设 β = ( b 1 , ⋯ , b k ) T \beta=(b_1,\cdots,b_k)^T β=(b1,⋯,bk)T,将 i i i行的 − b i -b_i −bi倍加到 k + 1 k+1 k+1行同时将 i i i列的 − b i -b_i −bi倍加到 k + 1 k+1 k+1列。就可以将 B B B化为
C = [ I k 0 0 a ] C=\left[\begin{matrix} I_k&0\\ 0&a \end{matrix}\right] C=[Ik00a]以上初等变换都不改变行列式的值故
det ( C ) = det ( B ) > 0 \det(C)=\det(B)>0 det(C)=det(B)>0因此, det ( C ) = a > 0 \det(C)=a>0 det(C)=a>0,令
P = [ I k 0 0 1 a ] P=\left[\begin{matrix} I_k&0\\ 0&\frac{1}{\sqrt{a}} \end{matrix} \right] P=[Ik00a1]就有
P T C P = I k + 1 P^TCP=I_{k+1} PTCP=Ik+1于是 A A A合同于 I k + 1 I_{k+1} Ik+1,因此二次型正定。由数学归纳法,(1)和(3)等价。
同样地,可以给出半正定的一些判定条件,只不过,这里的顺序主子式要改成一般的主子式。
命题6.3 对实二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,以下命题等价:
(1) f f f半正定
(2) A A A的负惯性系数为0
(3) A A A的所有主子式非负
证明是类似的,这里省略。
到此为止,我们已经完成了定义内积的所有准备,现在,我们开始研究有限维的内积空间。首先什么是内积。内积首先是一个双线性函数,其次具有对称性,另外我们知道,在解析几何中, ( x , x ) (x,x) (x,x)表示向量长度的平方, ( x , x ) = 0 (x,x)=0 (x,x)=0表示向量长度为 0 0 0,自然而然地,就有 x = 0 x=0 x=0,因此,内积还应当具有正定性。因此,对以上三点性质进行抽象,就得到内积的定义,内积是 正 定 ‾ \underline{正定} 正定、 对 称 ‾ \underline{对称} 对称的 双 线 性 函 数 ‾ \underline{双线性函数} 双线性函数。我们先来研究实内积空间,实内积空间我们称为欧式空间。
定义6.6 V V V是 R R R上的线性空间, ( . , . ) (.,.) (.,.)是定义在 V × V V\times V V×V上的正定、对称的双线性函数,称 ( x , y ) (x,y) (x,y)为 x x x和 y y y的内积, V V V称为欧式空间。
欧式空间是实线性空间上引入了内积的概念,这样就可以定义角度、长度等概念。这就是平面几何空间、立体几何空间的抽象。对于复线性空间,我们要对双线性函数作特别的规定,即
( x , y ) = ( y , x ) ‾ (x,y)=\overline{(y,x)} (x,y)=(y,x)这样, ( x , x ) (x,x) (x,x)就一定是实数,这个性质称为共轭对称。
定义6.7 V V V是 C C C上的线性空间, ( . , . ) (.,.) (.,.)是定义在 V × V V\times V V×V上的正定、共轭对称的双线性函数,称 ( x , y ) (x,y) (x,y)为 x x x和 y y y的内积, V V V称为酉空间。
欧式空间和酉空间统称为内积空间,区别仅仅在于所在的数域不同。有了内积的概念,就可以定义长度和角度。在解析几何中,角度定义为
arccos ( ( x , y ) ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ ) \arccos(\frac{(x,y)}{||x||||y||}) arccos(∣∣x∣∣∣∣y∣∣(x,y))其中, ∣ ∣ x ∣ ∣ = ( x , x ) , ∣ ∣ y ∣ ∣ = ( y , y ) ||x||=\sqrt{(x,x)},||y||=\sqrt{(y,y)} ∣∣x∣∣=(x,x),∣∣y∣∣=(y,y)这有一个前提是 ∣ ( x , y ) ∣ ≤ ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ |(x,y)|\le ||x|| ||y|| ∣(x,y)∣≤∣∣x∣∣∣∣y∣∣这就是柯西-施瓦茨不等式。
定理6.1(柯西-施瓦茨不等式) V V V是内积空间(欧式空间/酉空间),则 ∣ ( x , y ) ∣ ≤ ( x , x ) ( y , y ) |(x,y)|\le \sqrt{(x,x)(y,y)} ∣(x,y)∣≤(x,x)(y,y)等号成立的充要条件是 x , y x,y x,y线性相关
解:
先证明欧式空间的情形:对任意的 x , y ∈ V x,y\in V x,y∈V,不妨设 x ≠ 0 , y ≠ 0 x\neq 0,y\neq 0 x=0,y=0,否则不等式显然成立
( x + t y , x + t y ) = ( x , x ) + 2 t ( x , y ) + t 2 ( y , y ) (x+ty,x+ty)=(x,x)+2t(x,y)+t^2(y,y) (x+ty,x+ty)=(x,x)+2t(x,y)+t2(y,y)这是一个关于 t t t的二次函数,并且由内积的性质
( x + t y , x + t y ) ≥ 0 ∀ t ∈ R (x+ty,x+ty)\ge 0 \quad \forall t\in R (x+ty,x+ty)≥0∀t∈R因此
Δ = 4 ( x , y ) 2 − 4 ( x , x ) ( y , y ) ≤ 0 \Delta =4(x,y)^2-4(x,x)(y,y)\le 0 Δ=4(x,y)2−4(x,x)(y,y)≤0就可以得到结论。并且等号成立的充要条件是存在 t 0 ∈ R t_0\in R t0∈R,使得
( x + t y , x + t y ) = 0 (x+ty,x+ty)=0 (x+ty,x+ty)=0等价于 x + t y = 0 x+ty=0 x+ty=0,反过来,如果 x , y x,y x,y线性相关,则存在 t ∈ R t\in R t∈R, x = t y x=ty x=ty或 y = t x y=tx y=tx,设 x = t y x=ty x=ty,则
( x , y ) = t ( y , y ) (x,y)=t(y,y) (x,y)=t(y,y)
( x , x ) ( y , y ) = t 2 ( y , y ) 2 = t ( y , y ) \sqrt{(x,x)(y,y)}=\sqrt{t^2(y,y)^2}=t(y,y) (x,x)(y,y)=t2(y,y)2=t(y,y)于是 ( x , y ) = ( x , x ) ( y , y ) (x,y)=\sqrt{(x,x)(y,y)} (x,y)=(x,x)(y,y)
对于酉空间:对任意的 x , y ∈ V x,y\in V x,y∈V,不妨设 x ≠ 0 , y ≠ 0 x\neq 0,y\neq 0 x=0,y=0,否则不等式显然成立。设 ( x , y ) = a + b i (x,y)=a+bi (x,y)=a+bi,则
( x + t y , x + t y ) = ( x , x ) + t ‾ ( x , y ) + t ( y , x ) + t t ‾ ( y , y ) (x+ty,x+ty)=(x,x)+\overline{t}(x,y)+t(y,x)+t\overline{t}(y,y) (x+ty,x+ty)=(x,x)+t(x,y)+t(y,x)+tt(y,y)对任意的 t ∈ C t\in C t∈C,令 t = ( x , y ) s , s ∈ R t=(x,y)s,s\in R t=(x,y)s,s∈R,就有
( x + t y , x + t y ) = ( x , x ) + 2 s ( a 2 + b 2 ) + s 2 ( a 2 + b 2 ) ( y , y ) ≥ 0 (x+ty,x+ty)=(x,x)+2s(a^2+b^2)+s^2(a^2+b^2)(y,y)\ge 0 (x+ty,x+ty)=(x,x)+2s(a2+b2)+s2(a2+b2)(y,y)≥0对任意的 s ∈ R s\in R s∈R都成立,因此
Δ = 4 ( a 2 + b 2 ) 2 − 4 ( a 2 + b 2 ) ( x , x ) ( y , y ) ≤ 0 \Delta = 4(a^2+b^2)^2-4(a^2+b^2)(x,x)(y,y)\le 0 Δ=4(a2+b2)2−4(a2+b2)(x,x)(y,y)≤0即
∣ ( x , y ) ∣ ≤ ( x , x ) ( y , y ) |(x,y)|\le \sqrt{(x,x)(y,y)} ∣(x,y)∣≤(x,x)(y,y)如果等号成立,则存在一个 s s s使 x + s ( x , y ) y = 0 x+s(x,y)y=0 x+s(x,y)y=0, x , y x,y x,y线性相关
反过来,如果 x , y x,y x,y线性相关,存在 t ∈ C t\in C t∈C, x = t y x=ty x=ty或 y = t x y=tx y=tx。
假设 x = t y x=ty x=ty,则
( x , y ) ( y , x ) = ∣ t ∣ 2 ( y , y ) 2 (x,y)(y,x)=|t|^2(y,y)^2 (x,y)(y,x)=∣t∣2(y,y)2
( x , x ) ( y , y ) = ∣ t ∣ 2 ( y , y ) 2 (x,x)(y,y)=|t|^2(y,y)^2 (x,x)(y,y)=∣t∣2(y,y)2于是
∣ ( x , y ) ∣ = ∣ t ∣ ( y , y ) = ( x , x ) ( y , y ) |(x,y)|=|t|(y,y)=\sqrt{(x,x)(y,y)} ∣(x,y)∣=∣t∣(y,y)=(x,x)(y,y)
这样,在欧式空间上,长度定义为
∣ ∣ x ∣ ∣ = ( x , x ) x ∈ V ||x||=\sqrt{(x,x)} \quad x\in V ∣∣x∣∣=(x,x)x∈V由此诱导的长度,有如下的性质:
(1) ∣ ∣ x ∣ ∣ ≥ 0 , ∣ ∣ x ∣ ∣ = 0 ||x||\ge 0,||x||=0 ∣∣x∣∣≥0,∣∣x∣∣=0当且仅当 x = 0 x=0 x=0
(2) ∣ ∣ a x ∣ ∣ = ∣ a ∣ ∣ ∣ x ∣ ∣ , ∀ a ∈ K ( R / C ) , x ∈ V ||ax||=|a|||x||,\forall a \in K(R/C),x\in V ∣∣ax∣∣=∣a∣∣∣x∣∣,∀a∈K(R/C),x∈V
(3) ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\le ||x||+||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
(1)(2)都是比较容易验证的,下面我们证明(3):
( x + y , x + y ) = ( x , x ) + ( x , y ) + ( y , x ) + ( y , y ) (x+y,x+y)=(x,x)+(x,y)+(y,x)+(y,y) (x+y,x+y)=(x,x)+(x,y)+(y,x)+(y,y)在酉空间上,设 ( x , y ) = a + b i (x,y)=a+bi (x,y)=a+bi,则
( x , y ) + ( y , x ) = 2 a ≤ 2 a 2 + b 2 ≤ 2 ( x , x ) ( y , y ) (x,y)+(y,x)=2a\le 2\sqrt{a^2+b^2} \le 2\sqrt{(x,x)(y,y)} (x,y)+(y,x)=2a≤2a2+b2≤2(x,x)(y,y)因此
( x + y , x + y ) ≤ ( x , x ) + 2 ( x , x ) ( y , y ) + ( y , y ) = ( ( x , x ) + ( y , y ) ) 2 (x+y,x+y)\le (x,x)+2\sqrt{(x,x)(y,y)}+(y,y)= (\sqrt{(x,x)}+\sqrt{(y,y)})^2 (x+y,x+y)≤(x,x)+2(x,x)(y,y)+(y,y)=((x,x)+(y,y))2欧式空间上证明是类似的。实际上,对线性空间 V V V,满足上面三条性质的非负函数有很多,我们称这类函数为范数,是向量长度的抽象。与一般范数不同的是,内积诱导的范数和内积有密切的联系,即下面的平行四边形公式。我们先给出欧式空间的平行四边形公式。
命题6.3(平行四边形公式) V V V是欧式空间, ∣ ∣ . ∣ ∣ ||.|| ∣∣.∣∣是内积诱导的范数,则对任意的 x , y ∈ V x,y\in V x,y∈V
(1) 2 ∣ ∣ x ∣ ∣ 2 + 2 ∣ ∣ y ∣ ∣ 2 = ∣ ∣ x + y ∣ ∣ 2 + ∣ ∣ x − y ∣ ∣ 2 2||x||^2+2||y||^2=||x+y||^2+||x-y||^2 2∣∣x∣∣2+2∣∣y∣∣2=∣∣x+y∣∣2+∣∣x−y∣∣2
(2) ( x , y ) = 1 4 ( ∣ ∣ x + y ∣ ∣ 2 − ∣ ∣ x − y ∣ ∣ 2 ) (x,y)=\frac{1}{4}(||x+y||^2-||x-y||^2) (x,y)=41(∣∣x+y∣∣2−∣∣x−y∣∣2)
该命题直接验证即可,对于酉空间,也有平行四边形公式,也可以由范数产生内积。
命题6.4 V V V是酉空间, ∣ ∣ . ∣ ∣ ||.|| ∣∣.∣∣是内积诱导的范数,则对任意的 x , y ∈ V x,y\in V x,y∈V
(1) 2 ∣ ∣ x ∣ ∣ 2 + 2 ∣ ∣ y ∣ ∣ 2 = ∣ ∣ x + y ∣ ∣ 2 + ∣ ∣ x − y ∣ ∣ 2 2||x||^2+2||y||^2=||x+y||^2+||x-y||^2 2∣∣x∣∣2+2∣∣y∣∣2=∣∣x+y∣∣2+∣∣x−y∣∣2
(2) ( x , y ) = 1 4 [ ( x + y , x + y ) − ( x − y , x − y ) + i ( x + i y , x + i y ) − i ( x − i y , x − i y ) ] (x,y)= \frac{1}{4} [(x+y,x+y)-(x-y,x-y)+i(x+iy,x+iy)-i(x-iy,x-iy)] (x,y)=41[(x+y,x+y)−(x−y,x−y)+i(x+iy,x+iy)−i(x−iy,x−iy)]
在泛函分析中,我们会证明,只要满足两个命题中的(1),就可以由范数产生内积,赋范空间就成了内积空间。但不是所有的范数都满足平行四边形公式,因而不是所有的赋范空间都是内积空间,当然,这不是线性代数的内容,这里不再深究。
有了内积的概念,就有角度,就有正交。
定义6.8 V V V是内积空间, x , y ∈ V x,y\in V x,y∈V,如果 ( x , y ) = 0 (x,y)=0 (x,y)=0,则称 x x x和 y y y正交,记为 x ⊥ y x\perp y x⊥y
除了定义两个向量之间的正交,还可以定义向量和集合之间的正交。
定义6.9 V V V是内积空间, E ⊂ V E\subset V E⊂V, x ∈ V x\in V x∈V,如果对任意的 y ∈ E y\in E y∈E, x ⊥ y x\perp y x⊥y,则称 x x x和 E E E正交记为 x ⊥ E x\perp E x⊥E
只要有正交,平面上的勾股定理,在一般的内积空间也成立。
定理6.2(勾股定理) V V V是内积空间, x , y ∈ V x,y\in V x,y∈V, x ⊥ y x\perp y x⊥y,则
∣ ∣ x + y ∣ ∣ 2 = ∣ ∣ x ∣ ∣ 2 + ∣ ∣ y ∣ ∣ 2 ||x+y||^2=||x||^2+||y||^2 ∣∣x+y∣∣2=∣∣x∣∣2+∣∣y∣∣2
现在我们考虑内积空间 V V V的子空间 M M M,设全体与 M M M正交的向量为 M ⊥ M^{\perp} M⊥,容易验证, M ⊥ M^{\perp} M⊥是 V V V的子空间,我们称为 M M M的正交补空间。并且,如果 x ∈ M ∩ M ⊥ x\in M\cap M^{\perp} x∈M∩M⊥,则 ( x , x ) = 0 , x = 0 (x,x)=0,x=0 (x,x)=0,x=0,因此, M M M和 M ⊥ M^{\perp} M⊥的和是直和。我们这里主要考虑有限维的内积的空间。给定一个子空间 M M M, M M M和 M ⊥ M^{\perp} M⊥的维度有何关系呢?下面我们证明:
dim ( V ) = dim ( M ) + dim ( M ⊥ ) \dim(V)=\dim(M)+\dim(M^{\perp}) dim(V)=dim(M)+dim(M⊥)也就是 V = M ⊕ M ⊥ V=M\oplus M^{\perp} V=M⊕M⊥。为了证明这点,我们需要找到 V V V的一组特殊的基\ ( e 1 , ⋯ , e n ) (e_1,\cdots,e_n) (e1,⋯,en),满足:
( e i , e j ) = 0 , i ≠ j (e_i,e_j)=0,i\neq j (ei,ej)=0,i=j并且 ∣ ∣ e i ∣ ∣ = 1 , i = 1 , ⋯ , n ||e_i||=1,i=1,\cdots,n ∣∣ei∣∣=1,i=1,⋯,n
这样的基是否存在的呢?答案是肯定的,任意给定一组基 β 1 , ⋯ , β n \beta_1,\cdots,\beta_n β1,⋯,βn,我们都可以将其成这样的一组基。首先我们要求两两正交。可以通过以下的基变换:
{ γ 1 = β 1 γ 2 = β 2 − ( γ 1 , β 2 ) ( γ 1 , γ 1 ) γ 1 ⋯ γ k = β k − ∑ i = 1 k − 1 ( γ i , β k ) ( γ i , γ i ) γ i ⋯ γ n = β n = ∑ i = 1 n − 1 ( γ i , β k ) ( γ i , γ i ) γ i \begin{cases} \gamma_1=\beta_1\\ \gamma_2=\beta_2-\frac{(\gamma_1,\beta_2)}{(\gamma_1,\gamma_1)}\gamma_1\\ \cdots\\ \gamma_k=\beta_k-\sum_{i=1}^{k-1}{\frac{(\gamma_i,\beta_k)}{(\gamma_i,\gamma_i)}\gamma_i}\\ \cdots\\ \gamma_n=\beta_n=\sum_{i=1}^{n-1}{\frac{(\gamma_i,\beta_k)}{(\gamma_i,\gamma_i)}\gamma_i} \end{cases} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧γ1=β1γ2=β2−(γ1,γ1)(γ1,β2)γ1⋯γk=βk−∑i=1k−1(γi,γi)(γi,βk)γi⋯γn=βn=∑i=1n−1(γi,γi)(γi,βk)γi然后每个向量除以范数进行单位化,就得到这样的一组基,这组基就称为 V V V的标准正交基。以上得到标准正交基的过程,称为Gram-Smidit正交化。
定理6.3 V V V是有限维内积空间,则 V V V一定存在一组标准正交基
对于 V V V的一个子空间 M M M,设 dim ( V ) = n \dim(V)=n dim(V)=n, dim ( M ) = r \dim(M)=r dim(M)=r,任取 M M M的一组基 e 1 , ⋯ , e r e_1,\cdots,e_r e1,⋯,er,再将其扩张为 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en,按 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en的顺序进行Gram-Smidit正交化和单位化,得到 ε 1 , ⋯ , ε n \varepsilon_1,\cdots,\varepsilon_n ε1,⋯,εn,由正交化的表达式不难看出, ε 1 , ⋯ , ε r \varepsilon_1,\cdots,\varepsilon_r ε1,⋯,εr仍然是 M M M的一组基,而 ε r + 1 , ⋯ , ε n \varepsilon_{r+1},\cdots,\varepsilon_n εr+1,⋯,εn全在正交补空间内。 V = M + M ⊥ V=M+M^{\perp} V=M+M⊥,而 M M M和 M ⊥ M^{\perp} M⊥的和是直和,因此 V = M ⊕ M ⊥ V=M\oplus M^{\perp} V=M⊕M⊥,这样,就有
dim ( V ) = dim ( M ) + dim ( M ⊥ ) \dim(V)=\dim(M)+\dim(M^{\perp}) dim(V)=dim(M)+dim(M⊥)这样,给定 V V V的一个向量 x x x和子空间 M M M, x x x就可以分解为
x = y + z , y ∈ M , z ∈ M ⊥ x=y+z,y\in M,z\in M^{\perp} x=y+z,y∈M,z∈M⊥就称为正交分解定理,正交分解定理在泛函分析中会详细讨论,这里暂且不作详细论述。
从本节开始,我们讨论内积空间的上的一类特殊的线性变换。内积空间相比于线性空间,引入了一个特殊的结构——内积。因而,内积空间的线性变换相比一般的线性空间,又有自己的特点。我们先从欧式空间讨论起。
定义6.10 V V V是欧式空间, f f f是 V V V上的线性变换,如果 f f f满足:对任意的 x , y ∈ V x,y\in V x,y∈V,都有
( f ( x ) , y ) = ( x , f ( y ) ) (f(x),y)=(x,f(y)) (f(x),y)=(x,f(y))则称 f f f是 V V V上的对称变换
假设 dim ( V ) = n \dim(V)=n dim(V)=n,那么, e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en是 V V V的一组标准正交基,则 f f f在这组基下的矩阵有何特点呢?
假设 f f f在 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en下的矩阵为 A A A, A = ( a i j ) A=(a_{ij}) A=(aij)。则
( f ( e i ) , e j ) = ( ∑ s = 1 n a s i e s , e j ) = a j i (f(e_i),e_j)=(\sum_{s=1}^n{a_{si}e_s},e_j)=a_{ji} (f(ei),ej)=(s=1∑nasies,ej)=aji而
( e i , f ( e j ) ) = ( e i , ∑ s = 1 n a s j e s ) = a i j (e_i,f(e_j))=(e_i,\sum_{s=1}^n{a_{sj}e_s})=a_{ij} (ei,f(ej))=(ei,s=1∑nasjes)=aij于是
a j i = a i j a_{ji}=a_{ij} aji=aij即 A A A是实对称矩阵,这就是 f f f称为"对称变换"的原因。
定理6.4 V V V是 n n n维欧式空间, f f f是 V V V上的线性变换,则 f f f是对称变换的充要条件是 f f f在标准正交基下的矩阵是对称矩阵
研究对称变换的特征值和特征向量,只需要研究实对称矩阵的特征值和特征向量即可。
命题6.5 A ∈ M n ( R ) A\in M_n(R) A∈Mn(R),则 A A A的特征值全为实数
解:
λ \lambda λ是 A A A的复特征值, x x x是 A A A的复特征向量。则
A x = λ x Ax=\lambda x Ax=λx两边取共轭,就有
A x ‾ = A ‾ x ‾ = λ ‾ x ‾ \overline{Ax}=\overline{A}\overline{x}=\overline{\lambda}\overline{x} Ax=Ax=λx再取转置
x ‾ T A = λ ‾ x ‾ T \overline{x}^T A =\overline{\lambda} \overline{x}^T xTA=λxT于是
x ‾ T A x = λ x ‾ T x + λ ‾ x ‾ T x \overline{x}^TAx=\lambda \overline{x}^Tx+\overline{\lambda}\overline{x}^Tx xTAx=λxTx+λxTx就有
λ = λ ‾ \lambda=\overline{\lambda} λ=λ因此, λ \lambda λ是实数
以上命题说明,对称变换或对称矩阵的特征方程全部根都在实数域上。
命题6.6 V V V是 n n n维欧式空间, f f f是 V V V上的对称变换,则 f f f的两个属于不同特征值的特征向量正交
解:
V V V是 n n n维欧式空间, f f f是 V V V上的对称变换, λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2是 f f f的两个特征值, x 1 , x 2 x_1,x_2 x1,x2是 λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2的特征向量。则
( f ( x 1 ) , x 2 ) = ( x 1 , f ( x 2 ) ) = λ 1 ( x 1 , x 2 ) = λ 2 ( x 1 , x 2 ) (f(x_1),x_2)=(x_1,f(x_2))=\lambda_1(x_1,x_2)=\lambda_2(x_1,x_2) (f(x1),x2)=(x1,f(x2))=λ1(x1,x2)=λ2(x1,x2)从而
( x 1 , x 2 ) = 0 (x_1,x_2)=0 (x1,x2)=0
接下来,我们将证明,任何对称矩阵都可以对角化。
定理6.5 V V V是 n n n维欧式空间, f f f是 V V V上的对称变换,则存在一组基 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en, f f f在这组基下的矩阵是对角矩阵
解:
对维数 n n n进行归纳, n = 1 n=1 n=1是显然成立的,假设定理对 k k k维欧式空间成立。
对 k + 1 k+1 k+1维欧式空间 V V V上的对称变换 f f f,取 f f f的任意范数为1的特征向量 e 1 e_1 e1,将其张成 V V V的一组标准正交基 e 1 , e 2 , ⋯ , e k + 1 e_1,e_2,\cdots,e_{k+1} e1,e2,⋯,ek+1,则 f f f在这组基下的矩阵形如
B = [ λ 1 0 0 A ] B=\left[\begin{matrix} \lambda_1&0\\ 0&A \end{matrix}\right] B=[λ100A] A A A是对称矩阵, M = s p a n { e 1 } M=span\{e_1\} M=span{e1},则 M ⊥ = s p a n { e 2 , ⋯ , e k + 1 } M^{\perp}=span\{e_2,\cdots,e_{k+1}\} M⊥=span{e2,⋯,ek+1}。 f f f限制在 M ⊥ M^{\perp} M⊥上也是对称变换,在 e 2 , ⋯ , e k + 1 e_2,\cdots,e_{k+1} e2,⋯,ek+1下的矩阵为 A A A,则存在 M ⊥ M^{\perp} M⊥的一组基 ε 2 , ⋯ , ε k + 1 \varepsilon_2,\cdots,\varepsilon_{k+1} ε2,⋯,εk+1每个都是 f f f的特征向量。由数学归纳法,对 k + 1 k+1 k+1维欧式空间,结论也成立
从以上命题就可以看出,欧式空间上的对称变换,相比于一般线性空间上的线性变换,有着良好的性质:
(1)所有的特征值都在实数域内
(2)一定可以对角化
一般实线性空间上的线性变换不一定有这两条性质。
内积空间最重要的结构是内积。能够保持内积不变的变换称为正交变换。
定义6.11 V V V是欧式空间, f f f是 V V V上的线性变换,如果
( f ( x ) , f ( y ) ) = ( x , y ) ∀ x , y ∈ V (f(x),f(y))=(x,y)\quad \forall x,y\in V (f(x),f(y))=(x,y)∀x,y∈V则称 f f f是正交变换
实际上,如果 e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en是 V V V的标准正交基, f ( e 1 ) , ⋯ , f ( e n ) f(e_1),\cdots,f(e_n) f(e1),⋯,f(en)也是 V V V的标准正交基。这是由正交变换的定义直接决定的,接下来,我们讨论正交变换在标准正交基下的矩阵,设 f f f是 V V V上的正交变换, e 1 , ⋯ , e n e_1,\cdots,e_n e1,⋯,en是 V V V的标准正交基, f f f在这组基下的矩阵为 P = ( p i j ) P=(p_{ij}) P=(pij),则有
( f ( e i ) , f ( e i ) ) = ∑ s = 1 n p s i 2 = 1 (f(e_i),f(e_i))=\sum_{s=1}^n{p_{si}^2}=1 (f(ei),f(ei))=s=1∑npsi2=1 ( f ( e i ) , f ( e j ) ) = ∑ s = 1 n p s i p s j = 0 ( i ≠ j ) (f(e_i),f(e_j))=\sum_{s=1}^n{p_{si}p_{sj}}=0(i\neq j) (f(ei),f(ej))=s=1∑npsipsj=0(i=j)也就是说, P P P的列向量组是 R n R^n Rn的一组标准正交基,在这里,内积的定义是各分量对应相乘。设
P = ( p 1 , ⋯ , p n ) P=(p_1,\cdots,p_n) P=(p1,⋯,pn)则
P T P = ( p i T p j ) = E P^TP=(p_i^Tp_j)=E PTP=(piTpj)=E我们称这类 n n n阶实方阵为正交矩阵。反过来,容易证明如果 f f f在标准正交基下的矩阵为正交矩阵,则 f f f是正交变换。
定理6.6 A A A是 n n n阶实对称矩阵,则存在正交矩阵 P P P及实对角矩阵 D D D,使得 P T A P = D P^TAP=D PTAP=D
解:
前面我们证明了对称矩阵都可以对角化,假设 A A A的全部不同的实特征值为 λ 1 , ⋯ , λ s \lambda_1,\cdots,\lambda_s λ1,⋯,λs。不同特征空间内特征向量相互正交,因此只需要对 λ i \lambda_i λi的特征空间的基进行Gram-Smidit正交化和正交化就可以得到 R n R^n Rn的一组标准正交基 p 1 , ⋯ , p n p_1,\cdots,p_n p1,⋯,pn,每个都是 A A A的特征向量。则
A ( p 1 , ⋯ , p n ) = ( p 1 , ⋯ , p n ) D A(p_1,\cdots,p_n)=(p_1,\cdots,p_n)D A(p1,⋯,pn)=(p1,⋯,pn)D令 P = ( p 1 , ⋯ , p n ) P=(p_1,\cdots,p_n) P=(p1,⋯,pn), P P P是正交矩阵,两边左乘 P T P^T PT,即可证得结论
推论6.6 对实二次型 x T A x x^TAx xTAx,存在正交矩阵 P P P,作可逆线性变换为 x = P y x=Py x=Py后,可将二次型化为系数全为 A A A的特征值的标准型
推论6.7 实二次型 x T A x x^TAx xTAx的正惯性系数是 A A A的所有正特征值的重数之和,负惯性系数是 A A A的所有负特征值的重数之和