线性代数的本质(八)——内积空间

文章目录

  • 内积空间
    • 内积空间
    • 正交矩阵与正交变换
    • 正交投影
    • 施密特正交化
    • 实对称矩阵的对角化

内积空间

内积空间

三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空间中向量有长度和夹角,这称为三维几何空间的度量性质。现在,我们在一般线性空间中引入度量有关的概念。

我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数,它把向量对 u , v \mathbf u,\mathbf v u,v 映射成一个数。在向量空间 V V V 中,将内积运算记为 ⟨ u , v ⟩ \lang\mathbf u,\mathbf v\rang u,v,满足以下性质

  1. ⟨ u , v ⟩ = ⟨ v , u ⟩ \lang\mathbf u,\mathbf v\rang=\lang\mathbf v,\mathbf u\rang u,v=v,u
  2. ⟨ u , v + w ⟩ = ⟨ u , v ⟩ + ⟨ u , w ⟩ \lang\mathbf u,\mathbf v+\mathbf w\rang=\lang\mathbf u,\mathbf v\rang+\lang\mathbf u,\mathbf w\rang u,v+w=u,v+u,w
  3. c ⟨ u , v ⟩ = ⟨ c u , v ⟩ = ⟨ u , c v ⟩ c\lang\mathbf u,\mathbf v\rang=\lang c\mathbf u,\mathbf v\rang=\lang \mathbf u,c\mathbf v\rang cu,v=cu,v=u,cv
  4. ⟨ v , v ⟩ ⩾ 0 ,   ⟨ v , v ⟩ = 0  iff  v = 0 \lang\mathbf v,\mathbf v\rang\geqslant 0,\ \lang\mathbf v,\mathbf v\rang=0\text{ iff }\mathbf v=0 v,v0, v,v=0 iff v=0

定义了内积运算的向量空间称为内积空间(innerproductspace)。

注意,内积只给出了性质,而没给出具体的计算法则。

对于向量空间 V V V 中的任意两向量
u = u 1 e 1 + ⋯ + u n e n v = v 1 e 1 + ⋯ + v n e n \mathbf u=u_1\mathbf e_1+\cdots+u_n\mathbf e_n \\ \mathbf v=v_1\mathbf e_1+\cdots+v_n\mathbf e_n u=u1e1++unenv=v1e1++vnen
由内积的基本性质知道,其内积
⟨ u , v ⟩ = ⟨ u 1 e 1 + ⋯ + u n e n ,   v 1 e 1 + ⋯ + v n e n ⟩ = ∑ i , j u i v j ⟨ e i , e j ⟩ \lang\mathbf u,\mathbf v\rang =\lang u_1\mathbf e_1+\cdots+u_n\mathbf e_n,\ v_1\mathbf e_1+\cdots+v_n\mathbf e_n\rang =\sum_{i,j}u_iv_j\lang\mathbf e_i,\mathbf e_j\rang u,v=u1e1++unen, v1e1++vnen=i,juivjei,ej
可见,只要知道基向量之间的内积,就可以求出任意两个向量的内积。上式用矩阵乘法表示为
⟨ u , v ⟩ = u T M v \lang\mathbf u,\mathbf v\rang=\mathbf u^TM\mathbf v u,v=uTMv
其中,矩阵 M = ( δ i j ) M=(\delta_{ij}) M=(δij) 称为坐标基的度量矩阵,包含了基向量两两之间的内积
δ i j = ⟨ e i , e j ⟩ \delta_{ij}=\lang\mathbf e_i,\mathbf e_j\rang δij=ei,ej
定义:三维几何空间的度量概念也推广到向量空间中

  1. ∥ v ∥ = ⟨ v , v ⟩ \|\mathbf v\|=\sqrt{\lang\mathbf v,\mathbf v\rang} v=v,v 称为向量的长度范数
  2. dist ( u , v ) = ∥ u − v ∥ \text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\| dist(u,v)=uv 称为向量 u , v \mathbf u,\mathbf v u,v 间的距离
  3. 两向量的夹角余弦 cos ⁡ θ = ⟨ u , v ⟩ ∥ u ∥ ⋅ ∥ v ∥ \cos\theta=\dfrac{\lang\mathbf u,\mathbf v\rang}{\|\mathbf u\|\cdot\|\mathbf v\|} cosθ=uvu,v
  4. ⟨ u , v ⟩ = 0 \lang\mathbf u,\mathbf v\rang=0 u,v=0 ,则称 u , v \mathbf u,\mathbf v u,v 正交(orthogonal);
  5. 长度为1的向量称为单位向量
  6. 如果向量空间的基向量都为单位向量且两两正交,则称为标准正交基(orthonormal basis);

性质:

  1. ∥ v ∥ ⩾ 0 , ∥ v ∥ = 0  iff  v = 0 \|\mathbf v\|\geqslant 0,\quad \|\mathbf v\|=0\text{ iff }\mathbf v=0 v0,v=0 iff v=0
  2. c ∥ v ∥ = ∣ c ∣   ∥ v ∥ c\|\mathbf v\|=|c|\ \|\mathbf v\| cv=c v
  3. 勾股定理:若 u , v \mathbf u,\mathbf v u,v V V V 中的正交向量,则 ∥ u + v ∥ 2 = ∥ u ∥ 2 + ∥ v ∥ 2 \|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2 u+v2=u2+v2
  4. 柯西-施瓦茨不等式: ∣ ⟨ u , v ⟩ ∣ ⩽ ∥ u ∥ ⋅ ∥ v ∥ |\lang\mathbf u,\mathbf v\rang|\leqslant\|\mathbf u\|\cdot\|\mathbf v\| u,vuv
  5. 三角不等式: ∥ u + v ∥ ⩽ ∥ u ∥ + ∥ v ∥ \|\mathbf u+\mathbf v\|\leqslant\|\mathbf u\|+\|\mathbf v\| u+vu+v
  6. 若向量组是一组两两正交的非零向量,则向量组线性无关

示例:向量空间的欧几里得内积定义为
⟨ u , v ⟩ = u T v = u 1 v 1 + u 2 v 2 + ⋯ + u n v n \lang\mathbf u,\mathbf v\rang=\mathbf u^T\mathbf v=u_1v_1+u_2v_2+\cdots+u_nv_n u,v=uTv=u1v1+u2v2++unvn

即采用的是标准正交基,度量矩阵为单位阵
δ i j = { 1 , i = j 0 , i ≠ j \delta_{ij}=\begin{cases}1, &i=j \\0, &i\neq j\end{cases} δij={1,0,i=ji=j
以后,当我们讨论内积空间时,总默认采用欧几里得内积。

正交补:设 W W W V V V 的子空间,如果向量 z \mathbf z z 与子空间 W W W 中的任意向量都正交 ,则称 z \mathbf z z 正交于 W W W。与子空间 W W W 正交的全体向量的集合称为 W W W正交补(orthogonal complement),并记作 W ⊥ W^{\perp} W
W ⊥ = { z ∈ V ∣ ∀ w ∈ W , ⟨ z , w ⟩ = 0 } W^{\perp}=\{\mathbf z\in V\mid \forall\mathbf w\in W,\lang\mathbf z,\mathbf w\rang=0\} W={zVwW,z,w=0}

线性代数的本质(八)——内积空间_第1张图片

由其次方程 A x = 0 A\mathbf x=0 Ax=0 的解空间易知:

  1. ( row  A ) ⊥ = ker ⁡ A (\text{row }A)^{\perp}=\ker A (row A)=kerA
  2. ( col  A ) ⊥ = ker ⁡ A T (\text{col }A)^{\perp}=\ker A^T (col A)=kerAT

定理:若 z \mathbf z z u 1 , u 2 , ⋯   , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,,up 均正交,则 z \mathbf z z 正交于 W = span  { u 1 , u 2 , ⋯   , u p } W=\text{span }\{\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p\} W=span {u1,u2,,up}

证:对于任意 v ∈ W \mathbf v\in W vW ,可线性表示为
v = x 1 u 1 + x 2 u 2 + ⋯ + x p u p \mathbf v=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p v=x1u1+x2u2++xpup
由内积的性质知
⟨ z , v ⟩ = x 1 ⟨ z , u 1 ⟩ + x 2 ⟨ z , u 2 ⟩ + ⋯ + x p ⟨ z , u p ⟩ = 0 \lang\mathbf z,\mathbf v\rang=x_1\lang\mathbf z,\mathbf u_1\rang+x_2\lang\mathbf z,\mathbf u_2\rang+\cdots+x_p\lang\mathbf z,\mathbf u_p\rang=0 z,v=x1z,u1+x2z,u2++xpz,up=0
于是可知 z \mathbf z z 正交于 W W W

正交矩阵与正交变换

定义:若矩阵 A A A 满足 A T A = I A^TA=I ATA=I,即 A − 1 = A T A^{-1}=A^T A1=AT,则称 A A A正交矩阵

上式用 A A A 的列向量表示,即
[ a 1 T a 2 T ⋮ a n T ] ( a 1 , a 2 , ⋯   , a n ) = I n \begin{bmatrix}\mathbf a_1^T\\ \mathbf a_2^T\\ \vdots\\\mathbf a_n^T\end{bmatrix} (\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=I_n a1Ta2TanT (a1,a2,,an)=In
于是得到
a i a j = { 1 , i = j 0 , i ≠ j \mathbf a_i\mathbf a_j=\begin{cases}1, &i=j\\ 0, &i\neq j\end{cases} aiaj={1,0,i=ji=j
定理:矩阵 A A A 为正交矩阵的充要条件是 A A A 的列向量都是单位向量且两两正交。

考虑到 A T A = I A^TA=I ATA=I A A T = I AA^T=I AAT=I 等价,所以上述结论对 A A A 的行向量亦成立。

正交矩阵 A A A 对应的线性变换称为正交变换。设 u , v ∈ V \mathbf u,\mathbf v\in V u,vV ,则变换后的内积
⟨ A u , A v ⟩ = ( A u ) T ( A v ) = u T v = ⟨ u , v ⟩ \lang A\mathbf u,A\mathbf v\rang=(A\mathbf u)^T(A\mathbf v)=\mathbf u^T\mathbf v=\lang\mathbf u,\mathbf v\rang Au,Av=(Au)T(Av)=uTv=u,v
定理:正交变换后向量内积保持不变,从而向量的长度、距离和夹角均保持不变。

正交投影

正交分解定理:设 W W W V V V 的子空间,那么对于任意 v ∈ V \mathbf v\in V vV 可唯一表示为
v = v ^ + z \mathbf v=\hat{\mathbf v}+\mathbf z v=v^+z
其中 v ^ ∈ W , z ∈ W ⊥ \hat{\mathbf v}\in W,\mathbf z\in W^{\perp} v^W,zW v ^ \hat{\mathbf v} v^ 称为 v \mathbf v v W W W 上的正交投影(orthogonal projection),记作 proj W v \text{proj}_W\mathbf v projWv 。若 u 1 , u 2 , ⋯   , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,,up W W W 的任意正交基,则
v ^ = proj W v = ⟨ v , u 1 ⟩ ⟨ u 1 , u 1 ⟩ u 1 + ⟨ v , u 2 ⟩ ⟨ u 2 , u 2 ⟩ u 2 + ⋯ + ⟨ v , u p ⟩ ⟨ u p , u p ⟩ u p \hat{\mathbf v}=\text{proj}_W\mathbf v=\frac{\lang\mathbf v,\mathbf u_1\rang}{\lang\mathbf u_1,\mathbf u_1\rang}\mathbf u_1+\frac{\lang\mathbf v,\mathbf u_2\rang}{\lang\mathbf u_2,\mathbf u_2\rang}\mathbf u_2+\cdots+\frac{\lang\mathbf v,\mathbf u_p\rang}{\lang\mathbf u_p,\mathbf u_p\rang}\mathbf u_p v^=projWv=u1,u1v,u1u1+u2,u2v,u2u2++up,upv,upup

线性代数的本质(八)——内积空间_第2张图片

证:若 u 1 , u 2 , ⋯   , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,,up W W W 的任意正交基,则任意 v ∈ V \mathbf v\in V vV 的投影可线性表示
v ^ = x 1 u 1 + x 2 u 2 + ⋯ + x p u p \hat{\mathbf v}=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p v^=x1u1+x2u2++xpup
z = v − v ^ \mathbf z=\mathbf v-\hat{\mathbf v} z=vv^ ,由于任意基向量 u j \mathbf u_j uj 与其他基向量正交且 z ∈ W ⊥ \mathbf z\in W^{\perp} zW,则
⟨ z , u j ⟩ = ⟨ v − v ^ , u j ⟩ = ⟨ v , u j ⟩ − x j ⟨ u j , u j ⟩ = 0 \lang\mathbf z,\mathbf u_j\rang=\lang\mathbf v-\hat{\mathbf v},\mathbf u_j\rang= \lang\mathbf v,\mathbf u_j\rang-x_j\lang\mathbf u_j,\mathbf u_j\rang=0 z,uj=vv^,uj=v,ujxjuj,uj=0
于是便求得了投影的系数
x j = ⟨ v , u j ⟩ ⟨ u j , u j ⟩ x_j=\frac{\lang\mathbf v,\mathbf u_j\rang}{\lang\mathbf u_j,\mathbf u_j\rang} xj=uj,ujv,uj
性质:设 W W W V V V 的子空间, v ∈ V , v ^ = proj W v \mathbf v\in V,\hat{\mathbf v}=\text{proj}_W\mathbf v vV,v^=projWv

  1. (最佳逼近定理) v ^ \hat{\mathbf v} v^ W W W 中最接近 v \mathbf v v 的点,即对于 ∀ w ∈ W ,   ∥ v − v ^ ∥ ⩽ ∥ v − w ∥ \forall\mathbf w\in W,\ \|\mathbf v-\hat{\mathbf v}\|\leqslant \|\mathbf v-\mathbf w\| wW, vv^vw
  2. U = ( u 1 , u 2 , ⋯   , u p ) U=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p) U=(u1,u2,,up) 的列向量是 W W W 的单位正交基,则 proj W v = U U T v \text{proj}_W\mathbf v=UU^T\mathbf v projWv=UUTv

证:(1) 取 W W W 中的任一向量 w \mathbf w w ,由于
v − w = ( v − v ^ ) + ( v ^ − w ) \mathbf v-\mathbf w=(\mathbf v-\hat{\mathbf v})+(\hat{\mathbf v}-\mathbf w) vw=(vv^)+(v^w)

线性代数的本质(八)——内积空间_第3张图片

由勾股定理定理知道
∥ v − w ∥ 2 = ∥ v − v ^ ∥ 2 + ∥ v ^ − w ∥ 2 \|\mathbf v-\mathbf w\|^2=\|\mathbf v-\hat{\mathbf v}\|^2+\|\hat{\mathbf v}-\mathbf w\|^2 vw2=vv^2+v^w2
由于 ∥ v ^ − w ∥ 2 ⩾ 0 \|\hat{\mathbf v}-\mathbf w\|^2\geqslant 0 v^w20 从而不等式得证。

(2) 由于 u 1 , u 2 , ⋯   , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,,up W W W 的单位正交基,那么
proj W v = ⟨ v , u 1 ⟩ u 1 + ⟨ v , u 2 ⟩ u 2 ⋯ + + ⟨ v , u p ⟩ u p = u 1 T v u 1 + u 2 T v u 2 + ⋯ + u p T v u p = U U T v \text{proj}_W\mathbf v=\lang\mathbf v,\mathbf u_1\rang\mathbf u_1+\lang\mathbf v,\mathbf u_2\rang\mathbf u_2\cdots++\lang\mathbf v,\mathbf u_p\rang\mathbf u_p\\ =\mathbf u_1^T\mathbf v\mathbf u_1+\mathbf u_2^T\mathbf v\mathbf u_2+\cdots+\mathbf u_p^T\mathbf v\mathbf u_p=UU^T\mathbf v projWv=v,u1u1+v,u2u2++v,upup=u1Tvu1+u2Tvu2++upTvup=UUTv

施密特正交化

施密特(Schmidt)正交化方法是将向量空间 V V V 的任意一组基 a 1 , a 2 , ⋯   , a r \mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r a1,a2,,ar 构造成标准正交基 e 1 , e 2 , ⋯   , e r \mathbf e_1,\mathbf e_2,\cdots,\mathbf e_r e1,e2,,er 的简单算法。


b 1 = a 1 b 2 = a 2 − b 1 T a 2 b 1 T b 1 b 1 b 3 = a 3 − b 1 T a 3 b 1 T b 1 b 1 − b 2 T a 3 b 2 T b 2 b 2 ⋯ b r = a r − b 1 T a r b 1 T b 1 b 1 − b 2 T a r b 2 T b 2 b 2 − ⋯ − b r − 1 T a r − 1 b r − 1 T b r − 1 b r − 1 \begin{aligned} &\mathbf b_1=\mathbf a_1 \\ &\mathbf b_2=\mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1 \\ &\mathbf b_3=\mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2 \\ &\cdots \\ &\mathbf b_r=\mathbf a_r-\frac{\mathbf b_1^T\mathbf a_r}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_r}{\mathbf b_2^T\mathbf b_2}\mathbf b_2-\cdots-\frac{\mathbf b_{r-1}^T\mathbf a_{r-1}}{\mathbf b_{r-1}^T\mathbf b_{r-1}}\mathbf b_{r-1} \\ \end{aligned} b1=a1b2=a2b1Tb1b1Ta2b1b3=a3b1Tb1b1Ta3b1b2Tb2b2Ta3b2br=arb1Tb1b1Tarb1b2Tb2b2Tarb2br1Tbr1br1Tar1br1
那么 b 1 , b 2 , ⋯   , b r \mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r b1,b2,,br V V V 的一组正交基
V = span  { a 1 , a 2 , ⋯   , a r } = span  { b 1 , b 2 , ⋯   , b r } V=\text{span }\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r\}=\text{span }\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r\} V=span {a1,a2,,ar}=span {b1,b2,,br}
再把它们单位化
e 1 = 1 ∥ b 1 ∥ b 1 , e 2 = 1 ∥ b 2 ∥ b 2 , ⋯   , e r = 1 ∥ b r ∥ b r \mathbf e_1=\frac{1}{\|\mathbf b_1\|}\mathbf b_1,\quad\mathbf e_2=\frac{1}{\|\mathbf b_2\|}\mathbf b_2,\quad\cdots,\quad\mathbf e_r=\frac{1}{\|\mathbf b_r\|}\mathbf b_r e1=b11b1,e2=b21b2,,er=br1br
最终获得 V V V 的一组标准正交基。

例:设 a 1 = [ 1 1 1 1 ] , a 2 = [ 0 1 1 1 ] , a 3 = [ 0 0 1 1 ] \mathbf a_1=\begin{bmatrix}1\\1\\1\\1\end{bmatrix},\mathbf a_2=\begin{bmatrix}0\\1\\1\\1\end{bmatrix},\mathbf a_3=\begin{bmatrix}0\\0\\1\\1\end{bmatrix} a1= 1111 ,a2= 0111 ,a3= 0011 是子空间 V V V的一组基,试构造 V V V 的一组正交基

解:step 1 取第一个基向量 b 1 = a 1 , W 1 = span { a 1 } = span { b 1 } \mathbf b_1=\mathbf a_1,W_1=\text{span}\{\mathbf a_1\}=\text{span}\{\mathbf b_1\} b1=a1,W1=span{a1}=span{b1}

step 2 取第二个基向量
b 2 = a 2 − proj W 1 a 2 = a 2 − b 1 T a 2 b 1 T b 1 b 1 = [ 0 1 1 1 ] − 3 4 [ 1 1 1 1 ] = [ − 3 / 4 1 / 4 1 / 4 1 / 4 ] \mathbf b_2=\mathbf a_2-\text{proj}_{W_1}\mathbf a_2= \mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1\\ =\begin{bmatrix}0\\1\\1\\1\end{bmatrix}-\frac{3}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}= \begin{bmatrix}-3/4\\1/4\\1/4\\1/4\end{bmatrix} b2=a2projW1a2=a2b1Tb1b1Ta2b1= 0111 43 1111 = 3/41/41/41/4

为计算方便,缩放 b 2 = ( − 3 , 1 , 1 , 1 ) T \mathbf b_2=(-3,1,1,1)^T b2=(3,1,1,1)T 。同样取 W 2 = span { b 1 , b 2 } W_2=\text{span}\{\mathbf b_1,\mathbf b_2\} W2=span{b1,b2}

step 3 取第三个基向量
b 3 = a 3 − proj W 2 a 3 = a 3 − b 1 T a 3 b 1 T b 1 b 1 − b 2 T a 3 b 2 T b 2 b 2 = [ 0 0 1 1 ] − 2 4 [ 1 1 1 1 ] − 2 12 [ − 3 1 1 1 ] = [ 0 − 2 / 3 1 / 3 1 / 3 ] \mathbf b_3=\mathbf a_3-\text{proj}_{W_2}\mathbf a_3= \mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2\\ =\begin{bmatrix}0\\0\\1\\1\end{bmatrix}- \frac{2}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}- \frac{2}{12}\begin{bmatrix}-3\\1\\1\\1\end{bmatrix}= \begin{bmatrix}0\\-2/3\\1/3\\1/3\end{bmatrix} b3=a3projW2a3=a3b1Tb1b1Ta3b1b2Tb2b2Ta3b2= 0011 42 1111 122 3111 = 02/31/31/3

线性代数的本质(八)——内积空间_第4张图片

实对称矩阵的对角化

定理:

  1. 实对称矩阵对应于不同特征值的特征向量必正交。
  2. 实对称矩阵可正交相似对角化。即对于对称矩阵 A A A ,存在正交矩阵 P P P ,使 Λ = P − 1 A P \Lambda=P^{-1}AP Λ=P1AP Λ \Lambda Λ 的对角元素为 A A A 的特征值。

证明:(1) 设实对称矩阵 A A A 对应不同特征值 λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2 的特征向量分别为 u 1 , u 2 \mathbf u_1,\mathbf u_2 u1,u2 。则
A T = A , A u 1 = λ 1 u 1 , A u 2 = λ 2 u 2 A^T=A,\quad A\mathbf u_1=\lambda_1\mathbf u_1,\quad A\mathbf u_2=\lambda_2\mathbf u_2 AT=A,Au1=λ1u1,Au2=λ2u2
A u 1 = λ 1 u 1 A\mathbf u_1=\lambda_1\mathbf u_1 Au1=λ1u1两边求转置,再右乘向量 u 2 \mathbf u_2 u2,有
u 1 T A u 2 = λ 1 u 1 T u 2 \mathbf u_1^TA\mathbf u_2=\lambda_1\mathbf u_1^T\mathbf u_2 u1TAu2=λ1u1Tu2
A u 2 = λ 2 u 2 A\mathbf u_2=\lambda_2\mathbf u_2 Au2=λ2u2两边左乘向量 u 1 T \mathbf u_1^T u1T,有
u 1 T A u 2 = λ 2 u 1 T u 2 \mathbf u_1^TA\mathbf u_2=\lambda_2\mathbf u_1^T\mathbf u_2 u1TAu2=λ2u1Tu2
两式相减,得到
( λ 1 − λ 2 ) u 1 T u 2 = 0 (\lambda_1-\lambda_2)\mathbf u_1^T\mathbf u_2=0 (λ1λ2)u1Tu2=0
由于 λ 1 ≠ λ 2 \lambda_1\neq \lambda_2 λ1=λ2 ,所以 u 1 T u 2 = 0 \mathbf u_1^T\mathbf u_2=0 u1Tu2=0 ,即特征向量 u 1 , u 2 \mathbf u_1,\mathbf u_2 u1,u2 正交。

例:将矩阵 A = [ 3 − 2 4 − 2 6 2 4 2 3 ] A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix} A= 324262423 正交对角化

解:特征方程 det ⁡ ( A − λ I ) = − ( λ − 7 ) 2 ( λ + 2 ) = 0 \det(A-\lambda I)=-(\lambda-7)^2(\lambda+2)=0 det(AλI)=(λ7)2(λ+2)=0 ,特征值和特征向量分别为
λ = 7 : v 1 = [ 1 0 1 ] , v 2 = [ − 1 / 2 1 0 ] ; λ = − 2 : v 1 = [ − 1 − 1 / 2 1 ] \lambda=7:\mathbf v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}, \mathbf v_2=\begin{bmatrix}-1/2\\1\\0\end{bmatrix}; \quad \lambda=-2:\mathbf v_1=\begin{bmatrix}-1\\-1/2\\1\end{bmatrix} λ=7:v1= 101 ,v2= 1/210 ;λ=2:v1= 11/21
尽管 v 1 , v 2 \mathbf v_1,\mathbf v_2 v1,v2 是线性无关的,但它们并不正交。我们可以用施密特正交化方法,计算与 v 1 \mathbf v_1 v1 正交的 v 2 \mathbf v_2 v2 分量
z 2 = v 2 − v 1 T v 2 v 1 T v 1 v 1 = [ − 1 / 4 1 1 / 4 ] \mathbf z_2=\mathbf v_2-\frac{\mathbf v_1^T\mathbf v_2}{\mathbf v_1^T\mathbf v_1}\mathbf v_1=\begin{bmatrix}-1/4\\1\\1/4\end{bmatrix} z2=v2v1Tv1v1Tv2v1= 1/411/4
由于 z 2 \mathbf z_2 z2 是特征值 λ = 7 \lambda=7 λ=7 的特征向量 v 1 , v 2 \mathbf v_1,\mathbf v_2 v1,v2 的线性组合,从而 z 2 \mathbf z_2 z2 是特征值 λ = 7 \lambda=7 λ=7 的特征向量。

分别将 v 1 , v 2 , v 3 \mathbf v_1,\mathbf v_2,\mathbf v_3 v1,v2,v3 标准化
u 1 = [ 1 / 2 0 1 / 2 ] , u 2 = [ − 1 / 18 4 / 18 1 / 18 ] , u 3 = [ − 2 / 3 − 1 / 3 2 / 3 ] \mathbf u_1=\begin{bmatrix}1/\sqrt{2}\\0\\1/\sqrt{2}\end{bmatrix}, \mathbf u_2=\begin{bmatrix}-1/\sqrt{18}\\4/\sqrt{18}\\1/\sqrt{18}\end{bmatrix}, \mathbf u_3=\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix} u1= 1/2 01/2 ,u2= 1/18 4/18 1/18 ,u3= 2/31/32/3

P = ( u 1 , u 2 , u 3 ) = [ 1 / 2 − 1 / 18 − 2 / 3 0 4 / 18 − 1 / 3 1 / 2 1 / 18 2 / 3 ] , Λ = [ 7 0 0 0 7 0 0 0 − 2 ] P=(\mathbf u_1,\mathbf u_2,\mathbf u_3)=\begin{bmatrix}1/\sqrt{2}&-1/\sqrt{18}&-2/3\\0&4/\sqrt{18}&-1/3\\1/\sqrt{2}&1/\sqrt{18}&2/3\end{bmatrix},\quad \Lambda=\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix} P=(u1,u2,u3)= 1/2 01/2 1/18 4/18 1/18 2/31/32/3 ,Λ= 700070002
于是正交矩阵 P P P A A A 正交对角化,即 A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP1

对称矩阵的谱:矩阵 A A A 的特征值的集合称为 A A A(spectrum)
spec  A = { λ ∈ C ∣ det ⁡ ( A − λ I ) = 0 } \text{spec }A=\{\lambda\in\Complex\mid\det(A-\lambda I)=0\} spec A={λCdet(AλI)=0}
性质 设 A A A n n n 阶对称阵

  1. A A A n n n 个实特征值(包含重复的特征值);
  2. 对于每一个特征值,对应的特征空间的维数等于特征方程的根的重数;
  3. 不同特征值的特征空间相互正交的;
  4. A A A 可正交対角化;

谱分解:假设对称矩阵 A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP1 。其中 P P P 为正交矩阵,其列是 A A A 的正交特征向量 u 1 , u 2 , ⋯   , u n \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n u1,u2,,un ,对应的特征值 λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn Λ \Lambda Λ 的对角线元素。由于 P T = P − 1 P^T=P^{-1} PT=P1 ,故
A = P Λ P − 1 = ( u 1 , u 2 , ⋯   , u n ) [ λ 1 λ 2 ⋱ λ n ] [ u 1 T u 2 T ⋮ u n T ] = ( λ 1 u 1 , λ 2 u 2 , ⋯   , λ n u n ) [ u 1 T u 2 T ⋮ u n T ] = λ 1 u 1 u 1 T + λ 2 u 2 u 2 T + ⋯ + λ n u n u n T \begin{aligned} A&=P\Lambda P^{-1}=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n) \begin{bmatrix}\lambda_1\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{bmatrix} \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=(\lambda_1\mathbf u_1,\lambda_2\mathbf u_2,\cdots,\lambda_n\mathbf u_n) \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=\lambda_1\mathbf u_1\mathbf u_1^T+\lambda_2\mathbf u_2\mathbf u_2^T+\cdots+\lambda_n\mathbf u_n\mathbf u_n^T \end{aligned} A=PΛP1=(u1,u2,,un) λ1λ2λn u1Tu2TunT =(λ1u1,λ2u2,,λnun) u1Tu2TunT =λ1u1u1T+λ2u2u2T++λnununT
由于它将 A A A 分解为由 A A A 的特征值确定的小块,因此这个 A A A 的表示就称为 A A A谱分解。 上式中的每一项都是一个秩为1的 n n n 阶方阵。例如, λ 1 u 1 u 1 T \lambda_1\mathbf u_1\mathbf u_1^T λ1u1u1T的每一列都是 u 1 \mathbf u_1 u1 的倍数。

你可能感兴趣的:(线性代数,机器学习,人工智能)