矩阵论专栏:专栏(文章按照顺序排序)
本篇博客的上篇是矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩,前面博客主要介绍了线性代数中的一些基本概念和基本方法,重点整理了秩的相关结论,本文主要整理线性空间与线性变换的相关内容。
本文主要有以下内容:
【说明】需要指出的是,严格来说,向量组并不是一个集合,向量组中可以有重复向量,例如向量组 x , x , y x,x,y x,x,y,其中 x , y ∈ C n x,y\in C^n x,y∈Cn,而集合是不能有重复元素的。对于有限大小的向量组,我们总可以明确地把它写成向量的序列的形式(例如 x , x , y x,x,y x,x,y),但对于无限大小的向量组,我们没法明确地写出这个向量组,此时向量组到底是什么呢?实际上,很多线代教材没有明确地给出向量组的定义,很多人认为向量组就是向量的一个集合。按照严格的数学定义,向量组(a family of vectors)分为有序向量族(an ordered family of vectors)和无序向量族(a family of vectors)两种情形,其中无序向量族是给定线性空间上的一个加标族(indexed family),有序向量族是给定线性空间上的加标族以及该加标族的指标集上的一个良序(well order)。通常情况下,向量组的概念是指无序向量族,但也有不同的处理,例如丘维声的高等代数书中就认为向量组是有序的,此时 x , x , y x,x,y x,x,y和 x , y , x x,y,x x,y,x并不是同一个向量组。本文只讨论有限的向量组,且默认向量组是无序的、可含有重复向量。另外,当向量组中不含重复向量时,本文不区分向量组和向量的集合(换言之,直接用向量的集合来表示一个向量组)。
好奇的朋友可以参考如下资料:
math.stackexchange.com/questions/1375149
Indexed family - Wikipedia
定义:设W是线性空间V的一个非空子集,若W是线性空间,则称W是V的线性子空间
定理:设W是线性空间V的一个非空子集,则W是V的子空间的充要条件为W对V中的线性运算(加法和数乘)封闭
例:关于x的齐次线性方程组 A x = 0 , A ∈ F m × n Ax=0,A\in{}F^{m\times{n}} Ax=0,A∈Fm×n的所有解向量 x ∈ F n x\in{F^n} x∈Fn构成了 F n F^n Fn的一个线性子空间,称为矩阵A的零空间或核空间,记为 N ( A ) N(A) N(A),即 N ( A ) = { x ∈ F n ∣ A x = 0 } N(A)=\{x\in{F^n}|Ax=0\} N(A)={x∈Fn∣Ax=0}。 A T A^T AT的零空间称为 A A A的左零空间。
定义:设 a 1 , a 2 , ⋯ , a s a_1,a_2,\cdots,a_s a1,a2,⋯,as是V中的向量,这些向量的所有线性组合构成了V的一个线性子空间 { k 1 a 1 + ⋯ + k s a s ∣ k 1 , ⋯ , k s ∈ F } \{k_1a_1+\cdots+k_sa_s|k_1,\cdots,k_s\in{F}\} {k1a1+⋯+ksas∣k1,⋯,ks∈F},称为V的生成子空间,记作 W = s p a n { a 1 , a 2 , ⋯ , a s } W=span\{a_1,a_2,\cdots,a_s\} W=span{a1,a2,⋯,as}
例:矩阵 A ∈ F m × n A\in{}F^{m\times{n}} A∈Fm×n的所有列向量的线性组合构成了 F m F^m Fm的一个生成子空间,常称为A的列空间,又叫A的值域,记为 R ( A ) R(A) R(A),即 R ( A ) = { A x ∣ x ∈ F n } R(A)=\{Ax|x\in{F^n}\} R(A)={Ax∣x∈Fn};同样地, A ∈ F m × n A\in{}F^{m\times{n}} A∈Fm×n的所有行向量的线性组合构成了 F n F^n Fn的一个生成子空间,常称为A的行空间。注意, A A A的行向量就是 A T A^T AT的列向量,因此 A A A的行空间实际上就是 R ( A T ) R(A^T) R(AT)。
设V是数域F上的线性空间,若在V的任意两个向量间定义了满足以下4条內积公理的二元运算 V × V → F V\times V\rightarrow F V×V→F,则称V是內积空间。若 F = R F=R F=R,则称V是实内积空间,或欧式空间(也有资料认为有限维的实内积空间才叫欧式空间);若 F = C F=C F=C,则称V是复内积空间,或酉空间。
设 F F F为任一数域,在 F n F^n Fn中定义向量的欧氏內积为 ⟨ x , y ⟩ = y H x \langle x,y\rangle =y^Hx ⟨x,y⟩=yHx,易验证是满足內积公理的。欧氏內积是 F n F^n Fn中最常用的向量內积,如无特别说明, F n F^n Fn中的內积默认是欧氏內积。
注意上述内积公理的定义对任意数域F上的线性空间都是适用的,当数域 F F F为实数域或有理数域时,内积公理的第一条“共轭对称性”将自动退化为对称性。
从上面的公理可以推导出:
下面我们证明柯西施瓦兹不等式这个內积空间中最基本的不等式。在此之前,有必要引入向量的正交投影这个概念,使读者更容易理解柯西施瓦兹不等式的几何意义。
柯西施瓦兹不等式的证明:
定理:设V是数域F上的内积空间,则 ∀ x , y ∈ V \forall x, y\in V ∀x,y∈V,有 ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } ∣⟨x,y⟩∣⩽⟨x,x⟩⟨y,y⟩,当且仅当 x x x和 y y y线性相关时取等号
证明:
(法1)(实际上,柯西施瓦兹不等式是基于这样一个简单的事实:把向量 x x x正交投影到向量 y y y上,得到 x x x的分量 ⟨ x , y ⟩ ⟨ y , y ⟩ y \frac{\langle x,y\rangle }{\langle y,y\rangle }y ⟨y,y⟩⟨x,y⟩y,则 x x x的另一个分量是 z = x − ⟨ x , y ⟩ ⟨ y , y ⟩ y z=x-\frac{\langle x,y\rangle }{\langle y,y\rangle }y z=x−⟨y,y⟩⟨x,y⟩y,有 ⟨ z , z ⟩ ⩾ 0 \langle z,z\rangle \geqslant 0 ⟨z,z⟩⩾0)
若 y = 0 y=0 y=0,显然结论成立。若 y ≠ 0 y\neq 0 y=0,令 z = x − λ y z=x-\lambda y z=x−λy,其中 λ = ⟨ x , y ⟩ ⟨ y , y ⟩ \lambda=\frac{\langle x,y\rangle }{\langle y,y\rangle } λ=⟨y,y⟩⟨x,y⟩,则 0 ⩽ ⟨ z , z ⟩ = ⟨ x , x ⟩ − ⟨ x , λ y ⟩ − ⟨ λ y , x ⟩ + ⟨ λ y , λ y ⟩ = ⟨ x , x ⟩ − λ ‾ ⟨ x , y ⟩ − λ ⟨ y , x ⟩ + λ λ ‾ ⟨ y , y ⟩ = ⟨ x , x ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ + ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ = ⟨ x , x ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ \begin{aligned}0&\leqslant \langle z,z\rangle \\&=\langle x,x\rangle -\langle x,\lambda y\rangle -\langle \lambda y,x\rangle +\langle \lambda y,\lambda y\rangle \\&=\langle x,x\rangle -\overline{\lambda}\langle x,y\rangle -\lambda\langle y,x\rangle +\lambda\overline{\lambda}\langle y,y\rangle \\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\end{aligned} 0⩽⟨z,z⟩=⟨x,x⟩−⟨x,λy⟩−⟨λy,x⟩+⟨λy,λy⟩=⟨x,x⟩−λ⟨x,y⟩−λ⟨y,x⟩+λλ⟨y,y⟩=⟨x,x⟩−⟨y,y⟩∣⟨x,y⟩∣2−⟨y,y⟩∣⟨x,y⟩∣2+⟨y,y⟩∣⟨x,y⟩∣2=⟨x,x⟩−⟨y,y⟩∣⟨x,y⟩∣2故 ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } ∣⟨x,y⟩∣⩽⟨x,x⟩⟨y,y⟩,显然当且仅当 z = 0 z=0 z=0即 x = λ y x=\lambda y x=λy时取等号,得证。
(法2)
引入实值函数 f ( k ) = ⟨ x + k y , x + k y ⟩ , k ∈ C f(k)=\langle x+ky,x+ky\rangle ,k\in C f(k)=⟨x+ky,x+ky⟩,k∈C,记 k = a + b i , a , b ∈ R k=a+bi,a,b\in R k=a+bi,a,b∈R,其中 i i i是虚数单位, g ( a , b ) = f ( k ) = ⟨ x + ( a + b i ) y , x + ( a + b i ) y ⟩ g(a,b)=f(k)=\langle x+(a+bi)y,x+(a+bi)y\rangle g(a,b)=f(k)=⟨x+(a+bi)y,x+(a+bi)y⟩。
当 x x x和 y y y线性无关时,必对 ∀ k ≠ 0 \forall k\neq 0 ∀k=0,有 x + k y ≠ 0 x+ky\neq 0 x+ky=0,故由內积公理知 g ( a , b ) > 0 g(a,b)\gt 0 g(a,b)>0。 g ( a , b ) = ⟨ x + ( a + b i ) y , x + ( a + b i ) y ⟩ = ⟨ x , x ⟩ + ∣ a + b i ∣ 2 ⟨ y , y ⟩ + ( a − b i ) ⟨ x , y ⟩ + ( a + b i ) ⟨ x , y ⟩ ‾ = ( a 2 + b 2 ) ⟨ y , y ⟩ + a ( ⟨ x , y ⟩ + ⟨ x , y ⟩ ‾ ) − b i ( ⟨ x , y ⟩ − ⟨ x , y ⟩ ‾ ) + ⟨ x , x ⟩ \begin{aligned}g(a,b)&=\langle x+(a+bi)y,x+(a+bi)y\rangle \\&=\langle x,x\rangle +|a+bi|^2\langle y,y\rangle +(a-bi)\langle x,y\rangle +(a+bi)\overline{\langle x,y\rangle }\\&=(a^2+b^2)\langle y,y\rangle +a(\langle x,y\rangle +\overline{\langle x,y\rangle })-bi(\langle x,y\rangle -\overline{\langle x,y\rangle })+\langle x,x\rangle \end{aligned} g(a,b)=⟨x+(a+bi)y,x+(a+bi)y⟩=⟨x,x⟩+∣a+bi∣2⟨y,y⟩+(a−bi)⟨x,y⟩+(a+bi)⟨x,y⟩=(a2+b2)⟨y,y⟩+a(⟨x,y⟩+⟨x,y⟩)−bi(⟨x,y⟩−⟨x,y⟩)+⟨x,x⟩
∂ g ∂ a = 2 a ⟨ y , y ⟩ + ⟨ x , y ⟩ + ⟨ x , y ⟩ ‾ = 2 a ⟨ y , y ⟩ + 2 R e { ⟨ x , y ⟩ } \frac{\partial g}{\partial a}=2a\langle y,y\rangle +\langle x,y\rangle +\overline{\langle x,y\rangle }=2a\langle y,y\rangle +2Re\{\langle x,y\rangle \} ∂a∂g=2a⟨y,y⟩+⟨x,y⟩+⟨x,y⟩=2a⟨y,y⟩+2Re{⟨x,y⟩}
∂ g ∂ b = 2 b ⟨ y , y ⟩ − i ( ⟨ x , y ⟩ − ⟨ x , y ⟩ ‾ ) = 2 b ⟨ y , y ⟩ + 2 I m { ⟨ x , y ⟩ } \frac{\partial g}{\partial b}=2b\langle y,y\rangle -i(\langle x,y\rangle -\overline{\langle x,y\rangle })=2b\langle y,y\rangle +2Im\{\langle x,y\rangle \} ∂b∂g=2b⟨y,y⟩−i(⟨x,y⟩−⟨x,y⟩)=2b⟨y,y⟩+2Im{⟨x,y⟩}
hessian矩阵 [ ∂ 2 g ∂ 2 a ∂ 2 g ∂ a ∂ b ∂ 2 g ∂ b ∂ a ∂ 2 g ∂ 2 b ] = 2 [ ⟨ y , y ⟩ 0 0 ⟨ y , y ⟩ ] \begin{bmatrix}\frac{\partial^2 g}{\partial^2 a}&\frac{\partial^2 g}{\partial a\partial b}\\\frac{\partial^2 g}{\partial b\partial a}&\frac{\partial^2 g}{\partial^2 b}\end{bmatrix}=2\begin{bmatrix}\langle y,y\rangle &0\\0&\langle y,y\rangle \end{bmatrix} [∂2a∂2g∂b∂a∂2g∂a∂b∂2g∂2b∂2g]=2[⟨y,y⟩00⟨y,y⟩]是对称半正定的,故 g g g是 R 2 R^2 R2上的凸函数。令 ∂ g ∂ a = 0 \frac{\partial g}{\partial a}=0 ∂a∂g=0且 ∂ g ∂ b = 0 \frac{\partial g}{\partial b}=0 ∂b∂g=0得极值点 a 0 = − R e { ⟨ x , y ⟩ } ⟨ y , y ⟩ a_0=-\frac{Re\{\langle x,y\rangle \}}{\langle y,y\rangle } a0=−⟨y,y⟩Re{⟨x,y⟩}, b 0 = − I m { ⟨ x , y ⟩ } ⟨ y , y ⟩ b_0=-\frac{Im\{\langle x,y\rangle \}}{\langle y,y\rangle } b0=−⟨y,y⟩Im{⟨x,y⟩},故 g g g的最小值为 g ( a 0 , b 0 ) = ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ − 2 R e 2 { ⟨ x , y ⟩ } ⟨ y , y ⟩ − 2 I m 2 { ⟨ x , y ⟩ } ⟨ y , y ⟩ + ⟨ x , x ⟩ = − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ + ⟨ x , x ⟩ > 0 \begin{aligned}g(a_0,b_0)&=\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{2Re^2\{\langle x,y\rangle \}}{\langle y,y\rangle }-\frac{2Im^2\{\langle x,y\rangle \}}{\langle y,y\rangle }+\langle x,x\rangle \\&=-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\langle x,x\rangle \\&\gt 0\end{aligned} g(a0,b0)=⟨y,y⟩∣⟨x,y⟩∣2−⟨y,y⟩2Re2{⟨x,y⟩}−⟨y,y⟩2Im2{⟨x,y⟩}+⟨x,x⟩=−⟨y,y⟩∣⟨x,y⟩∣2+⟨x,x⟩>0即 ∣ ⟨ x , y ⟩ ∣ < ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\lt \sqrt{\langle x,x\rangle \langle y,y\rangle } ∣⟨x,y⟩∣<⟨x,x⟩⟨y,y⟩。
当 x x x和 y y y线性相关,即存在 t ≠ 0 t\neq 0 t=0使得 x = t y x=ty x=ty时,易验证 ∣ ⟨ x , y ⟩ ∣ = ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |= \sqrt{\langle x,x\rangle \langle y,y\rangle } ∣⟨x,y⟩∣=⟨x,x⟩⟨y,y⟩。证毕。
【注】对复数 x x x, R e { x } Re\{x\} Re{x}是 x x x的实部, I m { x } Im\{x\} Im{x}是 x x x的虚部。法1和法2其实是从相同的角度出发,但用了不同的手段,法1是根据几何意义直截了当地构造出了辅助函数 f ( k ) = ⟨ x + k y , x + k y ⟩ , k ∈ C f(k)=\langle x+ky,x+ky\rangle ,k\in C f(k)=⟨x+ky,x+ky⟩,k∈C的极值点(垂直距离最短),法2是先利用分析学方法对辅助函数的性质做一刻化,然后得到极值点。更多证法请参考维基百科。
在数域F上的线性空间 V V V中,若给每个向量赋予唯一的一个实数,当该实数满足如下四条范数公理时,称给每个向量定义了范数,并称 V V V是赋范空间:
线性空间中內积与范数的关系(内积诱导的范数):
定理:设 ⟨ ∙ , ∙ ⟩ \langle \bullet,\bullet\rangle ⟨∙,∙⟩是内积空间 V V V上的內积,则 f ( x ) = ⟨ x , x ⟩ f(x)=\sqrt{\langle x,x\rangle} f(x)=⟨x,x⟩可作为 V V V上的范数(称 ⟨ x , x ⟩ \sqrt{\langle x,x\rangle} ⟨x,x⟩是由内积诱导的范数)
证明:
由內积的正定性可直接得 f f f的正定性。
∀ c ∈ F \forall c\in F ∀c∈F, f ( c x ) = ⟨ c x , c x ⟩ = c ˉ c ⟨ x , x ⟩ = ∣ c ∣ 2 ⟨ x , x ⟩ = ∣ c ∣ ⟨ x , x ⟩ = ∣ c ∣ f ( x ) f(cx)=\sqrt{\langle cx,cx\rangle }=\sqrt{\bar cc\langle x,x\rangle }=\sqrt{|c|^2\langle x,x\rangle }=|c|\sqrt{\langle x,x\rangle }=|c|f(x) f(cx)=⟨cx,cx⟩=cˉc⟨x,x⟩=∣c∣2⟨x,x⟩=∣c∣⟨x,x⟩=∣c∣f(x),故 f f f满足齐次性。
由內积的柯西施瓦兹不等式,得 R e { ⟨ x , y ⟩ } ⩽ ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ Re\{\langle x,y\rangle \}\leqslant |\langle x,y\rangle |\leqslant\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } Re{⟨x,y⟩}⩽∣⟨x,y⟩∣⩽⟨x,x⟩⟨y,y⟩,故 f ( x + y ) = ⟨ x + y , x + y ⟩ = ⟨ x , x ⟩ + ⟨ y , y ⟩ + 2 R e { ⟨ x , y ⟩ } ⩽ ⟨ x , x ⟩ + ⟨ y , y ⟩ + 2 ⟨ x , x ⟩ ⟨ y , y ⟩ = ⟨ x , x ⟩ + ⟨ y , y ⟩ = f ( x ) + f ( y ) \begin{aligned}f(x+y)&=\sqrt{\langle x+y,x+y\rangle }\\&=\sqrt{\langle x,x\rangle +\langle y,y\rangle +2Re\{\langle x,y\rangle \}}\\&\leqslant\sqrt{\langle x,x\rangle +\langle y,y\rangle +2\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }}\\&=\sqrt{\langle x,x\rangle }+\sqrt{\langle y,y\rangle }\\&=f(x)+f(y)\end{aligned} f(x+y)=⟨x+y,x+y⟩=⟨x,x⟩+⟨y,y⟩+2Re{⟨x,y⟩}⩽⟨x,x⟩+⟨y,y⟩+2⟨x,x⟩⟨y,y⟩=⟨x,x⟩+⟨y,y⟩=f(x)+f(y)故 f f f满足三角不等式。综上, f f f可作为 V V V上的一种范数。
【注】这一定理说明,任意内积空间都可以定义范数(由内积诱导的范数),使其成为一个赋范空间。(不严谨的说法是,任意内积空间都是赋范空间)
内积诱导的范数的性质:
R m R^m Rm或 C m C^m Cm中常用的向量范数
l 1 l_1 l1范数: ∣ ∣ x ∣ ∣ 1 = ∑ i = 0 m ∣ x i ∣ ||x||_1=\sum_{i=0}^m|x_i| ∣∣x∣∣1=∑i=0m∣xi∣
l 2 l_2 l2范数(又称Frobenius范数、欧几里得范数等): ∣ ∣ x ∣ ∣ 2 = ∑ i = 0 m ∣ x i ∣ 2 ||x||_2=\sqrt{\sum_{i=0}^m|x_i|^2} ∣∣x∣∣2=∑i=0m∣xi∣2,即 ∣ ∣ x ∣ ∣ 2 = x H x ||x||_2=\sqrt{x^Hx} ∣∣x∣∣2=xHx
l p l_p lp范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 m ∣ x i ∣ p ) 1 p , p ∈ R ∧ p ⩾ 1 ||x||_p=\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}},p\in{R}\land{}p\geqslant{1} ∣∣x∣∣p=(∑i=1m∣xi∣p)p1,p∈R∧p⩾1
l ∞ l_{\infty} l∞范数:当 l p l_p lp范数中的 p p p趋于正无穷时,其极限是存在的,称该极限为 l ∞ l_{\infty} l∞范数。现在证明该极限是存在的:
证明:
记 S = m a x { ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯ , ∣ x m ∣ } S=max\{|x_1|,|x_2|,\cdots,|x_m|\} S=max{∣x1∣,∣x2∣,⋯,∣xm∣}。 S = ( S p ) 1 p ⩽ ( ∑ i = 1 m ∣ x i ∣ p ) 1 p ⩽ ( m S p ) 1 p = m 1 p S S=(S^p)^\frac{1}{p}\leqslant{}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}\leqslant{}\bigl(mS^p\bigr)^\frac{1}{p}=m^{\frac{1}{p}}S S=(Sp)p1⩽(i=1∑m∣xi∣p)p1⩽(mSp)p1=mp1S lim p → + ∞ S = lim p → + ∞ m 1 p S = S \lim_{p\to{+\infty}}S=\lim_{p\to{+\infty}}m^{\frac{1}{p}}S=S p→+∞limS=p→+∞limmp1S=S由夹逼定理 lim p → + ∞ ( ∑ i = 1 m ∣ x i ∣ p ) 1 p = S = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯ , ∣ x m ∣ ) \lim_{p\to{+\infty}}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}=S=max(|x_1|,|x_2|,\cdots,|x_m|) p→+∞lim(i=1∑m∣xi∣p)p1=S=max(∣x1∣,∣x2∣,⋯,∣xm∣)因此我们定义 ∣ ∣ x ∣ ∣ ∞ = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯ , ∣ x m ∣ ) ||x||_\infty=max(|x_1|,|x_2|,\cdots,|x_m|) ∣∣x∣∣∞=max(∣x1∣,∣x2∣,⋯,∣xm∣)。
向量间的距离:常采用两向量差的 l p l_p lp范数作为这两个向量间的距离的定义,以下是各个范数定义出的距离的名称。
向量间的距离的性质(根据范数公理得出):
对数域F上一有限维线性空间V,n维向量组的线性无关、极大无关组等概念都可以直接搬过来用。实际上线性空间可以看做一个特殊的向量组(不过不一定是n维向量组,这里的向量应该抽象地理解,实际上就是指V这一集合中的元素),特殊在它对线性运算具有封闭性,这也导致它要么是只含一个向量的向量组(零元),要么是含有无穷多向量的向量组。正因为线性空间这样的特殊性,需要引入一些新的概念来描述它。
定义:若V中的线性无关向量组可以含任意多个向量,则称V是无限维空间,否则称V是有限维空间
定义:若V的一个线性无关向量组满足任意V中向量都可由该组线性表示,则称该线性无关组是V的一组基
定理:有限维空间V必有极大无关组,V的所有极大无关组都含有相同数目的向量,都可以作为V的一组基。定义V的极大无关组所含向量的个数为V的维数,记作 dim V \dim\ V dim V。对于n维线性空间V,V中任意n个线性无关的向量都可构成V的一组基。V中任意向量都可由V的一组基唯一地线性表示。
定义:设有限维空间V的一个基向量组为 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an,任意V中向量x可由它唯一地线性表示,即存在唯一的向量z使得 x = [ a 1 ⋯ a n ] z x=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z x=[a1⋯an]z,称z是x在该基下的坐标向量,简称坐标
【注】 [ a 1 ⋯ a n ] \begin{bmatrix}a_1&\cdots&a_n\end{bmatrix} [a1⋯an]不是通常意义的矩阵,这里只是引用矩阵的记法以及矩阵与向量的乘法来简洁地表达x与z的关系。
定义:设有限维空间V的两组基分别为 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an和 b 1 , b 2 , ⋯ , b n b_1,b_2,\cdots,b_n b1,b2,⋯,bn,则 b i b_i bi可由 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an线性表示,即存在 z i ∈ F n z_i\in{F^n} zi∈Fn使得 b i = [ a 1 ⋯ a n ] z i b_i=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_i bi=[a1⋯an]zi,记矩阵 Z = [ z 1 z 2 ⋯ z n ] Z=\begin{bmatrix}z_1&z_2&\cdots&z_n\end{bmatrix} Z=[z1z2⋯zn],则有 [ b 1 b 2 ⋯ b n ] = [ a 1 ⋯ a n ] Z \begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}Z [b1b2⋯bn]=[a1⋯an]Z,称Z是从基 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an到基 b 1 , b 2 , ⋯ , b n b_1,b_2,\cdots,b_n b1,b2,⋯,bn的过渡矩阵
定理:有限维空间V的基 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an到基 b 1 , b 2 , ⋯ , b n b_1,b_2,\cdots,b_n b1,b2,⋯,bn的过渡矩阵 Z Z Z是可逆矩阵
证明:(反证法)
假设 Z = [ z 1 ⋯ z n ] Z=\begin{bmatrix}z_1&\cdots&z_n\end{bmatrix} Z=[z1⋯zn]不可逆,即 Z Z Z的列向量组是线性相关的,则存在 0 ⩽ i ⩽ n 0\leqslant{i}\leqslant{n} 0⩽i⩽n以及 k 1 , ⋯ , k i − 1 , k i + 1 , ⋯ , k n ∈ F k_1,\cdots,k_{i-1},k_{i+1},\cdots,k_n\in{F} k1,⋯,ki−1,ki+1,⋯,kn∈F使得 z i = ∑ j ≠ i k j z j z_i=\sum_{j\neq{i}}{k_jz_j} zi=∑j=ikjzj。则 b i = [ a 1 ⋯ a n ] z i = [ a 1 ⋯ a n ] ∑ j ≠ i k j z j = ∑ j ≠ i k j [ a 1 ⋯ a n ] z j = ∑ j ≠ i k j b j \begin{aligned}b_i&=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_i\\&=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}\sum_{j\neq{i}}{k_jz_j}\\&=\sum_{j\neq{i}}{k_j}\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_j\\&=\sum_{j\neq{i}}{k_jb_j}\end{aligned} bi=[a1⋯an]zi=[a1⋯an]j=i∑kjzj=j=i∑kj[a1⋯an]zj=j=i∑kjbj即 b 1 , b 2 , ⋯ , b n b_1,b_2,\cdots,b_n b1,b2,⋯,bn是线性相关的,这与基的定义相矛盾,故假设不成立。故 Z Z Z是可逆矩阵。
定义:(正交向量组和标准正交向量组)若V的一个向量组不含零向量,且任意两向量正交,则称该向量组是一个正交向量组。如果V的正交向量组的每个向量都是单位向量,则称该正交向量组是标准正交向量组
定理:正交向量组一定是线性无关向量组
定义:n维内积空间V的n个向量构成的正交向量组称为V的正交基,若某正交基的每个向量是单位向量,则称该正交基为V的标准正交基(单位向量是指满足 ⟨ x , x ⟩ = 1 \langle x,x\rangle=1 ⟨x,x⟩=1)
定理:设 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an是内积空间V的一个正交基,则 ∀ x ∈ V , x = ∑ i = 1 n ⟨ x , a i ⟩ ⟨ a i , a i ⟩ a i \forall{x}\in{V},x=\sum_{i=1}^n\frac{\langle x,a_i\rangle }{\langle a_i,a_i\rangle }a_i ∀x∈V,x=i=1∑n⟨ai,ai⟩⟨x,ai⟩ai
【注】对于实內积空间, ⟨ a i , x ⟩ = ⟨ x , a i ⟩ \langle a_i,x\rangle =\langle x,a_i\rangle ⟨ai,x⟩=⟨x,ai⟩,但对于复內积空间, ⟨ a i , x ⟩ = ⟨ x , a i ⟩ ‾ \langle a_i,x\rangle =\overline{\langle x,a_i\rangle} ⟨ai,x⟩=⟨x,ai⟩。上式对于实內积空间和复內积空间都成立。这个定理说明,只要在线性空间上定义出内积这个东西,那么任意向量在给定基下的表示都是可以求的(用内积表示出来)。
Gram-Schmidt正交化方法:任意 n n n维内积空间V都有标准正交基,其标准正交基可从 V V V的任何一组基 a 1 , a 2 , ⋯ , a n a_1,a_2,\cdots,a_n a1,a2,⋯,an构造而得: b 1 = a 1 b 2 = a 2 − ⟨ a 2 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 b 3 = a 3 − ⟨ a 3 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 − ⟨ a 3 , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 ⋯ ⋯ ⋯ b n = a n − ⟨ a n , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 − ⟨ a n , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 − ⋯ − ⟨ a n , b n − 1 ⟩ ⟨ b n − 1 , b n − 1 ⟩ b n − 1 \begin{aligned}&b_1=a_1\\&b_2=a_2-\frac{\langle a_2,b_1\rangle }{\langle b_1,b_1\rangle }b_1\\&b_3=a_3-\frac{\langle a_3,b_1\rangle }{\langle b_1,b_1\rangle }b_1-\frac{\langle a_3,b_2\rangle }{\langle b_2,b_2\rangle }b_2\\&\cdots\cdots\cdots\\&b_n=a_n-\frac{\langle a_n,b_1\rangle }{\langle b_1,b_1\rangle }b_1-\frac{\langle a_n,b_2\rangle }{\langle b_2,b_2\rangle }b_2-\cdots-\frac{\langle a_n,b_{n-1}\rangle }{\langle b_{n-1},b_{n-1}\rangle }b_{n-1}\end{aligned} b1=a1b2=a2−⟨b1,b1⟩⟨a2,b1⟩b1b3=a3−⟨b1,b1⟩⟨a3,b1⟩b1−⟨b2,b2⟩⟨a3,b2⟩b2⋯⋯⋯bn=an−⟨b1,b1⟩⟨an,b1⟩b1−⟨b2,b2⟩⟨an,b2⟩b2−⋯−⟨bn−1,bn−1⟩⟨an,bn−1⟩bn−1这就构造出了V的一组正交基,只要再将每个基向量单位化就得到V的一组标准正交基。
【注1】其实Gram-Schmidt正交化方法是根据几何意义得出的,基本思路很简单:当我们已经使用 a 1 , a 2 , . . . , a k a_1,a_2,...,a_k a1,a2,...,ak构造出正交向量组 b 1 , b 2 , . . . b k b_1,b_2,...b_k b1,b2,...bk时,我们考虑如何将这个正交向量组扩充为 k + 1 k+1 k+1个向量。取 a k + 1 a_{k+1} ak+1,将它依次正交投影到 b 1 , b 2 , . . . , b k b_1,b_2,...,b_k b1,b2,...,bk上,得到分量 ⟨ a k + 1 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 , ⟨ a k + 1 , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 , ⋯ , ⟨ a k + 1 , b k ⟩ ⟨ b k , b k ⟩ b n − 1 \frac{\langle a_{k+1},b_1\rangle }{\langle b_1,b_1\rangle }b_1,\frac{\langle a_{k+1},b_2\rangle }{\langle b_2,b_2\rangle }b_2,\cdots,\frac{\langle a_{k+1},b_{k}\rangle }{\langle b_{k},b_{k}\rangle }b_{n-1} ⟨b1,b1⟩⟨ak+1,b1⟩b1,⟨b2,b2⟩⟨ak+1,b2⟩b2,⋯,⟨bk,bk⟩⟨ak+1,bk⟩bn−1,那么 a k + 1 a_{k+1} ak+1减去所有这些分量后得到的自然就是与 b 1 , b 2 , . . . , b k b_1,b_2,...,b_k b1,b2,...,bk都正交的向量。令这个结果为 b k + 1 b_{k+1} bk+1,可以看出 b k + 1 ≠ 0 b_{k+1}\neq 0 bk+1=0(否则 a k + 1 a_{k+1} ak+1就可由 a 1 , a 2 , . . . , a k a_1,a_2,...,a_k a1,a2,...,ak线性表出了),于是就有正交向量组 b 1 , b 2 , . . . , b k + 1 b_1,b_2,...,b_{k+1} b1,b2,...,bk+1。
【注2】Gram-Schmidt正交化方法还有一个理论分析上很好用的地方:任意正交向量组可以扩充为完整的正交基。设 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar是 n n n维內积空间 V V V的一个正交向量组,根据下面的扩充定理,可以把 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为基 a 1 , a 2 , . . . , a n a_1,a_2,...,a_n a1,a2,...,an。使用上面的公式计算得到正交基 b 1 , b 2 , . . . b n b_1,b_2,...b_n b1,b2,...bn,你会发现 b 1 = a 1 b_1=a_1 b1=a1, b 2 = a 2 b_2=a_2 b2=a2,……, b r = a r b_r=a_r br=ar。也就是说,这是正交向量组 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充后的结果。
扩充定理:对任意r维线性空间V,V的任意一个线性无关组都可以扩充为V的一组基
证明:
对V中任意线性无关组U,若U含有r个向量,则U就是V的一组基。若U含有 n < r n\lt{r} n<r个向量,取 V V V的一组基 U ′ U^{'} U′,则存在 U ′ U^{'} U′中的一个向量x,x不能用U线性表示(用反证法:U可以用 U ′ U^{'} U′线性表示,假设 U ′ U^{'} U′可以用U线性表示,则U和 U ′ U^{'} U′是等价的,它们含有的向量个数相同,这与 n < r n\lt{r} n<r是矛盾的,故假设不成立)。所以 U ∪ x U\cup{\text{{x}}} U∪x是线性无关的(若 U ∪ x U\cup{\text{{x}}} U∪x是线性相关的,则由U线性无关知,x可由U线性表示,这是矛盾的)。将x加入U中,得到 n + 1 n+1 n+1个线性无关的向量。重复以上步骤,直到U中含有r个向量,这就将开始时的U扩充为了V的一组基。得证。
设 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar是 F n F^n Fn的一个线性无关向量组,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为 F n F^n Fn的一组基:
方法:
设 A = [ a 1 a 2 ⋯ a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} A=[a1a2⋯ar],则A是一个列满秩矩阵,故可通过有限步初等行变换将A变换成它的秩标准形,即存在可逆矩阵P使得 P A = [ I r O ] PA=\begin{bmatrix}I_r\\O\end{bmatrix} PA=[IrO]。设 B = P − 1 [ I r O O I n − r ] = P − 1 B=P^{-1}\begin{bmatrix}I_r&O\\O&I_{n-r}\end{bmatrix}=P^{-1} B=P−1[IrOOIn−r]=P−1,则B是可逆矩阵,B的列向量组是 F n F^n Fn的一组基。由于 B = [ P − 1 [ I r O ] P − 1 [ O I n − r ] ] = [ A P − 1 [ O I n − r ] ] B=\begin{bmatrix}{P^{-1}\begin{bmatrix}I_r\\O\end{bmatrix}}&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix}=\begin{bmatrix}A&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix} B=[P−1[IrO]P−1[OIn−r]]=[AP−1[OIn−r]],故B的列向量组包含了A的列向量组,这就将A的列向量组扩充为了 F n F^n Fn的一组基。
设V是 F n F^n Fn的一个m维线性子空间,且 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar是V中一组线性无关的向量,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为V的一组基:
方法:
设 b 1 , b 2 , ⋯ , b m b_1,b_2,\cdots,b_m b1,b2,⋯,bm是已知的V的一组基,设 B = [ b 1 b 2 ⋯ b m ] B=\begin{bmatrix}b_1&b_2&\cdots&b_m\end{bmatrix} B=[b1b2⋯bm], A = [ a 1 a 2 ⋯ a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} A=[a1a2⋯ar],A的列向量组可以用B的列向量组线性表示,设 a i = B x i a_i=Bx_i ai=Bxi,求出每个 x i x_i xi。设 X = [ x 1 x 2 ⋯ x r ] X=\begin{bmatrix}x_1&x_2&\cdots&x_r\end{bmatrix} X=[x1x2⋯xr],则 A = B X A=BX A=BX,显然X是一个列满秩矩阵,可以通过扩充的方法(见上一条)将X扩充为 [ X X ′ ] \begin{bmatrix}X&X^{'}\end{bmatrix} [XX′],它有m个线性无关的列向量。显然 B [ X X ′ ] B\begin{bmatrix}X&X^{'}\end{bmatrix} B[XX′]的列向量组是线性无关的,且都在V内,故可作为V的一组基,又知它包含了A的列向量组,这就将A的列向量组扩充为了V的一组基。
(注意,子空间的交与并就是集合的交与并)
定理:设 V 1 V_1 V1、 V 2 V_2 V2是数域F上的线性空间V的两个子空间,则 V 1 ∩ V 2 V_1\cap V_2 V1∩V2也是V的子空间
定义:设 V 1 V_1 V1、 V 2 V_2 V2是数域F上的线性空间V的两个子空间,定义 V 1 V_1 V1、 V 2 V_2 V2的和为: V 1 + V 2 = { x + y ∣ x ∈ V 1 , y ∈ V 2 } V_1+V_2=\left\{x+y\mid x\in{V_1},y\in{V_2}\right\} V1+V2={x+y∣x∈V1,y∈V2}
定理:设 V 1 V_1 V1、 V 2 V_2 V2是数域F上的线性空间V的两个子空间,则 V 1 + V 2 V_1+V_2 V1+V2也是V的子空间
定义:若 V 1 + V 2 V_1+V_2 V1+V2中的任意向量可唯一地表示为 V 1 V_1 V1中一个向量和 V 2 V_2 V2中一个向量的和,则称 V 1 + V 2 V_1+V_2 V1+V2是 V 1 V_1 V1和 V 2 V_2 V2的直和,记为 V 1 ⊕ V 2 V_1\oplus V_2 V1⊕V2
定理: V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1⊕V2的充要条件为 V 1 ∩ V 2 = L ( 0 ) V_1\cap V_2=L(0) V1∩V2=L(0),其中 L ( 0 ) = { 0 } L(0)=\{0\} L(0)={0}是V的零子空间
证:
必要性:由线性空间的定义, L ( 0 ) ⊆ V 1 ∩ V 2 L(0)\subseteq V_1\cap V_2 L(0)⊆V1∩V2,故只需证 V 1 ∩ V 2 ⊆ L ( 0 ) V_1\cap V_2\subseteq L(0) V1∩V2⊆L(0)。任取 x ∈ V 1 ∩ V 2 x\in V_1\cap V_2 x∈V1∩V2,则 x ∈ V 1 x\in V_1 x∈V1且 x ∈ V 2 x\in V_2 x∈V2,由线性空间对数乘的封闭性知 − x ∈ V 2 -x\in V_2 −x∈V2。在 V 1 + V 2 V_1+V_2 V1+V2中,零向量 0 = x + ( − x ) 0=x+(-x) 0=x+(−x),其中 x ∈ V 1 , − x ∈ V 2 x\in V_1,-x\in V_2 x∈V1,−x∈V2,另一方面, 0 = 0 + 0 0=0+0 0=0+0,其中 0 ∈ V 1 0\in V_1 0∈V1且 0 ∈ V 2 0\in V_2 0∈V2。由直和的定义知 x = 0 x=0 x=0,故 V 1 ∩ V 2 ⊆ L ( 0 ) V_1\cap V_2\subseteq L(0) V1∩V2⊆L(0)。
充分性:任取 x ∈ V 1 + V 2 x\in V_1+V_2 x∈V1+V2,若 x x x可表示为 x = y 1 + z 1 = y 2 + z 2 x=y_1+z_1=y_2+z_2 x=y1+z1=y2+z2,其中 y 1 , y 2 ∈ V 1 y_1,y_2\in V_1 y1,y2∈V1, z 1 , z 2 ∈ V 2 z_1,z_2\in V_2 z1,z2∈V2,则有 y 1 − y 2 = z 2 − z 1 y_1-y_2=z_2-z_1 y1−y2=z2−z1,记 x ′ = y 1 − y 2 = z 2 − z 1 x'=y_1-y_2=z_2-z_1 x′=y1−y2=z2−z1,则由线性空间的封闭性知 x ′ ∈ V 1 x'\in V_1 x′∈V1且 x ′ ∈ V 2 x'\in V_2 x′∈V2,即 x ′ ∈ V 1 ∩ V 2 = L ( 0 ) x'\in V_1\cap V_2=L(0) x′∈V1∩V2=L(0),得 x ′ = 0 x'=0 x′=0,故 y 1 = y 2 , z 1 = z 2 y_1=y_2,z_1=z_2 y1=y2,z1=z2,可见 x x x可唯一表示为 V 1 V_1 V1中一向量和 V 2 V_2 V2中一向量之和,故 V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1⊕V2。
定理:设 V 1 V_1 V1、 V 2 V_2 V2是数域F上的线性空间V的两个子空间, V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1⊕V2,则任取 V 1 V_1 V1的一组基 U 1 U_1 U1以及 V 2 V_2 V2的一组基 U 2 U_2 U2,有 U 1 ∩ U 2 = ∅ U_1\cap U_2=\varnothing U1∩U2=∅且 U 1 ∪ U 2 U_1\cup U_2 U1∪U2是 V 1 + V 2 V_1+V_2 V1+V2的一组基
证明:
设 U 1 = { a 1 , . . . , a k } U_1=\{a_1,...,a_k\} U1={a1,...,ak}, U 2 = { b 1 , . . . , b l } U_2=\{b_1,...,b_l\} U2={b1,...,bl}。首先证明 a 1 , . . . , a k , b 1 , . . . , b l a_1,...,a_k,b_1,...,b_l a1,...,ak,b1,...,bl线性无关(从而有 U 1 ∩ U 2 = ∅ U_1\cap U_2=\varnothing U1∩U2=∅)。任取 c 1 , . . . , c k , d 1 , . . . , d l ∈ F c_1,...,c_k,d_1,...,d_l\in F c1,...,ck,d1,...,dl∈F,满足 c 1 a 1 + . . . + c k a k + d 1 b 1 + . . . + d l b l = 0 c_1a_1+...+c_ka_k+d_1b_1+...+d_lb_l=0 c1a1+...+ckak+d1b1+...+dlbl=0,则 c 1 a 1 + . . . + c k a k = − ( d 1 b 1 + . . . + d l b l ) ∈ V 1 ∩ V 2 = L ( 0 ) c_1a_1+...+c_ka_k=-(d_1b_1+...+d_lb_l)\in V_1\cap V_2=L(0) c1a1+...+ckak=−(d1b1+...+dlbl)∈V1∩V2=L(0),故 c 1 a 1 + . . . + c k a k = 0 c_1a_1+...+c_ka_k=0 c1a1+...+ckak=0且 d 1 b 1 + . . . + d l b l = 0 d_1b_1+...+d_lb_l=0 d1b1+...+dlbl=0,由基的线性无关性得 c 1 = . . . = c k = d 1 = . . . d l = 0 c_1=...=c_k=d_1=...d_l=0 c1=...=c