矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换

矩阵论专栏:专栏(文章按照顺序排序)

本篇博客的上篇是矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩,前面博客主要介绍了线性代数中的一些基本概念和基本方法,重点整理了的相关结论,本文主要整理线性空间与线性变换的相关内容。

本文主要有以下内容:

  • 线性空间
    • 线性空间与子空间
    • 內积公理(向量的正交投影、Cauchy-Schwarz不等式)
    • 范数公理(由内积诱导的范数、常用的向量范数、向量间距离)
    • 线性空间的基
    • 子空间的运算与关系
      • 交、和、直和、正交补
      • 应用
        • 矩阵的基本子空间及关系
        • 幂等矩阵的充要条件
      • 拓展内容:多个子空间的直和
    • 矩阵的內积与范数
  • 线性变换
    • 线性变换的定义及性质
    • 线性变换的矩阵
    • 逆变换与逆矩阵
    • Hermite变换/自伴变换与Hermite矩阵/实对称矩阵
    • 酉变换/正交变换与酉矩阵/正交矩阵
    • 正规变换与正规矩阵

【说明】需要指出的是,严格来说,向量组并不是一个集合,向量组中可以有重复向量,例如向量组 x , x , y x,x,y x,x,y,其中 x , y ∈ C n x,y\in C^n x,yCn,而集合是不能有重复元素的。对于有限大小的向量组,我们总可以明确地把它写成向量的序列的形式(例如 x , x , y x,x,y x,x,y),但对于无限大小的向量组,我们没法明确地写出这个向量组,此时向量组到底是什么呢?实际上,很多线代教材没有明确地给出向量组的定义,很多人认为向量组就是向量的一个集合。按照严格的数学定义,向量组(a family of vectors)分为有序向量族(an ordered family of vectors)和无序向量族(a family of vectors)两种情形,其中无序向量族是给定线性空间上的一个加标族(indexed family),有序向量族是给定线性空间上的加标族以及该加标族的指标集上的一个良序(well order)。通常情况下,向量组的概念是指无序向量族,但也有不同的处理,例如丘维声的高等代数书中就认为向量组是有序的,此时 x , x , y x,x,y x,x,y x , y , x x,y,x x,y,x并不是同一个向量组。本文只讨论有限的向量组,且默认向量组是无序的、可含有重复向量。另外,当向量组中不含重复向量时,本文不区分向量组和向量的集合(换言之,直接用向量的集合来表示一个向量组)。
好奇的朋友可以参考如下资料:
math.stackexchange.com/questions/1375149
Indexed family - Wikipedia


线性空间

线性空间与子空间

  • 线性空间的定义
    设V是一个非空集合,F是一个数域,若V满足以下10条公理,则称V是F上的一个线性空间,简称线性空间(又称向量空间):
    • 在V的元素(称为向量,是一种抽象的概念)间定义了一种二元运算,叫做“加法”,满足加法运算是封闭的 ∀ x , y ∈ V , x + y ∈ V \forall{x,y}\in{V}, x+y\in{V} x,yV,x+yV
    • 在数域F和V的元素间定义了一种代数运算,叫做“数量乘法”,简称数乘,满足数乘运算是封闭的 ∀ k ∈ F , ∀ x ∈ V , k x ∈ V \forall{k}\in{F},\forall{x}\in{V},kx\in{V} kF,xV,kxV
    • 满足加法的交换律: ∀ x , y ∈ V , x + y = y + x \forall{x,y}\in{V},x+y=y+x x,yV,x+y=y+x
    • 满足加法的结合律: ∀ x , y , z ∈ V , ( x + y ) + z = x + ( y + z ) \forall{x,y,z}\in{V},(x+y)+z=x+(y+z) x,y,zV,(x+y)+z=x+(y+z)
    • 存在零元: ∃ 0 ∈ V , ∀ x ∈ V , x + 0 = x \exists{0}\in{V},\forall{x}\in{V},x+0=x 0V,xV,x+0=x
    • V中每个元素都有负元: ∀ x ∈ V , ∃ − x ∈ V , x + ( − x ) = 0 \forall{x}\in{V},\exists{-x}\in{V},x+(-x)=0 xV,xV,x+(x)=0
    • 满足数乘的单位率: ∀ x ∈ V , 1 x = x \forall{x}\in{V},1x=x xV,1x=x
    • 满足数乘运算的结合律: ∀ k , b ∈ F , ∀ x ∈ V , k ( b x ) = ( k b ) x \forall{k,b}\in{F},\forall{x}\in{V},k(bx)=(kb)x k,bF,xV,k(bx)=(kb)x
    • 满足数乘运算对向量的分配律: ∀ k ∈ F , ∀ x , y ∈ V , k ( x + y ) = k x + k y \forall{k}\in{F},\forall{x,y}\in{V},k(x+y)=kx+ky kF,x,yV,k(x+y)=kx+ky
    • 满足数乘运算对数的分配律: ∀ k , b ∈ F , ∀ x ∈ V , ( k + b ) x = k x + b x \forall{k,b}\in{F},\forall{x}\in{V},(k+b)x=kx+bx k,bF,xV,(k+b)x=kx+bx
      当数域F是实数域时,称线性空间V是实线性空间;当F是复数域时,称V是复线性空间。易验证 C n C^n Cn是一个复线性空间。
  • 线性空间的性质
    • 零元是唯一的
    • 每个向量的负元是唯一的,由此可以定义向量间的减法: x − y = x + ( − y ) x-y=x+(-y) xy=x+(y)
    • 0 x = 0 , ( − 1 ) x = − x , k 0 = 0 0x=0,(-1)x=-x,k0=0 0x=0,(1)x=x,k0=0
    • k x = 0 kx=0 kx=0,则 k = 0 ∨ x = 0 k=0\lor{}x=0 k=0x=0
  • 线性子空间的定义与判定
    • 定义:设W是线性空间V的一个非空子集,若W是线性空间,则称W是V的线性子空间

    • 定理:设W是线性空间V的一个非空子集,则W是V的子空间的充要条件为W对V中的线性运算(加法和数乘)封闭

      例:关于x的齐次线性方程组 A x = 0 , A ∈ F m × n Ax=0,A\in{}F^{m\times{n}} Ax=0AFm×n的所有解向量 x ∈ F n x\in{F^n} xFn构成了 F n F^n Fn的一个线性子空间,称为矩阵A的零空间或核空间,记为 N ( A ) N(A) N(A),即 N ( A ) = { x ∈ F n ∣ A x = 0 } N(A)=\{x\in{F^n}|Ax=0\} N(A)={xFnAx=0} A T A^T AT的零空间称为 A A A的左零空间。

    • 定义:设 a 1 , a 2 , ⋯   , a s a_1,a_2,\cdots,a_s a1,a2,,as是V中的向量,这些向量的所有线性组合构成了V的一个线性子空间 { k 1 a 1 + ⋯ + k s a s ∣ k 1 , ⋯   , k s ∈ F } \{k_1a_1+\cdots+k_sa_s|k_1,\cdots,k_s\in{F}\} {k1a1++ksask1,,ksF},称为V的生成子空间,记作 W = s p a n { a 1 , a 2 , ⋯   , a s } W=span\{a_1,a_2,\cdots,a_s\} W=span{a1,a2,,as}

      例:矩阵 A ∈ F m × n A\in{}F^{m\times{n}} AFm×n的所有列向量的线性组合构成了 F m F^m Fm的一个生成子空间,常称为A的列空间,又叫A的值域,记为 R ( A ) R(A) R(A),即 R ( A ) = { A x ∣ x ∈ F n } R(A)=\{Ax|x\in{F^n}\} R(A)={AxxFn};同样地, A ∈ F m × n A\in{}F^{m\times{n}} AFm×n的所有行向量的线性组合构成了 F n F^n Fn的一个生成子空间,常称为A的行空间。注意, A A A的行向量就是 A T A^T AT的列向量,因此 A A A的行空间实际上就是 R ( A T ) R(A^T) R(AT)

內积公理

设V是数域F上的线性空间,若在V的任意两个向量间定义了满足以下4条內积公理的二元运算 V × V → F V\times V\rightarrow F V×VF,则称V是內积空间。若 F = R F=R F=R,则称V是实内积空间,或欧式空间(也有资料认为有限维的实内积空间才叫欧式空间);若 F = C F=C F=C,则称V是复内积空间,或酉空间

  • 共轭对称性: ⟨ x , y ⟩ = ⟨ y , x ⟩ ‾ \langle x,y\rangle =\overline{\langle y,x\rangle } x,y=y,x
  • 加性: ⟨ x + y , z ⟩ = ⟨ x , z ⟩ + ⟨ y , z ⟩ \langle x+y,z\rangle =\langle x,z\rangle +\langle y,z\rangle x+y,z=x,z+y,z
  • 齐性: ⟨ k x , y ⟩ = k ⟨ x , y ⟩ , k ∈ F \langle kx,y\rangle =k\langle x,y\rangle ,k\in{F} kx,y=kx,y,kF
  • 非负性/正定性: ⟨ x , x ⟩ ∈ R ∧ ⟨ x , x ⟩ ⩾ 0 \langle x,x\rangle \in{R}\land{}\langle x,x\rangle \geqslant{0} x,xRx,x0,且 ⟨ x , x ⟩ = 0 \langle x,x\rangle =0 x,x=0的充要条件为 x = 0 x=0 x=0

F F F为任一数域,在 F n F^n Fn中定义向量的欧氏內积 ⟨ x , y ⟩ = y H x \langle x,y\rangle =y^Hx x,y=yHx,易验证是满足內积公理的。欧氏內积是 F n F^n Fn中最常用的向量內积,如无特别说明, F n F^n Fn中的內积默认是欧氏內积
注意上述内积公理的定义对任意数域F上的线性空间都是适用的,当数域 F F F为实数域或有理数域时,内积公理的第一条“共轭对称性”将自动退化为对称性。

从上面的公理可以推导出:

  • ⟨ x , y + z ⟩ = ⟨ x , y ⟩ + ⟨ x , z ⟩ \langle x,y+z\rangle =\langle x,y\rangle +\langle x,z\rangle x,y+z=x,y+x,z
  • ⟨ x , k y ⟩ = k ˉ ⟨ x , y ⟩ , k ∈ F \langle x,ky\rangle =\bar{k}\langle x,y\rangle ,k\in{F} x,ky=kˉx,y,kF
  • 柯西施瓦兹不等式: ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } x,yx,x y,y ,等号当且仅当x和y线性相关时取

下面我们证明柯西施瓦兹不等式这个內积空间中最基本的不等式。在此之前,有必要引入向量的正交投影这个概念,使读者更容易理解柯西施瓦兹不等式的几何意义。

  • 向量的夹角:向量x和y的夹角余弦定义为 c o s ( x , y ) = ⟨ x , y ⟩ ∣ ∣ x ∣ ∣ 2 ∣ ∣ y ∣ ∣ 2 cos(x,y)=\frac{\langle x,y\rangle}{||x||_2||y||_2} cos(x,y)=x2y2x,y
    【注1】若在复內积空间中探讨,则余弦值为复数;若在实內积空间中探讨,则余弦值为实数
    【注2】这个定义的几何意义其实在高中数学中有讲到,只不过当时 ∣ ∣ x ∣ ∣ 2 ||x||_2 x2被称为向量的模,也就是向量的长度, ⟨ x , y ⟩ \langle x,y\rangle x,y是向量的点积 x ∙ y x\bullet y xy。在实数域下, x ∙ y = x T y = y T x x\bullet y=x^Ty=y^Tx xy=xTy=yTx
  • 向量正交:若x和y的夹角是 9 0 ∘ 90^\circ 90,即 c o s ( x , y ) = 0 cos(x,y)=0 cos(x,y)=0 ⟨ x , y ⟩ = 0 \langle x,y\rangle =0 x,y=0,则称x和y正交(垂直)
  • 向量的正交投影
    所谓向量的投影,就是将向量 x x x分解为两个向量的和 x = x 1 + x 2 x=x_1+x_2 x=x1+x2,使得其中一个向量(例如 x 1 x_1 x1)与一给定的非零向量 y y y共线。 x 1 x_1 x1被称作是 x x x y y y上的一个投影。而正交投影是说, x x x y y y上的投影 x 1 x_1 x1必须满足 x 2 = x − x 1 x_2=x-x_1 x2=xx1 y y y正交。从几何上看(如下图),过向量 x x x的头部作向量 y y y的垂线,得到的投影 x 1 x_1 x1就是 x x x y y y的正交投影,满足 x 2 = x − x 1 x_2=x-x_1 x2=xx1(图中未标出)与图中的虚线平行。
    矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换_第1张图片
    正交投影 x 1 x_1 x1的具体表达式是什么呢?我们可以通过下面的推理构造出来:
    已知 x 1 x_1 x1 y y y共线,因此存在常数 k ∈ F k\in F kF使 x 1 = k y x_1=ky x1=ky x 2 = x − x 1 = x − k y x_2=x-x_1=x-ky x2=xx1=xky应与 y y y垂直/正交,因此必须满足 ⟨ x − k y , y ⟩ = 0 \langle x-ky,y\rangle =0 xky,y=0。现在运用內积公理求出常数 k k k ⟨ x − k y , y ⟩ = ⟨ x , y ⟩ − ⟨ k y , y ⟩ = ⟨ x , y ⟩ − k ⟨ y , y ⟩ = 0 \langle x-ky,y\rangle =\langle x,y\rangle -\langle ky,y\rangle =\langle x,y\rangle -k\langle y,y\rangle =0 xky,y=x,yky,y=x,yky,y=0,因此 k = ⟨ x , y ⟩ ⟨ y , y ⟩ k=\frac{\langle x,y\rangle }{\langle y,y\rangle } k=y,yx,y
    这就得到了正交投影的具体表达式 x 1 = ⟨ x , y ⟩ ⟨ y , y ⟩ y x_1=\frac{\langle x,y\rangle }{\langle y,y\rangle }y x1=y,yx,yy

柯西施瓦兹不等式的证明:

  • 定理:设V是数域F上的内积空间,则 ∀ x , y ∈ V \forall x, y\in V x,yV,有 ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } x,yx,x y,y ,当且仅当 x x x y y y线性相关时取等号

    证明:
    (法1)(实际上,柯西施瓦兹不等式是基于这样一个简单的事实:把向量 x x x正交投影到向量 y y y上,得到 x x x的分量 ⟨ x , y ⟩ ⟨ y , y ⟩ y \frac{\langle x,y\rangle }{\langle y,y\rangle }y y,yx,yy,则 x x x的另一个分量是 z = x − ⟨ x , y ⟩ ⟨ y , y ⟩ y z=x-\frac{\langle x,y\rangle }{\langle y,y\rangle }y z=xy,yx,yy,有 ⟨ z , z ⟩ ⩾ 0 \langle z,z\rangle \geqslant 0 z,z0
    y = 0 y=0 y=0,显然结论成立。若 y ≠ 0 y\neq 0 y=0,令 z = x − λ y z=x-\lambda y z=xλy,其中 λ = ⟨ x , y ⟩ ⟨ y , y ⟩ \lambda=\frac{\langle x,y\rangle }{\langle y,y\rangle } λ=y,yx,y,则 0 ⩽ ⟨ z , z ⟩ = ⟨ x , x ⟩ − ⟨ x , λ y ⟩ − ⟨ λ y , x ⟩ + ⟨ λ y , λ y ⟩ = ⟨ x , x ⟩ − λ ‾ ⟨ x , y ⟩ − λ ⟨ y , x ⟩ + λ λ ‾ ⟨ y , y ⟩ = ⟨ x , x ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ + ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ = ⟨ x , x ⟩ − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ \begin{aligned}0&\leqslant \langle z,z\rangle \\&=\langle x,x\rangle -\langle x,\lambda y\rangle -\langle \lambda y,x\rangle +\langle \lambda y,\lambda y\rangle \\&=\langle x,x\rangle -\overline{\lambda}\langle x,y\rangle -\lambda\langle y,x\rangle +\lambda\overline{\lambda}\langle y,y\rangle \\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\end{aligned} 0z,z=x,xx,λyλy,x+λy,λy=x,xλx,yλy,x+λλy,y=x,xy,yx,y2y,yx,y2+y,yx,y2=x,xy,yx,y2 ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } x,yx,x y,y ,显然当且仅当 z = 0 z=0 z=0 x = λ y x=\lambda y x=λy时取等号,得证。

    (法2)
    引入实值函数 f ( k ) = ⟨ x + k y , x + k y ⟩ , k ∈ C f(k)=\langle x+ky,x+ky\rangle ,k\in C f(k)=x+ky,x+ky,kC,记 k = a + b i , a , b ∈ R k=a+bi,a,b\in R k=a+bi,a,bR,其中 i i i是虚数单位, g ( a , b ) = f ( k ) = ⟨ x + ( a + b i ) y , x + ( a + b i ) y ⟩ g(a,b)=f(k)=\langle x+(a+bi)y,x+(a+bi)y\rangle g(a,b)=f(k)=x+(a+bi)y,x+(a+bi)y
    x x x y y y线性无关时,必对 ∀ k ≠ 0 \forall k\neq 0 k=0,有 x + k y ≠ 0 x+ky\neq 0 x+ky=0,故由內积公理知 g ( a , b ) > 0 g(a,b)\gt 0 g(a,b)>0 g ( a , b ) = ⟨ x + ( a + b i ) y , x + ( a + b i ) y ⟩ = ⟨ x , x ⟩ + ∣ a + b i ∣ 2 ⟨ y , y ⟩ + ( a − b i ) ⟨ x , y ⟩ + ( a + b i ) ⟨ x , y ⟩ ‾ = ( a 2 + b 2 ) ⟨ y , y ⟩ + a ( ⟨ x , y ⟩ + ⟨ x , y ⟩ ‾ ) − b i ( ⟨ x , y ⟩ − ⟨ x , y ⟩ ‾ ) + ⟨ x , x ⟩ \begin{aligned}g(a,b)&=\langle x+(a+bi)y,x+(a+bi)y\rangle \\&=\langle x,x\rangle +|a+bi|^2\langle y,y\rangle +(a-bi)\langle x,y\rangle +(a+bi)\overline{\langle x,y\rangle }\\&=(a^2+b^2)\langle y,y\rangle +a(\langle x,y\rangle +\overline{\langle x,y\rangle })-bi(\langle x,y\rangle -\overline{\langle x,y\rangle })+\langle x,x\rangle \end{aligned} g(a,b)=x+(a+bi)y,x+(a+bi)y=x,x+a+bi2y,y+(abi)x,y+(a+bi)x,y=(a2+b2)y,y+a(x,y+x,y)bi(x,yx,y)+x,x
    ∂ g ∂ a = 2 a ⟨ y , y ⟩ + ⟨ x , y ⟩ + ⟨ x , y ⟩ ‾ = 2 a ⟨ y , y ⟩ + 2 R e { ⟨ x , y ⟩ } \frac{\partial g}{\partial a}=2a\langle y,y\rangle +\langle x,y\rangle +\overline{\langle x,y\rangle }=2a\langle y,y\rangle +2Re\{\langle x,y\rangle \} ag=2ay,y+x,y+x,y=2ay,y+2Re{x,y}
    ∂ g ∂ b = 2 b ⟨ y , y ⟩ − i ( ⟨ x , y ⟩ − ⟨ x , y ⟩ ‾ ) = 2 b ⟨ y , y ⟩ + 2 I m { ⟨ x , y ⟩ } \frac{\partial g}{\partial b}=2b\langle y,y\rangle -i(\langle x,y\rangle -\overline{\langle x,y\rangle })=2b\langle y,y\rangle +2Im\{\langle x,y\rangle \} bg=2by,yi(x,yx,y)=2by,y+2Im{x,y}
    hessian矩阵 [ ∂ 2 g ∂ 2 a ∂ 2 g ∂ a ∂ b ∂ 2 g ∂ b ∂ a ∂ 2 g ∂ 2 b ] = 2 [ ⟨ y , y ⟩ 0 0 ⟨ y , y ⟩ ] \begin{bmatrix}\frac{\partial^2 g}{\partial^2 a}&\frac{\partial^2 g}{\partial a\partial b}\\\frac{\partial^2 g}{\partial b\partial a}&\frac{\partial^2 g}{\partial^2 b}\end{bmatrix}=2\begin{bmatrix}\langle y,y\rangle &0\\0&\langle y,y\rangle \end{bmatrix} [2a2gba2gab2g2b2g]=2[y,y00y,y]是对称半正定的,故 g g g R 2 R^2 R2上的凸函数。令 ∂ g ∂ a = 0 \frac{\partial g}{\partial a}=0 ag=0 ∂ g ∂ b = 0 \frac{\partial g}{\partial b}=0 bg=0得极值点 a 0 = − R e { ⟨ x , y ⟩ } ⟨ y , y ⟩ a_0=-\frac{Re\{\langle x,y\rangle \}}{\langle y,y\rangle } a0=y,yRe{x,y} b 0 = − I m { ⟨ x , y ⟩ } ⟨ y , y ⟩ b_0=-\frac{Im\{\langle x,y\rangle \}}{\langle y,y\rangle } b0=y,yIm{x,y},故 g g g的最小值为 g ( a 0 , b 0 ) = ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ − 2 R e 2 { ⟨ x , y ⟩ } ⟨ y , y ⟩ − 2 I m 2 { ⟨ x , y ⟩ } ⟨ y , y ⟩ + ⟨ x , x ⟩ = − ∣ ⟨ x , y ⟩ ∣ 2 ⟨ y , y ⟩ + ⟨ x , x ⟩ > 0 \begin{aligned}g(a_0,b_0)&=\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{2Re^2\{\langle x,y\rangle \}}{\langle y,y\rangle }-\frac{2Im^2\{\langle x,y\rangle \}}{\langle y,y\rangle }+\langle x,x\rangle \\&=-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\langle x,x\rangle \\&\gt 0\end{aligned} g(a0,b0)=y,yx,y2y,y2Re2{x,y}y,y2Im2{x,y}+x,x=y,yx,y2+x,x>0 ∣ ⟨ x , y ⟩ ∣ < ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |\lt \sqrt{\langle x,x\rangle \langle y,y\rangle } x,y<x,xy,y
    x x x y y y线性相关,即存在 t ≠ 0 t\neq 0 t=0使得 x = t y x=ty x=ty时,易验证 ∣ ⟨ x , y ⟩ ∣ = ⟨ x , x ⟩ ⟨ y , y ⟩ |\langle x,y\rangle |= \sqrt{\langle x,x\rangle \langle y,y\rangle } x,y=x,xy,y 。证毕。

    【注】对复数 x x x R e { x } Re\{x\} Re{x} x x x的实部, I m { x } Im\{x\} Im{x} x x x的虚部。法1和法2其实是从相同的角度出发,但用了不同的手段,法1是根据几何意义直截了当地构造出了辅助函数 f ( k ) = ⟨ x + k y , x + k y ⟩ , k ∈ C f(k)=\langle x+ky,x+ky\rangle ,k\in C f(k)=x+ky,x+ky,kC的极值点(垂直距离最短),法2是先利用分析学方法对辅助函数的性质做一刻化,然后得到极值点。更多证法请参考维基百科。

范数公理

在数域F上的线性空间 V V V中,若给每个向量赋予唯一的一个实数,当该实数满足如下四条范数公理时,称给每个向量定义了范数,并称 V V V赋范空间

  • 非负性/正定性: ∣ ∣ x ∣ ∣ ⩾ 0 ||x||\geqslant{0} x0,且 ∣ ∣ x ∣ ∣ = 0 ||x||=0 x=0的充要条件是 x = 0 x=0 x=0
  • 齐次性: ∣ ∣ c x ∣ ∣ = ∣ c ∣ ∣ ∣ x ∣ ∣ , c ∈ F ||cx||=|c|||x||,c\in{F} cx=cx,cF
  • 三角不等式: ∣ ∣ x + y ∣ ∣ ⩽ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leqslant{}||x||+||y|| x+yx+y

线性空间中內积与范数的关系(内积诱导的范数):

  • 定理:设 ⟨ ∙ , ∙ ⟩ \langle \bullet,\bullet\rangle ,是内积空间 V V V上的內积,则 f ( x ) = ⟨ x , x ⟩ f(x)=\sqrt{\langle x,x\rangle} f(x)=x,x 可作为 V V V上的范数( ⟨ x , x ⟩ \sqrt{\langle x,x\rangle} x,x 是由内积诱导的范数

    证明:
    由內积的正定性可直接得 f f f的正定性。
    ∀ c ∈ F \forall c\in F cF f ( c x ) = ⟨ c x , c x ⟩ = c ˉ c ⟨ x , x ⟩ = ∣ c ∣ 2 ⟨ x , x ⟩ = ∣ c ∣ ⟨ x , x ⟩ = ∣ c ∣ f ( x ) f(cx)=\sqrt{\langle cx,cx\rangle }=\sqrt{\bar cc\langle x,x\rangle }=\sqrt{|c|^2\langle x,x\rangle }=|c|\sqrt{\langle x,x\rangle }=|c|f(x) f(cx)=cx,cx =cˉcx,x =c2x,x =cx,x =cf(x),故 f f f满足齐次性。
    由內积的柯西施瓦兹不等式,得 R e { ⟨ x , y ⟩ } ⩽ ∣ ⟨ x , y ⟩ ∣ ⩽ ⟨ x , x ⟩ ⟨ y , y ⟩ Re\{\langle x,y\rangle \}\leqslant |\langle x,y\rangle |\leqslant\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle } Re{x,y}x,yx,x y,y ,故 f ( x + y ) = ⟨ x + y , x + y ⟩ = ⟨ x , x ⟩ + ⟨ y , y ⟩ + 2 R e { ⟨ x , y ⟩ } ⩽ ⟨ x , x ⟩ + ⟨ y , y ⟩ + 2 ⟨ x , x ⟩ ⟨ y , y ⟩ = ⟨ x , x ⟩ + ⟨ y , y ⟩ = f ( x ) + f ( y ) \begin{aligned}f(x+y)&=\sqrt{\langle x+y,x+y\rangle }\\&=\sqrt{\langle x,x\rangle +\langle y,y\rangle +2Re\{\langle x,y\rangle \}}\\&\leqslant\sqrt{\langle x,x\rangle +\langle y,y\rangle +2\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }}\\&=\sqrt{\langle x,x\rangle }+\sqrt{\langle y,y\rangle }\\&=f(x)+f(y)\end{aligned} f(x+y)=x+y,x+y =x,x+y,y+2Re{x,y} x,x+y,y+2x,x y,y =x,x +y,y =f(x)+f(y) f f f满足三角不等式。综上, f f f可作为 V V V上的一种范数。

    【注】这一定理说明,任意内积空间都可以定义范数(由内积诱导的范数),使其成为一个赋范空间。(不严谨的说法是,任意内积空间都是赋范空间)

内积诱导的范数的性质:

  • 勾股定理
    ⟨ x , y ⟩ = 0 \langle x,y\rangle =0 x,y=0,则 ∣ ∣ x + y ∣ ∣ 2 = ∣ ∣ x ∣ ∣ 2 + ∣ ∣ y ∣ ∣ 2 ||x+y||^2=||x||^2+||y||^2 x+y2=x2+y2
  • 平行四边形公式
    ∣ ∣ x + y ∣ ∣ 2 + ∣ ∣ x − y ∣ ∣ 2 = 2 ( ∣ ∣ x ∣ ∣ 2 + ∣ ∣ y ∣ ∣ 2 ) ||x+y||^2+||x-y||^2=2(||x||^2+||y||^2) x+y2+xy2=2(x2+y2)
  • 极化恒等式(内积诱导的范数可以表达出内积本身)
    在实数域下, ⟨ x , y ⟩ = 1 4 ( ∣ ∣ x + y ∣ ∣ 2 − ∣ ∣ x − y ∣ ∣ 2 ) \langle x,y\rangle =\frac{1}{4}(||x+y||^2-||x-y||^2) x,y=41(x+y2xy2)
    在复数域下, ⟨ x , y ⟩ = 1 4 ( ∣ ∣ x + y ∣ ∣ 2 − ∣ ∣ x − y ∣ ∣ 2 + i ∣ ∣ x + i y ∣ ∣ 2 − i ∣ ∣ x − i y ∣ ∣ 2 ) \langle x,y\rangle =\frac{1}{4}(||x+y||^2-||x-y||^2+i||x+iy||^2-i||x-iy||^2) x,y=41(x+y2xy2+ix+iy2ixiy2) i i i是虚数单位)

R m R^m Rm C m C^m Cm中常用的向量范数

  • l 1 l_1 l1范数: ∣ ∣ x ∣ ∣ 1 = ∑ i = 0 m ∣ x i ∣ ||x||_1=\sum_{i=0}^m|x_i| x1=i=0mxi

  • l 2 l_2 l2范数(又称Frobenius范数、欧几里得范数等): ∣ ∣ x ∣ ∣ 2 = ∑ i = 0 m ∣ x i ∣ 2 ||x||_2=\sqrt{\sum_{i=0}^m|x_i|^2} x2=i=0mxi2 ,即 ∣ ∣ x ∣ ∣ 2 = x H x ||x||_2=\sqrt{x^Hx} x2=xHx

  • l p l_p lp范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 m ∣ x i ∣ p ) 1 p , p ∈ R ∧ p ⩾ 1 ||x||_p=\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}},p\in{R}\land{}p\geqslant{1} xp=(i=1mxip)p1,pRp1

  • l ∞ l_{\infty} l范数:当 l p l_p lp范数中的 p p p趋于正无穷时,其极限是存在的,称该极限为 l ∞ l_{\infty} l范数。现在证明该极限是存在的:

    证明:
    S = m a x { ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯   , ∣ x m ∣ } S=max\{|x_1|,|x_2|,\cdots,|x_m|\} S=max{x1,x2,,xm} S = ( S p ) 1 p ⩽ ( ∑ i = 1 m ∣ x i ∣ p ) 1 p ⩽ ( m S p ) 1 p = m 1 p S S=(S^p)^\frac{1}{p}\leqslant{}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}\leqslant{}\bigl(mS^p\bigr)^\frac{1}{p}=m^{\frac{1}{p}}S S=(Sp)p1(i=1mxip)p1(mSp)p1=mp1S lim ⁡ p → + ∞ S = lim ⁡ p → + ∞ m 1 p S = S \lim_{p\to{+\infty}}S=\lim_{p\to{+\infty}}m^{\frac{1}{p}}S=S p+limS=p+limmp1S=S由夹逼定理 lim ⁡ p → + ∞ ( ∑ i = 1 m ∣ x i ∣ p ) 1 p = S = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯   , ∣ x m ∣ ) \lim_{p\to{+\infty}}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}=S=max(|x_1|,|x_2|,\cdots,|x_m|) p+lim(i=1mxip)p1=S=max(x1,x2,,xm)因此我们定义 ∣ ∣ x ∣ ∣ ∞ = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , ⋯   , ∣ x m ∣ ) ||x||_\infty=max(|x_1|,|x_2|,\cdots,|x_m|) x=max(x1,x2,,xm)

  • 向量间的距离:常采用两向量差的 l p l_p lp范数作为这两个向量间的距离的定义,以下是各个范数定义出的距离的名称。

    • 欧几里得距离(欧式距离): d ( x , y ) = ∣ ∣ x − y ∣ ∣ 2 d(x,y)=||x-y||_2 d(x,y)=xy2
    • 曼哈顿距离: d ( x , y ) = ∣ ∣ x − y ∣ ∣ 1 d(x,y)=||x-y||_1 d(x,y)=xy1
    • 切比雪夫距离: d ( x , y ) = ∣ ∣ x − y ∣ ∣ ∞ d(x,y)=||x-y||_\infty d(x,y)=xy
  • 向量间的距离的性质(根据范数公理得出):

    • 对称性 d ( x , y ) = d ( y , x ) d(x,y)=d(y,x) d(x,y)=d(y,x)
    • 非负性 d ( x , y ) ⩾ 0 d(x,y)\geqslant{0} d(x,y)0,等号当且仅当x=y时取
    • 三角不等式 d ( x , y ) ⩽ d ( x , z ) + d ( z , y ) d(x,y)\leqslant{}d(x,z)+d(z,y) d(x,y)d(x,z)+d(z,y)

线性空间的基(仅限有限维空间)

对数域F上一有限维线性空间V,n维向量组的线性无关、极大无关组等概念都可以直接搬过来用。实际上线性空间可以看做一个特殊的向量组(不过不一定是n维向量组,这里的向量应该抽象地理解,实际上就是指V这一集合中的元素),特殊在它对线性运算具有封闭性,这也导致它要么是只含一个向量的向量组(零元),要么是含有无穷多向量的向量组。正因为线性空间这样的特殊性,需要引入一些新的概念来描述它。

  • 定义:若V中的线性无关向量组可以含任意多个向量,则称V是无限维空间,否则称V是有限维空间

  • 定义:若V的一个线性无关向量组满足任意V中向量都可由该组线性表示,则称该线性无关组是V的一组基

  • 定理:有限维空间V必有极大无关组,V的所有极大无关组都含有相同数目的向量,都可以作为V的一组基。定义V的极大无关组所含向量的个数为V的维数,记作 dim ⁡   V \dim\ V dim V。对于n维线性空间V,V中任意n个线性无关的向量都可构成V的一组基。V中任意向量都可由V的一组基唯一地线性表示。

  • 定义:设有限维空间V的一个基向量组为 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an,任意V中向量x可由它唯一地线性表示,即存在唯一的向量z使得 x = [ a 1 ⋯ a n ] z x=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z x=[a1an]z,称z是x在该基下的坐标向量,简称坐标

    【注】 [ a 1 ⋯ a n ] \begin{bmatrix}a_1&\cdots&a_n\end{bmatrix} [a1an]不是通常意义的矩阵,这里只是引用矩阵的记法以及矩阵与向量的乘法来简洁地表达x与z的关系。

  • 定义:设有限维空间V的两组基分别为 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an b 1 , b 2 , ⋯   , b n b_1,b_2,\cdots,b_n b1,b2,,bn,则 b i b_i bi可由 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an线性表示,即存在 z i ∈ F n z_i\in{F^n} ziFn使得 b i = [ a 1 ⋯ a n ] z i b_i=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_i bi=[a1an]zi,记矩阵 Z = [ z 1 z 2 ⋯ z n ] Z=\begin{bmatrix}z_1&z_2&\cdots&z_n\end{bmatrix} Z=[z1z2zn],则有 [ b 1 b 2 ⋯ b n ] = [ a 1 ⋯ a n ] Z \begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}Z [b1b2bn]=[a1an]Z,称Z是从基 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an到基 b 1 , b 2 , ⋯   , b n b_1,b_2,\cdots,b_n b1,b2,,bn的过渡矩阵

  • 定理:有限维空间V的基 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an到基 b 1 , b 2 , ⋯   , b n b_1,b_2,\cdots,b_n b1,b2,,bn的过渡矩阵 Z Z Z是可逆矩阵

    证明:(反证法)
    假设 Z = [ z 1 ⋯ z n ] Z=\begin{bmatrix}z_1&\cdots&z_n\end{bmatrix} Z=[z1zn]不可逆,即 Z Z Z的列向量组是线性相关的,则存在 0 ⩽ i ⩽ n 0\leqslant{i}\leqslant{n} 0in以及 k 1 , ⋯   , k i − 1 , k i + 1 , ⋯   , k n ∈ F k_1,\cdots,k_{i-1},k_{i+1},\cdots,k_n\in{F} k1,,ki1,ki+1,,knF使得 z i = ∑ j ≠ i k j z j z_i=\sum_{j\neq{i}}{k_jz_j} zi=j=ikjzj。则 b i = [ a 1 ⋯ a n ] z i = [ a 1 ⋯ a n ] ∑ j ≠ i k j z j = ∑ j ≠ i k j [ a 1 ⋯ a n ] z j = ∑ j ≠ i k j b j \begin{aligned}b_i&=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_i\\&=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}\sum_{j\neq{i}}{k_jz_j}\\&=\sum_{j\neq{i}}{k_j}\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_j\\&=\sum_{j\neq{i}}{k_jb_j}\end{aligned} bi=[a1an]zi=[a1an]j=ikjzj=j=ikj[a1an]zj=j=ikjbj b 1 , b 2 , ⋯   , b n b_1,b_2,\cdots,b_n b1,b2,,bn是线性相关的,这与基的定义相矛盾,故假设不成立。故 Z Z Z是可逆矩阵。

  • 定义:(正交向量组和标准正交向量组)若V的一个向量组不含零向量,且任意两向量正交,则称该向量组是一个正交向量组。如果V的正交向量组的每个向量都是单位向量,则称该正交向量组是标准正交向量组

  • 定理:正交向量组一定是线性无关向量组

  • 定义:n维内积空间V的n个向量构成的正交向量组称为V的正交基,若某正交基的每个向量是单位向量,则称该正交基为V的标准正交基(单位向量是指满足 ⟨ x , x ⟩ = 1 \langle x,x\rangle=1 x,x=1

  • 定理:设 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an是内积空间V的一个正交基,则 ∀ x ∈ V , x = ∑ i = 1 n ⟨ x , a i ⟩ ⟨ a i , a i ⟩ a i \forall{x}\in{V},x=\sum_{i=1}^n\frac{\langle x,a_i\rangle }{\langle a_i,a_i\rangle }a_i xV,x=i=1nai,aix,aiai
    【注】对于实內积空间, ⟨ a i , x ⟩ = ⟨ x , a i ⟩ \langle a_i,x\rangle =\langle x,a_i\rangle ai,x=x,ai,但对于复內积空间, ⟨ a i , x ⟩ = ⟨ x , a i ⟩ ‾ \langle a_i,x\rangle =\overline{\langle x,a_i\rangle} ai,x=x,ai。上式对于实內积空间和复內积空间都成立。这个定理说明,只要在线性空间上定义出内积这个东西,那么任意向量在给定基下的表示都是可以求的(用内积表示出来)。

  • Gram-Schmidt正交化方法:任意 n n n维内积空间V都有标准正交基,其标准正交基可从 V V V的任何一组基 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an构造而得: b 1 = a 1 b 2 = a 2 − ⟨ a 2 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 b 3 = a 3 − ⟨ a 3 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 − ⟨ a 3 , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 ⋯ ⋯ ⋯ b n = a n − ⟨ a n , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 − ⟨ a n , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 − ⋯ − ⟨ a n , b n − 1 ⟩ ⟨ b n − 1 , b n − 1 ⟩ b n − 1 \begin{aligned}&b_1=a_1\\&b_2=a_2-\frac{\langle a_2,b_1\rangle }{\langle b_1,b_1\rangle }b_1\\&b_3=a_3-\frac{\langle a_3,b_1\rangle }{\langle b_1,b_1\rangle }b_1-\frac{\langle a_3,b_2\rangle }{\langle b_2,b_2\rangle }b_2\\&\cdots\cdots\cdots\\&b_n=a_n-\frac{\langle a_n,b_1\rangle }{\langle b_1,b_1\rangle }b_1-\frac{\langle a_n,b_2\rangle }{\langle b_2,b_2\rangle }b_2-\cdots-\frac{\langle a_n,b_{n-1}\rangle }{\langle b_{n-1},b_{n-1}\rangle }b_{n-1}\end{aligned} b1=a1b2=a2b1,b1a2,b1b1b3=a3b1,b1a3,b1b1b2,b2a3,b2b2bn=anb1,b1an,b1b1b2,b2an,b2b2bn1,bn1an,bn1bn1这就构造出了V的一组正交基,只要再将每个基向量单位化就得到V的一组标准正交基。

    【注1】其实Gram-Schmidt正交化方法是根据几何意义得出的,基本思路很简单:当我们已经使用 a 1 , a 2 , . . . , a k a_1,a_2,...,a_k a1,a2,...,ak构造出正交向量组 b 1 , b 2 , . . . b k b_1,b_2,...b_k b1,b2,...bk时,我们考虑如何将这个正交向量组扩充为 k + 1 k+1 k+1个向量。取 a k + 1 a_{k+1} ak+1,将它依次正交投影到 b 1 , b 2 , . . . , b k b_1,b_2,...,b_k b1,b2,...,bk上,得到分量 ⟨ a k + 1 , b 1 ⟩ ⟨ b 1 , b 1 ⟩ b 1 , ⟨ a k + 1 , b 2 ⟩ ⟨ b 2 , b 2 ⟩ b 2 , ⋯   , ⟨ a k + 1 , b k ⟩ ⟨ b k , b k ⟩ b n − 1 \frac{\langle a_{k+1},b_1\rangle }{\langle b_1,b_1\rangle }b_1,\frac{\langle a_{k+1},b_2\rangle }{\langle b_2,b_2\rangle }b_2,\cdots,\frac{\langle a_{k+1},b_{k}\rangle }{\langle b_{k},b_{k}\rangle }b_{n-1} b1,b1ak+1,b1b1,b2,b2ak+1,b2b2,,bk,bkak+1,bkbn1,那么 a k + 1 a_{k+1} ak+1减去所有这些分量后得到的自然就是与 b 1 , b 2 , . . . , b k b_1,b_2,...,b_k b1,b2,...,bk都正交的向量。令这个结果为 b k + 1 b_{k+1} bk+1,可以看出 b k + 1 ≠ 0 b_{k+1}\neq 0 bk+1=0(否则 a k + 1 a_{k+1} ak+1就可由 a 1 , a 2 , . . . , a k a_1,a_2,...,a_k a1,a2,...,ak线性表出了),于是就有正交向量组 b 1 , b 2 , . . . , b k + 1 b_1,b_2,...,b_{k+1} b1,b2,...,bk+1

    【注2】Gram-Schmidt正交化方法还有一个理论分析上很好用的地方:任意正交向量组可以扩充为完整的正交基。设 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar n n n维內积空间 V V V的一个正交向量组,根据下面的扩充定理,可以把 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为基 a 1 , a 2 , . . . , a n a_1,a_2,...,a_n a1,a2,...,an。使用上面的公式计算得到正交基 b 1 , b 2 , . . . b n b_1,b_2,...b_n b1,b2,...bn,你会发现 b 1 = a 1 b_1=a_1 b1=a1 b 2 = a 2 b_2=a_2 b2=a2,……, b r = a r b_r=a_r br=ar。也就是说,这是正交向量组 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充后的结果。

  • 扩充定理:对任意r维线性空间V,V的任意一个线性无关组都可以扩充为V的一组基

    证明:
    对V中任意线性无关组U,若U含有r个向量,则U就是V的一组基。若U含有 n < r n\lt{r} n<r个向量,取 V V V的一组基 U ′ U^{'} U,则存在 U ′ U^{'} U中的一个向量x,x不能用U线性表示(用反证法:U可以用 U ′ U^{'} U线性表示,假设 U ′ U^{'} U可以用U线性表示,则U和 U ′ U^{'} U是等价的,它们含有的向量个数相同,这与 n < r n\lt{r} n<r是矛盾的,故假设不成立)。所以 U ∪ x U\cup{\text{{x}}} Ux是线性无关的(若 U ∪ x U\cup{\text{{x}}} Ux是线性相关的,则由U线性无关知,x可由U线性表示,这是矛盾的)。将x加入U中,得到 n + 1 n+1 n+1个线性无关的向量。重复以上步骤,直到U中含有r个向量,这就将开始时的U扩充为了V的一组基。得证。

  • a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar F n F^n Fn的一个线性无关向量组,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为 F n F^n Fn的一组基:

    方法:
    A = [ a 1 a 2 ⋯ a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} A=[a1a2ar],则A是一个列满秩矩阵,故可通过有限步初等行变换将A变换成它的秩标准形,即存在可逆矩阵P使得 P A = [ I r O ] PA=\begin{bmatrix}I_r\\O\end{bmatrix} PA=[IrO]。设 B = P − 1 [ I r O O I n − r ] = P − 1 B=P^{-1}\begin{bmatrix}I_r&O\\O&I_{n-r}\end{bmatrix}=P^{-1} B=P1[IrOOInr]=P1,则B是可逆矩阵,B的列向量组是 F n F^n Fn的一组基。由于 B = [ P − 1 [ I r O ] P − 1 [ O I n − r ] ] = [ A P − 1 [ O I n − r ] ] B=\begin{bmatrix}{P^{-1}\begin{bmatrix}I_r\\O\end{bmatrix}}&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix}=\begin{bmatrix}A&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix} B=[P1[IrO]P1[OInr]]=[AP1[OInr]],故B的列向量组包含了A的列向量组,这就将A的列向量组扩充为了 F n F^n Fn的一组基。

  • 设V是 F n F^n Fn的一个m维线性子空间,且 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar是V中一组线性无关的向量,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r a1,a2,...,ar扩充为V的一组基:

    方法:
    b 1 , b 2 , ⋯   , b m b_1,b_2,\cdots,b_m b1,b2,,bm是已知的V的一组基,设 B = [ b 1 b 2 ⋯ b m ] B=\begin{bmatrix}b_1&b_2&\cdots&b_m\end{bmatrix} B=[b1b2bm] A = [ a 1 a 2 ⋯ a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} A=[a1a2ar],A的列向量组可以用B的列向量组线性表示,设 a i = B x i a_i=Bx_i ai=Bxi,求出每个 x i x_i xi。设 X = [ x 1 x 2 ⋯ x r ] X=\begin{bmatrix}x_1&x_2&\cdots&x_r\end{bmatrix} X=[x1x2xr],则 A = B X A=BX A=BX,显然X是一个列满秩矩阵,可以通过扩充的方法(见上一条)将X扩充为 [ X X ′ ] \begin{bmatrix}X&X^{'}\end{bmatrix} [XX],它有m个线性无关的列向量。显然 B [ X X ′ ] B\begin{bmatrix}X&X^{'}\end{bmatrix} B[XX]的列向量组是线性无关的,且都在V内,故可作为V的一组基,又知它包含了A的列向量组,这就将A的列向量组扩充为了V的一组基。

子空间的运算与关系(仅限有限维空间)

交、和、直和、正交补

(注意,子空间的交与并就是集合的交与并)

  • 定理:设 V 1 V_1 V1 V 2 V_2 V2是数域F上的线性空间V的两个子空间,则 V 1 ∩ V 2 V_1\cap V_2 V1V2也是V的子空间

  • 定义:设 V 1 V_1 V1 V 2 V_2 V2是数域F上的线性空间V的两个子空间,定义 V 1 V_1 V1 V 2 V_2 V2的和为: V 1 + V 2 = { x + y ∣ x ∈ V 1 , y ∈ V 2 } V_1+V_2=\left\{x+y\mid x\in{V_1},y\in{V_2}\right\} V1+V2={x+yxV1,yV2}

  • 定理:设 V 1 V_1 V1 V 2 V_2 V2是数域F上的线性空间V的两个子空间,则 V 1 + V 2 V_1+V_2 V1+V2也是V的子空间

  • 定义:若 V 1 + V 2 V_1+V_2 V1+V2中的任意向量可唯一地表示为 V 1 V_1 V1中一个向量和 V 2 V_2 V2中一个向量的和,则称 V 1 + V 2 V_1+V_2 V1+V2 V 1 V_1 V1 V 2 V_2 V2的直和,记为 V 1 ⊕ V 2 V_1\oplus V_2 V1V2

  • 定理: V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1V2的充要条件为 V 1 ∩ V 2 = L ( 0 ) V_1\cap V_2=L(0) V1V2=L(0),其中 L ( 0 ) = { 0 } L(0)=\{0\} L(0)={0}是V的零子空间

    证:
    必要性:由线性空间的定义, L ( 0 ) ⊆ V 1 ∩ V 2 L(0)\subseteq V_1\cap V_2 L(0)V1V2,故只需证 V 1 ∩ V 2 ⊆ L ( 0 ) V_1\cap V_2\subseteq L(0) V1V2L(0)。任取 x ∈ V 1 ∩ V 2 x\in V_1\cap V_2 xV1V2,则 x ∈ V 1 x\in V_1 xV1 x ∈ V 2 x\in V_2 xV2,由线性空间对数乘的封闭性知 − x ∈ V 2 -x\in V_2 xV2。在 V 1 + V 2 V_1+V_2 V1+V2中,零向量 0 = x + ( − x ) 0=x+(-x) 0=x+(x),其中 x ∈ V 1 , − x ∈ V 2 x\in V_1,-x\in V_2 xV1,xV2,另一方面, 0 = 0 + 0 0=0+0 0=0+0,其中 0 ∈ V 1 0\in V_1 0V1 0 ∈ V 2 0\in V_2 0V2。由直和的定义知 x = 0 x=0 x=0,故 V 1 ∩ V 2 ⊆ L ( 0 ) V_1\cap V_2\subseteq L(0) V1V2L(0)
    充分性:任取 x ∈ V 1 + V 2 x\in V_1+V_2 xV1+V2,若 x x x可表示为 x = y 1 + z 1 = y 2 + z 2 x=y_1+z_1=y_2+z_2 x=y1+z1=y2+z2,其中 y 1 , y 2 ∈ V 1 y_1,y_2\in V_1 y1,y2V1 z 1 , z 2 ∈ V 2 z_1,z_2\in V_2 z1,z2V2,则有 y 1 − y 2 = z 2 − z 1 y_1-y_2=z_2-z_1 y1y2=z2z1,记 x ′ = y 1 − y 2 = z 2 − z 1 x'=y_1-y_2=z_2-z_1 x=y1y2=z2z1,则由线性空间的封闭性知 x ′ ∈ V 1 x'\in V_1 xV1 x ′ ∈ V 2 x'\in V_2 xV2,即 x ′ ∈ V 1 ∩ V 2 = L ( 0 ) x'\in V_1\cap V_2=L(0) xV1V2=L(0),得 x ′ = 0 x'=0 x=0,故 y 1 = y 2 , z 1 = z 2 y_1=y_2,z_1=z_2 y1=y2,z1=z2,可见 x x x可唯一表示为 V 1 V_1 V1中一向量和 V 2 V_2 V2中一向量之和,故 V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1V2

  • 定理:设 V 1 V_1 V1 V 2 V_2 V2是数域F上的线性空间V的两个子空间, V 1 + V 2 = V 1 ⊕ V 2 V_1+V_2=V_1\oplus V_2 V1+V2=V1V2,则任取 V 1 V_1 V1的一组基 U 1 U_1 U1以及 V 2 V_2 V2的一组基 U 2 U_2 U2,有 U 1 ∩ U 2 = ∅ U_1\cap U_2=\varnothing U1U2= U 1 ∪ U 2 U_1\cup U_2 U1U2 V 1 + V 2 V_1+V_2 V1+V2的一组基

    证明:
    U 1 = { a 1 , . . . , a k } U_1=\{a_1,...,a_k\} U1={a1,...,ak} U 2 = { b 1 , . . . , b l } U_2=\{b_1,...,b_l\} U2={b1,...,bl}。首先证明 a 1 , . . . , a k , b 1 , . . . , b l a_1,...,a_k,b_1,...,b_l a1,...,ak,b1,...,bl线性无关(从而有 U 1 ∩ U 2 = ∅ U_1\cap U_2=\varnothing U1U2=)。任取 c 1 , . . . , c k , d 1 , . . . , d l ∈ F c_1,...,c_k,d_1,...,d_l\in F c1,...,ck,d1,...,dlF,满足 c 1 a 1 + . . . + c k a k + d 1 b 1 + . . . + d l b l = 0 c_1a_1+...+c_ka_k+d_1b_1+...+d_lb_l=0 c1a1+...+ckak+d1b1+...+dlbl=0,则 c 1 a 1 + . . . + c k a k = − ( d 1 b 1 + . . . + d l b l ) ∈ V 1 ∩ V 2 = L ( 0 ) c_1a_1+...+c_ka_k=-(d_1b_1+...+d_lb_l)\in V_1\cap V_2=L(0) c1a1+...+ckak=(d1b1+...+dlbl)V1V2=L(0),故 c 1 a 1 + . . . + c k a k = 0 c_1a_1+...+c_ka_k=0 c1a1+...+ckak=0 d 1 b 1 + . . . + d l b l = 0 d_1b_1+...+d_lb_l=0 d1b1+...+dlbl=0,由基的线性无关性得 c 1 = . . . = c k = d 1 = . . . d l = 0 c_1=...=c_k=d_1=...d_l=0 c1=...=c

你可能感兴趣的:(机器学习的数学基础,线性代数,矩阵论,机器学习)