设 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是向量空间 R n R^n Rn上的实值函数,且满足条件:
非负性: ∣ ∣ ⋅ ∣ ∣ ≥ 0 ||\cdot||\geq0 ∣∣⋅∣∣≥0 ,且 ∣ ∣ x ∣ ∣ = 0 ||x|| = 0 ∣∣x∣∣=0当且仅当 x = 0 x=0 x=0
齐次性:对任何实数 α \alpha α和向量 x ∈ R n x\in{R^n} x∈Rn : ∣ ∣ α x ∣ ∣ = ∣ α ∣ ⋅ ∣ ∣ x ∣ ∣ ||\alpha{x}||=|\alpha|\cdot||x|| ∣∣αx∣∣=∣α∣⋅∣∣x∣∣
三角不等式:对任意向量 x , y ∈ R n x, y\in{R^n} x,y∈Rn ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq||x|| + ||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
则称 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣为 R n R^n Rn空间上的范数, ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣为向量 x x x的范数
对于 R n R^n Rn上的任何两种向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_{\alpha} ∣∣⋅∣∣α和 ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_{\beta} ∣∣⋅∣∣β,存在正常数m, M,使得:
m ∣ ∣ x ∣ ∣ β ≤ ∣ ∣ x ∣ ∣ α ≤ M ∣ ∣ x ∣ ∣ β , ∀ x ∈ R n m||x||_{\beta} \leq ||x||_{\alpha} \leq M||x||_{\beta}, \quad \forall{x}\in{R^n} m∣∣x∣∣β≤∣∣x∣∣α≤M∣∣x∣∣β,∀x∈Rn
证明:
首先证明范数的连续性
将 R n R^n Rn中的向量表示为 x = ∑ i = 1 n x i e i x = \sum\limits_{i=1}^{n}{{x_i}{e_i}} x=i=1∑nxiei, 其中 e 1 , e 2 , ⋯ , e n e_1, e_2, \cdots, e_n e1,e2,⋯,en为n维单位坐标向量
f ( x ) = ∣ ∣ x ∣ ∣ α f(x) = ||x||_{\alpha} f(x)=∣∣x∣∣α由于:
∣ f ( x ) − f ( y ) ∣ = ∣ ∣ ∣ x ∣ ∣ α − ∣ ∣ y ∣ ∣ α ∣ ≤ ∣ ∣ x − y ∣ ∣ α = ∣ ∣ ∑ i = 1 n ( x i − y i ) e i ∣ ∣ ( 三 角 不 等 式 ) ≤ ∑ i = 1 n ∣ x i − y i ∣ ⋅ ∣ ∣ e i ∣ ∣ α ( 三 角 不 等 式 , 范 数 定 义 ) ≤ ∑ i = 1 n ∣ x i − y i ∣ 2 ∑ i = 1 n ∣ ∣ e i ∣ ∣ α 2 ( 柯 西 − 施 瓦 茨 不 等 式 ) |f(x) - f(y)| = |\quad||x||_{\alpha} - ||y||_{\alpha}\quad|\\ \leq ||x -y||_{\alpha}=||\sum\limits_{i=1}^{n}(x_i - y_i)e_i||\quad(三角不等式)\\\leq\sum\limits_{i=1}^{n}|x_i - y_i|\cdot||e_i||_{\alpha}\quad(三角不等式,范数定义)\\\leq\sqrt{\sum\limits_{i=1}^{n}|x_i - y_i|^2}\sqrt{\sum\limits_{i=1}^{n}||e_i||_{\alpha}^2}\quad(柯西-施瓦茨不等式) ∣f(x)−f(y)∣=∣∣∣x∣∣α−∣∣y∣∣α∣≤∣∣x−y∣∣α=∣∣i=1∑n(xi−yi)ei∣∣(三角不等式)≤i=1∑n∣xi−yi∣⋅∣∣ei∣∣α(三角不等式,范数定义)≤i=1∑n∣xi−yi∣2i=1∑n∣∣ei∣∣α2(柯西−施瓦茨不等式)
于是: lim Δ x → 0 Δ f ( x ) = 0 \lim\limits_{\Delta{x}\rightarrow{0}}\Delta{f(x)} = 0 Δx→0limΔf(x)=0, 即 f ( x ) f(x) f(x)是 R n R^n Rn上的连续函数
采用 β \beta β =2来证明范数等价性
引入 R n R^n Rn中的有界闭集 S n = { x : ∣ ∣ x ∣ ∣ 2 = 1 , x ∈ R n } S^n = \{{x:||x||_2 = 1,\quad x\in{R^n}}\} Sn={x:∣∣x∣∣2=1,x∈Rn}
根据连续函数性质, f ( x ) f(x) f(x)在 S n S^n Sn上达到最大和最小值,即存在点 x 1 , x 2 ∈ S n x_1, x_2\in{S^n} x1,x2∈Sn,使得:
0 ≤ m = f ( x 1 ) ≤ f ( x ) ≤ f ( x 2 ) = M , ∀ x ∈ S n 0 \leq m = f(x_1) \leq f(x) \leq f(x_2) = M, \forall{x} \in {S^n} 0≤m=f(x1)≤f(x)≤f(x2)=M,∀x∈Sn
若 x = 0 x = 0 x=0,则m,M可取任意正常数
若 x ≠ 0 x \ne 0 x=0,则对任何 x ∈ R n x\in{R^n} x∈Rn,由于 ∣ ∣ x ∣ ∣ α ∣ ∣ x ∣ ∣ 2 ∈ S n \frac{||x||_{\alpha}}{||x||_2}\in{S^n} ∣∣x∣∣2∣∣x∣∣α∈Sn,则有:
0 < m ≤ f ( x ∣ ∣ x ∣ ∣ 2 ) = ∣ ∣ x ∣ ∣ α ∣ ∣ x ∣ ∣ 2 ≤ M , ∀ x ∈ R n 0
即 m ∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ α ≤ M ∣ ∣ x ∣ ∣ 2 m||x||_2 \leq ||x||_{\alpha} \leq M||x||_2 m∣∣x∣∣2≤∣∣x∣∣α≤M∣∣x∣∣2
其他的 β \beta β范数同理,从而证明了范数等价性
矩阵范数等价性的证明完全类似
范数的等价性表明:一个向量若按照某种范数是一个小量,则它按照任何一种范数也将是一个小量
常用的三种向量范数满足下述等价关系:
∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ ∞ ||x||_\infty \leq ||x||_1 \leq n||x||_\infty ∣∣x∣∣∞≤∣∣x∣∣1≤n∣∣x∣∣∞ (1)
∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 2 ≤ n ∣ ∣ x ∣ ∣ ∞ ||x||_\infty \leq ||x||_2 \leq \sqrt{n}||x||_\infty ∣∣x∣∣∞≤∣∣x∣∣2≤n∣∣x∣∣∞ (2)
∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ 2 ||x||_2 \leq ||x||_1 \leq \sqrt{n}||x||_2 ∣∣x∣∣2≤∣∣x∣∣1≤n∣∣x∣∣2 (3)
(1), (2), (3)的左侧都使最简单的放缩,下面给出(3)的右侧的证明:
要证(3),即证: ∣ ∣ x ∣ ∣ 1 2 ≤ n ∣ ∣ x ∣ ∣ 2 2 ||x||_1^2 \leq n||x||_2^2 ∣∣x∣∣12≤n∣∣x∣∣22
即: ( ∑ i = 1 n x i ) 2 ≤ n ∑ i = 1 n x i 2 (\sum\limits_{i=1}^{n}{x_i})^2 \quad \leq \quad n\sum\limits_{i=1}^{n}{x_i^2} (i=1∑nxi)2≤ni=1∑nxi2
即: n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 ≥ 0 n\sum\limits_{i=1}^{n}{x_i^2} - (\sum\limits_{i=1}^{n}{x_i})^2 \geq 0 ni=1∑nxi2−(i=1∑nxi)2≥0
推导过程如下:
由 于 : n ∑ i = 1 n x i 2 = ∑ i = 1 n x i 2 + ∑ i ≠ j n ( x i 2 + x j 2 ) ( ∑ i = 1 n x i ) 2 = ∑ i = 1 n x i 2 + ∑ i ≠ j n 2 x i x j 故 : n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 = ∑ i ≠ j n ( x i 2 + x j 2 − 2 x i x j ) = ∑ i ≠ j n ( x i − x j ) 2 ≥ 0 由于: n\sum\limits_{i=1}^{n}{x_i^2} = \sum\limits_{i=1}^{n}{x_i^2} + \sum\limits_{{i}\ne{j}}^{n}{(x_i^2+x_j^2)}\\ (\sum\limits_{i=1}^{n}{x_i})^2 = \sum\limits_{i=1}^{n}{x_i^2} + \sum\limits_{{i}\ne{j}}^{n}{2x_ix_j}\\ 故:n\sum\limits_{i=1}^{n}{x_i^2} - (\sum\limits_{i=1}^{n}{x_i})^2 = \sum\limits_{{i}\ne{j}}^{n}{({x_i^2+x_j^2}-{2x_ix_j})}\\ =\sum\limits_{{i}\ne{j}}^{n}{(x_i-x_j)^2}\geq 0 \\ 由于:ni=1∑nxi2=i=1∑nxi2+i=j∑n(xi2+xj2)(i=1∑nxi)2=i=1∑nxi2+i=j∑n2xixj故:ni=1∑nxi2−(i=1∑nxi)2=i=j∑n(xi2+xj2−2xixj)=i=j∑n(xi−xj)2≥0
于是可以证明: ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ 2 ||x||_1 \leq \sqrt{n}||x||_2 ∣∣x∣∣1≤n∣∣x∣∣2
设向量序列 x ( k ) = ( x 1 ( k ) , x 2 ( k ) , x 3 ( k ) , ⋯ , x n ( k ) ) T , k = 0 , 1 , ⋯ , x^{(k)} = (x_1^{(k)},x_2^{(k)},x_3^{(k)},\cdots,x_n^{(k)})^T, k = 0, 1,\cdots, x(k)=(x1(k),x2(k),x3(k),⋯,xn(k))T,k=0,1,⋯, 向量 x ∗ = ( x 1 ∗ , x 2 ∗ , ⋯ , x n ∗ ) T x^* = (x_1^*,x_2^*,\cdots,x_n^*)^T x∗=(x1∗,x2∗,⋯,xn∗)T
如果:
lim k → ∞ ∣ ∣ x ( k ) − x ∗ ∣ ∣ = 0 \lim\limits_{k\rightarrow\infty}||x^{(k)} - x^*|| = 0 k→∞lim∣∣x(k)−x∗∣∣=0, 记作 lim k → ∞ x ( k ) = x ∗ \lim\limits_{k\rightarrow\infty}x^{(k)} = x^* k→∞limx(k)=x∗, 或 x ( k ) → x ∗ x^{(k)}\rightarrow x^* x(k)→x∗
注意,定义并没有规定具体的范数类型,因为由范数的等价性可知,当某向量的某个范数的极限为0,那么这个向量的其他范数的极限也肯定是0
由于: ∣ ∣ x ( k ) − x ∗ ∣ ∣ 1 = ∑ i = 1 n ∣ x ( k ) − x ∗ ∣ ||x^{(k)}-x^*||_1 = \sum\limits_{i=1}^{n}|x^{(k)}-x^*| ∣∣x(k)−x∗∣∣1=i=1∑n∣x(k)−x∗∣
于是:向量序列收敛于某一向量,当且仅当它的每一个向量分量收敛于 x ∗ x^* x∗的对应分量
矩阵的1-范数(列范数): ∣ ∣ A ∣ ∣ 1 = max 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ ||A||_1 = \max\limits_{{1}\leq{j}\leq{n}}\sum\limits_{i=1}^{n}|a_{ij}| ∣∣A∣∣1=1≤j≤nmaxi=1∑n∣aij∣
矩阵的 ∞ \infty ∞-范数(行范数): ∣ ∣ A ∣ ∣ 1 = max 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ ||A||_1 = \max\limits_{{1}\leq{i}\leq{n}}\sum\limits_{j=1}^{n}|a_{ij}| ∣∣A∣∣1=1≤i≤nmaxj=1∑n∣aij∣
矩阵的2-范数: ∣ ∣ A ∣ ∣ 2 = ( A T A 的 最 大 特 征 值 ) 1 2 ||A||_2 = (A^TA的最大特征值)^{\frac{1}{2}} ∣∣A∣∣2=(ATA的最大特征值)21
矩阵的F-范数: ∣ ∣ A ∣ ∣ F = ( ∑ i , j = 1 n ∣ a i j ∣ 2 ) 1 2 ||A||_F = (\sum\limits_{i,j=1}^{n}|a_{ij}|^2)^{\frac{1}{2}} ∣∣A∣∣F=(i,j=1∑n∣aij∣2)21
设 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是以n阶矩阵为自变量的实值函数,且满足条件:
非负性
齐次性
三角不等式
∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ ||AB|| \leq ||A||\cdot||B|| ∣∣AB∣∣≤∣∣A∣∣⋅∣∣B∣∣
则称 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣为矩阵A的范数
设 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是一种向量范数,由此范数派生的矩阵算子范数定义为:
∣ ∣ A ∣ ∣ = max x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A|| = \max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} ∣∣A∣∣=x=0max∣∣x∣∣∣∣Ax∣∣
注意:此式左端 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣表示矩阵范数,而右端是向量范数
算子范数性质的证明
由于: ∣ ∣ A ∣ ∣ = max x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A|| = \max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} ∣∣A∣∣=x=0max∣∣x∣∣∣∣Ax∣∣
故: ∣ ∣ A ∣ ∣ ≥ max x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A||\geq\max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} ∣∣A∣∣≥x=0max∣∣x∣∣∣∣Ax∣∣
于是: ∣ ∣ A x ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ ||Ax||\leq||A||\cdot||x|| ∣∣Ax∣∣≤∣∣A∣∣⋅∣∣x∣∣
由于: ∣ ∣ A B ∣ ∣ = max x ≠ 0 ∣ ∣ A B x ∣ ∣ ∣ ∣ x ∣ ∣ ||AB||=\max\limits_{{x}\ne{0}}\frac{||ABx||}{||x||} ∣∣AB∣∣=x=0max∣∣x∣∣∣∣ABx∣∣
故: ∣ ∣ A B ∣ ∣ ≤ max x ≠ 0 ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A ∣ ∣ max x ≠ 0 ∣ ∣ B x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ ||AB||\leq\max\limits_{{x}\ne{0}}\frac{||A||\cdot||Bx||}{||x||}=||A||\max\limits_{{x}\ne{0}}\frac{||Bx||}{||x||}=||A||\cdot||B|| ∣∣AB∣∣≤x=0max∣∣x∣∣∣∣A∣∣⋅∣∣Bx∣∣=∣∣A∣∣x=0max∣∣x∣∣∣∣Bx∣∣=∣∣A∣∣⋅∣∣B∣∣
对于 p = 1 , 2 , ∞ p=1, 2, \infty p=1,2,∞,矩阵范数 ∣ ∣ A ∣ ∣ p ||A||_p ∣∣A∣∣p向量范数 ∣ ∣ x ∣ ∣ p ||x||_p ∣∣x∣∣p是相容的
F-范数不是算子范数, 设I为单位阵: ∣ ∣ I ∣ ∣ F = n ≠ max x ≠ 0 ∣ ∣ I x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ x ∣ ∣ ∣ ∣ x ∣ ∣ = 1 ||I||_F = \sqrt{n} \ne \max\limits_{x\ne 0}\frac{||Ix||}{||x||}= \frac{||x||}{||x||} = 1 ∣∣I∣∣F=n=x=0max∣∣x∣∣∣∣Ix∣∣=∣∣x∣∣∣∣x∣∣=1
F-范数与向量的2-范数相容,即:
∣ ∣ A x ∣ ∣ 2 ≤ ∣ ∣ A ∣ ∣ F ∣ ∣ x ∣ ∣ 2 ||Ax||_2 \leq ||A||_F ||x||_2 ∣∣Ax∣∣2≤∣∣A∣∣F∣∣x∣∣2
矩阵的F-范数与2-范数都具有在正交变换下保持不变的性质:
∣ ∣ Q A ∣ ∣ F = ∣ ∣ A Q ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||QA||_F = ||AQ||_F = ||A||_F ∣∣QA∣∣F=∣∣AQ∣∣F=∣∣A∣∣F
∣ ∣ Q A ∣ ∣ 2 = ∣ ∣ A Q ∣ ∣ 2 = ∣ ∣ A ∣ ∣ 2 ||QA||_2 = ||AQ||_2 = ||A||_2 ∣∣QA∣∣2=∣∣AQ∣∣2=∣∣A∣∣2
其中Q为正交阵
证明:
F-范数:
由于正交变换不改变向量的模以及向量之间夹角,所以 ∣ ∣ Q A ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||QA||_F = ||A||_F ∣∣QA∣∣F=∣∣A∣∣F
由于矩阵转置不影响其F-范数的值,故: ∣ ∣ A Q ∣ ∣ F = ∣ ∣ ( A Q ) T ∣ ∣ F = ∣ ∣ Q T A T ∣ ∣ F ||AQ||_F=||(AQ)^T||_F=||Q^TA^T||_F ∣∣AQ∣∣F=∣∣(AQ)T∣∣F=∣∣QTAT∣∣F
又因为正交阵的转置仍为正交阵,故: ∣ ∣ Q T A T ∣ ∣ F = ∣ ∣ A T ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||Q^TA^T||_F=||A^T||_F=||A||_F ∣∣QTAT∣∣F=∣∣AT∣∣F=∣∣A∣∣F
2-范数:
∣ ∣ Q A ∣ ∣ 2 = λ m a x [ ( Q A ) T ( Q A ) ] = λ m a x ( A T Q T Q A ) = λ m a x ( A T A ) = ∣ ∣ A ∣ ∣ 2 ||QA||_2=\sqrt{\lambda_{max}[(QA)^T(QA)]} =\sqrt{\lambda_{max}(A^TQ^TQA)} = \sqrt{\lambda_{max}(A^TA)}=||A||_2 ∣∣QA∣∣2=λmax[(QA)T(QA)]=λmax(ATQTQA)=λmax(ATA)=∣∣A∣∣2
∣ ∣ A Q ∣ ∣ 2 = λ m a x [ ( A Q ) T ( A Q ) ] = λ m a x ( Q T A T A Q ) = λ m a x ( Q − 1 A T A Q ) = λ m a x ( A T A ) = ∣ ∣ A ∣ ∣ 2 ||AQ||_2 = \sqrt{\lambda_{max}[(AQ)^T(AQ)]} =\sqrt{\lambda_{max}(Q^TA^TAQ)} = \sqrt{\lambda_{max}(Q^{-1}A^TAQ)}=\sqrt{\lambda_{max}(A^TA)}=||A||_2 ∣∣AQ∣∣2=λmax[(AQ)T(AQ)]=λmax(QTATAQ)=λmax(Q−1ATAQ)=λmax(ATA)=∣∣A∣∣2
(注: Q − 1 A T A Q Q^{-1}A^TAQ Q−1ATAQ与 A T A A^TA ATA相似,其特征值相同)
∣ λ ∣ ≤ ∣ ∣ A ∣ ∣ |\lambda| \leq ||A|| ∣λ∣≤∣∣A∣∣ (其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是与向量相容的矩阵范数, λ \lambda λ是矩阵A的特征值)
证明:
由于: A x = λ x Ax=\lambda{x} Ax=λx
利用向量-矩阵相容性: ∣ λ ∣ ⋅ ∣ ∣ x ∣ ∣ = ∣ ∣ λ x ∣ ∣ = ∣ ∣ A x ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ |\lambda|\cdot||x|| = ||\lambda{x}|| = ||Ax|| \leq ||A||\cdot||x|| ∣λ∣⋅∣∣x∣∣=∣∣λx∣∣=∣∣Ax∣∣≤∣∣A∣∣⋅∣∣x∣∣
从而,对于A的任何特征值都有: ∣ λ ∣ ≤ ∣ ∣ A ∣ ∣ |\lambda| \leq ||A|| ∣λ∣≤∣∣A∣∣
设n阶矩阵 A A A的 n n n个特征值为 λ 1 , λ 2 , ⋯ , λ n . \lambda_1,\lambda_2,\cdots,\lambda_n. λ1,λ2,⋯,λn.称: ρ ( A ) = max 1 ≤ i ≤ n ∣ λ i ∣ \rho(A) = \max\limits_{1\leq{i}\leq{n}}|\lambda_i| ρ(A)=1≤i≤nmax∣λi∣为矩阵A的谱半径
由矩阵特征值与相容范数的性质可得: ρ ( A ) ≤ ∣ ∣ A ∣ ∣ \rho(A) \leq ||A|| ρ(A)≤∣∣A∣∣
同时,另一个更深刻的结果是: ∀ ϵ > 0 \forall\epsilon>0 ∀ϵ>0,必存在一种相容的矩阵,使: ∣ ∣ A ∣ ∣ ≤ ρ ( A ) + ϵ ||A||\leq\rho(A)+\epsilon ∣∣A∣∣≤ρ(A)+ϵ
由这两个不等式可知:矩阵A的谱半径是它所有相容范数的下确界
**性质1:**若 A ∈ R n × n A\in R^{n\times n} A∈Rn×n为对称阵,则 ∣ ∣ A ∣ ∣ 2 = ρ ( A ) ||A||_2=\rho(A) ∣∣A∣∣2=ρ(A)
性质2:令 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣为矩阵的算子范数,若 ∣ ∣ B ∣ ∣ < 1 ||B||<1 ∣∣B∣∣<1, 则 I ± B I \pm B I±B为非奇异矩阵,且 ∣ ∣ ( I ± B ) − 1 ∣ ∣ ≤ 1 1 − ∣ ∣ B ∣ ∣ ||(I\pm B)^{-1}||\leq\frac{1}{1-||B||} ∣∣(I±B)−1∣∣≤1−∣∣B∣∣1
证明2:
用反证法:假设 I ± B I\pm B I±B为奇异矩阵,则 d e t ( I ± B ) = 0 det(I\pm B)=0 det(I±B)=0, 于是 ( I ± B ) x = 0 (I\pm B)x = 0 (I±B)x=0存在非零解
即: ∃ x 0 , ± B x 0 = x 0 \exists{x_0},\pm Bx_0=x_0 ∃x0,±Bx0=x0, 于是 ∣ ∣ B X 0 ∣ ∣ ∣ ∣ X 0 ∣ ∣ = 1 \frac{||BX_0||}{||X_0||}=1 ∣∣X0∣∣∣∣BX0∣∣=1, 于是 ∣ ∣ B ∣ ∣ ≥ 1 ||B||\geq 1 ∣∣B∣∣≥1, 与题设相悖,于是 I ± B I\pm B I±B为非奇异矩阵
由于 ( I ± B ) ( I ± B ) − 1 = I (I\pm B)(I\pm B)^{-1} = I (I±B)(I±B)−1=I, 于是: ( I ± B ) − 1 = I ∓ B ( I ± B ) − 1 (I\pm B)^{-1} = I \mp B(I \pm B)^{-1} (I±B)−1=I∓B(I±B)−1
根据三角不等式: ∣ ∣ ( 1 ± B ) − 1 ∣ ∣ ≤ ∣ ∣ I ∣ ∣ + ∣ ∣ B ∣ ∣ ⋅ ∣ ∣ ( I ± B ) − 1 ∣ ∣ ||(1\pm B)^{-1}||\leq||I|| + ||B||\cdot||(I\pm B)^{-1}|| ∣∣(1±B)−1∣∣≤∣∣I∣∣+∣∣B∣∣⋅∣∣(I±B)−1∣∣
整理得: ∣ ∣ ( I ± B ) − 1 ∣ ∣ ≤ 1 1 − ∣ ∣ B ∣ ∣ ||(I\pm B)^{-1}||\leq\frac{1}{1-||B||} ∣∣(I±B)−1∣∣≤1−∣∣B∣∣1
设矩阵序列 A ( k ) = ( a i j ( k ) ) , k = 1 , 2 , ⋯ , A^{(k)} = (a_{ij}^{(k)}), \quad k=1,2,\cdots, A(k)=(aij(k)),k=1,2,⋯,矩阵 A = ( a i j ) . A = (a_{ij}). A=(aij).称 { A ( k ) } \{A^{(k)}\} {A(k)}收敛于 A A A,如果 lim k → ∞ ∣ ∣ A k − A ∣ ∣ = 0 \lim\limits_{k\rightarrow\infty}||A^{k}-A||=0 k→∞lim∣∣Ak−A∣∣=0
记作: lim k → ∞ A ( k ) = A \lim\limits_{k\rightarrow\infty}A^{(k)}=A k→∞limA(k)=A,或者 A ( k ) → A . A^{(k)}\rightarrow{A}. A(k)→A.
根据矩阵范数的等价性,定义中的范数可以是任意一种矩阵范数
由于: ∣ ∣ A ( k ) − A ∣ ∣ F = ( ∑ i , j = 1 n ∣ a i j k − a i j ∣ ) 1 2 ||A^{(k)}-A||_F = (\sum\limits_{i,j=1}^{n}|a_{ij}^{k} - a_{ij}|)^\frac{1}{2} ∣∣A(k)−A∣∣F=(i,j=1∑n∣aijk−aij∣)21
于是:矩阵序列收敛到某一矩阵,当且仅当矩阵的每一个分量都收敛到该矩阵的对应分量
假设解的误差来源于方程组右端项 b b b, 通过推导可以得到:
∣ ∣ Δ x ∣ ∣ ∣ ∣ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ Δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\Delta{x}||}{||x||}\leq ||A^{-1}||\cdot||A||\cdot\frac{||\Delta{b}||}{||b||} ∣∣x∣∣∣∣Δx∣∣≤∣∣A−1∣∣⋅∣∣A∣∣⋅∣∣b∣∣∣∣Δb∣∣
假设解的误差来源于方程组的系数矩阵 A A A, 通过推导可以得到:
∣ ∣ Δ x ∣ ∣ ∣ ∣ x + Δ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ Δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||\Delta{x}||}{||x+\Delta{x}||}\leq ||A^{-1}||\cdot||A||\cdot\frac{||\Delta{A}||}{||A||} ∣∣x+Δx∣∣∣∣Δx∣∣≤∣∣A−1∣∣⋅∣∣A∣∣⋅∣∣A∣∣∣∣ΔA∣∣
可见:这种误差产生于线性方程组的固有性态,且取决于 ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ||A^{-1}||\cdot||A|| ∣∣A−1∣∣⋅∣∣A∣∣的大小, 而 ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ||A^{-1}||\cdot||A|| ∣∣A−1∣∣⋅∣∣A∣∣也反映了方程组解对原始数据扰动的敏感程度
线性方程组 A x = b Ax=b Ax=b的条件数记为: C o n d ( A ) = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ Cond(A) = ||A^{-1}||\cdot||A|| Cond(A)=∣∣A−1∣∣⋅∣∣A∣∣
如果 A A A为对称阵: C o n d 2 ( A ) = ∣ λ 1 ∣ ∣ λ n ∣ Cond_2(A) = \frac{|\lambda_1|}{|\lambda_n|} Cond2(A)=∣λn∣∣λ1∣其中 λ 1 , λ n \lambda_1,\lambda_n λ1,λn分别是 A A A的最大和最小特征值
更一般的: C o n d 2 ( A ) = λ m a x ( A T A ) λ m i n ( A T A ) Cond_2(A) = \sqrt\frac{\lambda_{max}(A^TA)}{\lambda_{min}(A^TA)} Cond2(A)=λmin(ATA)λmax(ATA)
性质1: ∀ 非 奇 异 矩 阵 A , C o n d ( A ) ≥ ∣ ∣ I ∣ ∣ \forall非奇异矩阵A, Cond(A)\geq||I|| ∀非奇异矩阵A,Cond(A)≥∣∣I∣∣, 如果采取一般的 1 , 2 , ∞ 1,2,\infty 1,2,∞范数,则: C o n d ( A ) ≥ 1 Cond(A)\geq 1 Cond(A)≥1
证明1: C o n d ( A ) = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ≥ ∣ ∣ A − 1 A ∣ ∣ = ∣ ∣ I ∣ ∣ Cond(A) = ||A^{-1}||\cdot||A||\geq||A^{-1}A||=||I|| Cond(A)=∣∣A−1∣∣⋅∣∣A∣∣≥∣∣A−1A∣∣=∣∣I∣∣
**性质2:**若 A 为 非 奇 异 矩 阵 , A为非奇异矩阵, A为非奇异矩阵, c ≠ 0 , c 为 常 数 c\ne 0, c为常数 c=0,c为常数, 则: C o n d ( c A ) = C o n d ( A ) Cond(cA) = Cond(A) Cond(cA)=Cond(A)
证明2: C o n d ( c A ) = ∣ ∣ ( c A ) − 1 ∣ ∣ ⋅ ∣ ∣ c A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ c ⋅ c ∣ ∣ A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ = C o n d ( A ) Cond(cA) = ||(cA)^{-1}||\cdot||cA|| = \frac{||A^{-1}||}{c}\cdot c||A|| = ||A^{-1}||\cdot||A|| = Cond(A) Cond(cA)=∣∣(cA)−1∣∣⋅∣∣cA∣∣=c∣∣A−1∣∣⋅c∣∣A∣∣=∣∣A−1∣∣⋅∣∣A∣∣=Cond(A)
**性质3:**若 A A A为正交矩阵( A − 1 = A T A^{-1} = A^T A−1=AT),则 C o n d 2 ( A ) = 1 Cond_2(A)=1 Cond2(A)=1, 若 A A A为非奇异矩阵, R R R为正交矩阵,则: C o n d 2 ( R A ) = C o n d 2 ( A R ) = C o n d 2 ( A ) Cond_2(RA) = Cond_2(AR) = Cond_2(A) Cond2(RA)=Cond2(AR)=Cond2(A)
证明3:
可能矩阵病态的几点因素:
矩阵元素间数量级相差很大,并且无一定规律
矩阵行列式值相对来说很小,或某些行(或列)近似线性相关
列主元消去法求解过程中出现数量级很小的主元素
数值求解过程中,计算解 x ~ \tilde{x} x~的剩余向量 r = b − A x ~ r = b-A\tilde{x} r=b−Ax~已经很小,但是 x ~ \tilde{x} x~仍然不符合要求
对于第4点的解释:设 x x x为方程组 A x = b Ax=b Ax=b的精确解, x ~ \tilde{x} x~为近似解
则: r = b − A x ~ = A x − A x ~ = A ( x − x ~ ) r = b-A\tilde{x} = Ax-A\tilde{x} = A(x-\tilde{x}) r=b−Ax~=Ax−Ax~=A(x−x~)
于是: x − x ~ = A − 1 r x-\tilde{x} = A^{-1}r x−x~=A−1r
进而: ∣ ∣ x − x ~ ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ||x-\tilde{x}|| \leq ||A^{-1}||\cdot||r|| ∣∣x−x~∣∣≤∣∣A−1∣∣⋅∣∣r∣∣
进而: ∣ ∣ x − x ~ ∣ ∣ ∣ ∣ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ ≤ C o n d ( A ) ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||x-\tilde{x}||}{||x||}\leq\frac{||A^{-1}||\cdot||r||}{||x||}=\frac{||A^{-1}||\cdot||A||\cdot||r||}{||A||\cdot||x||}\leq Cond(A)\cdot\frac{||r||}{||b||} ∣∣x∣∣∣∣x−x~∣∣≤∣∣x∣∣∣∣A−1∣∣⋅∣∣r∣∣=∣∣A∣∣⋅∣∣x∣∣∣∣A−1∣∣⋅∣∣A∣∣⋅∣∣r∣∣≤Cond(A)⋅∣∣b∣∣∣∣r∣∣
可见:如果矩阵是病态的,即使剩余向量 ∣ ∣ r ∣ ∣ ||r|| ∣∣r∣∣很小,其过大的条件数也会使近似解失真
具体思想:
通过原方程组构建预条件方程组: A ~ x ~ = b ~ \tilde{A}\tilde{x}=\tilde{b} A~x~=b~
其中: A ~ = C − 1 A C , x ~ = C x , b ~ = C − 1 b \tilde{A} = C^{-1}AC,\quad \tilde{x}=Cx,\quad \tilde{b}=C^{-1}b A~=C−1AC,x~=Cx,b~=C−1b, 可逆矩阵 C C C称为预条件矩阵
一般矩阵 C C C满足如下要求:
a. 条件数 C o n d ( A ~ ) Cond(\tilde{A}) Cond(A~)比 C o n d ( A ) Cond(A) Cond(A)有明显改善
b. 方程组 C z = d Cz=d Cz=d容易求解
A为正定矩阵时,可取 C = D 1 2 C=D^{\frac{1}{2}} C=D21, D D D为 A A A的对角元素构成的对角矩阵
注:1. 如果系数矩阵条件数非常大,迭代过程可能不会收敛
2. 迭代过程应采用 L U LU LU分解来减小计算量