矩阵论专栏:专栏(文章按照顺序排序)
参考资料:
线性代数基础知识系列:1、2、3、4、5
矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD(下)
矩阵的正定性
矩阵的条件数用于界定一个矩阵是“良态的”还是“病态的”,一般来说,条件数越大,矩阵越接近一个奇异矩阵(不可逆矩阵),矩阵越“病态”。在数值计算中,矩阵的条件数越大,计算的误差越大,精度越低。例如下面解线性方程组的例子:
矩阵A的条件数很大:
如果A受到很小的扰动,变成如下的矩阵B,可以发现方程的解的变化非常大:
如果我们采集的数据有稍微一点点的偏差,就像上面的例子,我们得到的结果就会相差很多,这不是我们希望看到的。所以,衡量一个矩阵的病态程度是很有必要的。
下面先从矩阵范数入手,在此基础上再去了解条件数:
- 矩阵的范数
- 范数公理
- Frobenius范数
- Frobenius范数与特征值和奇异值的关系
- 特征值与奇异值之间的关系总结
- 诱导范数/算子范数
- 1 , 2 , ∞ 1,2,\infty 1,2,∞范数的具体表达式
- 矩阵的条件数及求法
- 条件数在误差估计方面的应用
- 线性方程组的误差估计
- 矩阵求逆的误差估计
- 思考:什么时候 c o n d ( A ) cond(A) cond(A)最小?
【说明】设 F F F为一数域。本文 F n × 1 F^{n\times 1} Fn×1与 F n F^n Fn不作区分,即默认把 F n F^n Fn中的向量视作列向量。在 F n F^n Fn上定义的 l p l_p lp范数在 F n × 1 F^{n\times 1} Fn×1上也适用。文中 R R R表示实数域, C C C表示复数域。 F r m × n F^{m\times n}_r Frm×n表示数域 F F F上全体秩为 r r r的 m × n m\times n m×n矩阵的集合。
矩阵的范数
范数公理
- 定义1:矩阵 A ∈ F m × n A\in{F^{m\times{n}}} A∈Fm×n的范数 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣必须是实值函数且满足如下性质:
- ∀ A ≠ O , ∣ ∣ A ∣ ∣ > 0 ; ∣ ∣ O ∣ ∣ = 0 \forall{A}\neq{O},||A||\gt{0};||O||=0 ∀A=O,∣∣A∣∣>0;∣∣O∣∣=0 (非负性/正定性)
- ∀ c ∈ F , ∣ ∣ c A ∣ ∣ = ∣ c ∣ ∣ ∣ A ∣ ∣ \forall{c}\in{F},||cA||=|c|||A|| ∀c∈F,∣∣cA∣∣=∣c∣∣∣A∣∣ (齐次性)
- ∣ ∣ A + B ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ + ∣ ∣ B ∣ ∣ ||A+B||\leqslant{}||A||+||B|| ∣∣A+B∣∣⩽∣∣A∣∣+∣∣B∣∣ (三角不等式)
- ∣ ∣ A B ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||AB||\leqslant{}||A||||B|| ∣∣AB∣∣⩽∣∣A∣∣∣∣B∣∣ (矩阵乘法的相容性)
- 定理1(矩阵范数的性质):
(1) ∣ ∣ I ∣ ∣ ⩾ 1 ||I||\geqslant 1 ∣∣I∣∣⩾1
证明:由 ∣ ∣ I ∣ ∣ ⩽ ∣ ∣ I ∣ ∣ ∣ ∣ I ∣ ∣ ||I||\leqslant||I||||I|| ∣∣I∣∣⩽∣∣I∣∣∣∣I∣∣(矩阵乘法的相容性)且 ∣ ∣ I ∣ ∣ > 0 ||I||>0 ∣∣I∣∣>0即证。
【注】需要注意的是, ∣ ∣ I ∣ ∣ = 1 ||I||=1 ∣∣I∣∣=1是不一定成立的。例如 ∣ ∣ I ∣ ∣ F = n ||I||_F=\sqrt{n} ∣∣I∣∣F=n (Frobenius范数,见后文),其中 n n n是单位矩阵 I I I的阶数。但是,单位矩阵的算子范数(诱导范数)总是1,证明见后文。
(2)设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n,任取A的一个特征值 λ \lambda λ,则有 ∣ λ ∣ ⩽ ∣ ∣ A ∣ ∣ |\lambda|\leqslant ||A|| ∣λ∣⩽∣∣A∣∣
证明:参照(3)的证明的前半部分。
【注】根据谱半径的定义,可得 ρ ( A ) ⩽ ∣ ∣ A ∣ ∣ \rho(A)\leqslant ||A|| ρ(A)⩽∣∣A∣∣。
(3)设 A ∈ C n n × n A\in C^{n\times n}_n A∈Cnn×n,则对A的任一特征值 λ \lambda λ有 ∣ ∣ A − 1 ∣ ∣ − 1 ⩽ ∣ λ ∣ ⩽ ∣ ∣ A ∣ ∣ ||A^{-1}||^{-1}\leqslant |\lambda| \leqslant||A|| ∣∣A−1∣∣−1⩽∣λ∣⩽∣∣A∣∣
证明:设 A x = λ x , x ≠ 0 Ax=\lambda x,x\neq 0 Ax=λx,x=0,则 ∣ λ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A x ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ |\lambda|||x||=||Ax||\leqslant||A||||x|| ∣λ∣∣∣x∣∣=∣∣Ax∣∣⩽∣∣A∣∣∣∣x∣∣且 ∣ ∣ x ∣ ∣ > 0 ||x||>0 ∣∣x∣∣>0,故 ∣ λ ∣ < ∣ ∣ A ∣ ∣ |\lambda|<||A|| ∣λ∣<∣∣A∣∣。用 A − 1 A^{-1} A−1左乘 A x = λ x Ax=\lambda x Ax=λx得到 λ A − 1 x = x \lambda A^{-1}x=x λA−1x=x,故 ∣ ∣ x ∣ ∣ = ∣ ∣ λ A − 1 x ∣ ∣ ⩽ ∣ λ ∣ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ x ∣ ∣ ||x||=||\lambda A^{-1}x||\leqslant |\lambda|||A^{-1}||||x|| ∣∣x∣∣=∣∣λA−1x∣∣⩽∣λ∣∣∣A−1∣∣∣∣x∣∣,又 ∣ ∣ x ∣ ∣ > 0 ||x||>0 ∣∣x∣∣>0故 ∣ λ ∣ ∣ ∣ A − 1 ∣ ∣ ⩾ 1 |\lambda|||A^{-1}||\geqslant 1 ∣λ∣∣∣A−1∣∣⩾1,即 ∣ ∣ A − 1 ∣ ∣ − 1 ⩽ ∣ λ ∣ ||A^{-1}||^{-1}\leqslant |\lambda| ∣∣A−1∣∣−1⩽∣λ∣。综上得证。
常用范数
- Frobenius范数
和向量的Frobenius范数(L2范数、欧几里得范数)类似,矩阵的Frobenius范数也是把每一个元素的模的平方加起来再开根号:
- 定义2:矩阵的Frobenius范数定义为 ∣ ∣ A ∣ ∣ F = t r ( A H A ) = ∑ i , j ∣ a i j ∣ 2 ||A||_F=\sqrt{tr(A^HA)}=\sqrt{\sum_{i,j}|a_{ij}|^2} ∣∣A∣∣F=tr(AHA) =∑i,j∣aij∣2 ,其中 a i j a_{ij} aij是A的第i行,第j列元素
Frobenius范数是满足上面四条范数公理的,证明稍微有些繁琐,这里就不写了。
由Frobenius范数很容易得到酋矩阵的一个性质:
- 定理2:设U是n阶酋矩阵,则U的任意特征值的模长为1
证明:
设 U x = λ x , x ≠ 0 Ux=\lambda x,x\neq 0 Ux=λx,x=0,则 ∣ ∣ U x ∣ ∣ F = ∣ λ ∣ ∣ ∣ x ∣ ∣ F ||Ux||_F=|\lambda|||x||_F ∣∣Ux∣∣F=∣λ∣∣∣x∣∣F,因为 ∣ ∣ U x ∣ ∣ F = t r ( x H U H U x ) = t r ( x H x ) = ∣ ∣ x ∣ ∣ F ||Ux||_F=\sqrt{tr(x^HU^HUx)}=\sqrt{tr(x^Hx)}=||x||_F ∣∣Ux∣∣F=tr(xHUHUx) =tr(xHx) =∣∣x∣∣F,且 ∣ ∣ x ∣ ∣ F > 0 ||x||_F>0 ∣∣x∣∣F>0,所以 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1。
这个定理在前面的博客链接中证明过,方法和这里本质上是一回事。
- Frobenius范数与特征值的关系
- 定理3(Schur不等式):设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n, A A A的特征值为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn,则 ∣ ∣ A ∣ ∣ F ⩾ ∑ i ∣ λ i ∣ 2 ||A||_F\geqslant \sqrt{\sum_i |\lambda_i|^2} ∣∣A∣∣F⩾∑i∣λi∣2 ,且取等号的充要条件为 A A A是正规矩阵
证明:
设 A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH,其中 U U U是酋阵, T = ( t i j ) n × n T=(t_{ij})_{n\times n} T=(tij)n×n是上三角阵。则 ∣ ∣ A ∣ ∣ F = t r ( A H A ) = t r ( U T H U H U T U H ) = t r ( U T H T U H ) = t r ( U H U T H T ) = t r ( T H T ) = ∣ ∣ T ∣ ∣ F ||A||_F=\sqrt{tr(A^HA)}=\sqrt{tr(UT^HU^HUTU^H)}=\sqrt{tr(UT^HTU^H)}=\sqrt{tr(U^HUT^HT)}=\sqrt{tr(T^HT)}=||T||_F ∣∣A∣∣F=tr(AHA) =tr(UTHUHUTUH) =tr(UTHTUH) =tr(UHUTHT) =tr(THT) =∣∣T∣∣F,注意 T T T的主对角元是 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn,所以 ∣ ∣ A ∣ ∣ F = ∣ ∣ T ∣ ∣ F = ∑ i , j ∣ t i j ∣ 2 ⩾ ∑ i ∣ λ i ∣ 2 ||A||_F=||T||_F=\sqrt{\sum_{i,j}|t_{ij}|^2}\geqslant \sqrt{\sum_i |\lambda_i|^2} ∣∣A∣∣F=∣∣T∣∣F=∑i,j∣tij∣2 ⩾∑i∣λi∣2 。接下来考虑取等号的条件。显然取等号的充要条件是 ∑ i , j ∣ t i j ∣ 2 = ∑ i ∣ λ i ∣ 2 \sqrt{\sum_{i,j}|t_{ij}|^2}=\sqrt{\sum_i |\lambda_i|^2} ∑i,j∣tij∣2 =∑i∣λi∣2 ,即 T T T除主对角线外元素均为零,即 T T T是一对角阵,即 A A A酋相似于一对角阵,即 A A A是一正规矩阵。
- Frobenius范数与奇异值的关系
- 定理4:设 A ∈ C m × n A\in C^{m\times n} A∈Cm×n, σ 1 , σ 2 , ⋯ , σ k \sigma_1,\sigma_2,\cdots,\sigma_k σ1,σ2,⋯,σk是 A A A的非零奇异值(重奇异值按重数算),则 ∣ ∣ A ∣ ∣ F = ∑ i σ i 2 ||A||_F=\sqrt{\sum_i \sigma_i^2} ∣∣A∣∣F=∑iσi2
证明:
设 A H A A^HA AHA的一个谱分解为 A H A = U Σ U H = U Σ U − 1 A^HA=U\Sigma U^H=U\Sigma U^{-1} AHA=UΣUH=UΣU−1。
∣ ∣ A ∣ ∣ F = t r ( A H A ) = t r ( U Σ U − 1 ) = t r ( U − 1 U Σ ) = t r ( Σ ) = ∑ i σ i 2 ||A||_F=\sqrt{tr(A^HA)}=\sqrt{tr(U\Sigma U^{-1})}=\sqrt{tr(U^{-1}U\Sigma )}=\sqrt{tr(\Sigma)}=\sqrt{\sum_i \sigma_i^2} ∣∣A∣∣F=tr(AHA) =tr(UΣU−1) =tr(U−1UΣ) =tr(Σ) =∑iσi2 。
- 定理5:设 A ∈ C n n × n A\in C^{n\times n}_n A∈Cnn×n,则 ∣ ∣ A − 1 ∣ ∣ F = ∑ i 1 / σ i 2 ||A^{-1}||_F=\sqrt{\sum_i 1/\sigma_i^2} ∣∣A−1∣∣F=∑i1/σi2 ,其中 σ 1 , σ 2 , ⋯ , σ n \sigma_1,\sigma_2,\cdots,\sigma_n σ1,σ2,⋯,σn是 A A A的奇异值(重奇异值按重数算)
证明:
由逆矩阵的奇异值与原矩阵的奇异值的关系以及定理4直接可得。
【注】逆矩阵的奇异值与原矩阵的奇异值的关系见链接。
结合定理3和定理4的结论,借此机会总结一下矩阵的特征值和奇异值之间的关系:
设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n, A A A的特征值按照模从小到大排序为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn, A A A的奇异值按照从小到大排序为 σ 1 , σ 2 , . . . , σ n \sigma_1,\sigma_2,...,\sigma_n σ1,σ2,...,σn,则有如下结论
- ∑ i σ i 2 ⩾ ∑ i ∣ λ i ∣ 2 \sum_i \sigma_i^2\geqslant \sum_i |\lambda_i|^2 ∑iσi2⩾∑i∣λi∣2
- ∑ i σ i 2 = ∑ i ∣ λ i ∣ 2 \sum_i \sigma_i^2=\sum_i |\lambda_i|^2 ∑iσi2=∑i∣λi∣2的充要条件为 A A A是正规矩阵
- σ i = ∣ λ i ∣ , i = 1 , 2 , . . . , n \sigma_i=|\lambda_i|,i=1,2,...,n σi=∣λi∣,i=1,2,...,n的充要条件为 A A A是正规矩阵
注意,结论3的充分性在前面的博客文章中已经证明,必要性进行简单分析即可:如果 σ i = ∣ λ i ∣ , i = 1 , 2 , . . . , n \sigma_i=|\lambda_i|,i=1,2,...,n σi=∣λi∣,i=1,2,...,n,那么 ∑ i σ i 2 = ∑ i ∣ λ i ∣ 2 \sum_i \sigma_i^2=\sum_i |\lambda_i|^2 ∑iσi2=∑i∣λi∣2,于是根据结论2知 A A A是正规矩阵。
矩阵的条件数
- 定义7:设 A ∈ F n n × n A\in{F^{n\times n}_n} A∈Fnn×n,A的条件数定义为 c o n d ( A ) = ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ cond(A)=||A||||A^{-1}|| cond(A)=∣∣A∣∣∣∣A−1∣∣,其中 ∣ ∣ ∙ ∣ ∣ ||\bullet|| ∣∣∙∣∣是定义在 F n × n F^{n\times n} Fn×n上的矩阵范数
根据定义来看,任意一种矩阵范数都可以用来定义条件数。矩阵的条件数具有如下性质:(以下均设A,B是同阶可逆矩阵)
- 定理10:
(1) c o n d ( A ) ⩾ 1 cond(A)\geqslant 1 cond(A)⩾1
证明: c o n d ( A ) = ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩾ ∣ ∣ I ∣ ∣ ⩾ 1 cond(A)=||A||||A^{-1}||\geqslant ||I||\geqslant 1 cond(A)=∣∣A∣∣∣∣A−1∣∣⩾∣∣I∣∣⩾1
(2) c o n d ( A ) = c o n d ( A − 1 ) cond(A)=cond(A^{-1}) cond(A)=cond(A−1)
(3) c o n d ( k A ) = c o n d ( A ) , k ≠ 0 , k ∈ F cond(kA)=cond(A),k\neq 0,k\in F cond(kA)=cond(A),k=0,k∈F
(4) c o n d ( A B ) ⩽ c o n d ( A ) c o n d ( B ) cond(AB)\leqslant cond(A)cond(B) cond(AB)⩽cond(A)cond(B)
证明: c o n d ( A B ) = ∣ ∣ A B ∣ ∣ ∣ ∣ B − 1 A − 1 ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ∣ ∣ B − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ = c o n d ( A ) c o n d ( B ) cond(AB)=||AB||||B^{-1}A^{-1}||\leqslant ||A||||B||||B^{-1}||||A^{-1}||=cond(A)cond(B) cond(AB)=∣∣AB∣∣∣∣B−1A−1∣∣⩽∣∣A∣∣∣∣B∣∣∣∣B−1∣∣∣∣A−1∣∣=cond(A)cond(B)
下面是四种常用的条件数(分别对应上面介绍的四种矩阵范数):
- 定义8:
(1) c o n d 1 ( A ) = ∣ ∣ A ∣ ∣ 1 ∣ ∣ A − 1 ∣ ∣ 1 cond_1(A)=||A||_1||A^{-1}||_1 cond1(A)=∣∣A∣∣1∣∣A−1∣∣1(1-条件数)
(2) c o n d 2 ( A ) = ∣ ∣ A ∣ ∣ 2 ∣ ∣ A − 1 ∣ ∣ 2 cond_2(A)=||A||_2||A^{-1}||_2 cond2(A)=∣∣A∣∣2∣∣A−1∣∣2(2-条件数)
(3) c o n d ∞ ( A ) = ∣ ∣ A ∣ ∣ ∞ ∣ ∣ A − 1 ∣ ∣ ∞ cond_{\infty}(A)=||A||_{\infty}||A^{-1}||_{\infty} cond∞(A)=∣∣A∣∣∞∣∣A−1∣∣∞( ∞ \infty ∞-条件数)
(4) c o n d F ( A ) = ∣ ∣ A ∣ ∣ F ∣ ∣ A − 1 ∣ ∣ F cond_F(A)=||A||_F||A^{-1}||_F condF(A)=∣∣A∣∣F∣∣A−1∣∣F(Frobenius范数的条件数)
上面四种条件数在matlab中的调用分别为cond(A,1),cond(A,2),cond(A,inf),cond(A,‘fro’)
2-条件数可以通过矩阵的奇异值分解计算得到,这是因为有如下计算式:
- 定理11: c o n d 2 ( A ) = σ m a x σ m i n cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}} cond2(A)=σminσmax,其中 σ m a x \sigma_{max} σmax是A的最大奇异值, σ m i n \sigma_{min} σmin是A的最小奇异值
证明: c o n d 2 ( A ) = ∣ ∣ A ∣ ∣ 2 ∣ ∣ A − 1 ∣ ∣ 2 cond_2(A)=||A||_2||A^{-1}||_2 cond2(A)=∣∣A∣∣2∣∣A−1∣∣2,定理8及其推论已经证明 ∣ ∣ A ∣ ∣ 2 = σ m a x ||A||_2=\sigma_{max} ∣∣A∣∣2=σmax, ∣ ∣ A − 1 ∣ ∣ 2 = 1 / σ m i n ||A^{-1}||_2=1/\sigma_{min} ∣∣A−1∣∣2=1/σmin,所以 c o n d 2 ( A ) = σ m a x σ m i n cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}} cond2(A)=σminσmax。
当A是正规矩阵时,还有如下计算式:
- 定理12: c o n d 2 ( A ) = ∣ λ m a x ∣ ∣ λ m i n ∣ cond_2(A)=\frac{|\lambda_{max}|}{|\lambda_{min}|} cond2(A)=∣λmin∣∣λmax∣,其中 λ m a x \lambda_{max} λmax是A的模最大的特征值, λ m i n \lambda_{min} λmin是A的模最小的特征值。
(由正规矩阵的特征值与奇异值的关系可知 σ m a x = ∣ λ m a x ∣ \sigma_{max}=|\lambda_{max}| σmax=∣λmax∣且 σ m i n = ∣ λ m i n ∣ \sigma_{min}=|\lambda_{min}| σmin=∣λmin∣,证明参考链接)
由上面的计算式可以导出2-条件数的如下性质:
- 定理13:若U为酋矩阵,则 c o n d 2 ( U ) = 1 cond_2(U)=1 cond2(U)=1且
c o n d 2 ( A U ) = c o n d 2 ( U A ) = c o n d 2 ( A ) cond_2(AU)=cond_2(UA)=cond_2(A) cond2(AU)=cond2(UA)=cond2(A)
证明:由于酋矩阵都是正规矩阵,故 c o n d 2 ( U ) = ∣ λ m a x ∣ ∣ λ m i n ∣ cond_2(U)=\frac{|\lambda_{max}|}{|\lambda_{min}|} cond2(U)=∣λmin∣∣λmax∣,而酋矩阵的任意特征值的模长为1(定理2),故 c o n d 2 ( U ) = 1 cond_2(U)=1 cond2(U)=1。由于奇异值具有酋不变性(旋转不变性),故 A U AU AU, U A UA UA, A A A的奇异值相同,所以 c o n d 2 ( A U ) = c o n d 2 ( U A ) = c o n d 2 ( A ) cond_2(AU)=cond_2(UA)=cond_2(A) cond2(AU)=cond2(UA)=cond2(A)。
F-条件数也可以根据矩阵的奇异值(或 A H A A^HA AHA的谱分解)计算得出,有如下计算式:
- 定理14:设 A ∈ C n n × n A\in C^{n\times n}_n A∈Cnn×n, σ 1 , σ 2 , ⋯ , σ n \sigma_1,\sigma_2,\cdots,\sigma_n σ1,σ2,⋯,σn为 A A A的全部奇异值(重奇异值按重数算),则 c o n d F ( A ) = ∑ i σ i 2 ∑ i 1 / σ i 2 cond_F(A)=\sqrt{\sum_i \sigma_i^2\sum_i 1/\sigma_i^2} condF(A)=∑iσi2∑i1/σi2
证明:根据定理4和定理5有 ∣ ∣ A ∣ ∣ F = ∑ i σ i 2 ||A||_F=\sqrt{\sum_i \sigma_i^2} ∣∣A∣∣F=∑iσi2 以及 ∣ ∣ A − 1 ∣ ∣ F = ∑ i 1 / σ i 2 ||A^{-1}||_F=\sqrt{\sum_i 1/\sigma_i^2} ∣∣A−1∣∣F=∑i1/σi2 。
误差估计
条件数可以给出误差估计的界,从而能够用于衡量一个问题是良态的还是病态的。下面以两个常见的问题为例(矩阵求逆和线性方程组求解),说明条件数在误差估计方面的作用。
【注】下面出现的条件数均由矩阵的算子范数定义,即 c o n d ( A ) = ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ cond(A)=||A||||A^{-1}|| cond(A)=∣∣A∣∣∣∣A−1∣∣,其中 ∣ ∣ ∙ ∣ ∣ ||\bullet|| ∣∣∙∣∣是矩阵的任意算子范数(诱导范数)。
- 引理:设 ∣ ∣ ∙ ∣ ∣ ||\bullet|| ∣∣∙∣∣是矩阵的任意一个诱导范数。若 ∣ ∣ B ∣ ∣ < 1 ||B||\lt 1 ∣∣B∣∣<1,则 I − B I-B I−B可逆,且有 ∣ ∣ ( I − B ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ B ∣ ∣ ||(I-B)^{-1}||\leqslant\frac{1}{1-||B||} ∣∣(I−B)−1∣∣⩽1−∣∣B∣∣1
证明:
先用反证法证明 I − B I-B I−B可逆:假设 I − B I-B I−B不可逆,则齐次线性方程组 ( I − B ) x = 0 (I-B)x=0 (I−B)x=0有非零解,于是 0 = ∣ ∣ 0 ∣ ∣ = ∣ ∣ ( I − B ) x ∣ ∣ = ∣ ∣ x − B x ∣ ∣ ⩾ ∣ ∣ x ∣ ∣ − ∣ ∣ B x ∣ ∣ ⩾ ∣ ∣ x ∣ ∣ − ∣ ∣ B ∣ ∣ ∣ ∣ x ∣ ∣ = ( 1 − ∣ ∣ B ∣ ∣ ) ∣ ∣ x ∣ ∣ > 0 \begin{aligned}0&=||0||=||(I-B)x||=||x-Bx||\\&\geqslant||x||-||Bx||\geqslant||x||-||B||||x||\\&=(1-||B||)||x||\gt 0\end{aligned} 0=∣∣0∣∣=∣∣(I−B)x∣∣=∣∣x−Bx∣∣⩾∣∣x∣∣−∣∣Bx∣∣⩾∣∣x∣∣−∣∣B∣∣∣∣x∣∣=(1−∣∣B∣∣)∣∣x∣∣>0矛盾,故 I − B I-B I−B可逆。
由 I − B I-B I−B可逆,有 1 = ∣ ∣ I ∣ ∣ = ∣ ∣ ( I − B ) ( I − B ) − 1 ∣ ∣ = ∣ ∣ ( I − B ) − 1 − B ( I − B ) − 1 ∣ ∣ ⩾ ∣ ∣ ( I − B ) − 1 ∣ ∣ − ∣ ∣ B ( I − B ) − 1 ∣ ∣ ⩾ ∣ ∣ ( I − B ) − 1 ∣ ∣ − ∣ ∣ B ∣ ∣ ∣ ∣ ( I − B ) − 1 ∣ ∣ = ( 1 − ∣ ∣ B ∣ ∣ ) ∣ ∣ ( I − B ) − 1 ∣ ∣ \begin{aligned}1&=||I||=||(I-B)(I-B)^{-1}||=||(I-B)^{-1}-B(I-B)^{-1}||\\&\geqslant||(I-B)^{-1}||-||B(I-B)^{-1}||\geqslant||(I-B)^{-1}||-||B||||(I-B)^{-1}||\\&=(1-||B||)||(I-B)^{-1}||\end{aligned} 1=∣∣I∣∣=∣∣(I−B)(I−B)−1∣∣=∣∣(I−B)−1−B(I−B)−1∣∣⩾∣∣(I−B)−1∣∣−∣∣B(I−B)−1∣∣⩾∣∣(I−B)−1∣∣−∣∣B∣∣∣∣(I−B)−1∣∣=(1−∣∣B∣∣)∣∣(I−B)−1∣∣于是 ∣ ∣ ( I − B ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ B ∣ ∣ ||(I-B)^{-1}||\leqslant\frac{1}{1-||B||} ∣∣(I−B)−1∣∣⩽1−∣∣B∣∣1。
条件数对矩阵求逆的误差估计
-
定理15:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1,则 A + δ A A+\delta A A+δA可逆,且下式成立: ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽1−∣∣A−1δA∣∣∣∣A−1δA∣∣
证明:
因为 ∣ ∣ − A − 1 δ A ∣ ∣ = ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||-A^{-1}\delta A||=||A^{-1}\delta A||<1 ∣∣−A−1δA∣∣=∣∣A−1δA∣∣<1,故由引理知 I + A − 1 δ A = I − ( − A − 1 δ A ) I+A^{-1}\delta A=I-(-A^{-1}\delta A) I+A−1δA=I−(−A−1δA)可逆,且有 ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 δ A ∣ ∣ ||(I+A^{-1}\delta A)^{-1}||\leqslant\frac{1}{1-||A^{-1}\delta A||} ∣∣(I+A−1δA)−1∣∣⩽1−∣∣A−1δA∣∣1。
因为 A + δ A = A ( I + A − 1 δ A ) A+\delta A=A(I+A^{-1}\delta A) A+δA=A(I+A−1δA),故 A + δ A A+\delta A A+δA也是可逆的,且 A − 1 − ( A + δ A ) − 1 = A − 1 − ( I + A − 1 δ A ) − 1 A − 1 = ( I − ( I + A − 1 δ A ) − 1 ) A − 1 \begin{aligned}A^{-1}-(A+\delta A)^{-1}&=A^{-1}-(I+A^{-1}\delta A)^{-1}A^{-1}\\&=(I-(I+A^{-1}\delta A)^{-1})A^{-1}\end{aligned} A−1−(A+δA)−1=A−1−(I+A−1δA)−1A−1=(I−(I+A−1δA)−1)A−1注意到 ( I + A − 1 δ A ) ( I − ( I + A − 1 δ A ) − 1 ) = A − 1 δ A (I+A^{-1}\delta A)(I-(I+A^{-1}\delta A)^{-1})=A^{-1}\delta A (I+A−1δA)(I−(I+A−1δA)−1)=A−1δA,即 I − ( I + A − 1 δ A ) − 1 = ( I + A − 1 δ A ) − 1 A − 1 δ A I-(I+A^{-1}\delta A)^{-1}=(I+A^{-1}\delta A)^{-1}A^{-1}\delta A I−(I+A−1δA)−1=(I+A−1δA)−1A−1δA,于是 ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ ∣ ∣ I − ( I + A − 1 δ A ) − 1 ∣ ∣ = ∣ ∣ ( I + A − 1 δ A ) − 1 A − 1 δ A ∣ ∣ ⩽ ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ \begin{aligned}\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}&\leqslant||I-(I+A^{-1}\delta A)^{-1}||\\&=||(I+A^{-1}\delta A)^{-1}A^{-1}\delta A||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}\delta A||\\&\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\end{aligned} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽∣∣I−(I+A−1δA)−1∣∣=∣∣(I+A−1δA)−1A−1δA∣∣⩽∣∣(I+A−1δA)−1∣∣∣∣A−1δA∣∣⩽1−∣∣A−1δA∣∣∣∣A−1δA∣∣证毕。
【注】当矩阵 A A A的误差 δ A \delta A δA足够小,即 ∣ ∣ δ A ∣ ∣ ||\delta A|| ∣∣δA∣∣足够小时,能够满足 ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ < 1 ||A^{-1}||||\delta A||\lt 1 ∣∣A−1∣∣∣∣δA∣∣<1,则 ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ < 1 ||A^{-1}\delta A||\leqslant||A^{-1}||||\delta A||<1 ∣∣A−1δA∣∣⩽∣∣A−1∣∣∣∣δA∣∣<1,即定理的条件满足。
-
定理16:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1,则下式成立: ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣
证明:
只需证明 ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||} 1−∣∣A−1δA∣∣∣∣A−1δA∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣即可。 ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ = c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \begin{aligned}\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}&\leqslant\frac{||A^{-1}||||\delta A||}{1-||A^{-1}||||\delta A||}\\&=\frac{||A^{-1}||||A||}{1-||A^{-1}||||A||\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\\&=\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\end{aligned} 1−∣∣A−1δA∣∣∣∣A−1δA∣∣⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣δA∣∣=1−∣∣A−1∣∣∣∣A∣∣∣∣A∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣∣∣A∣∣∣∣δA∣∣=1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣得证。
【注】显然,当相对误差项 ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||\delta A||}{||A||} ∣∣A∣∣∣∣δA∣∣固定时,矩阵的条件数 c o n d ( A ) cond(A) cond(A)越大,则矩阵求逆的相对误差 ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣的上界越大,即该误差越“不可控”。这说明矩阵的条件数越大,则解越不稳定,解的精度受到问题输入的误差的影响越大。
条件数对线性方程组求解的误差估计
-
定理17:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n, b , δ b ∈ F n b,\delta b\in F^n b,δb∈Fn,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1, x x x满足 A x = b Ax=b Ax=b, x + δ x x+\delta x x+δx满足 ( A + δ A ) ( x + δ x ) = ( b + δ b ) (A+\delta A)(x+\delta x)=(b+\delta b) (A+δA)(x+δx)=(b+δb),则 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ( ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ + ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ ) \frac{||\delta x||}{||x||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}(\frac{||\delta A||}{||A||}+\frac{||\delta b||}{||b||}) ∣∣x∣∣∣∣δx∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)(∣∣A∣∣∣∣δA∣∣+∣∣b∣∣∣∣δb∣∣)
证明:
由 ∣ ∣ − A − 1 δ A ∣ ∣ = ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||-A^{-1}\delta A||=||A^{-1}\delta A||\lt 1 ∣∣−A−1δA∣∣=∣∣A−1δA∣∣<1知, I + A − 1 δ A = I − ( − A − 1 δ A ) I+A^{-1}\delta A=I-(-A^{-1}\delta A) I+A−1δA=I−(−A−1δA)可逆,且 ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ||(I+A^{-1}\delta A)^{-1}||\leqslant \frac{1}{1-||A^{-1}\delta A||}\leqslant \frac{1}{1-||A^{-1}||||\delta A||} ∣∣(I+A−1δA)−1∣∣⩽1−∣∣A−1δA∣∣1⩽1−∣∣A−1∣∣∣∣δA∣∣1。
由已知可得 ( A + δ A ) δ x = δ b − ( δ A ) x (A+\delta A)\delta x=\delta b-(\delta A)x (A+δA)δx=δb−(δA)x,用 A − 1 A^{-1} A−1左乘两端得 ( I + A − 1 δ A ) δ x = A − 1 ( δ b − ( δ A ) x ) (I+A^{-1}\delta A)\delta x=A^{-1}(\delta b-(\delta A)x) (I+A−1δA)δx=A−1(δb−(δA)x),则 δ x = ( I + A − 1 δ A ) − 1 A − 1 ( δ b − ( δ A ) x ) \delta x=(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x) δx=(I+A−1δA)−1A−1(δb−(δA)x)。 ∣ ∣ δ x ∣ ∣ = ∣ ∣ ( I + A − 1 δ A ) − 1 A − 1 ( δ b − ( δ A ) x ) ∣ ∣ ⩽ ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ ( δ b − ( δ A ) x ) ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ x ∣ ∣ ) = ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ) \begin{aligned}||\delta x||&=||(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x)||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}||||(\delta b-(\delta A)x)||\\&\leqslant\frac{||A^{-1}||}{1-||A^{-1}||||\delta A||}(||\delta b||+||\delta A||||x||)\\&=\frac{||A^{-1}||||A||||x||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||A||||x||}+\frac{||\delta A||}{||A||})\end{aligned} ∣∣δx∣∣=∣∣(I+A−1δA)−1A−1(δb−(δA)x)∣∣⩽∣∣(I+A−1δA)−1∣∣∣∣A−1∣∣∣∣(δb−(δA)x)∣∣⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣(∣∣δb∣∣+∣∣δA∣∣∣∣x∣∣)=1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣∣∣x∣∣(∣∣A∣∣∣∣x∣∣∣∣δb∣∣+∣∣A∣∣∣∣δA∣∣)因为 A x = b Ax=b Ax=b,所以 ∣ ∣ b ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ ||b||\leqslant||A||||x|| ∣∣b∣∣⩽