范数概念以及相关推导

范数

向量范数

常见范数

  • p范数(p = 1, 2, ∞ \infty , ⋯ \cdots ): ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||x||_p = (\sum\limits_{i=1}^{n}|x_i|^p)^{\frac{1}{p}} xp=(i=1nxip)p1
  • 0范数:向量中非0分量的个数(用来衡量稀疏度)

定义:向量范数

∣ ∣ ⋅ ∣ ∣ ||\cdot|| 是向量空间 R n R^n Rn上的实值函数,且满足条件:

  • 非负性 ∣ ∣ ⋅ ∣ ∣ ≥ 0 ||\cdot||\geq0 0 ,且 ∣ ∣ x ∣ ∣ = 0 ||x|| = 0 x=0当且仅当 x = 0 x=0 x=0

  • 齐次性:对任何实数 α \alpha α和向量 x ∈ R n x\in{R^n} xRn : ∣ ∣ α x ∣ ∣ = ∣ α ∣ ⋅ ∣ ∣ x ∣ ∣ ||\alpha{x}||=|\alpha|\cdot||x|| αx=αx

  • 三角不等式:对任意向量 x , y ∈ R n x, y\in{R^n} x,yRn ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq||x|| + ||y|| x+yx+y

则称 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| R n R^n Rn空间上的范数, ∣ ∣ x ∣ ∣ ||x|| x为向量 x x x的范数

定理:范数的等价性

对于 R n R^n Rn上的任何两种向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_{\alpha} α ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_{\beta} β,存在正常数m, M,使得:

m ∣ ∣ x ∣ ∣ β ≤ ∣ ∣ x ∣ ∣ α ≤ M ∣ ∣ x ∣ ∣ β , ∀ x ∈ R n m||x||_{\beta} \leq ||x||_{\alpha} \leq M||x||_{\beta}, \quad \forall{x}\in{R^n} mxβxαMxβ,xRn

证明:

首先证明范数的连续性

R n R^n Rn中的向量表示为 x = ∑ i = 1 n x i e i x = \sum\limits_{i=1}^{n}{{x_i}{e_i}} x=i=1nxiei, 其中 e 1 , e 2 , ⋯   , e n e_1, e_2, \cdots, e_n e1,e2,,en为n维单位坐标向量

f ( x ) = ∣ ∣ x ∣ ∣ α f(x) = ||x||_{\alpha} f(x)=xα由于:

∣ f ( x ) − f ( y ) ∣ = ∣ ∣ ∣ x ∣ ∣ α − ∣ ∣ y ∣ ∣ α ∣ ≤ ∣ ∣ x − y ∣ ∣ α = ∣ ∣ ∑ i = 1 n ( x i − y i ) e i ∣ ∣ ( 三 角 不 等 式 ) ≤ ∑ i = 1 n ∣ x i − y i ∣ ⋅ ∣ ∣ e i ∣ ∣ α ( 三 角 不 等 式 , 范 数 定 义 ) ≤ ∑ i = 1 n ∣ x i − y i ∣ 2 ∑ i = 1 n ∣ ∣ e i ∣ ∣ α 2 ( 柯 西 − 施 瓦 茨 不 等 式 ) |f(x) - f(y)| = |\quad||x||_{\alpha} - ||y||_{\alpha}\quad|\\ \leq ||x -y||_{\alpha}=||\sum\limits_{i=1}^{n}(x_i - y_i)e_i||\quad(三角不等式)\\\leq\sum\limits_{i=1}^{n}|x_i - y_i|\cdot||e_i||_{\alpha}\quad(三角不等式,范数定义)\\\leq\sqrt{\sum\limits_{i=1}^{n}|x_i - y_i|^2}\sqrt{\sum\limits_{i=1}^{n}||e_i||_{\alpha}^2}\quad(柯西-施瓦茨不等式) f(x)f(y)=xαyαxyα=i=1n(xiyi)ei()i=1nxiyieiα()i=1nxiyi2 i=1neiα2 西

于是: lim ⁡ Δ x → 0 Δ f ( x ) = 0 \lim\limits_{\Delta{x}\rightarrow{0}}\Delta{f(x)} = 0 Δx0limΔf(x)=0, 即 f ( x ) f(x) f(x) R n R^n Rn上的连续函数

采用 β \beta β =2来证明范数等价性

引入 R n R^n Rn中的有界闭集 S n = { x : ∣ ∣ x ∣ ∣ 2 = 1 , x ∈ R n } S^n = \{{x:||x||_2 = 1,\quad x\in{R^n}}\} Sn={x:x2=1,xRn}

根据连续函数性质, f ( x ) f(x) f(x) S n S^n Sn上达到最大和最小值,即存在点 x 1 , x 2 ∈ S n x_1, x_2\in{S^n} x1,x2Sn,使得:

0 ≤ m = f ( x 1 ) ≤ f ( x ) ≤ f ( x 2 ) = M , ∀ x ∈ S n 0 \leq m = f(x_1) \leq f(x) \leq f(x_2) = M, \forall{x} \in {S^n} 0m=f(x1)f(x)f(x2)=M,xSn

x = 0 x = 0 x=0,则m,M可取任意正常数

x ≠ 0 x \ne 0 x=0,则对任何 x ∈ R n x\in{R^n} xRn,由于 ∣ ∣ x ∣ ∣ α ∣ ∣ x ∣ ∣ 2 ∈ S n \frac{||x||_{\alpha}}{||x||_2}\in{S^n} x2xαSn,则有:

0 < m ≤ f ( x ∣ ∣ x ∣ ∣ 2 ) = ∣ ∣ x ∣ ∣ α ∣ ∣ x ∣ ∣ 2 ≤ M , ∀ x ∈ R n 00<mf(x2x)=x2xαM,xRn

m ∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ α ≤ M ∣ ∣ x ∣ ∣ 2 m||x||_2 \leq ||x||_{\alpha} \leq M||x||_2 mx2xαMx2

其他的 β \beta β范数同理,从而证明了范数等价性

矩阵范数等价性的证明完全类似

范数的等价性表明:一个向量若按照某种范数是一个小量,则它按照任何一种范数也将是一个小量

常用的三种向量范数满足下述等价关系:

∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ ∞ ||x||_\infty \leq ||x||_1 \leq n||x||_\infty xx1nx (1)

∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 2 ≤ n ∣ ∣ x ∣ ∣ ∞ ||x||_\infty \leq ||x||_2 \leq \sqrt{n}||x||_\infty xx2n x (2)

∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ 2 ||x||_2 \leq ||x||_1 \leq \sqrt{n}||x||_2 x2x1n x2 (3)

(1), (2), (3)的左侧都使最简单的放缩,下面给出(3)的右侧的证明:

要证(3),即证: ∣ ∣ x ∣ ∣ 1 2 ≤ n ∣ ∣ x ∣ ∣ 2 2 ||x||_1^2 \leq n||x||_2^2 x12nx22

即: ( ∑ i = 1 n x i ) 2 ≤ n ∑ i = 1 n x i 2 (\sum\limits_{i=1}^{n}{x_i})^2 \quad \leq \quad n\sum\limits_{i=1}^{n}{x_i^2} (i=1nxi)2ni=1nxi2

即: n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 ≥ 0 n\sum\limits_{i=1}^{n}{x_i^2} - (\sum\limits_{i=1}^{n}{x_i})^2 \geq 0 ni=1nxi2(i=1nxi)20

推导过程如下:
由 于 : n ∑ i = 1 n x i 2 = ∑ i = 1 n x i 2 + ∑ i ≠ j n ( x i 2 + x j 2 ) ( ∑ i = 1 n x i ) 2 = ∑ i = 1 n x i 2 + ∑ i ≠ j n 2 x i x j 故 : n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 = ∑ i ≠ j n ( x i 2 + x j 2 − 2 x i x j ) = ∑ i ≠ j n ( x i − x j ) 2 ≥ 0 由于: n\sum\limits_{i=1}^{n}{x_i^2} = \sum\limits_{i=1}^{n}{x_i^2} + \sum\limits_{{i}\ne{j}}^{n}{(x_i^2+x_j^2)}\\ (\sum\limits_{i=1}^{n}{x_i})^2 = \sum\limits_{i=1}^{n}{x_i^2} + \sum\limits_{{i}\ne{j}}^{n}{2x_ix_j}\\ 故:n\sum\limits_{i=1}^{n}{x_i^2} - (\sum\limits_{i=1}^{n}{x_i})^2 = \sum\limits_{{i}\ne{j}}^{n}{({x_i^2+x_j^2}-{2x_ix_j})}\\ =\sum\limits_{{i}\ne{j}}^{n}{(x_i-x_j)^2}\geq 0 \\ ni=1nxi2=i=1nxi2+i=jn(xi2+xj2)(i=1nxi)2=i=1nxi2+i=jn2xixjni=1nxi2(i=1nxi)2=i=jn(xi2+xj22xixj)=i=jn(xixj)20
于是可以证明: ∣ ∣ x ∣ ∣ 1 ≤ n ∣ ∣ x ∣ ∣ 2 ||x||_1 \leq \sqrt{n}||x||_2 x1n x2

定义: 向量收敛

设向量序列 x ( k ) = ( x 1 ( k ) , x 2 ( k ) , x 3 ( k ) , ⋯   , x n ( k ) ) T , k = 0 , 1 , ⋯   , x^{(k)} = (x_1^{(k)},x_2^{(k)},x_3^{(k)},\cdots,x_n^{(k)})^T, k = 0, 1,\cdots, x(k)=(x1(k),x2(k),x3(k),,xn(k))T,k=0,1,, 向量 x ∗ = ( x 1 ∗ , x 2 ∗ , ⋯   , x n ∗ ) T x^* = (x_1^*,x_2^*,\cdots,x_n^*)^T x=(x1,x2,,xn)T

如果:

lim ⁡ k → ∞ ∣ ∣ x ( k ) − x ∗ ∣ ∣ = 0 \lim\limits_{k\rightarrow\infty}||x^{(k)} - x^*|| = 0 klimx(k)x=0, 记作 lim ⁡ k → ∞ x ( k ) = x ∗ \lim\limits_{k\rightarrow\infty}x^{(k)} = x^* klimx(k)=x, 或 x ( k ) → x ∗ x^{(k)}\rightarrow x^* x(k)x

注意,定义并没有规定具体的范数类型,因为由范数的等价性可知,当某向量的某个范数的极限为0,那么这个向量的其他范数的极限也肯定是0

由于: ∣ ∣ x ( k ) − x ∗ ∣ ∣ 1 = ∑ i = 1 n ∣ x ( k ) − x ∗ ∣ ||x^{(k)}-x^*||_1 = \sum\limits_{i=1}^{n}|x^{(k)}-x^*| x(k)x1=i=1nx(k)x

于是:向量序列收敛于某一向量,当且仅当它的每一个向量分量收敛于 x ∗ x^* x的对应分量

矩阵范数

常见范数

  • 矩阵的1-范数(列范数): ∣ ∣ A ∣ ∣ 1 = max ⁡ 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ ||A||_1 = \max\limits_{{1}\leq{j}\leq{n}}\sum\limits_{i=1}^{n}|a_{ij}| A1=1jnmaxi=1naij

  • 矩阵的 ∞ \infty -范数(行范数): ∣ ∣ A ∣ ∣ 1 = max ⁡ 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ ||A||_1 = \max\limits_{{1}\leq{i}\leq{n}}\sum\limits_{j=1}^{n}|a_{ij}| A1=1inmaxj=1naij

  • 矩阵的2-范数: ∣ ∣ A ∣ ∣ 2 = ( A T A 的 最 大 特 征 值 ) 1 2 ||A||_2 = (A^TA的最大特征值)^{\frac{1}{2}} A2=(ATA)21

  • 矩阵的F-范数: ∣ ∣ A ∣ ∣ F = ( ∑ i , j = 1 n ∣ a i j ∣ 2 ) 1 2 ||A||_F = (\sum\limits_{i,j=1}^{n}|a_{ij}|^2)^{\frac{1}{2}} AF=(i,j=1naij2)21

定义:矩阵范数

∣ ∣ ⋅ ∣ ∣ ||\cdot|| 是以n阶矩阵为自变量的实值函数,且满足条件:

  • 非负性

  • 齐次性

  • 三角不等式

  • ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ ||AB|| \leq ||A||\cdot||B|| ABAB

则称 ∣ ∣ A ∣ ∣ ||A|| A为矩阵A的范数

矩阵的算子范数

∣ ∣ ⋅ ∣ ∣ ||\cdot|| 是一种向量范数,由此范数派生的矩阵算子范数定义为:

∣ ∣ A ∣ ∣ = max ⁡ x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A|| = \max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} A=x=0maxxAx

注意:此式左端 ∣ ∣ A ∣ ∣ ||A|| A表示矩阵范数,而右端是向量范数

算子范数的性质

  • ∣ ∣ A x ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ , ∀ x ∈ R n ||Ax||\leq||A||\cdot||x||,\quad\forall{x}\in{R^n} AxAx,xRn (向量算子范数与矩阵范数相容)
  • ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ ||AB||\leq||A||\cdot||B|| ABAB (矩阵范数定义)

算子范数性质的证明

  1. 由于: ∣ ∣ A ∣ ∣ = max ⁡ x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A|| = \max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} A=x=0maxxAx

    故: ∣ ∣ A ∣ ∣ ≥ max ⁡ x ≠ 0 ∣ ∣ A x ∣ ∣ ∣ ∣ x ∣ ∣ ||A||\geq\max\limits_{{x}\ne{0}}\frac{||Ax||}{||x||} Ax=0maxxAx

    于是: ∣ ∣ A x ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ ||Ax||\leq||A||\cdot||x|| AxAx

  2. 由于: ∣ ∣ A B ∣ ∣ = max ⁡ x ≠ 0 ∣ ∣ A B x ∣ ∣ ∣ ∣ x ∣ ∣ ||AB||=\max\limits_{{x}\ne{0}}\frac{||ABx||}{||x||} AB=x=0maxxABx

    故: ∣ ∣ A B ∣ ∣ ≤ max ⁡ x ≠ 0 ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A ∣ ∣ max ⁡ x ≠ 0 ∣ ∣ B x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ B ∣ ∣ ||AB||\leq\max\limits_{{x}\ne{0}}\frac{||A||\cdot||Bx||}{||x||}=||A||\max\limits_{{x}\ne{0}}\frac{||Bx||}{||x||}=||A||\cdot||B|| ABx=0maxxABx=Ax=0maxxBx=AB

对于 p = 1 , 2 , ∞ p=1, 2, \infty p=1,2,,矩阵范数 ∣ ∣ A ∣ ∣ p ||A||_p Ap向量范数 ∣ ∣ x ∣ ∣ p ||x||_p xp是相容的

F-范数&2-范数的一些性质

  1. F-范数不是算子范数, 设I为单位阵: ∣ ∣ I ∣ ∣ F = n ≠ max ⁡ x ≠ 0 ∣ ∣ I x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ x ∣ ∣ ∣ ∣ x ∣ ∣ = 1 ||I||_F = \sqrt{n} \ne \max\limits_{x\ne 0}\frac{||Ix||}{||x||}= \frac{||x||}{||x||} = 1 IF=n =x=0maxxIx=xx=1

  2. F-范数与向量的2-范数相容,即:

    ∣ ∣ A x ∣ ∣ 2 ≤ ∣ ∣ A ∣ ∣ F ∣ ∣ x ∣ ∣ 2 ||Ax||_2 \leq ||A||_F ||x||_2 Ax2AFx2

  3. 矩阵的F-范数与2-范数都具有在正交变换下保持不变的性质:

    ∣ ∣ Q A ∣ ∣ F = ∣ ∣ A Q ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||QA||_F = ||AQ||_F = ||A||_F QAF=AQF=AF

    ∣ ∣ Q A ∣ ∣ 2 = ∣ ∣ A Q ∣ ∣ 2 = ∣ ∣ A ∣ ∣ 2 ||QA||_2 = ||AQ||_2 = ||A||_2 QA2=AQ2=A2

    其中Q为正交阵

    证明:

    • F-范数:

      1. 由于正交变换不改变向量的模以及向量之间夹角,所以 ∣ ∣ Q A ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||QA||_F = ||A||_F QAF=AF

      2. 由于矩阵转置不影响其F-范数的值,故: ∣ ∣ A Q ∣ ∣ F = ∣ ∣ ( A Q ) T ∣ ∣ F = ∣ ∣ Q T A T ∣ ∣ F ||AQ||_F=||(AQ)^T||_F=||Q^TA^T||_F AQF=(AQ)TF=QTATF

        又因为正交阵的转置仍为正交阵,故: ∣ ∣ Q T A T ∣ ∣ F = ∣ ∣ A T ∣ ∣ F = ∣ ∣ A ∣ ∣ F ||Q^TA^T||_F=||A^T||_F=||A||_F QTATF=ATF=AF

    • 2-范数:

      1. ∣ ∣ Q A ∣ ∣ 2 = λ m a x [ ( Q A ) T ( Q A ) ] = λ m a x ( A T Q T Q A ) = λ m a x ( A T A ) = ∣ ∣ A ∣ ∣ 2 ||QA||_2=\sqrt{\lambda_{max}[(QA)^T(QA)]} =\sqrt{\lambda_{max}(A^TQ^TQA)} = \sqrt{\lambda_{max}(A^TA)}=||A||_2 QA2=λmax[(QA)T(QA)] =λmax(ATQTQA) =λmax(ATA) =A2

      2. ∣ ∣ A Q ∣ ∣ 2 = λ m a x [ ( A Q ) T ( A Q ) ] = λ m a x ( Q T A T A Q ) = λ m a x ( Q − 1 A T A Q ) = λ m a x ( A T A ) = ∣ ∣ A ∣ ∣ 2 ||AQ||_2 = \sqrt{\lambda_{max}[(AQ)^T(AQ)]} =\sqrt{\lambda_{max}(Q^TA^TAQ)} = \sqrt{\lambda_{max}(Q^{-1}A^TAQ)}=\sqrt{\lambda_{max}(A^TA)}=||A||_2 AQ2=λmax[(AQ)T(AQ)] =λmax(QTATAQ) =λmax(Q1ATAQ) =λmax(ATA) =A2

        (注: Q − 1 A T A Q Q^{-1}A^TAQ Q1ATAQ A T A A^TA ATA相似,其特征值相同)

矩阵特征值

特征值与相容范数的性质

∣ λ ∣ ≤ ∣ ∣ A ∣ ∣ |\lambda| \leq ||A|| λA (其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 是与向量相容的矩阵范数, λ \lambda λ是矩阵A的特征值)

证明:

由于: A x = λ x Ax=\lambda{x} Ax=λx

利用向量-矩阵相容性: ∣ λ ∣ ⋅ ∣ ∣ x ∣ ∣ = ∣ ∣ λ x ∣ ∣ = ∣ ∣ A x ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ |\lambda|\cdot||x|| = ||\lambda{x}|| = ||Ax|| \leq ||A||\cdot||x|| λx=λx=AxAx

从而,对于A的任何特征值都有: ∣ λ ∣ ≤ ∣ ∣ A ∣ ∣ |\lambda| \leq ||A|| λA

谱半径

设n阶矩阵 A A A n n n个特征值为 λ 1 , λ 2 , ⋯   , λ n . \lambda_1,\lambda_2,\cdots,\lambda_n. λ1,λ2,,λn.称: ρ ( A ) = max ⁡ 1 ≤ i ≤ n ∣ λ i ∣ \rho(A) = \max\limits_{1\leq{i}\leq{n}}|\lambda_i| ρ(A)=1inmaxλi为矩阵A的谱半径

由矩阵特征值与相容范数的性质可得: ρ ( A ) ≤ ∣ ∣ A ∣ ∣ \rho(A) \leq ||A|| ρ(A)A

同时,另一个更深刻的结果是: ∀ ϵ > 0 \forall\epsilon>0 ϵ>0,必存在一种相容的矩阵,使: ∣ ∣ A ∣ ∣ ≤ ρ ( A ) + ϵ ||A||\leq\rho(A)+\epsilon Aρ(A)+ϵ

由这两个不等式可知:矩阵A的谱半径是它所有相容范数的下确界

  • **性质1:**若 A ∈ R n × n A\in R^{n\times n} ARn×n为对称阵,则 ∣ ∣ A ∣ ∣ 2 = ρ ( A ) ||A||_2=\rho(A) A2=ρ(A)

  • 性质2:令 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 为矩阵的算子范数,若 ∣ ∣ B ∣ ∣ < 1 ||B||<1 B<1, 则 I ± B I \pm B I±B为非奇异矩阵,且 ∣ ∣ ( I ± B ) − 1 ∣ ∣ ≤ 1 1 − ∣ ∣ B ∣ ∣ ||(I\pm B)^{-1}||\leq\frac{1}{1-||B||} (I±B)11B1

  • 证明2:

    • 用反证法:假设 I ± B I\pm B I±B为奇异矩阵,则 d e t ( I ± B ) = 0 det(I\pm B)=0 det(I±B)=0, 于是 ( I ± B ) x = 0 (I\pm B)x = 0 (I±B)x=0存在非零解

      即: ∃ x 0 , ± B x 0 = x 0 \exists{x_0},\pm Bx_0=x_0 x0,±Bx0=x0, 于是 ∣ ∣ B X 0 ∣ ∣ ∣ ∣ X 0 ∣ ∣ = 1 \frac{||BX_0||}{||X_0||}=1 X0BX0=1, 于是 ∣ ∣ B ∣ ∣ ≥ 1 ||B||\geq 1 B1, 与题设相悖,于是 I ± B I\pm B I±B为非奇异矩阵

    • 由于 ( I ± B ) ( I ± B ) − 1 = I (I\pm B)(I\pm B)^{-1} = I (I±B)(I±B)1=I, 于是: ( I ± B ) − 1 = I ∓ B ( I ± B ) − 1 (I\pm B)^{-1} = I \mp B(I \pm B)^{-1} (I±B)1=IB(I±B)1

      根据三角不等式: ∣ ∣ ( 1 ± B ) − 1 ∣ ∣ ≤ ∣ ∣ I ∣ ∣ + ∣ ∣ B ∣ ∣ ⋅ ∣ ∣ ( I ± B ) − 1 ∣ ∣ ||(1\pm B)^{-1}||\leq||I|| + ||B||\cdot||(I\pm B)^{-1}|| (1±B)1I+B(I±B)1

      整理得: ∣ ∣ ( I ± B ) − 1 ∣ ∣ ≤ 1 1 − ∣ ∣ B ∣ ∣ ||(I\pm B)^{-1}||\leq\frac{1}{1-||B||} (I±B)11B1

定义:矩阵收敛

设矩阵序列 A ( k ) = ( a i j ( k ) ) , k = 1 , 2 , ⋯   , A^{(k)} = (a_{ij}^{(k)}), \quad k=1,2,\cdots, A(k)=(aij(k)),k=1,2,,矩阵 A = ( a i j ) . A = (a_{ij}). A=(aij). { A ( k ) } \{A^{(k)}\} {A(k)}收敛于 A A A,如果 lim ⁡ k → ∞ ∣ ∣ A k − A ∣ ∣ = 0 \lim\limits_{k\rightarrow\infty}||A^{k}-A||=0 klimAkA=0

记作: lim ⁡ k → ∞ A ( k ) = A \lim\limits_{k\rightarrow\infty}A^{(k)}=A klimA(k)=A,或者 A ( k ) → A . A^{(k)}\rightarrow{A}. A(k)A.

根据矩阵范数的等价性,定义中的范数可以是任意一种矩阵范数

由于: ∣ ∣ A ( k ) − A ∣ ∣ F = ( ∑ i , j = 1 n ∣ a i j k − a i j ∣ ) 1 2 ||A^{(k)}-A||_F = (\sum\limits_{i,j=1}^{n}|a_{ij}^{k} - a_{ij}|)^\frac{1}{2} A(k)AF=(i,j=1naijkaij)21

于是:矩阵序列收敛到某一矩阵,当且仅当矩阵的每一个分量都收敛到该矩阵的对应分量

线性方程组固有性态与误差分析

  1. 假设解的误差来源于方程组右端项 b b b, 通过推导可以得到:

    ∣ ∣ Δ x ∣ ∣ ∣ ∣ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ Δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\Delta{x}||}{||x||}\leq ||A^{-1}||\cdot||A||\cdot\frac{||\Delta{b}||}{||b||} xΔxA1AbΔb

  2. 假设解的误差来源于方程组的系数矩阵 A A A, 通过推导可以得到:

    ∣ ∣ Δ x ∣ ∣ ∣ ∣ x + Δ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ Δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||\Delta{x}||}{||x+\Delta{x}||}\leq ||A^{-1}||\cdot||A||\cdot\frac{||\Delta{A}||}{||A||} x+ΔxΔxA1AAΔA

可见:这种误差产生于线性方程组的固有性态,且取决于 ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ||A^{-1}||\cdot||A|| A1A的大小, 而 ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ||A^{-1}||\cdot||A|| A1A也反映了方程组解对原始数据扰动的敏感程度

定义:条件数

线性方程组 A x = b Ax=b Ax=b的条件数记为: C o n d ( A ) = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ Cond(A) = ||A^{-1}||\cdot||A|| Cond(A)=A1A

如果 A A A为对称阵: C o n d 2 ( A ) = ∣ λ 1 ∣ ∣ λ n ∣ Cond_2(A) = \frac{|\lambda_1|}{|\lambda_n|} Cond2(A)=λnλ1其中 λ 1 , λ n \lambda_1,\lambda_n λ1λn分别是 A A A的最大和最小特征值

更一般的: C o n d 2 ( A ) = λ m a x ( A T A ) λ m i n ( A T A ) Cond_2(A) = \sqrt\frac{\lambda_{max}(A^TA)}{\lambda_{min}(A^TA)} Cond2(A)=λmin(ATA)λmax(ATA)

  • 性质1: ∀ 非 奇 异 矩 阵 A , C o n d ( A ) ≥ ∣ ∣ I ∣ ∣ \forall非奇异矩阵A, Cond(A)\geq||I|| A,Cond(A)I, 如果采取一般的 1 , 2 , ∞ 1,2,\infty 1,2,范数,则: C o n d ( A ) ≥ 1 Cond(A)\geq 1 Cond(A)1

  • 证明1: C o n d ( A ) = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ≥ ∣ ∣ A − 1 A ∣ ∣ = ∣ ∣ I ∣ ∣ Cond(A) = ||A^{-1}||\cdot||A||\geq||A^{-1}A||=||I|| Cond(A)=A1AA1A=I

  • **性质2:**若 A 为 非 奇 异 矩 阵 , A为非奇异矩阵, A c ≠ 0 , c 为 常 数 c\ne 0, c为常数 c=0,c, 则: C o n d ( c A ) = C o n d ( A ) Cond(cA) = Cond(A) Cond(cA)=Cond(A)

  • 证明2: C o n d ( c A ) = ∣ ∣ ( c A ) − 1 ∣ ∣ ⋅ ∣ ∣ c A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ c ⋅ c ∣ ∣ A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ = C o n d ( A ) Cond(cA) = ||(cA)^{-1}||\cdot||cA|| = \frac{||A^{-1}||}{c}\cdot c||A|| = ||A^{-1}||\cdot||A|| = Cond(A) Cond(cA)=(cA)1cA=cA1cA=A1A=Cond(A)

  • **性质3:**若 A A A为正交矩阵( A − 1 = A T A^{-1} = A^T A1=AT),则 C o n d 2 ( A ) = 1 Cond_2(A)=1 Cond2(A)=1, 若 A A A为非奇异矩阵, R R R为正交矩阵,则: C o n d 2 ( R A ) = C o n d 2 ( A R ) = C o n d 2 ( A ) Cond_2(RA) = Cond_2(AR) = Cond_2(A) Cond2(RA)=Cond2(AR)=Cond2(A)

  • 证明3:

    • C o n d 2 ( A ) = λ m a x ( A T A ) λ m i n ( A T A ) = 1 Cond_2(A) = \sqrt\frac{\lambda_{max}(A^TA)}{\lambda_{min}(A^TA)}=1 Cond2(A)=λmin(ATA)λmax(ATA) =1
    • 由前面的结论:2-范数具有在正交变换下保持不变的性质,由此得证

病态方程组求解

预条件方法

  • 可能矩阵病态的几点因素:

    1. 矩阵元素间数量级相差很大,并且无一定规律

    2. 矩阵行列式值相对来说很小,或某些行(或列)近似线性相关

    3. 列主元消去法求解过程中出现数量级很小的主元素

    4. 数值求解过程中,计算解 x ~ \tilde{x} x~的剩余向量 r = b − A x ~ r = b-A\tilde{x} r=bAx~已经很小,但是 x ~ \tilde{x} x~仍然不符合要求

      对于第4点的解释:设 x x x为方程组 A x = b Ax=b Ax=b的精确解, x ~ \tilde{x} x~为近似解

      则: r = b − A x ~ = A x − A x ~ = A ( x − x ~ ) r = b-A\tilde{x} = Ax-A\tilde{x} = A(x-\tilde{x}) r=bAx~=AxAx~=A(xx~)

      于是: x − x ~ = A − 1 r x-\tilde{x} = A^{-1}r xx~=A1r

      进而: ∣ ∣ x − x ~ ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ||x-\tilde{x}|| \leq ||A^{-1}||\cdot||r|| xx~A1r

      进而: ∣ ∣ x − x ~ ∣ ∣ ∣ ∣ x ∣ ∣ ≤ ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ⋅ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ ≤ C o n d ( A ) ⋅ ∣ ∣ r ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||x-\tilde{x}||}{||x||}\leq\frac{||A^{-1}||\cdot||r||}{||x||}=\frac{||A^{-1}||\cdot||A||\cdot||r||}{||A||\cdot||x||}\leq Cond(A)\cdot\frac{||r||}{||b||} xxx~xA1r=AxA1ArCond(A)br

      可见:如果矩阵是病态的,即使剩余向量 ∣ ∣ r ∣ ∣ ||r|| r很小,其过大的条件数也会使近似解失真

  • 具体思想:

    通过原方程组构建预条件方程组: A ~ x ~ = b ~ \tilde{A}\tilde{x}=\tilde{b} A~x~=b~

    其中: A ~ = C − 1 A C , x ~ = C x , b ~ = C − 1 b \tilde{A} = C^{-1}AC,\quad \tilde{x}=Cx,\quad \tilde{b}=C^{-1}b A~=C1AC,x~=Cx,b~=C1b, 可逆矩阵 C C C称为预条件矩阵

    一般矩阵 C C C满足如下要求:

    a. 条件数 C o n d ( A ~ ) Cond(\tilde{A}) Cond(A~) C o n d ( A ) Cond(A) Cond(A)有明显改善

    b. 方程组 C z = d Cz=d Cz=d容易求解

    A为正定矩阵时,可取 C = D 1 2 C=D^{\frac{1}{2}} C=D21, D D D A A A的对角元素构成的对角矩阵

线性方程组的迭代改善

  1. 设已求得方程组 A x = b Ax=b Ax=b的近似解 x ( 1 ) x^{(1)} x(1), 计算剩余向量: r ( 1 ) = b − A x ( 1 ) r^{(1)}=b-Ax^{(1)} r(1)=bAx(1)
  2. 解余量方程组: A x = r ( 1 ) Ax=r^{(1)} Ax=r(1), 得到解 x ~ ( 1 ) \tilde{x}^{(1)} x~(1)
  3. 计算 x ( 1 ) x^{(1)} x(1)的迭代改善解: x ( 2 ) = x ( 1 ) + x ~ ( 1 ) x^{(2)}=x^{(1)}+\tilde{x}^{(1)} x(2)=x(1)+x~(1)
  4. 如果 x ~ ( 1 ) \tilde{x}^{(1)} x~(1)是精确解,则由 A ( x 1 + x ~ ( 1 ) ) = ( b − r ( 1 ) ) + r ( 1 ) = b A(x^{1}+\tilde{x}^{(1)}) = (b-r^{(1)})+r^{(1)}=b A(x1+x~(1))=(br(1))+r(1)=b, x ( 2 ) x^{(2)} x(2)是方程组的精确解
  5. 如果 x ( 2 ) x^{(2)} x(2)仍然达不到理想精度,则继续迭代,直到满足精度要求

注:1. 如果系数矩阵条件数非常大,迭代过程可能不会收敛

​ 2. 迭代过程应采用 L U LU LU分解来减小计算量

你可能感兴趣的:(数值分析)