这里是数值分析的部分笔记,(对前三章的算法都用python做了实验,程序见具体内容处)
PS:其中比较不重要的地方偷懒用了一点点numpy的API。内容写的比较简略,仅供参考,望见谅(更详细的数值分析Java实现 请见清华相关实验网站)
a = + ‾ a 0 a 1 a 2 . . . a m . a m + 1 . . . a n a=\underline{+} a_0 a_1 a_2...a_m.a_{m+1}...a_n a=+a0a1a2...am.am+1...an
def:
绝对误差(界)
相对误差(界)
有效数字
误差界:注意近似时向上取整
有效数字的计算(以舍入法为基准):
n+1-s :s是第一位非零数字角标,n的算法: ∣ a − a ˉ ∣ ≤ 1 2 × 1 0 − ( n − m ) |a-\bar{a}|\leq \frac{1}{2} \times 10^{-(n-m)} ∣a−aˉ∣≤21×10−(n−m)
(1)真实值的有效数字
(2)已知实际值和近似值,求近似值的有效数组
thm(1.2.1):a的近似数 a ˉ \bar{a} aˉ有效数字有n+1-s位,相对误差有估计式:
∣ a − a ˉ a ˉ ∣ ≤ 1 2 a s × 1 0 − ( n − s ) a s ≠ 0 |\frac{a-\bar{a}}{\bar{a}}|\leq \frac{1}{2a_s}\times10^{-(n-s)}\qquad a_s\neq 0 ∣aˉa−aˉ∣≤2as1×10−(n−s)as=0是 a ˉ \bar{a} aˉ的第一位数字
def:
p进制表示: x = + ‾ 0. d 1 d 2 . . . d t × p J , 0 ≤ d i ≤ p − 1 x=\underline{+}0.d_1 d_2...d_t \times p^J,\quad 0\leq d_i\leq p-1 x=+0.d1d2...dt×pJ,0≤di≤p−1
尾数: 0. d 1 d 2 . . . d t 0.d_1 d_2...d_t 0.d1d2...dt
计算机表示中为 + ‾ d 1 d 2 . . . d 7 J \underline{+} d_1 d_2...d_7 J +d1d2...d7J(阶码)
上溢下溢
舍入法&断尾法
calculate
(1)相加相减:先对位再加减
(2)避免减法:分子有理化;三角变换;Taylor展开
(3)乘除:双精度运算
(4)避免大数小数运算(不满足结合律)
def:向前误差分析;向后误差分析
操作:(1)消元(消为上三角矩阵)
(2)回代
原理:右乘矩阵行变换
原理:避免在较小值为主元时,后面的行减第一行乘一个因数(乘子),的乘数过大引起误差。(列中元素差距大)
操作:在一般Gauss消去法中对每列消元时把该列绝对值最多的数所在的行换到上面进行消元。
原理:为避免每一行中元素大小差距过大带来误差
操作:(1)在消第i列时取系数矩阵中 ∣ a j i ∣ ∣ 第 j 行 元 素 最 大 的 绝 对 值 ∣ \frac{|a_{ji}|}{|第j行元素最大的绝对值|} ∣第j行元素最大的绝对值∣∣aji∣对应的 a i j a_{ij} aij为主元,(即绝对值最接近所在行最大绝对值的 元素)。
(2)不用交换行,但是改变回代顺序
remark:上面两种方法都是在规避用较小的数求比例得到乘子乘到较大的数上带来误差
原理:为避免回代过程,直接将矩阵化为对角矩阵。
操作:仍然采取列主元的方法,但是在消元过程中,消第k列时,将1,2,…,k-1行第k列也消去。
#Gauss-Jordan消去法的python实现(因为电脑没有装java和C++的编译器orz)
import numpy as np
Abb=np.array([(1,2,3,4),(2,12,3,5),(2,10,2,4)])
Abb = Abb.astype(np.float64) #转化为浮点型(否则运算时会自动化为int)
def GaussJordan(Ab,n):
row_rec=[];#记录已经有主元的行
for k in range(n):
max_k=0
for i in range(n):
if ((i in row_rec)==False)&(abs(Ab[i,k])>max_k):#从剩下行中寻找主元
max_k=abs(Ab[i,k])
index=i#记录主元所在行数
row_rec.append(index)
for j in range(n):
if (j!=row_rec[-1]):#消去剩余行
m=-(Ab[j,k]/Ab[row_rec[-1],k])#乘子
for i in range(n-k+1):
Ab[j,i+k]+=m*Ab[row_rec[-1],i+k]
#计算结果
res=[]
for i in range(n):
res.append(Ab[row_rec[i],n]/Ab[row_rec[i],i])
return(res)
print(GaussJordan(Abb,3))
res:[1.0, -0.0, 1.0]
A = L D R A=LDR A=LDR,L是单位上三角矩阵,D是对角矩阵,R是单位下三角矩阵
thm:矩阵A存在唯一LDR分解 ⇔ \Leftrightarrow ⇔A的顺序主子矩阵均非奇异
A = L D R = L U A=LDR=LU A=LDR=LU
从而直接解方程:
{ L y = b y = U x \left\{\begin{matrix} Ly=b \\ y=Ux \end{matrix}\right. {Ly=by=Ux
def :A=LU,L是单位下三角矩阵,U是上三角矩阵
原理:Gauss消元法的矩阵表示
表示消去第2列的右乘矩阵如下
L 2 = [ 1 0 0 . . . 0 1 0 0 0 − l 3 , 2 . . . 0 − l n , 2 0... 1 ] L_2=\begin{bmatrix} 1& 0 & 0 & ...\\ 0& 1 & 0&0 \\ 0& -l_{3,2} & ...& \\ 0& -l_{n,2}&0... &1 \end{bmatrix} L2=⎣⎢⎢⎡100001−l3,2−ln,200...0......01⎦⎥⎥⎤
记 l ⃗ k = [ 0 . . . l k + 1 , k . . . l m , k ] \vec{l}_{k}=\begin{bmatrix}&0\\ &...\\ &l_{k+1,k} \\& ... \\ &l_{m,k} \end{bmatrix} lk=⎣⎢⎢⎢⎢⎡0...lk+1,k...lm,k⎦⎥⎥⎥⎥⎤
从而 L k = I − l k ⃗ e k , e k L_k=I-\vec{l_k}e_k,\quad e_k Lk=I−lkek,ek是第k个坐标是1,其余分量是0的n维向量
( I − l k ⃗ e k ) ( I + l k ⃗ e k ) = I → L k − 1 = I + l k ⃗ e k (I-\vec{l_k}e_k)(I+\vec{l_k}e_k)=I\rightarrow L_k^{-1}=I+\vec{l_k}e_k (I−lkek)(I+lkek)=I→Lk−1=I+lkek
i < j i
a i i ( i − 1 ) = 0 a_{ii}^{(i-1)}=0 aii(i−1)=0(即主元为0)时要交换行
此时非下三角矩阵
要是每一个主元都不为0的充要条件是:A的每一个顺序主子矩阵非奇异(这一点根据Gauss消去法的操作过程是显然的)
原理:类比Gauss消元法的矩阵表示,按列消元从左向右
原理: A = L U , U A=LU,U A=LU,U是单位上三角矩阵, i < j , a i j = ∑ k = 1 i a i , k u k , j i
先求L中第k列,再求U中第k行
操作:将 L , U − I L,U-I L,U−I存入同一个矩阵。对矩阵A进行操作:
(1)第一列不变。
(2)第一行除对角线以外除以 a 11 a_{11} a11
一行一列边框over
(3)第二列中元素从减去所在行和所在列边框互乘元素
(4)第二列减去互乘元素除以所在对角线元素
…
Crout分解存在唯一的充要条件依旧是顺序主子式非奇异
在求第i列之后可以直接求得 L y = b Ly=b Ly=b中的y
#Abbb顺序主子式非奇异
Abbb=np.array([(3,2,1,2),(2,4,1,-1),(1,2,4,3)])
Abbb = Abbb.astype(np.float64)
def Crout_jin(Ab,n):
y=[Ab[0,-1]/Ab[0,0]]#求L(1,1)
for i in range(n-1):Ab[0,i+1]=Ab[0,i+1]/Ab[0,0]#求U中第1行
for i in range(n-1):
for j in range(n-i-1):#求U第i+2行
minus=0
for t in range(i+1):
minus+=Ab[j+i+1,t]*Ab[t,i+1]
Ab[j+i+1,i+1]-=minus##如果是按列选主元的话在这里进行行变换
for j in range(n-i-2):#求L第i +2列
minus=0
for t in range(i+1):
minus+=Ab[t,i+2+j]*Ab[i+1,t]
Ab[i+1,i+2+j]=(Ab[i+1,i+2+j]-minus)/Ab[i+1,i+1]
y_i=Ab[i+1,-1]
for j in range(i+1):#求y 紧凑的crout分解在于在这个循环里计算y的第i+2个分量
y_i-=y[j]*Ab[i+1,j]
y_i=y_i/Ab[i+1,i+1]
y.append(y_i)
x=[]#求解x,从最后一个分量向前求解
for j in range(n):
minus=0
for i in range(j):
minus+=Ab[-(j+1),-(i+2)]*x[i]
x_j=y[-(j+1)]-minus;
x.append(x_j)
return(x[::-1])#最后reverse
Crout_jin(Abbb,3)
res:[0.9999999999999998, -0.9999999999999998, 1.0]
和doolittle分解一样在求完一列之后将绝对值最大的所在行提到上面来
remark:考试时不要求按照书上步骤,只需要写出最终形式即可
thm:n阶实对称矩阵A是正定的 ⇔ \Leftrightarrow ⇔ ∃ \exists ∃n阶非奇异下三角矩阵 L , s . t . : L,s.t.: L,s.t.:
A = L L T A=LL^T A=LLT
且L的主对角元均为正数时该分解唯一
pf: ⇒ \Rightarrow ⇒A是正定的,则顺序主子式非奇异有 A = L 1 D R , A T = R T D T R T A=L_1DR,A^T=R^TD^TR^T A=L1DR,AT=RTDTRT,且 ∀ i , D i i > 0 \forall i,D_{ii}>0 ∀i,Dii>0由分解式的唯一性得 L 1 = R T , A = L 1 D 1 ( L 1 D 2 ) T L_1=R^T,A=L_1\sqrt{D}_1(L_1\sqrt{D}_2)^T L1=RT,A=L1D1(L1D2)T,显然L主对角元为正数时( D 1 = D 2 \sqrt{D}_1=\sqrt{D}_2 D1=D2)分解唯一。
⇐ \Leftarrow ⇐ x A x T = x L ( x L ) T ≥ 0 xAx^T=xL(xL)^T\geq 0 xAxT=xL(xL)T≥0,由于 x L ≠ 0 xL\neq 0 xL=0等号不能取到,从而A正定。
如果直接将 A = L L T A=LL^T A=LLT利用Crout算法的步骤计算则对角线元素 l i i l_{ii} lii需要开方求解,由于开方计算复杂度大,且会带来更多误差,则考虑下面的分解。
A = L D L T A=LDL^T A=LDLT其中L是单位下对角矩阵,D是对角矩阵。则根据 L L T LL^T LLT分解的唯一性,可知A是对称正定时 L D L T LDL^T LDLT也是存在唯一的。
对此分解同样利用Crout分解的方法分成 L D LD LD和 L T L^T LT,再转换成 L , D L T L,DL^T L,DLT求解但是在每次计算第i行第i列的时候加上 d i i d_{ii} dii,来避免开方运算。也就是
计算过程中
A = L D L T , A x = b → { L y = b y = D L T x A=LDL^T,Ax=b\rightarrow \left\{\begin{matrix} Ly=b \\ y=DL^Tx \end{matrix}\right. A=LDLT,Ax=b→{Ly=by=DLTx
计算上和一般的Crout算法有以下不同:
[ d 1 c 1 a 2 d 2 c 2 . . . . . . . . . a n − 1 d n − 1 c n − 1 a n d n ] = [ p 1 a 2 p 2 . . . . . . . . . a n − 1 p n − 1 a n p n ] [ 1 q 1 1 q 2 . . . . . . . . . . . . 1 q n − 1 1 ] \begin{bmatrix} d_1& c_1 & & \\ a_2& d_2 & c_2& \\ & ... & ...&... \\ &a_{n-1}&d_{n-1}&c_{n-1}\\ & &a_n &d_n \end{bmatrix}=\begin{bmatrix} p_1& & & \\ a_2& p_2 & & \\ & ... & ...&... \\ &a_{n-1}&p_{n-1}&\\ & &a_n &p_n \end{bmatrix}\begin{bmatrix} 1&q_1 & & \\ & 1 &q_2 & \\ & ... & ...&... \\ ...&&1&q_{n-1}\\ & & &1 \end{bmatrix} ⎣⎢⎢⎢⎢⎡d1a2c1d2...an−1c2...dn−1an...cn−1dn⎦⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎡p1a2p2...an−1...pn−1an...pn⎦⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎡1...q11...q2...1...qn−11⎦⎥⎥⎥⎥⎤
对半带宽稀疏矩阵,往往有更简单的分解方法。这里对于对角占优的三对角矩阵:
∣ d 1 ∣ > ∣ c 1 ∣ > 0 |d_1|>|c_1|>0 ∣d1∣>∣c1∣>0
∣ d k ∣ ≥ ∣ a k ∣ + ∣ c k ∣ |d_k|\geq |a_k|+|c_k| ∣dk∣≥∣ak∣+∣ck∣且 a k c k ≠ 0 , k = 2 , 3 , . . . , n − 1 a_kc_k\neq 0,k=2,3,...,n-1 akck=0,k=2,3,...,n−1
∣ d n ∣ > ∣ a n ∣ > 0 |d_n|>|a_n|>0 ∣dn∣>∣an∣>0
在上述三个条件下 p 1 , p 2 , . . . , p n p_1,p_2,...,p_n p1,p2,...,pn皆非0。
pf:先归纳法证明 ∀ i , ∣ q i ∣ < 1 \forall i,|q_i|<1 ∀i,∣qi∣<1:由 ( 1 ) (1) (1)知 ∣ q 1 ∣ < 1 |q_1|<1 ∣q1∣<1
a i q i − 1 + p i = d i , p i q i = c i a_iq_{i-1}+p_i=d_i,p_iq_i=c_i aiqi−1+pi=di,piqi=ci由此得到 ∣ q i ∣ |q_i| ∣qi∣的递推进行证明。
同样利用上面两个等式得到 ∣ p i ∣ > 0 |p_i|>0 ∣pi∣>0
对系数矩阵为上述矩阵的方程的解法就是Crout算法,但是计算过程中隐含 p i , q i p_i,q_i pi,qi的交错递归所以被称为追赶法
A = Q R A=QR A=QR,Q为正交矩阵,R为上三角矩阵
分解过程:Gram-Schmidt过程即列变换反复生成正交向量最后得到标准正交集
S = [ a 1 , . . . , a n ] , a i S=[a_1,...,a_n],a_i S=[a1,...,an],ai是特征向量, A S = S T , T = ( t i j ) = ( λ i ) i i → A = S T S − 1 AS=ST,T=(t_{ij})=(\lambda_i)_{ii}\rightarrow A=STS^{-1} AS=ST,T=(tij)=(λi)ii→A=STS−1
要求:S有n个独立的特征向量
要求: T ∈ C n × n : T\in C^{n\times n}: T∈Cn×n:正规矩阵, T ∈ R n × n : T\in R^{n\times n}: T∈Rn×n:自伴矩阵
例子:实对称矩阵:特征值相互正交(易证)
A ∈ C n × n , U H A U = T A\in C^{n\times n},U^H AU=T A∈Cn×n,UHAU=T,T是上三角矩阵,特征值在T的对角线上。
再进一步,进行Jordan分解
pf:1.需要明确一点:对上三角矩阵A, [ x 1 , . . . x n ] A [x_1,...x_n]A [x1,...xn]A使得 x = [ x 1 , . . . , x n ] x=[x_1,...,x_n] x=[x1,...,xn]中任意分量张成的空间在变化前后不变。
即 ∀ j = 1 , 2 , . . . . , n , s p a n ( v 1 , . . . , v j ) \forall j=1,2,....,n,\quad span(v_1,...,v_j) ∀j=1,2,....,n,span(v1,...,vj)均在T下不变
2.对任意矩阵都可以表示为某个基上的上三角矩阵(构造过程由归纳0法,通过张成特征向量张成的空间以外的空 间$(T-\lambda I)V$进行降维,详见done right P114)
3.表示为某个基上的上三角矩阵则可以表示为某个规范正交基上的上三角矩阵(根据Gram-Schmit过程由1.中的 陈述或者用QR分解均可说明)
T ∈ L ( V ) T\in \mathcal{L}(V) T∈L(V),存在等距同构(Hermit矩阵)S,使得 T = S T ∗ T T=S\sqrt{T^*T} T=ST∗T
r a n k ( A ) = r , A = B C , B ∈ C s × r , C ∈ C r × n , B , C rank(A)=r,A=BC,B\in C^{s\times r},C\in C^{r\times n},B,C rank(A)=r,A=BC,B∈Cs×r,C∈Cr×n,B,C秩都为r
A = B C A=BC A=BC矩阵的秩为r,线性无关的r行主子式为B,C对应的主子式是单位矩阵
具体例子见
def:矩阵相似 A = S B S − 1 , S A=SBS^{-1},S A=SBS−1,S可逆(即同一线性变换在不同基上的矩阵)
def:矩阵合同 A = S T B S A=S^T B S A=STBS(同一双线性映射在不同基上的矩阵)
def:伴随算子(adjoin):对T,T的伴随算子 T ∗ , s . t . < T v , w > = < v , T ∗ w > T^*, \quad s.t.
def:自伴算子(adjoint): T = T ∗ T=T^* T=T∗
def:正规算子(normal): T T ∗ = T ∗ T ⇔ ∣ ∣ T x ∣ ∣ = ∣ ∣ T ∗ X ∣ ∣ TT^*=T^*T\Leftrightarrow ||Tx||=||T^*X|| TT∗=T∗T⇔∣∣Tx∣∣=∣∣T∗X∣∣
def:对任意矩阵 A , A = P − 1 J P , J A,A=P^{-1}JP,J A,A=P−1JP,J是jodan矩阵,P可逆
prop:正规算子对应不同特征值的特征向量是正交的:
(pf: ( a − b ) < u , v > = a < u , v > − b < u , v > = < T u , v > − < u , T ∗ v > = 0 (a-b)=a-b=
prop: r a n k ( A A H ) = r a n k ( A ) rank(AA^H)=rank(A) rank(AAH)=rank(A)
prop: A , A T A,A^T A,AT有相同的特征值
prop:可对角化矩阵迹等于特征值之和
prop:AB,BA有相同特征值
thm:复谱定理:正规矩阵能做对角分解(S为正交矩阵)
thm:实谱定理:在实数域上对角分解要求自伴矩阵(S为Hermite矩阵)
def: A ∈ C s × n , i f G ∈ C n × s A\in C^{s\times n},if\, G\in C^{n\times s} A∈Cs×n,ifG∈Cn×s,满足下面M-P方程:则称G是A的广义逆矩阵:
AGA=A
GAG=G
( A G ) H = A G (AG)^H=AG (AG)H=AG
( G A ) H = G A (GA)^H=GA (GA)H=GA
prop:零矩阵的广义逆是零矩阵
thm:设 A ∈ C s × n A\in C^{s\times n} A∈Cs×n,则A的广义逆是存在唯一的
pf:设 G 1 , G 2 G_1,G_2 G1,G2是A的广义逆则: G 1 = G 1 A G 1 = G 1 ( A G 1 ) H = G 1 G 1 H A H = G 1 G 1 H ( A G 2 A ) H G_1=G_1 A G_1=G_1(AG_1)^H=G_1G_1^HA^H=G_1G_1^H(AG_2 A)^H G1=G1AG1=G1(AG1)H=G1G1HAH=G1G1H(AG2A)H
= G 1 G 1 H A H ( A G 2 ) H = G 1 G 1 H A H A G 2 = G 1 ( A G 1 ) H A G 2 =G_1G_1^HA^H(AG_2)^H=G_1G_1^HA^HAG_2=G_1(AG_1)^HAG_2 =G1G1HAH(AG2)H=G1G1HAHAG2=G1(AG1)HAG2
= G 1 A G 1 A G 2 = G 1 A G 2 =G_1AG_1AG_2=G_1AG_2 =G1AG1AG2=G1AG2
类似地 G 2 = G 1 A G 2 G_2=G_1AG_2 G2=G1AG2,唯一性得证
利用矩阵的满秩分解 Y ( A ) = r , A = B C , B ∈ C s × r , C ∈ C r × n , B , C Y(A)=r,A=BC,B\in C^{s\times r},C\in C^{r\times n},B,C Y(A)=r,A=BC,B∈Cs×r,C∈Cr×n,B,C秩都为r
构造广义逆矩阵: G = C H ( C C H ) − 1 ( B H B ) − 1 B H G=C^H(CC^H)^{-1}(B^HB)^{-1}B^H G=CH(CCH)−1(BHB)−1BH
remark:A的广义矩阵记为 A + A^+ A+
remark: ( A B ) + (AB)^+ (AB)+与 B + A + B^+A^+ B+A+一般不相等
prop:
( A + ) + = A (A^+)^+=A (A+)+=A
( A H ) + = ( A + ) H (A^H)^+=(A^+)^H (AH)+=(A+)H
( A T ) + = ( A + ) H (A^T)^+=(A^+)^H (AT)+=(A+)H
k ∈ R , ( k A ) + = k + A + k\in R,(kA)^+=k^+A^+ k∈R,(kA)+=k+A+
A H = A h A A + = A + A A H A^H=A^hAA^+=A^+AA^H AH=AhAA+=A+AAH
( A A H ) + = A + ( A H ) + ; ( A A H ) + = ( A H ) + A + (AA^H)^+=A^+(A^H)^+;\qquad (AA^H)^+=(A^H)^+A^+ (AAH)+=A+(AH)+;(AAH)+=(AH)+A+
A + = ( A H A ) A H = A H ( A A H ) + A^+=(A^HA)A^H=A^H(AA^H)^+ A+=(AHA)AH=AH(AAH)+
U , V U,V U,V是酉矩阵,则 ( U A V ) + = V H A + U H (UAV)^+=V^HA^+U^H (UAV)+=VHA+UH
A + A B = A + A C ⇔ A B = A C A^+AB=A^+AC\Leftrightarrow AB=AC A+AB=A+AC⇔AB=AC
example:
apply:
线性方程组 A x = b Ax=b Ax=b无解时,找到x使得 ∣ ∣ A x ^ − b ∣ ∣ 2 ||A\hat{x}-b||_2 ∣∣Ax^−b∣∣2最小。 η \eta η是最小二乘解 ⇔ η 是 A H A x = A H b \Leftrightarrow \eta 是 A^HAx=A^Hb ⇔η是AHAx=AHb的解
attention: x ⊥ s p a n ( a 1 , . . . , a n ) , A = ( a 1 , . . . , a n ) , → ∀ y : ( x , A y ) = 0 ⇔ ( A H x , y ) = 0 ⇔ A H x = 0 x\perp span(a_1,...,a_n),A=(a_1,...,a_n),\rightarrow \forall y:(x,Ay)=0\Leftrightarrow (A^Hx,y)=0\Leftrightarrow A^Hx=0 x⊥span(a1,...,an),A=(a1,...,an),→∀y:(x,Ay)=0⇔(AHx,y)=0⇔AHx=0
通解 x = A + b + ( I − A + A ) y x=A^+b+(I-A^+A)y x=A+b+(I−A+A)y,其中 A + b A^+b A+b是极小最小二乘解
对于顺序的Gauss消去法 d e t ( A ) = a 11 a 22 ( 1 ) . . . a n n ( n − 1 ) det(A)=a_{11}a^{(1)}_{22}...a^{(n-1)}_{nn} det(A)=a11a22(1)...ann(n−1)即各主元的乘积
对于中间进行行变换的Gauss消去法则需要乘以 ( − 1 ) s (-1)^s (−1)s,s为消元中行变换的次数
A = L U , d e t ( A ) = d e t ( L ) A=LU,det(A)=det(L) A=LU,det(A)=det(L)
d e t ( A ) = det(A)= det(A)=对角线元素的乘积
对于非奇异n阶矩阵A,用Gauss-Jordan消去法对A进行消元时 M n . . . M 1 A = I M_n...M_1 A=I Mn...M1A=I,其中
M k = [ 1 m 1 k 1 . . . m k k . . . . . . 1 m n k . . . 1 ] M_k=\begin{bmatrix} 1& & m_{1k}&& \\ & 1 & ...& &\\ & & m_{kk}&...& \\ &&...&1&\\ & &m_{nk} &...&1 \end{bmatrix} Mk=⎣⎢⎢⎢⎢⎡11m1k...mkk...mnk...1...1⎦⎥⎥⎥⎥⎤
从而 A − 1 = M n . . . M 1 A^{-1}=M_n...M_1 A−1=Mn...M1
对于 M k M_k Mk的求和: M n . . . M 2 M 1 M_n...M_2M_1 Mn...M2M1存在特殊解法:
$T_1=M_1(e_{11}+A(e_{22}+…+e_{nn})) $ e i i e j j = 0 , i ≠ j , e i i e i i = e i i e_{ii}e_{jj}=0,i\neq j,e_{ii}e_{ii}=e_{ii} eiiejj=0,i=j,eiieii=eii
T 2 = M 2 ( e 22 + T 1 ( e 11 + e 22 + . . . e n n ) ) T_2=M_2(e_{22}+T_1(e_{11}+e_{22}+...{e_{nn}})) T2=M2(e22+T1(e11+e22+...enn))
A − 1 = M n . . . M 1 = T n A^{-1}=M_n...M_1=T_n A−1=Mn...M1=Tn
下面讨论的都是有限维的情况,在无限维的情况下,max=sup,min=inf其中多数叙述仍然成立。
线性赋范空间
def:(1)非负性(正性&定性)
(2)齐次性(线性性)
(3)三角不等式
remark: l p l_p lp范数的三角不等式证明由Minkowski不等式可得
1. ∞ \infty ∞范数 def: ∣ ∣ x ∣ ∣ ∞ = l i m p → ∞ ( ∑ i = 1 ∞ ∣ x i ∣ p ) 1 p ||x||_{\infty}=lim_{p\rightarrow \infty}(\sum_{i=1}^{\infty}|x_i|^p)^{\frac{1}{p}} ∣∣x∣∣∞=limp→∞(∑i=1∞∣xi∣p)p1
∣ ∣ x ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∣ x i ∣ ||x||_{\infty}=max_{1\leq i\leq n}|x_i| ∣∣x∣∣∞=max1≤i≤n∣xi∣
pf: 记 m a x ∣ x i ∣ = ∣ x j ∣ , ∣ x j ∣ ≤ ( ∑ ∣ x i ∣ p ) 1 p ≤ n 1 p ∣ x j ∣ , n → ∞ , ∣ ∣ x ∣ ∣ ∞ = ∣ x j ∣ max|x_i|=|x_j|,|x_j|\leq(\sum |x_i|^p)^{\frac{1}{p}}\leq n^{\frac{1}{p}}|x_j|,n\rightarrow \infty,||x||_{\infty}=|x_j| max∣xi∣=∣xj∣,∣xj∣≤(∑∣xi∣p)p1≤np1∣xj∣,n→∞,∣∣x∣∣∞=∣xj∣
2. ∣ ∣ x ∣ ∣ 2 ||x||_2 ∣∣x∣∣2:Euclid范数,相关的有Cauchy-Schwarz不等式: ∣ ( x , y ) ∣ ≤ ∣ ∣ x ∣ ∣ 2 ∣ ∣ y ∣ ∣ 2 |(x,y)|\leq ||x||_2 ||y||_2 ∣(x,y)∣≤∣∣x∣∣2∣∣y∣∣2(实质上是Euclid内积空间的性质)
3.A是给定的n阶实对称正定矩阵, x ∈ R n x\in R^n x∈Rn,则 ∣ ∣ x ∣ ∣ A = ( x T A x ) 1 2 ||x||_A=(x^TAx)^{\frac{1}{2}} ∣∣x∣∣A=(xTAx)21是 R n R^n Rn中的一种范数
pf:对于三角不等式的证明: ∣ ∣ x + y ∣ ∣ A = ∣ ∣ L T ( x + y ) ∣ ∣ 2 = ∣ ∣ L T x + L T y ∣ ∣ 2 ≤ ∣ ∣ L T x ∣ ∣ 2 + ∣ ∣ L T y ∣ ∣ 2 = ∣ ∣ x ∣ ∣ A + ∣ ∣ y ∣ ∣ A ||x+y||_A=||L^T(x+y)||_2=||L^Tx+L^Ty||_2\leq ||L^Tx||_2+||L^Ty||_2=||x||_A+||y||_A ∣∣x+y∣∣A=∣∣LT(x+y)∣∣2=∣∣LTx+LTy∣∣2≤∣∣LTx∣∣2+∣∣LTy∣∣2=∣∣x∣∣A+∣∣y∣∣A
1.对任意向量范数, ∀ x , y ∈ R n \forall x,y\in R^n ∀x,y∈Rn,恒有: ∣ ∣ ∣ x ∣ ∣ − ∣ ∣ y ∣ ∣ ≤ ∣ ∣ x − y ∣ ∣ |||x||-||y||\leq ||x-y|| ∣∣∣x∣∣−∣∣y∣∣≤∣∣x−y∣∣,(在一维情况下即为绝对值不等式)
pf: ∣ ∣ x ∣ ∣ ≥ ∣ ∣ y ∣ ∣ ||x||\geq ||y|| ∣∣x∣∣≥∣∣y∣∣时, ∣ ∣ ∣ x ∣ ∣ − ∣ ∣ y ∣ ∣ ∣ = ∣ ∣ x ∣ ∣ − ∣ ∣ y ∣ ∣ ≤ ∣ ∣ x − y ∣ ∣ |||x||-||y|||= ||x||-||y||\leq||x-y|| ∣∣∣x∣∣−∣∣y∣∣∣=∣∣x∣∣−∣∣y∣∣≤∣∣x−y∣∣
∣ ∣ x ∣ ∣ ≤ ∣ ∣ y ∣ ∣ ||x||\leq ||y|| ∣∣x∣∣≤∣∣y∣∣时,同理。
2. R n R^n Rn空间中,任意向量范数 ∣ ∣ x ∣ ∣ α ||x||_{\alpha} ∣∣x∣∣α关于 l 2 l_2 l2范数是x的一致连续函数 (以欧氏空间上的拓扑为基础拓扑)
pf: ∀ x = ( x 1 , . . . , x n ) , y = ( y 1 , . . . , y n ) , ∣ ∣ x − y ∣ ∣ 2 = ( ∑ i = 1 n ( x i − y i ) 2 ) 1 2 < δ \forall x=(x_1,...,x_n),y=(y_1,...,y_n),||x-y||_2=(\sum_{i=1}^n (x_i-y_i)^2)^{\frac{1}{2}}<\delta ∀x=(x1,...,xn),y=(y1,...,yn),∣∣x−y∣∣2=(∑i=1n(xi−yi)2)21<δ
∣ ∣ ∣ x ∣ ∣ α − ∣ ∣ y ∣ ∣ α ∣ ≤ ∣ ∣ x − y ∣ ∣ α |||x||_{\alpha}-||y||_{\alpha}|\leq ||x-y||_{\alpha} ∣∣∣x∣∣α−∣∣y∣∣α∣≤∣∣x−y∣∣α
∣ ∣ x ∣ ∣ α = ∣ ∣ ∑ x i e i ∣ ∣ α ≤ ∑ ∣ x i ∣ ∣ ∣ e i ∣ ∣ α ≤ ∣ ∣ x ∣ ∣ 2 ( ∑ ∣ ∣ e i ∣ ∣ α 2 ) 1 2 ||x||_{\alpha}=||\sum x_ie_i||_{\alpha}\leq\sum |x_i|||e_i||_{\alpha}\leq ||x||_2(\sum ||e_i||_{\alpha}^2)^\frac{1}{2} ∣∣x∣∣α=∣∣∑xiei∣∣α≤∑∣xi∣∣∣ei∣∣α≤∣∣x∣∣2(∑∣∣ei∣∣α2)21(第一个不等式由三角不等式可得)
( ∑ i = 1 n ∣ ∣ e i ∣ ∣ α 2 ) 1 2 = c o n s t (\sum_{i=1}^n ||e_i||_{\alpha}^2)^\frac{1}{2}=const (∑i=1n∣∣ei∣∣α2)21=const
从而 ∣ ∣ ∣ x ∣ ∣ α − ∣ ∣ y ∣ ∣ α ∣ ≤ ∣ ∣ x − y ∣ ∣ α ≤ ∣ ∣ x − y ∣ ∣ 2 ( ∑ ∣ ∣ e i ∣ ∣ α 2 ) 1 2 < M δ |||x||_{\alpha}-||y||_{\alpha}|\leq ||x-y||_{\alpha}\leq||x-y||_2(\sum ||e_i||_{\alpha}^2)^\frac{1}{2}
3. R n R^n Rn空间中的一切向量范数都是等价的,即对于任意两种范数 ∣ ∣ x ∣ ∣ α , ∣ ∣ β ∣ ∣ α ||x||_\alpha,||\beta||_\alpha ∣∣x∣∣α,∣∣β∣∣α总存在与x无关的正常数 c 1 , c 2 ∈ R , s . t . c_1,c_2\in R,s.t. c1,c2∈R,s.t.(利用赋范线性空间特点)
c 1 ∣ ∣ x ∣ ∣ β ≤ ∣ ∣ x ∣ ∣ α ≤ c 2 ∣ ∣ x ∣ ∣ β , ∀ x ∈ R n c_1||x||_{\beta}\leq ||x||_{\alpha}\leq c_2||x||_{\beta},\qquad \forall x\in R^n c1∣∣x∣∣β≤∣∣x∣∣α≤c2∣∣x∣∣β,∀x∈Rn
pf:对于这点的证明,我们先将x单位化、标准化再做其它考虑。
∣ ∣ x ∣ ∣ α = ∣ ∣ x ∣ ∣ 2 ∣ ∣ x ∣ ∣ x ∣ ∣ 2 ∣ ∣ α = ∣ ∣ x ∣ ∣ 2 ∣ ∣ y ∣ ∣ α ||x||_{\alpha}=||x||_2||\frac{x}{||x||_2}||_{\alpha}=||x||_{2}||y||_{\alpha} ∣∣x∣∣α=∣∣x∣∣2∣∣∣∣x∣∣2x∣∣α=∣∣x∣∣2∣∣y∣∣α其中 y ∈ { y : ∣ ∣ y ∣ ∣ 2 = 1 , y ∈ R n } , y\in \lbrace y:||y||_2=1 ,y\in R^n\rbrace, y∈{y:∣∣y∣∣2=1,y∈Rn},又 t ( y ) = ∣ ∣ y ∣ ∣ α t(y)=||y||_\alpha t(y)=∣∣y∣∣α是连续函数从而在闭球 面上有最大值和最小值 c 1 , c 2 c_1,c_2 c1,c2,从而 c 2 ∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ α ≤ c 1 ∣ ∣ x ∣ ∣ 2 c_2||x||_2\leq||x||_\alpha\leq c_1||x||_2 c2∣∣x∣∣2≤∣∣x∣∣α≤c1∣∣x∣∣2利用 ∣ ∣ x ∣ ∣ 2 ||x||_2 ∣∣x∣∣2做过渡可轻松进行证明。
4. R n R^n Rn空间中的 l p ( p = 1 , 2 , ∞ ) l_p(p=1,2,\infty) lp(p=1,2,∞)范数满足以下关系式:
remark:这一步的证明过程适用于证明上一步,3强于2
example:设 A ∈ R n × n A\in R^{n\times n} A∈Rn×n,在 R n R^n Rn中给定范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_\alpha ∣∣⋅∣∣α,证明 g ( x ) = ∣ ∣ A x ∣ ∣ α g(x)=||Ax||_{\alpha} g(x)=∣∣Ax∣∣α关于范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_{\alpha} ∣∣⋅∣∣α是x的连续函数。
remark:从线性泛函的角度上看上述叙述是显然的。
证明: ∣ g ( x ) − g ( y ) ∣ ≤ ∣ ∣ A ( x − y ) ∣ ∣ α ≤ c 1 ∣ b ⃗ ⋅ ( x − y ⃗ ) ∣ ≤ c 1 m a x { ∣ b i ∣ } ∣ ∣ x − y ∣ ∣ 1 ≤ c 1 m a x { ∣ b i ∣ } c 2 ∣ ∣ x − y ∣ ∣ α |g(x)-g(y)|\leq ||A(x-y)||_{\alpha}\leq c_1 |\vec{b}\cdot(\vec{x-y})|\leq c_1max\lbrace|b_i|\rbrace ||x-y||_1\leq c_1max\lbrace|b_i|\rbrace c_2||x-y||_{\alpha} ∣g(x)−g(y)∣≤∣∣A(x−y)∣∣α≤c1∣b⋅(x−y)∣≤c1max{∣bi∣}∣∣x−y∣∣1≤c1max{∣bi∣}c2∣∣x−y∣∣α 其中 m a x { ∣ b i ∣ } max\lbrace|b_i|\rbrace max{∣bi∣}不超过A中每列绝对值最大的数的绝对值的求和。
首先对方阵进行定义:
R n × n R^{n\times n} Rn×n表示全体 n × n n\times n n×n阶实矩阵构成的线性空间,设 A ∈ R n × n A\in R^{n\times n} A∈Rn×n若在 R n × n R^{n\times n} Rn×n中定义实值函数 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣,满足:
称 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣为矩阵A的一种范数或者模或矩阵范数,相容范数。
def:矩阵范数 ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_\beta ∣∣⋅∣∣β和向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_\alpha ∣∣⋅∣∣α是相容的: ∣ ∣ A x ∣ ∣ α ≤ ∣ ∣ A ∣ ∣ β ∣ ∣ x ∣ ∣ α , ∀ A ∈ R n × n , x ∈ R n ||Ax||_\alpha\leq ||A||_\beta||x||_\alpha,\forall A\in R^{n\times n},x\in R^n ∣∣Ax∣∣α≤∣∣A∣∣β∣∣x∣∣α,∀A∈Rn×n,x∈Rn
thm:设 ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_\beta ∣∣⋅∣∣β是 R n × n R^{n\times n} Rn×n中的任意一种矩阵范数,则在 R n R^n Rn中至少存在一种向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_\alpha ∣∣⋅∣∣α使得 ∣ ∣ ⋅ ∣ ∣ α , ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_\alpha,||\cdot||_\beta ∣∣⋅∣∣α,∣∣⋅∣∣β是相容 的。
pf:构造$||\cdot||_{\beta}=||[x,0,...,0]||_\beta,\qquad [x,0,...,0]\in R^{n\times n}$
def:假设矩阵范数 ∣ ∣ A ∣ ∣ β ||A||_\beta ∣∣A∣∣β和向量范数 ∣ ∣ x ∣ ∣ α ||x||_\alpha ∣∣x∣∣α相容且 ∀ A ∈ R n × n \forall A\in R^{n\times n} ∀A∈Rn×n都存在一个非零向量 x 0 ∈ R n x_0\in R^n x0∈Rn,使得
∣ ∣ A x 0 ∣ ∣ α = ∣ ∣ A ∣ ∣ β ∣ ∣ x 0 ∣ ∣ α ||Ax_0||_\alpha=||A||_\beta||x_0||_\alpha ∣∣Ax0∣∣α=∣∣A∣∣β∣∣x0∣∣α
则说 ∣ ∣ A ∣ ∣ β ||A||_\beta ∣∣A∣∣β是从属于向量范数 ∣ ∣ x ∣ ∣ α ||x||_\alpha ∣∣x∣∣α的矩阵范数
remark:从属的必要条件是 ∣ ∣ I ∣ ∣ β = 1 ||I||_\beta=1 ∣∣I∣∣β=1
thm:对于 R n R^n Rn中的向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_\alpha ∣∣⋅∣∣α都存在从属于它的矩阵范数 ∣ ∣ ⋅ ∣ ∣ β ||\cdot||_\beta ∣∣⋅∣∣β
其中一种为 ∣ ∣ A ∣ ∣ = m a x ∣ ∣ x ∣ ∣ α = 1 ∣ ∣ A x ∣ ∣ α ||A||=max_{||x||_\alpha=1}||Ax||_\alpha ∣∣A∣∣=max∣∣x∣∣α=1∣∣Ax∣∣α,次范数被定义为算子范数。
pf:由范数等价性& ∣ ∣ A x ∣ ∣ ||Ax|| ∣∣Ax∣∣是有界闭集上的连续函数知最大值能取到。(1)非负性(正且定)(2)齐次性(3)三角不等式(3)相容性 ∣ ∣ A B ∣ ∣ = m a x ∣ ∣ A B x ∣ ∣ ≤ m a x ∣ ∣ A ∣ ∣ ∣ ∣ B x ∣ ∣ ≤ m a x ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||AB||=max ||ABx||\leq max ||A||||Bx||\leq max ||A||||B||||x||=||A||||B|| ∣∣AB∣∣=max∣∣ABx∣∣≤max∣∣A∣∣∣∣Bx∣∣≤max∣∣A∣∣∣∣B∣∣∣∣x∣∣=∣∣A∣∣∣∣B∣∣;证明相容性 ∣ ∣ A ∣ ∣ α ≥ ∣ ∣ A x ∣ ∣ x ∣ ∣ α ∣ ∣ α ||A||_\alpha\geq ||\frac{Ax}{||x||_{\alpha}}||_\alpha ∣∣A∣∣α≥∣∣∣∣x∣∣αAx∣∣α
prop:
同样有 ∣ ∣ ∣ A ∣ ∣ − ∣ ∣ B ∣ ∣ ∣ ≤ ∣ ∣ A − B ∣ ∣ |||A||-||B|||\leq ||A-B|| ∣∣∣A∣∣−∣∣B∣∣∣≤∣∣A−B∣∣
example:
1-范数 ∣ ∣ A ∣ ∣ 1 = m a x 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ ||A||_1=max_{1\leq j\leq n}\sum_{i=1}^n |a_{ij}| ∣∣A∣∣1=max1≤j≤n∑i=1n∣aij∣
2-范数(谱范数) ∣ ∣ A ∣ ∣ 2 = ρ 1 2 ( A T A ) , ρ ||A||_2=\rho^{\frac{1}{2}}(A^TA),\quad \rho ∣∣A∣∣2=ρ21(ATA),ρ表示矩阵谱半径(即特征值最大值)
注意这里是 A T A A^TA ATA本质上 A B , B A AB,BA AB,BA具有相同的特征值,但是其特征向量不一定相同;同样P和 P T P^T PT也有相同的特征值但是特征向量不一定相同(由特征多项式的形式可看出)
pf: A B x = λ x , B A B x = λ B x , B x ABx=\lambda x,BABx=\lambda Bx,Bx ABx=λx,BABx=λBx,Bx是 B A BA BA关于 λ \lambda λ的特征向量。
∞ \infty ∞-范数 ∣ ∣ A ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∑ i = j n ∣ a i j ∣ ||A||_\infty=max_{1\leq i\leq n}\sum_{i=j}^n |a_{ij}| ∣∣A∣∣∞=max1≤i≤n∑i=jn∣aij∣
F-范数 ∣ ∣ A ∣ ∣ F = ( ∑ i ∑ j ∣ a i j ∣ 2 ) 1 2 ∣ ∣ A x ∣ ∣ 2 ≤ ∣ ∣ A ∣ ∣ F ∣ ∣ x ∣ ∣ 2 , 由 于 ∣ ∣ I ∣ ∣ F ≠ 1 ||A||_F=(\sum_i\sum_j|a_{ij}|^2)^{\frac{1}{2}}\qquad ||Ax||_2\leq ||A||_F||x||_2,由于||I||_F\neq 1 ∣∣A∣∣F=(∑i∑j∣aij∣2)21∣∣Ax∣∣2≤∣∣A∣∣F∣∣x∣∣2,由于∣∣I∣∣F=1知F-范 数不从属于任何范数
$||A||_2\leq ||A||_F\leq \sqrt{n}||A||_2 $
pf:$||A||_2^2=max_i \lambda_i\geq \frac{1}{n}(\lambda_1+…+\lambda_n )=\frac{1}{n}tr(ATA)=\frac{1}{n}||A||_F2 $实对称矩阵的迹等于特征值的和,且是半正定矩阵(特征值不小于0)。
上述定义在共轭转置的基础上可推广到复数域上的矩阵,在考虑 C n , C m C^n,C^m Cn,Cm上的范数后可推广到 C n × n C^{n\times n} Cn×n非方阵上,详见P69.
thm:
对于任意矩阵范数 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣,都有 ρ ( A ) ≤ ∣ ∣ A ∣ ∣ , ∀ A ∈ C n × n \rho(A)\leq ||A||,\quad \forall A\in C^{n\times n} ρ(A)≤∣∣A∣∣,∀A∈Cn×n
pf:由于对于所有矩阵范数都存在向量范数 ∣ ∣ ⋅ ∣ ∣ α ||\cdot||_\alpha ∣∣⋅∣∣α使得两者相容,即 ∣ ∣ A x ∣ ∣ α ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ α ||Ax||_\alpha\leq ||A||\cdot ||x||_\alpha ∣∣Ax∣∣α≤∣∣A∣∣⋅∣∣x∣∣α,取 x x x为A的特征向量,则有 λ ∣ ∣ x ∣ ∣ α ≤ ∣ ∣ A ∣ ∣ ⋅ ∣ ∣ x ∣ ∣ α \lambda||x||_\alpha\leq ||A||\cdot ||x||_\alpha λ∣∣x∣∣α≤∣∣A∣∣⋅∣∣x∣∣α,QED.
补充Jordan矩阵幂运算
thm:设 A ∈ C n × n , ∀ ϵ > 0 , ∃ ∣ ∣ ⋅ ∣ ∣ β , s . t . ∣ ∣ A ∣ ∣ β ≤ ρ ( A ) + ϵ A\in C^{n\times n},\forall \epsilon >0,\exist ||\cdot||_\beta,s.t.||A||_{\beta}\leq \rho(A)+\epsilon A∈Cn×n,∀ϵ>0,∃∣∣⋅∣∣β,s.t.∣∣A∣∣β≤ρ(A)+ϵ
pf:A必与一个Jordan标准型 J J J相似,即存在非奇异矩阵P使得 P − 1 A P = J , D = d i a g ( 1 , ϵ , . . . , ϵ n − 1 ) , D − 1 J D = J ~ P^{-1}AP=J,D=diag(1,\epsilon,...,\epsilon^{n-1}),D^{-1}JD=\tilde{J} P−1AP=J,D=diag(1,ϵ,...,ϵn−1),D−1JD=J~将J的每一个非对角1换成 ϵ , J ~ = Q − 1 A Q , Q = P D , ∣ ∣ Q − 1 A Q ∣ ∣ 1 = ∣ ∣ J ~ ∣ ∣ 1 ≤ ρ ( A ) + ϵ ∣ ∣ A ∣ ∣ β = ∣ ∣ Q − 1 A Q ∣ ∣ 1 \epsilon,\tilde{J}=Q^{-1}AQ,Q=PD,\qquad ||Q^{-1}AQ||_1=||\tilde{J}||_1\leq \rho(A)+\epsilon\qquad ||A||_\beta=||Q^{-1}AQ||_1 ϵ,J~=Q−1AQ,Q=PD,∣∣Q−1AQ∣∣1=∣∣J~∣∣1≤ρ(A)+ϵ∣∣A∣∣β=∣∣Q−1AQ∣∣1是一种矩阵范数 QED.
remark:上面两个定理说明 ρ ( A ) \rho(A) ρ(A)是A的范数的下确界。
thm:Banach Lemma
B ∈ C n × n , ρ ( B ) < 1 B\in C^{n\times n},\rho(B)<1 B∈Cn×n,ρ(B)<1,则矩阵 I ± B I\pm B I±B都是非奇异的,而且对任何 ∣ ∣ I ∣ ∣ = 1 ||I||=1 ∣∣I∣∣=1的矩阵范数 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣,若有 ∣ ∣ B ∣ ∣ < 1 ||B||<1 ∣∣B∣∣<1,则
∣ ∣ ( I ± B − 1 ) ∣ ∣ ≤ 1 1 − ∣ ∣ B ∣ ∣ ||(I\pm B^{-1})||\leq \frac{1}{1-||B||} ∣∣(I±B−1)∣∣≤1−∣∣B∣∣1
pf:因为 ρ ( B ) < 1 , I ± B \rho(B)<1,I\pm B ρ(B)<1,I±B的特征值的模非0(做jordan分解)。
又 ( I + B ) ( I + B ) − 1 = I , ( I + B ) − 1 = I − B ( I + B ) − 1 (I+B)(I+B)^{-1}=I,(I+B)^{-1}=I-B(I+B)^{-1} (I+B)(I+B)−1=I,(I+B)−1=I−B(I+B)−1
∣ ∣ ( I + B ) − 1 ∣ ∣ ≤ ∣ ∣ I ∣ ∣ + ∣ ∣ B ∣ ∣ ∣ ∣ ( I + B ) − 1 ∣ ∣ → ( 1 − ∣ ∣ B ∣ ∣ ) ∣ ∣ ( I + B ) − 1 ∣ ∣ ≤ ∣ ∣ 1 ∣ ∣ ||(I+B)^{-1}||\leq ||I||+||B|| ||(I+B)^{-1} ||\rightarrow\quad (1-||B||)||(I+B)^{-1}|| \leq ||1|| ∣∣(I+B)−1∣∣≤∣∣I∣∣+∣∣B∣∣∣∣(I+B)−1∣∣→(1−∣∣B∣∣)∣∣(I+B)−1∣∣≤∣∣1∣∣
QED
def:向量列的收敛:各分量收敛
def:矩阵列的收敛:各元素收敛
矩阵级数收敛:部分和收敛
thm: C n × n C^{n \times n} Cn×n空间中的矩阵序列 A 1 , . . . A_1,... A1,...收敛于A的充要条件是存在一种矩阵范数 ∣ ∣ ⋅ ∣ ∣ , s . t . l i m k → ∞ ∣ ∣ A k − A ∣ ∣ = 0 ||\cdot||,s.t.lim_{k\rightarrow \infty}{||A_k-A||=0} ∣∣⋅∣∣,s.t.limk→∞∣∣Ak−A∣∣=0
pf:(1)对于向量范数有,从而进行类比$lim |B|=lim |C|\leftarrow lim B=limC 当 且 仅 当 当且仅当 当且仅当lim |C|=0 从 左 到 右 可 推 , 从 而 考 虑 从左到右可推,从而考虑 从左到右可推,从而考虑lim|A_k-A|\rightarrow 0$
(2)证明有限维空间上任何范数等价。所以只对 ∣ A ∣ M = n m a x ∣ a i j ∣ |A|_M=nmax|a_{ij}| ∣A∣M=nmax∣aij∣, l i m ∣ ∣ A K − A ∣ ∣ M = l i m n m a x ∣ ∣ a i j − a j ∣ ∣ lim ||A_K-A||_M=lim\, n\,max||a_{ij}-a_j|| lim∣∣AK−A∣∣M=limnmax∣∣aij−aj∣∣这样各元素收敛等价于M范数收敛。
thm: C n C^{n } Cn空间中的数列 a 1 , . . . a_1,... a1,...收敛于a的充要条件是存在一种矩阵范数 ∣ ∣ ⋅ ∣ ∣ , s . t . l i m k → ∞ ∣ ∣ a k − a ∣ ∣ = 0 ||\cdot||,s.t.lim_{k\rightarrow \infty}{||a_k-a||=0} ∣∣⋅∣∣,s.t.limk→∞∣∣ak−a∣∣=0
thm:设 A ∈ C n × n , l i m k → ∞ A k = 0 ⇔ ρ ( A ) < 1 A\in C^{n\times n},lim_{k\rightarrow \infty}A^k=0\Leftrightarrow \rho(A)<1 A∈Cn×n,limk→∞Ak=0⇔ρ(A)<1
pf: ⇒ \Rightarrow ⇒反设 ρ ( A ) ≥ 1 , ρ ( A k ) ≥ 1 → ∣ ∣ A K ∣ ∣ ≥ 1 \rho(A)\geq 1,\rho(A^k)\geq 1\rightarrow||A^K||\geq 1 ρ(A)≥1,ρ(Ak)≥1→∣∣AK∣∣≥1,从而 l i m ∣ ∣ A k ∣ ∣ ≠ 0 → A ≠ 0 lim ||A^k||\neq 0\rightarrow A\neq 0 lim∣∣Ak∣∣=0→A=0
⇐ \Leftarrow ⇐ ρ ( A ) < 1 , ϵ 0 = 1 − ρ ( A ) 2 > 0 \rho(A)<1,\epsilon_0=\frac{1-\rho(A)}{2}>0 ρ(A)<1,ϵ0=21−ρ(A)>0存在矩阵范数
∣ ∣ ⋅ ∣ ∣ β , s . t . ∣ ∣ A ∣ ∣ β ≤ ρ ( A ) + ϵ 0 < 1 → ∣ ∣ A k ∣ ∣ β ≤ ∣ ∣ A ∣ ∣ β k ≤ q k , q < 1 , ∣ ∣ A k ∣ ∣ → 0 , A k → 0 ||\cdot||_\beta,s.t.||A||_\beta\leq \rho(A)+\epsilon_0<1\rightarrow ||A^k||_\beta\leq ||A||_\beta^k\leq q^k,q<1,||A^k||\rightarrow 0,A^k\rightarrow 0 ∣∣⋅∣∣β,s.t.∣∣A∣∣β≤ρ(A)+ϵ0<1→∣∣Ak∣∣β≤∣∣A∣∣βk≤qk,q<1,∣∣Ak∣∣→0,Ak→0
thm: A ∈ C n × n , ∑ k = 0 ∞ A k A\in C^{n\times n},\sum_{k=0}^\infty A^k A∈Cn×n,∑k=0∞Ak收敛$\Leftrightarrow $ ρ ( A ) < 1 \rho(A)<1 ρ(A)<1, 且若 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1,则 ( I − A ) − 1 (I-A)^{-1} (I−A)−1存在 , ∑ k = 0 ∞ A k = ( 1 − A ) − 1 \sum_{k=0}^\infty A^k=(1-A)^{-1} ∑k=0∞Ak=(1−A)−1
pf: ⇒ \Rightarrow ⇒令 S n = ∑ k = 0 m A k S_n=\sum_{k=0}^m A^k Sn=∑k=0mAk,则由矩阵幂级数收敛知 l i m m → ∞ S m = S lim_{m\rightarrow \infty}{S_m}=S limm→∞Sm=S, l i m A k = l i m ( S k − S k − 1 ) = 0 lim A^k=lim (S_k-S_{k-1})=0 limAk=lim(Sk−Sk−1)=0由上述定理知 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1
⇐ \Leftarrow ⇐设 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1, ( I − A ) − 1 (I-A)^{-1} (I−A)−1存在
( I − A ) S k = ( I − A ) ( 1 + A + A 2 + . . . + A k ) = I − A k + 1 (I-A)S_k=(I-A)(1+A+A^2+...+A^k)=I-A^{k+1} (I−A)Sk=(I−A)(1+A+A2+...+Ak)=I−Ak+1
S k = ( I − A ) − 1 ( I − A k + 1 ) S_k=(I-A)^{-1}(I-A^{k+1}) Sk=(I−A)−1(I−Ak+1)
= ( I − A ) − 1 − ( I − A ) − 1 A k + 1 =(I-A)^{-1}-(I-A)^{-1}A^{k+1} =(I−A)−1−(I−A)−1Ak+1
从而 ∣ ∣ S k − ( I − A ) − 1 ∣ ∣ ≤ ∣ ∣ ( I − A ) − 1 ∣ ∣ ∣ ∣ A k + 1 ∣ ∣ ||S_k-(I-A)^{-1}||\leq ||(I-A)^{-1}||||A^{k+1}|| ∣∣Sk−(I−A)−1∣∣≤∣∣(I−A)−1∣∣∣∣Ak+1∣∣由 ρ ( A ) < 1 → l i m k → ∞ ∣ ∣ A k + 1 ∣ ∣ = 0 \rho(A)<1\rightarrow lim_{k\rightarrow \infty} ||A^{k+1}||=0 ρ(A)<1→limk→∞∣∣Ak+1∣∣=0从而 S n → ( I − A ) − 1 S_n\rightarrow (I-A)^{-1} Sn→(I−A)−1
thm:设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n,若对 C n × n C^{n\times n} Cn×n中的某种范数 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣有 ∣ ∣ A ∣ ∣ < 1 ||A||<1 ∣∣A∣∣<1,则有
∣ ∣ ( 1 − A ) − 1 − ( I + A 2 + . . . + A k ) ∣ ∣ ≤ ∣ ∣ A ∣ ∣ k + 1 1 − ∣ ∣ A ∣ ∣ ||(1-A)^{-1}-(I+A^2+...+A^k)||\leq \frac{||A||^{k+1}}{1-||A||} ∣∣(1−A)−1−(I+A2+...+Ak)∣∣≤1−∣∣A∣∣∣∣A∣∣k+1
pf: L H S = ∣ ∣ A k + 1 + A k + 2 + . . . ∣ ∣ ≤ ∣ ∣ A k + 1 ∣ ∣ ∣ ∣ 1 + A + A 2 + . . . ∣ ∣ ≤ ∣ ∣ A k + 1 ∣ ∣ ∣ ∣ ( 1 − A ) − 1 ∣ ∣ ≤ B a n a c h L e m m a ∣ ∣ A k + 1 ∣ ∣ 1 − ∣ ∣ A ∣ ∣ = R H S LHS=||A^{k+1}+A^{k+2}+...||\leq ||A^{k+1}||||1+A+A^2+...||\leq||A^{k+1}||||(1-A)^{-1}||\overset{Banach Lemma}\leq \frac{||A^{k+1}||}{1-||A||}=RHS LHS=∣∣Ak+1+Ak+2+...∣∣≤∣∣Ak+1∣∣∣∣1+A+A2+...∣∣≤∣∣Ak+1∣∣∣∣(1−A)−1∣∣≤BanachLemma1−∣∣A∣∣∣∣Ak+1∣∣=RHS
(banach引理需要加上条件 ∣ ∣ I ∣ ∣ = 1 ||I||=1 ∣∣I∣∣=1)
如果没有 ∣ ∣ I ∣ ∣ = 1 : ∣ ∣ ( I − A ) − 1 − ( I + A + A 2 + . . . + A k ) ∣ ∣ ||I||=1:||(I-A)^{-1}-(I+A+A^2+...+A^k)|| ∣∣I∣∣=1:∣∣(I−A)−1−(I+A+A2+...+Ak)∣∣
≤ ∣ ∣ A ∣ ∣ k + 1 + . . . + ∣ ∣ A ∣ ∣ k + m + ∣ ∣ A ∣ ∣ k + m + 1 ( I − A ) − 1 , ( m → ∞ ) \leq ||A||^{k+1}+...+||A||^{k+m}+||A||^{k+m+1}(I-A)^{-1},\qquad (m\rightarrow \infty) ≤∣∣A∣∣k+1+...+∣∣A∣∣k+m+∣∣A∣∣k+m+1(I−A)−1,(m→∞)
≤ ∑ i = k + 1 ∞ ∣ ∣ A ∣ ∣ i = R H S \leq \sum_{i=k+1}^\infty ||A||^i=RHS ≤∑i=k+1∞∣∣A∣∣i=RHS
thm:酉矩阵的保范性质
A ∈ C n × n , Q Q H = I , ⇒ ∣ ∣ Q A ∣ ∣ 2 = ∣ ∣ A Q ∣ ∣ 2 = ∣ ∣ A ∣ ∣ 2 A\in C^{n\times n},QQ^H=I,\Rightarrow ||QA||_2=||AQ||_2=||A||_2 A∈Cn×n,QQH=I,⇒∣∣QA∣∣2=∣∣AQ∣∣2=∣∣A∣∣2
pf: ∣ ∣ Q H ∣ ∣ 2 = ∣ ∣ Q ∣ ∣ 2 = 1 ||Q^H||_2=||Q||_2=1 ∣∣QH∣∣2=∣∣Q∣∣2=1
∣ ∣ Q A ∣ ∣ 2 ≤ ∥ ∣ Q ∣ ∣ 2 ∣ ∣ A ∣ ∣ 2 = ∣ ∣ A ∣ ∣ , ∣ ∣ A ∣ ∣ 2 = ∣ ∣ Q H Q A ∣ ∣ 2 ≤ ∣ ∣ Q H ∣ ∣ 2 ∣ ∣ Q A ∣ ∣ 2 = ∣ ∣ Q A ∣ ∣ 2 ||QA||_2\leq \||Q||_2||A||_2=||A||,||A||_2=||Q^HQA||_2\leq ||Q^H||_2||QA||_2=||QA||_2 ∣∣QA∣∣2≤∥∣Q∣∣2∣∣A∣∣2=∣∣A∣∣,∣∣A∣∣2=∣∣QHQA∣∣2≤∣∣QH∣∣2∣∣QA∣∣2=∣∣QA∣∣2QED
条件数 C o n d ( A ) = ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ Cond(A)=||A||||A^{-1}|| Cond(A)=∣∣A∣∣∣∣A−1∣∣
谱条件数 K ( A ) = C o n d ( A ) 2 = ∣ ∣ A ∣ ∣ 2 ∣ ∣ A − 1 ∣ ∣ 2 K(A)=Cond(A)_2=||A||_2||A^{-1}||_2