线性方程组的类型及求解(二)(备份草稿)

续《线性方程组的类型及求解》(一)。接着,我们再来复习一下不相容线性方程组(超定方程组)的解法。
五. 最小二乘解法
当方程组不相容时,我们可以寻求次佳(next-best)解。

  1. 模型
    将原不相容方程组 Ax\neq b 转换为正规方程组 ATAx=ATb 。
    首先构造原不相容方程组的最小二乘解 argmin_{x}|Ax-b|_2^2 ,从而将原问题转换为求残差二范数最小的优化问题(注意此处用 argmin 是因为即便在 f(x) 后带上常数,但关心的最小值点不变,二如果使用 min 则会改变最小值); 再令 f(x)=(Ax-b)^T(Ax-b) (这是技巧,对于矩阵,要构造“平方”则用转置来乘),展开得 f(x)=xTATAx-2bTAx+bTb (注意化简过程中, (bTAx)T=xTATb ,因为等式两边结果都是一个数); 接着对上式求梯度 f’(x)=(xTATAx-2bTAx+bTb)’=2ATAx-2ATb=0 (技巧:类比代数 f’(x)=(\frac{1}{2}ax^2-bx)’=ax-b ,对于矩阵情形 gradf(x)=(\frac{1}{2}xTAx-bTx)’=Ax-b )。 最后得到原不相容(超定)方程的正规方程形式: ATAx=ATb 。 该模型的价值在于可以直接根据具体问题写出最终的求解形式,参见PPT14的第14页。
  2. 定理
    不相容方程的最小二乘解总是存在的。
    证明:PPT14的第18页。
  3. 应用场景
    在统计学中,根据实验样本进行数据拟合时往往会求解超定方程。在许多实际问题中,由于变量和变量之间的关系比较复杂,需要考虑问题背景所涉及的数学模型,观察数据散点的分布,选取不同函数做实验,以获得比较成功的数据拟合。下面介绍集中拟合函数:
    (1) y(x)=C_0+C_1 x
    (2) y(x)=C_0+C_1x+…+C_nx^n
    (3) y(x)=C_0\varphi_0(x)+C_1\varphi_1(x)+…+C_n\varphi_n(x)
    (4) y(x)=C_0e^{C_1x} (线性化处理后为 \ln y(x)=\ln C_0+C_1\ln x )
    PPT14的例题1
    (5) y(x)=x^C
    PPT14的例题2
    最小二乘法与插值法有着类似的作用,但其之间也存在着一些本质的差别,插值法的相关知识可以在《机器学习数学基础》中查阅。
    六. 广义逆解法

七. 附录
一. 矩阵分解
1.1 奇异值分解( A \in \mathbb{C}r^{m \times n} )
1.1.1 定义; 1.1.2 性质; 1.1.3 分解定理和步骤; 1.1.4 奇异值的分析;
1.1.5 奇异值的几何意义;1.1.6 重要定理
1.2 谱分解(A \in \mathbb{C}^{n \times n})
1.2.1 形式一:单纯矩阵 1.2.1.1 定义;1.2.1.2 单纯矩阵的谱分解; 1.2.1.3 定理
1.2.2 形式二:正规矩阵 1.2.2.1 定义; 1.2.2.2 引理; 1.2.2.3 正规矩阵的谱分解; 1.2.2.4 定理
1.3 最大秩分解( A \in \mathbb{C}r^{m \times n} )
1.3.1分解定理和步骤; 1.3.2 定理;
二. 向量与矩阵的范数
2.1 向量范数
2.1.1 定义; 2.1.2 简单性质; 2.1.3 常用向量范数; 2.1.4 向量范数的等价; 2.1.5 向量范数的应用
2.2 矩阵范数
2.2.1 定义; 2.2.2 简单性质; 2.2.3 范数的等价; 2.2.4 范数的相容
2.3 算子范数
2.3.1 定义; 2.3.2 简单性质; 2.3.3 常用算子范数; 2.3.4 广义算子范数
2.4 酉不变范数
2.4.1 定义; 2.4.2 例子
三. 特征值的估计
一. 矩阵分解
1.1 奇异值分解
1.1.1 定义
设 A \in \mathbb{C}
{r}^{m \times n} , A^HA 的特征值为 \lambda_1 \geq\lambda_2 \geq…\geq\lambda_r >\lambda
{r+1}=…=\lambda_n=0 ,则称 \sigma_i=\sqrt{\lambda_i}(i=1,2,…,r) 为矩阵 A 的正奇异值。
1.1.2 性质
(1) A 与 A^H 有相同的正奇异值。
该性质来源于定理:设 A \in \mathbb{C}_r^{m \times n} ,则有(1) rank(A)=rank(AHA)=rank(AHA); (2) A^HA 、 AA^H 的特征值均为非负实数;(3)A^HA 、 AA^H 的非零特征值相同。该定理的证明在教材P118-119页
(2)若 A 与 B 酉等价,则A 与 B有相同的正奇异值。
该性质的证明在教材P120页 理解该性质,需要首先要清楚定义:设 A、B\in \mathbb{C}^{m \times n}, 如果存在酉矩阵 U \in \mathbb{C}^{m \times m}, V \in \mathbb{C}^{n \times n}, 使得 A=UBV, 则称 A 与 B 酉等价。 对于酉矩阵和酉变换,需要清楚以下几个定义: (1) 酉矩阵的定义:若 n 阶复矩阵 A \in \mathbb{C}^{n \times n} 满足 AHA=AAH=E_n ,则称 A 为酉矩阵;(2)酉变换的定义:若线性空间 V_n(\mathbb{C}) 的变换 T 满足 (T(x),T(y))=(x,y), \forall x,y \in V_n(\mathbb{C}) ,则称 T 为V_n(\mathbb{C})的酉变换。 以及以下定理: 设 A \in \mathbb{C}^{n \times n} 是酉矩阵,则(1) (Ax,Ay)=(x,y), \forall x,y \in \mathbb{C}^n ;(2) |Ax|=|x|,\forall x \in \mathbb{C}^n ;(3) A^H 也是酉矩阵;(4) 若 B \in \mathbb{C}^{n \times n} 也是酉矩阵,则 AB,BA 也是酉矩阵;(5) 酉矩阵的特征值的模为1。(该定理的证明在教材P23页)
1.1.3 分解定理和步骤
(1)分解定理
设 A \in \mathbb{C}_r^{m \times n} , \sigma_1,\sigma_2,…,\sigma_r 是 A 的 r 个正奇异值,则存在 m 阶酉矩阵 U 和 n 阶酉矩阵 V ,使得 A=U\begin{pmatrix}D&O\O&O\end{pmatrix}V ,其中 D=\operatorname{diag}(\delta_1,\delta_2,…,\delta_r), 而 |\delta_i|=\sigma_i(i=1,2,…,r) 的复数, U,V 的列向量分别称为左、右奇异向量。
证明:教材P120-121页
(2)分解步骤
从证明过程中可以整理出如下步骤:(a) 计算 A^HA 的特征值及特征向量(为了相似对角化,此外,谱分解中的单纯矩阵和正规矩阵都是从相似对角化的等式开始一步步变形的,奇异值分解更像是任意矩阵的“谱分解”); (b) 构造酉矩阵 V ;© 构造酉矩阵 U ;(d) 写出表达式。
例题:教材P121页,分解 A= \begin{pmatrix} 1&0&0\ 2&0&0 \end{pmatrix} ,答案是 A= \begin{pmatrix} \frac{1}{\sqrt{5}}&-\frac{2}{\sqrt{5}}\ \frac{2}{\sqrt{5}}&\frac{1}{\sqrt{5}} \end{pmatrix} \begin{pmatrix} \sqrt{5}&0&0\ 0&0&0 \end{pmatrix} \begin{pmatrix} 1&0&0\0&1&0\0&0&1 \end{pmatrix}
1.1.4 奇异值的分析
(1)等式关系

(2)不等式关系
\sigma_{i+j-1}(A+B) \leq \sigma_i(A)+\sigma_j(B)
若矩阵 B 是删去 A 的任意一列得到的矩阵,则 \sigma_1(A) \geq\sigma_1(B)\geq\sigma_2(A) \geq\sigma_2(B) \geq…\geq \sigma_r(A) \geq\sigma_r(B)\geq0
1.1.5 奇异值的几何意义
PPT JZLLC3-5的第155页起
奇异值的几何意义应用也十分广泛,比如图像处理,抓重要特征, A=\sum_{i=1}ra_iu_iv_iH \approx \sum_{i=1}^ha_i u_i v_i^H (h 1.1.6 重要定理
(与低秩矩阵的距离)如果 A \in \mathbb{C}r^{m \times n} 的奇异值 \sigma_1 \geq \sigma_2 \geq… \geq \sigma_r, 那么当 k{i=1}^k \sigma_i u_i v_i^H 时, A 与秩为 k 的矩阵最近的距离为 \operatorname*{min}{rank(B)=k}|A-B|2=|X-X_k|2=\sigma{k+1}
证明:PPT JZLLC3-5的第175页起
1.2 谱分解
相似矩阵具有相同的特征值,因而人们总希望在相似矩阵中找到结构最简单的矩阵,利用简单矩阵来表示已知矩阵。
1.2.1 形式一:单纯矩阵
1.2.1.1 定义
若矩阵 A 的每个特征值的代数重复度与几何重复度相等,则称 A 为单纯矩阵。(A 是单纯矩阵的充要条件是 A 与对角矩阵相似。)
设 \lambda_1,\lambda_2,…,\lambda_k 是 A \in \mathbb{C}^{n \times n} 的 k 个相异特征值,其重数分别为 r_1,r_2,…,r_k ,则称 r_i 为矩阵 A 的特征值 \lambda_i 的代数重复度。齐次方程组 Ax=\lambda_i x(i=1,2,…,k) 的解空间 V
{\lambda_i} 称为 A 的
对于特征值 \lambda_i 的特征子空间,而 V
{\lambda_i} 的维数称为 A 的特征值 \lambda_i 的几何重复度。
(待解决问题:如何求几何重复度?解空间又是什么?)
1.2.1.2 单纯矩阵的谱分解
若矩阵 A \in \mathbb{C}^{n \times n} 是单纯矩阵,则 A 可分解为一系列幂等矩阵 A_i(i=1,…,n) 的加权和 A=\sum_{i=1}^n \lambda_i A_i ,其中 \lambda_i 为 A 的特征值。( A 是单纯矩阵的充要条件是 A 与对角矩阵相似,即 A=P\operatorname{diag}(\lambda_1,\lambda_2,…,\lambda_n)P^{-1} )
证明:教材P96-97页(开头就要用到它是单纯矩阵的充要条件,然后就十分简单了,明白我们用到特征向量列分块来构造 P 矩阵的原因,用到了可逆矩阵的一些性质)
谱分解中 A_i 有如下性质:(1)幂等性: A_i^2=A_i; (2)分离性: A_iA_j=O(i \neq j); (3)可加性: \sum_{i=1}^nA_i=E (这一条性质用来验证谱分解的正确性,证明在教材P97页)。
证明:用到了可逆矩阵 P{-1}P=PP{-1}=E_n 这个公式,代入后能够很容易地证明这三个性质。(性质1和3一个式子证明过来的)
从定义中可以看出单纯矩阵谱分解的分解步骤如下:(1)算特征值;(2)算特征向量,得 v_i ;(3)算 P^{-1} (其中 P为特征向量按列组合而成的 ),得 w_i^T ;(4) A_i=v_i w_i^T
教材P124习题1、2。
比如习题1 \begin{pmatrix} 1&1\4&1 \end{pmatrix}=\begin{pmatrix} 1&1\-2&2 \end{pmatrix} \begin{pmatrix} -1 &0\0&3 \end{pmatrix} \begin{pmatrix} \frac{1}{2} &-\frac{1}{4}\ \frac{1}{2}&\frac{1}{4} \end{pmatrix} 实际上就是先分解为“特征向量”“特征值”“特征向量逆向量”,然后进行一目了然的提取 -1\begin{pmatrix}1\-2\end{pmatrix}\begin{pmatrix}\frac{1}{2}&-\frac{1}{4}\end{pmatrix}+3\begin{pmatrix}1\2\end{pmatrix}\begin{pmatrix}\frac{1}{2}&\frac{1}{4}\end{pmatrix} 。
注意(1)得到特征值求特征向量,特征向量是根据等式自己写出来的;(2)矩阵求逆的方法也很多,比如初等变换、 A{-1}=\frac{1}{detA}A* 等等
此外,我们可以推广至矩阵函数 f(A) 的谱分解: A=\sum_{i=1}^n \lambda_i A_i\Rightarrow A2=\sum_{i=1}n \lambda_i^2 A_i \Rightarrow Al=\sum_{i=1}n \lambda_i^l A_i(l \geq 2) ,当 f(A) 是 A 的多项式或者是 A 的函数时,则有 f(A)=\sum_{i=1}^nf(\lambda_i)A_i ,称之为矩阵函数 f(A) 的谱分解。
1.2.1.3 定理
设阵 A \in \mathbb{C}^{n \times n}它有 k 个相异特征值 \lambda_i(i=1,2,…,k), 则 A 是单纯矩阵的充要条件是存在 k 个矩阵 A_i(i=1,2,…,k) 满足:(1) A_iA_j= \left{ \begin{equation} \begin{aligned} A_i,i=j \0,i \neq j \end{aligned} \end{equation} \right. ;(2) \sum_{k=1}^kA_i=E ;(3) A=\sum_{k=1}^k \lambda_iA_i 。
证明:教材P98-100页(必要性前面已经证明过了,十分简单,主要在于充分性的证明)
1.2.2 形式二:正规矩阵
1.2.2.1 定义
若 n 阶复矩阵 A 满足 AAH=AHA ,则称 A 为正规矩阵,当 A 为 n 阶实矩阵且满足 AAT=ATA ,则称矩阵 A 为实正规矩阵。
比如单位矩阵, 对称矩阵, Hermite矩阵, 反Hermite矩阵( A=-A^H,A\in \mathbb{C}^{n \times n} ) 都是正规矩阵,这些常见的十分有必要记住,因为要对一个矩阵进行谱分解前,首先应该判断它是单纯矩阵还是正规矩阵,再选择相应的分解方法进行谱分解
1.2.2.2 引理
(1)设 A 为正规矩阵, A 与 B 酉相似,则 B 为正规矩阵。
证明:教材P100-101页。此外,注意什么是酉相似,即: A 与 B 相似,有 A=PBP^{-1} , A 与 B 酉相似,则 A=UBU^{-1}
(2)(Schur分解)设 A\in \mathbb{C}^{n \times n} ,则存在酉矩阵,使得 A=URU^H ,其中 R 是一个上三角矩阵且主对角元线上的元素为 A 的特征值。
证明:教材P101页。如果能找到一个对角矩阵和A相似,那将最好不过了,如果找不到合适的对角矩阵,那么就找和A相似的Jordan/Frobenius矩阵,还可以找与A相似的R矩阵。要清楚Jordan矩阵的形式为 J_i=\begin{pmatrix} \lambda_i&1&0&…&0\ 0&\lambda_i&1&…&0\ …&…&…&&…\ 0&0&0&…&\lambda_i \end{pmatrix} ,而Jordan标准型矩阵的形式为 J=\begin{pmatrix} J_1&O&…&O\ O &J_2&…&O\ …&…&&… \ O&O&…&J_k \end{pmatrix}
(3)设 A 为正规矩阵且是三角矩阵,则 A 是对角矩阵。
证明:教材P101-102页
1.2.2.3 正规矩阵的谱分解
n 阶复矩阵 A 是正规矩阵的充要条件是 A 与对角矩阵酉相似,即存在 n 阶酉矩阵 U 使得 A=U\operatorname{diag}(\lambda_1,…,\lambda_n)U^H ,其中 \lambda_1,…,\lambda_n 是 A 的 n 个特征值。
证明:教材P102页
设A \in \mathbb{C}^{n \times n}, A 有 k 个相异特征值 \lambda_i(i=1,…,k) ,则 A 是正规矩阵的充要条件是存在 k 个矩阵 A_i(i=1,…,k) 满足:(1) A_iA_j=\left{ \begin{equation} \begin{aligned} A_i,i=j\ O,i \neq j \end{aligned} \end{equation} \right. ;(2) \sum_{i=1}^kA_i=E ;(3) A=\sum_{i=1}^k\lambda_i A_i ;(4) A_i^H=A_i(i=1,…,k)
证明:教材P102-104页
教材P124习题9。这道题要第一时间判断出它是一个正规矩阵,然后使用合适的正规矩阵的谱分解方法。
1.2.2.4 定理
正规矩阵分解存在的一些性质:
(1) A_i 是正交投影算子;(2)A_i是唯一的;(3) \operatorname{rank}A_i=r_i,\sum_{i=1}^k r_i=n ;(4)若 Ax=\lambda x ,则 A^Hx=\overline{\lambda}x ;(5)从属于不同特征值的特征向量正交。
证明:教材P104-105页
1.3 最大秩分解( A \in \mathbb{C}_r^{m \times n} )
1.3.1分解定理和步骤
设 A \in \mathbb{C}_r^{m \times n} ,则存在矩阵 B \in \mathbb{C}_r^{m \times r},D \in \mathbb{C}_r^{r \times n} 使得 A=BD ,称为最大秩分解或满秩分解。
证明:教材P114-115页
从上述定理中可以得到具体的分解步骤:(1)将矩阵 A 实施行(列)初等行变换,得到行(列)简化阶梯型矩阵;(2)根据行简化阶梯型矩阵写出矩阵 B 和 D 。
教材P115页例题1
1.3.2 定理
设 A \in \mathbb{C}_r^{m \times n} ,且 A=B_1D_1=B_2D_2 均为 A 的最大秩分解,则:
(1)存在 r 阶可逆矩阵 Q ,使得 B_1=B_2Q,D_1=Q^{-1}D_2 ;
(2) D_1H(D_1D_1H){-1}(B_1HB_1){-1}B_1H=D_2H(D_2D_2H){-1}(B_2HB_2){-1}B_2H 。
注意:(1) \operatorname{rank}(A)=\operatorname{rank}(AHA)=\operatorname{rank}(AAH) ;(2) B \in \mathbb{C}_r^{m \times r} ,则 B^H\in \mathbb{C},B^HB \in \mathbb{C}r^{r \times r}, 那么 (BHB){-1}B^HB=E_r ;(3) D \in \mathbb{C}r^{r \times n}, 则 D^H \in\mathbb{C}r^{n \times r},DD^H \in \mathbb{C}r^{r \times r}, 那么 DDH(DDH)^{-1}=E_r
证明:教材P116-117页
二. 向量与矩阵的范数
2.1 向量范数
2.1.1 定义
设映射 |\cdot|:\mathbb{C}^n \to \mathbb{R} 满足3个条件:(1)正定条件,即 |x| \geq0, 当且仅当 x=0 时 |x|=0 ;(2)齐次条件,即 |\lambda x|=|\lambda||x|,\lambda \in \mathbb{C},x \in \mathbb{C}^n ;(3)三角不等式,即 |x+y| \leq|x|+|y|, \forall x,y \in \mathbb{C}^n 。则该映射为 \mathbb{C}^n 上向量 x 的范数。定义了范数的 \mathbb{C}^n 又叫做一个线性赋范空间。
正定,又叫非负性,即欧式空间(A^TA=E )和酉空间(A^HA=E)的基础上加上“所有特征值大于0”的条件(半正定则满足所有特征值大于等于0的条件)
2.1.2 简单性质
(1)零向量的范数是0;
(2) \forall x \neq 0, 有 |\frac{1}{|x|}x|=1 ;
(3) \forall x \in \mathbb{C}^n, 有 |-x|=|x| ;
(4) \forall x,y ,都有 |x|-|y| \leq|x-y| 。
证明:教材P50页
2.1.3 常用向量范数
(1)1-范数: |x|1=\sum{i=1}^{n}|x_i| ;
(2)2-范数(欧几里得范数): |x|2=(\sum{i=1}n|x_i|2)^{\frac{1}{2}} ;
(3) \infty -范数: |x|
{\infty}=\operatorname*{max}
{a \leq i \leq n}|x_i| ;
(4)Holder范数(p-范数): |x|p=(\sum{i=1}n|x_i|p)^\frac{1}{p},1\leq p< \infty 。
证明:教材P50-52页,证明上述4个范数是向量范数。
证明p-范数前需要先证明两个引理:(1)若 u 和 v 是非负实数, p 和 q 是正实数,且满足条件 p>1 和 \frac{1}{p}+\frac{1}{q}=1 ,则恒有不等式 uv \leq \frac{1}{p}up+\frac{1}{q}vq ;(2)(Holder不等式)若 p,q>1 且 \frac{1}{p}+\frac{1}{q}=1 ,则对 \mathbb{C}^n 中任意向量 x=(x_1,x_2,…,x_n)T,y=(y_1.y_2,…,y_n)T 都有 \sum
{i=1}^n|x_i||y_i| \leq(\sum
{i=1}n|x_i|p){\frac{1}{p}}(\sum_{i=1}n|y_i|q){\frac{1}{q}} 。这两个定理的证明在教材P51-52页
此外,我们还可以由已知范数定义新范数:设 |\cdot| 是 \mathbb{C}^m 上的范数, A \in \mathbb{C}_n^{m \times n} ,则 |A\cdot| 是 \mathbb{C}^n 上的范数
证明:教材P53页。该定理说明了,由 m 维空间上的范数可以导出 n 维空间上的范数,从高维到低维用列满秩矩阵,从低维到高维用行满秩矩阵。
2.1.4 向量范数的等价
(1) \exists c_1,c_2 >0,s.t. |x|_a \leq c_1|x|_b,|x|_b \leq c_2|x|_a,\forall x \in V_n§, 则 |\cdot|_a,|\cdot|b 等价。
需要两个引理:(1)(有界性)设 (\varepsilon_1,\varepsilon_2,…,\varepsilon_n) 为数域 P 上的 n 维线性空间 V_n§ 的一组标准正交基, x=(\varepsilon_1,\varepsilon_2,…,\varepsilon_n)\widetilde{x} ,\widetilde{x}=(x_1,x_2,…,x_n)^T\in P^n,则 V_n§ 上的向量范数 |x| 在闭球 S={x|(\widetilde{x},\widetilde{x})^\frac{1}{2}\leq1} 上有界;(2)设 |x| 是 V_n§ 上的向量范数,则 |x| 是关于 |x|2 的连续函数。
这两个引理的证明在教材P54-55页。
(2) \forall_n§ 上的任意两个向量范数均等价
证明:教材P55页
2.1.5 向量范数的应用
设 |\cdot| 是 \mathbb{C^n} 上的任一向量范数, a,x^{(k)}\in \mathbb{C}^n ,则 \lim
{k \to \infty}x^{(k)}=a 等价于 \lim
{k \to \infty}|x^{(k)}-a|=0 。
证明:教材P56页
2.2 矩阵范数
2.2.1 定义

2.2.2 简单性质

2.2.3 范数的等价

2.2.4 范数的相容

2.3 算子范数
2.3.1 定义

2.3.2 简单性质

2.3.3 常用算子范数

2.3.4 广义算子范数

2.4 酉不变范数
2.4.1 定义

2.4.2 例子

参考资料
【1】《矩阵理论》(黄延祝 钟守铭,高等教育出版社,2003)
【2】老师的授课PPT

你可能感兴趣的:(科研数学基础)