本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
之前提到向量有常数向量、函数向量和随机向量. 不管怎么变, 其对应的内积和范数都要符合一定的公理. 实向量是复向量的特例, 这里以复向量为例, 用 R R R 和 C C C 分别代表实数域和复数域.
定义: 令 V V V 是复向量空间. 函数 ⟨ x , y ⟩ : V × V → C \left \langle x,y \right \rangle : V \times V \to C ⟨x,y⟩:V×V→C 称为向量 x x x 与 y y y 的内积, 若对所有 x , y , z ∈ V x,y,z \in V x,y,z∈V, 以下内积公理满足:
(1) ⟨ x , y ⟩ ≥ 0 \left \langle x,y \right \rangle \ge 0 ⟨x,y⟩≥0
(1a) ⟨ x , y ⟩ = 0 \left \langle x,y \right \rangle = 0 ⟨x,y⟩=0 , 当且仅当 x = 0 x=0 x=0
(2) ⟨ x + y , z ⟩ = ⟨ x , z ⟩ + ⟨ y , z ⟩ \left \langle x+y , z \right \rangle = \left \langle x , z \right \rangle + \left \langle y , z \right \rangle ⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩
(3) ⟨ c x , y ⟩ = c ∗ ⟨ x , y ⟩ \left \langle cx , y \right \rangle = c^*\left \langle x , y \right \rangle ⟨cx,y⟩=c∗⟨x,y⟩ , 对所有复常数 c c c 成立.
(4) ⟨ x , y ⟩ = ⟨ y , x ⟩ ∗ \left \langle x , y \right \rangle = \left \langle y , x \right \rangle ^ * ⟨x,y⟩=⟨y,x⟩∗
其中 ∗ * ∗ 代表复数共轭.
定义: 令 V V V 是复向量空间. 函数 ∥ x ∥ : V → R \left \| x \right \|: V \to R ∥x∥:V→R 称为向量 x x x 的范数, 若对所有 x , y ∈ V x,y \in V x,y∈V, 以下范数公理满足:
(1) ∥ x ∥ ≥ 0 \left \| x \right \| \ge 0 ∥x∥≥0
(1a) ∥ x ∥ = 0 \left \| x \right \| = 0 ∥x∥=0 , 当且仅当 x = 0 x=0 x=0
(2) ∥ c x ∥ = ∣ c ∣ ∥ x ∥ \left \| cx \right \| = |c| \left \| x \right \| ∥cx∥=∣c∣∥x∥ , 对所有复常数 c c c 成立.
(3) ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \left \| x + y \right \| \le \left \| x \right \| + \left \| y \right \| ∥x+y∥≤∥x∥+∥y∥ , 对所有复常数 c c c 成立.
上述公理是平面欧几里得长度的熟知性质. 满足公理 (1), (2), (3), 但不一定满足公理 (1a) 的函数称为向量的半范数.
两个 m × 1 m \times 1 m×1 维常数向量 x = [ x 1 , x 2 , … , x m ] T x = [x_1,x_2,\dots,x_m]^{\mathrm{T}} x=[x1,x2,…,xm]T 和 y = [ y 1 , y 2 , … , y m ] T y = [y_1,y_2,\dots,y_m]^{\mathrm{T}} y=[y1,y2,…,ym]T 的内积 (或叫点积) 定义为:
⟨ x , y ⟩ = x H y = ∑ i = 1 m x i ∗ y i (1) \left \langle x,y \right \rangle = x^{\mathrm{H}}y = \sum_{i=1}^mx_i^*y_i \tag{1} ⟨x,y⟩=xHy=i=1∑mxi∗yi(1)
两个向量之间的夹角定义为
c o s θ = d e f ⟨ x , y ⟩ ⟨ x , x ⟩ ⟨ y , y ⟩ = x H y ∥ x ∥ ∥ y ∥ (2) cos\theta \overset{def}{=} \frac{\left \langle x,y \right \rangle}{\sqrt{\left \langle x,x \right \rangle } \sqrt{\left \langle y,y \right \rangle}} = \frac{x^{\mathrm{H}}y}{\left \| x \right \|\left \| y \right \|} \tag{2} cosθ=def⟨x,x⟩⟨y,y⟩⟨x,y⟩=∥x∥∥y∥xHy(2)
显然, 当 x H y = 0 x^{\mathrm{H}}y=0 xHy=0时, θ = π / 2 \theta=\pi/2 θ=π/2. 此时, 称常数向量 x x x 和 y y y 正交. 因此, 两个常数向量正交的数学定义如下.
定义: 两个常数向量若它们的内积等于零, 即 x H y = 0 x^{\mathrm{H}}y=0 xHy=0, 则称这两个向量正交, 并记作 x ⊥ y x \perp y x⊥y.
补充说明: 根据定义, 零向量与任何向量都正交.
常用向量范数:
(1) l 1 l_1 l1 范数
∥ x ∥ 1 = d e f ∣ ∑ i = 1 m x i ∣ = ∣ x 1 ∣ + ∣ x 2 ∣ + ⋯ + ∣ x m ∣ (3) \left \| x \right \|_1 \overset{def}{=} \left | \sum_{i=1}^mx_i \right | = |x_1| + |x_2| + \dots + |x_m| \tag{3} ∥x∥1=def∣∣∣∣∣i=1∑mxi∣∣∣∣∣=∣x1∣+∣x2∣+⋯+∣xm∣(3)
这也叫和范数或者 1 范数.用作两点间的曼哈顿距离公式如下:
∥ x − y ∥ 1 = d e f ∣ ∑ i = 1 m x i − y i ∣ = ∣ x 1 − y 1 ∣ + ∣ x 2 − y 2 ∣ + ⋯ + ∣ x m − y m ∣ (4) \left \| x - y \right \|_1 \overset{def}{=} \left | \sum_{i=1}^{m}x_i-y_i \right | = |x_1-y_1| + |x_2-y_2| + \dots + |x_m-y_m| \tag{4} ∥x−y∥1=def∣∣∣∣∣i=1∑mxi−yi∣∣∣∣∣=∣x1−y1∣+∣x2−y2∣+⋯+∣xm−ym∣(4)
(2) l 2 l_2 l2 范数
∥ x ∥ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + ⋯ + ∣ x m ∣ 2 ) 1 / 2 (5) \left \| x \right \|_2 = (|x_1|^2 + |x_2|^2 + \dots + |x_m|^2)^{1/2} \tag{5} ∥x∥2=(∣x1∣2+∣x2∣2+⋯+∣xm∣2)1/2(5)
这一范数常称 E u c l i d e a n \mathrm{Euclidean} Euclidean (欧几里得) 范数, 有时也称 F r o b e n i u s \mathrm{Frobenius} Frobenius 范数. 两个向量之间的该范数就是求欧几里得距离, 简而言之就是求两点间的空间距离.
(3) l ∞ l_{\infty} l∞ 范数
∥ x ∥ ∞ = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , … , ∣ x n ∣ ) (6) \left \| x \right \|_{\infty} = \mathrm{max}(|x_1|,|x_2|,\dots,|x_n|) \tag{6} ∥x∥∞=max(∣x1∣,∣x2∣,…,∣xn∣)(6)
也称无穷范数或极大范数.
(4) l p l_p lp 范数
∥ x ∥ p = ( ∑ i = 1 m ∣ x i ∣ p ) 1 / 2 , p ≥ 1 (7) \left \| x \right \|_p = \left ( \sum_{i=1}^{m}|x_i|^p \right )^{1/2} \quad , \quad p \ge 1 \tag{7} ∥x∥p=(i=1∑m∣xi∣p)1/2,p≥1(7)
l p l_p lp 范数也叫做 H o l d e r \mathrm{Holder} Holder 范数.
当 p = 2 p=2 p=2 时, l p l_p lp 范数与 E u c l i d e a n \mathrm{Euclidean} Euclidean 范数完全等价. 另外, 无穷范数是 l p l_p lp 范数的极限形式, 即有
∥ x ∥ ∞ = lim p → ∞ ( ∑ i = 1 m ∣ x i ∣ p ) 1 / p (8) \left \| x \right \|_{\infty} = \lim_{p \to \infty} \left ( \sum_{i=1}^{m}|x_i|^p \right )^{1/p} \tag{8} ∥x∥∞=p→∞lim(i=1∑m∣xi∣p)1/p(8)
利用极限的知识就可以证明:
不妨令 ∣ a 1 ∣ ≤ ∣ a i ∣ |a_1| \le |a_i| ∣a1∣≤∣ai∣, 那么
lim p → ∞ ( ∣ a i ∣ ∣ a 1 ∣ ) = { 1 ∣ a i ∣ = ∣ a 1 ∣ 0 ∣ a i ∣ < ∣ a 1 ∣ \lim_{p \to \infty} \left ( \frac{|a_i|}{|a_1|} \right) = \left\{ \begin{array}{c} 1 \quad |a_i| = |a_1| \\ 0 \quad |a_i| < |a_1| \end{array} \right. \\ p→∞lim(∣a1∣∣ai∣)={1∣ai∣=∣a1∣0∣ai∣<∣a1∣
lim p → ∞ ( ∑ i = 1 n ∣ a i ∣ p ) 1 / p = lim p → ∞ ( ∣ a 1 ∣ p ∑ i = 1 n ( ∣ a i ∣ ∣ a 1 ∣ ) p ) 1 p = ∣ a 1 ∣ lim p → ∞ m 1 p = ∣ a 1 ∣ 0 < m ≤ n \lim_{p \to \infty} \left ( \sum_{i=1}^{n}|a_i|^p \right)^{1/p} = \lim_{p \to \infty} \left ( |a_1|^p \sum_{i=1}^{n}\left (\frac{|a_i|}{|a_1|} \right )^p \right )^{\frac{1}{p}} = |a_1| \lim_{p \to \infty}m^{\frac{1}{p}} = |a_1| \quad 0 < m \le n p→∞lim(i=1∑n∣ai∣p)1/p=p→∞lim(∣a1∣pi=1∑n(∣a1∣∣ai∣)p)p1=∣a1∣p→∞limmp1=∣a1∣0<m≤n
常数向量 w w w 和 v v v 的外积 (又叫叉积) 记作 w v H wv^{\mathrm{H}} wvH 定义为
w v H = [ w 1 v 1 ∗ w 1 v 2 ∗ … w 1 v m ∗ w 2 v 1 ∗ w 2 v 2 ∗ … w 2 v m ∗ ⋮ ⋮ ⋮ w m v 1 ∗ w m v 2 ∗ … w m v m ∗ ] (9) wv^{\mathrm{H}} = \begin{bmatrix} w_1v_1^*& w_1v_2^*& \dots& w_1v_m^* \\ w_2v_1^*& w_2v_2^*& \dots& w_2v_m^* \\ \vdots& \vdots& & \vdots \\ w_mv_1^*& w_mv_2^*& \dots& w_mv_m^* \\ \end{bmatrix} \tag{9} wvH=⎣⎢⎢⎢⎡w1v1∗w2v1∗⋮wmv1∗w1v2∗w2v2∗⋮wmv2∗………w1vm∗w2vm∗⋮wmvm∗⎦⎥⎥⎥⎤(9)
若 x ( t ) x(t) x(t) 和 y ( t ) y(t) y(t) 分别是变量 t t t 的函数变量, 则它们的内积定义为
⟨ x ( t ) , y ( t ) ⟩ = d e f ∫ a b x H ( t ) y ( t ) d t (10) \left \langle x(t),y(t) \right \rangle \overset{def}{=} \int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt \tag{10} ⟨x(t),y(t)⟩=def∫abxH(t)y(t)dt(10)
其中, 变量 t t t 在 [ a , b ] [a,b] [a,b] 取值, 且 a < b aa<b.
两个函数向量的夹角定义为
c o s θ = d e f ⟨ x , y ⟩ ⟨ x , x ⟩ ⟨ y , y ⟩ = ∫ a b x H ( t ) y ( t ) d t ∥ x ∥ ∥ y ∥ (11) cos\theta \overset{def}{=} \frac{\left \langle x,y \right \rangle}{\sqrt{\left \langle x,x \right \rangle } \sqrt{\left \langle y,y \right \rangle}} = \frac{\int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt}{\left \| x \right \|\left \| y \right \|} \tag{11} cosθ=def⟨x,x⟩⟨y,y⟩⟨x,y⟩=∥x∥∥y∥∫abxH(t)y(t)dt(11)
式中, ∥ x ( t ) ∥ \left \| x(t) \right \| ∥x(t)∥ 是函数向量 x ( t ) x(t) x(t) 的范数, 定义为
∥ x ( t ) ∥ = d e f ( ∫ a b x H ( t ) y ( t ) d t ) 1 / 2 (12) \left \| x(t) \right \| \overset{def}{=} \left ( \int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt \right )^{1/2} \tag{12} ∥x(t)∥=def(∫abxH(t)y(t)dt)1/2(12)
由此可得, 两函数向量内积为零.
∫ − ∞ ∞ x H ( t ) y ( t ) d t = 0 \int_{-\infty}^{\infty} x^{\mathrm{H}}(t)y(t)dt = 0 ∫−∞∞xH(t)y(t)dt=0
当 θ = π / 2 \theta = \pi/2 θ=π/2 时, 这两个函数向量正交, 并记作 x ( t ) ⊥ y ( t ) x(t) \perp y(t) x(t)⊥y(t).
若 x ( ξ ) x(\xi) x(ξ) 和 y ( ξ ) y(\xi) y(ξ) 分别是样本变量 ξ \xi ξ 的随机向量, 则它们的内积定义为
⟨ x ( ξ ) , y ( ξ ) ⟩ = d e f E { x H ( ξ ) y ( ξ ) } (13) \left \langle x(\xi),y(\xi) \right \rangle \overset{def}{=} E \left \{x^{\mathrm{H}}(\xi)y(\xi) \right \} \tag{13} ⟨x(ξ),y(ξ)⟩=defE{xH(ξ)y(ξ)}(13)
随机向量 x ( ξ ) x(\xi) x(ξ) 的范数定义为
∥ x ( ξ ) ∥ 2 = d e f E { x H ( ξ ) y ( ξ ) } (14) \left \| x(\xi) \right \|^2 \overset{def}{=} E \left \{x^{\mathrm{H}}(\xi)y(\xi) \right \} \tag{14} ∥x(ξ)∥2=defE{xH(ξ)y(ξ)}(14)
与常数向量和函数向量不同的是, 若 m × 1 m \times 1 m×1 随机向量 x ( ξ ) x(\xi) x(ξ) 的任意元素与 n × 1 n \times 1 n×1 随机向量 y ( ξ ) y(\xi) y(ξ) 的任意元素正交. 则 x ( ξ ) x(\xi) x(ξ) 和 y ( ξ ) y(\xi) y(ξ) 称为正交. 这意味着两个向量的互相关矩阵为零矩阵 O m × n O_{m \times n} Om×n, 即
E { x ( ξ ) y H ( ξ ) } = O m × n (15) E \left \{x(\xi)y^{\mathrm{H}}(\xi) \right \} = O_{m \times n} \tag{15} E{x(ξ)yH(ξ)}=Om×n(15)
并记作 x ( ξ ) ⊥ y ( ξ ) x(\xi) \perp y(\xi) x(ξ)⊥y(ξ).
考虑 M M M 个类型的模式, 它们分别记作 ω 1 , ω 2 , … , ω M \omega_1,\omega_2,\dots,\omega_M ω1,ω2,…,ωM. 假设通过已知类型属性的观测样本, 比如已抽取出 M M M 个样本模式向量 s 1 , s 2 , … , s M s_1,s_2,\dots,s_M s1,s2,…,sM. 给定一任意的位置模式向量 x x x, 判断属于哪一类模式, 这个问题称为模式分类.
这不就是机器学习中的分类问题吗? 模式分类的基本思想就是将未知模式向量 x x x 同 M M M 个样本模式向量进行对比, 看 x x x 与哪一个样本模式向量最相似, 并据此做出模式分类的判断.
用 ( x , s 1 ) , ( x , s 2 ) , … , ( x , s M ) (x,s_1), (x,s_2), \dots, (x,s_M) (x,s1),(x,s2),…,(x,sM) 分别作为未知模式向量 x x x 和已知样本模式向量 s 1 , s 2 , … , s M s_1,s_2,\dots,s_M s1,s2,…,sM 之间的相似关系的符号. 以 x x x 与 s 1 , s 2 s_1,s_2 s1,s2 的相似关系为例, 若
( x , s 1 ) ≤ ( x , s 2 ) (16) (x,s_1) \le (x,s_2) \tag{16} (x,s1)≤(x,s2)(16)
则称未知模式向量 x x x 与样本模式向量 s 2 s_2 s2 更相似. 建立这样的关系需要定义相似度和相异度.
最简单的就是两个向量之间的欧几里得距离. 未知模式向量 x x x 与 第 i i i 个样本模式向量 s i s_i si 之间的欧几里得距离记作 D ( s i , x ) D(s_i,x) D(si,x), 定义为
D ( s i , x ) = ⟨ x − s i ⟩ 2 = ( x − s i ) T ( x − s i ) (17) D(s_i,x) = \left \langle x-s_i \right \rangle_2 = \sqrt{(x-s_i)^{\mathrm{T}}(x-s_i)} \tag{17} D(si,x)=⟨x−si⟩2=(x−si)T(x−si)(17)
称 s i ∈ { s 1 , s 2 , … , s M } s_i \in \left \{ s_1,s_2,\dots,s_M \right \} si∈{s1,s2,…,sM} 是到 x x x 的近邻 (即最近的邻居), 若
D ( s i , x ) = m i n k D ( s k , x ) , k = 1 , 2 , … , M (18) D(s_i,x) = \underset{k}{min}D(s_k,x), \quad k = 1,2,\dots,M \tag{18} D(si,x)=kminD(sk,x),k=1,2,…,M(18)
这就是机器学习中大名鼎鼎的 KNN 算法的来源.
然后换做马氏距离来算, 令
m = 1 N ∑ k = 1 N s i (19) m = \frac{1}{N}\sum_{k=1}^{N}s_i \tag{19} m=N1k=1∑Nsi(19)
代表 N N N 个样本模式向量的均值向量, 并使用
C = 1 N ∑ i = 1 N ( s i − m ) ( s i − m ) T (20) C = \frac{1}{N}\sum_{i=1}^{N}(s_i-m)(s_i-m)^{\mathrm{T}} \tag{20} C=N1i=1∑N(si−m)(si−m)T(20)
代表 N N N 个样本模式向量的协方差矩阵.
从未知模式向量 x x x 到均值向量 m m m 之间的 M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 距离定义为
D ( m , x ) = ( x − m ) T C ( x − m ) (21) D(m,x)=(x-m)^{\mathrm{T}}C(x-m)\tag{21} D(m,x)=(x−m)TC(x−m)(21)
类似地, 从第 i i i 个样本模式向量 s i s_i si 到均值向量 m m m 的 M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 定义为
D ( m , s i ) = ( s i − m ) T C ( s i − m ) (22) D(m,s_i)=(s_i-m)^{\mathrm{T}}C(s_i-m)\tag{22} D(m,si)=(si−m)TC(si−m)(22)
根据近邻分类法, 将未知模式向量 x x x 归为满足
D ( s i , x ) = m i n k ∣ D ( s k , x ) − D ( m , x ) ∣ , k = 1 , 2 , … , N (23) D(s_i,x)= \underset{k}{min}|D(s_k,x) - D(m,x)|,\quad k = 1,2,\dots,N \tag{23} D(si,x)=kmin∣D(sk,x)−D(m,x)∣,k=1,2,…,N(23)
的近邻 s i s_i si 的模式类型.
当然两个向量之间的相似度还可以用夹角的余弦函数
S ( s i , x ) = c o s ( θ i ) = x T s i ∥ x ∥ 2 ∥ s i ∥ 2 (24) S(s_i,x) = cos(\theta_i)=\frac{x^{\mathrm{T}}s_i}{\left \| x \right \|_2 \left \| s_i \right \|_2} \tag{24} S(si,x)=cos(θi)=∥x∥2∥si∥2xTsi(24)
当 c o s ( θ i ) < c o s ( θ j ) , ∀ j ≠ i cos(\theta_i) < cos(\theta_j), \forall j \neq i cos(θi)<cos(θj),∀j=i 成立, 则认为未知模式向量 x x x 与样本模式向量 s i s_i si 最相似.
式子 (24) 还可变形成为
S ( s i , x ) = x T s i x T x + s i T s i + x T s i (25) S(s_i,x)=\frac{x^{\mathrm{T}}s_i}{x^{\mathrm{T}}x + s^{\mathrm{T}}_is_i + x^{\mathrm{T}}s_i} \tag{25} S(si,x)=xTx+siTsi+xTsixTsi(25)
称为 T a n i m o t o \mathrm{Tanimoto} Tanimoto 测度, 广泛应用于信息恢复、疾病分类、动植物分类.
待分类的信号称为目标信号, 分类通常是根据某种物理或几何概念进行的. 令 X X X 为目标信号, A i A_i Ai代表第 i i i类目标的分类概念.
( X , A i ) ≤ ( X , A j ) , ∀ i , j (26) (X,A_i) \le (X,A_j), \forall i,j \tag{26} (X,Ai)≤(X,Aj),∀i,j(26)
这类有效关系一般用于目标-概念距离 D ( X , A i ) D(X,A_i) D(X,Ai) 描述. 因此, 若目标-概念距离 D ( X , A i ) D(X,A_i) D(X,Ai) 最小, 则将 X X X 归为第 i i i 类目标 C i C_i Ci.
在计算机网络中学过这样的概念, 就是单通道在把一段时间划给多个用户. 这个操作就更像操作系统中采用时间片轮转的调度形式.
不同用户占据不同频段. 日常生活中显而易见的就是收音机的不同频段可以同时收听到. 这就像计算机体系架构中多核CPU的运行, 它们是并行的概念.
先划分时间, 再划分频段. 就像是时分和频分的结合.
同时通信, 共享频道. 因为每个用户的扩频码向量之间是互相正交, 互不影响.
L y a p u n o v \mathrm{Lyapunov} Lyapunov 直接法是分析和构造线性和非线性控制系统最成功的工具之一.
定理 1: ( L y a p u n o v \mathrm{Lyapunov} Lyapunov 稳定性定理) 若对连续系统 d o t x = f ( x ) dot{x}=f(x) dotx=f(x) 或 离散系统 x k + 1 = f ( x k ) x_{k+1} = f(x_k) xk+1=f(xk) 存在一个函数 V ( x ) V(x) V(x) 具体平衡点 x = 0 x=0 x=0, 且 V V V 在整个 R n R^n Rn 内满足条件:
(1) V V V 是正定和径向无界函数.
(2) 对 x ≠ 0 x \neq 0 x=0
D V = lim Δ t → 0 s u p V ( x ( t + Δ t ) ) − V ( x ( t ) ) Δ t < 0 ( 连 续 系 统 ) DV = \lim_{\Delta t \to 0}sup{\frac{V(x(t+\Delta t))-V(x(t))}{\Delta t}} < 0 \quad (连续系统) DV=Δt→0limsupΔtV(x(t+Δt))−V(x(t))<0(连续系统)
或
Δ V = V ( x k + 1 ) − V ( x k ) < 0 ( 离 散 系 统 ) \Delta V = V(x_{k+1}) - V(x_k) < 0 \quad (离散系统) ΔV=V(xk+1)−V(xk)<0(离散系统)
则平衡点 x = 0 x=0 x=0 是全局渐近稳定的.
在向量 x x x 的 n n n 维空间内, 考虑用向量范数
V ( x ) = ∥ W x ∥ V(x) = \left \| Wx \right \| V(x)=∥Wx∥
其中 W = [ ω 1 , ω 2 , … , ω n ] W=[\omega_1,\omega_2,\dots,\omega_n] W=[ω1,ω2,…,ωn] 是 m × n m \times n m×n 矩阵, 且 m ≥ n m \ge n m≥n 和 r a n k ( W ) = n \mathrm{rank}(W)=n rank(W)=n
l p l_p lp 范数构成了一类特殊的向量范数, 其中 E u c l i d e a n \mathrm{Euclidean} Euclidean 范数
V ( x ) = ∥ W x ∥ 2 = ( ∑ i ∣ ω i T x ∣ 2 ) 1 / 2 (27) V(x) = \left \| Wx \right \|_2 = \left ( \sum_i|\omega_i^{\mathrm{T}}x|^2\right )^{1/2} \tag{27} V(x)=∥Wx∥2=(i∑∣ωiTx∣2)1/2(27)
和无穷范数
V ( x ) = ∥ W x ∥ ∞ = lim p → ∞ ( ∑ i ∣ ω i T x ∣ p ) 1 / p = m a x i { ω i T x } (28) V(x) = \left \| Wx \right \|_{\infty} = \lim_{p \to \infty}\left ( \sum_i|\omega_i^{\mathrm{T}}x|^p\right )^{1/p} = \underset{i}{\mathrm{max}}\{ \omega_i^{\mathrm{T}}x\} \tag{28} V(x)=∥Wx∥∞=p→∞lim(i∑∣ωiTx∣p)1/p=imax{ωiTx}(28)
是 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数的两个重要例子.
定理 2: 函数 V ( x ) = ∥ W x ∥ V(x) = \left \| Wx \right \| V(x)=∥Wx∥ (其中, W W W 是 m × n m \times n m×n 矩阵, 且 r a n k W = n \mathrm{rank}W = n rankW=n) 是系统 x ˙ = A x \dot{x} = Ax x˙=Ax 的 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 当且仅当矩阵 W W W 是矩阵方程
W A − Q W = O (29) WA - QW = O \tag{29} WA−QW=O(29)
的解, 假定矩阵 Q Q Q 满足条件
μ ( Q ) < 0 (30) \mu(Q) < 0 \tag{30} μ(Q)<0(30)
其中
μ ( Q ) = lim Δ t → 0 + ∥ I + Δ t Q − 1 ∥ Δ t (31) \mu(Q) = \lim_{\Delta t \to 0+} \frac{\left \| I + \Delta tQ - 1 \right \|}{\Delta t} \tag{31} μ(Q)=Δt→0+limΔt∥I+ΔtQ−1∥(31)
μ ( Q ) \mu(Q) μ(Q) 有时称为矩阵 Q Q Q 的对数矩阵范数. 对数矩阵范数可以是复数, 这一点和矩阵范数非负性质相违背.
如果式子 (28) 的函数是 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 那么它的平方
V 2 ( x ) = ∥ W x ∥ 2 2 = ∑ i = 1 n ( ω i T x ) 2 = x T W T W x (32) V^2(x) = \left \| Wx \right \|_2^2 = \sum_{i=1}^n(\omega_i^{\mathrm{T}}x)^2 = x^{\mathrm{T}}W^{\mathrm{T}}Wx \tag{32} V2(x)=∥Wx∥22=i=1∑n(ωiTx)2=xTWTWx(32)
也是 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数. 式子 (32) 的函数为二次型 x T R x x^{\mathrm{T}}Rx xTRx, 其中
R = W T W (33) R = W^{\mathrm{T}}W \tag{33} R=WTW(33)
这样的二次型函数是系统 x ˙ = A x \dot{x}=Ax x˙=Ax 的 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 当且仅当
A T R + R A = − Q ~ (34) A^{\mathrm{T}}R + RA = -\tilde{Q} \tag{34} ATR+RA=−Q~(34)
的解 Q ~ \tilde{Q} Q~ 是一个正定对称矩阵.
定理 3: 下面两个集合等价:
L 1 = { R ∈ R n × n ∣ A T R + R A = − Q ~ , 其 中 , Q ~ , R > 0 , Q ~ 对 称 } (35) L_1 = \{ R \in R^{n \times n}|A^{\mathrm{T}}R+RA = -\tilde{Q}, 其中, \tilde{Q},R > 0, \tilde{Q} 对称 \} \tag{35} L1={R∈Rn×n∣ATR+RA=−Q~,其中,Q~,R>0,Q~对称}(35)
L 2 = { R ∈ R n × n ∣ R = W T W , W A − Q W = O , 其 中 , μ 2 ( Q ) < 0 , r a n k ( W ) = n } (36) L_2 = \{ R \in R^{n \times n}|R=W^{\mathrm{T}}W, WA - QW = O , 其中, \mu_2(Q) < 0, \mathrm{rank}(W)=n \} \tag{36} L2={R∈Rn×n∣R=WTW,WA−QW=O,其中,μ2(Q)<0,rank(W)=n}(36)
感觉这部分和机器学习没有太大关系, 如果以后遇到了或者其他什么原因再来学习吧.
作为一种算子, 实矩阵 A ∈ R m × n A \in R^{m \times n} A∈Rm×n 的范数记作 ∥ A ∥ \left \| A \right \| ∥A∥, 它是矩阵的实值函数, 必须要满足一些条件:
对于任何非零矩阵 A ≠ O A \neq O A=O, 其范数大于零, 即 ∥ A ∥ > 0 \left \| A \right \| > 0 ∥A∥>0, 并且 ∥ O ∥ = 0 \left \| O \right \| = 0 ∥O∥=0
对于任意复数 c c c 有 ∥ c A ∥ = ∣ c ∣ ∥ A ∥ \left \| cA \right \| = |c|\left \| A \right \| ∥cA∥=∣c∣∥A∥
矩阵范数满足三角不等式 ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \left \| A+B \right \| \le \left \| A \right \| + \left \| B \right \| ∥A+B∥≤∥A∥+∥B∥
两个矩阵乘积的范数小于或等于两个矩阵范数的乘积, 即 ∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ \left \| AB \right \| \le \left \| A \right \| \left \| B \right \| ∥AB∥≤∥A∥∥B∥
有几个典型的矩阵范数
(1) F r o b e n i u s \mathrm{Frobenius} Frobenius 范数
∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 (37) \left \| A \right \|_F \overset{def}{=} \left ( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2 \right )^{1/2} \tag{37} ∥A∥F=def(i=1∑mj=1∑n∣aij∣2)1/2(37)
这个范数也叫做矩阵的 l 2 l_2 l2 范数
(2) l p l_p lp 范数
∥ A ∥ p = d e f m a x x ≠ 0 ∥ A x ∥ p ∥ x ∥ p (38) \left \| A \right \|_p \overset{def}{=} \underset{x \neq 0}{\mathrm{max}} \frac{\left \| Ax \right \|_p}{\left \| x \right \|_p} \tag{38} ∥A∥p=defx=0max∥x∥p∥Ax∥p(38)
式子中, ∥ x ∥ p \left \| x \right \|_p ∥x∥p 是向量 x x x 的 l p l_p lp 范数. 这个矩阵范数也称 M i n k o w s k i p \mathrm{Minkowski} p Minkowskip 范数, 或者直接叫做 p p p 范数.
(3) 行和范数
∥ A ∥ r o w = m a x 1 ≤ i ≤ m { ∑ j = 1 n ∣ a i j ∣ } (39) \left \| A \right \|_{row} = \underset{1 \le i \le m}{\mathrm{max}} \left \{ \sum_{j=1}^{n} |a_{ij}|\right \} \tag{39} ∥A∥row=1≤i≤mmax{j=1∑n∣aij∣}(39)
(4) 列和范数
∥ A ∥ c o l = m a x 1 ≤ j ≤ n { ∑ i = 1 m ∣ a i j ∣ } (40) \left \| A \right \|_{col} = \underset{1 \le j \le n}{\mathrm{max}} \left \{ \sum_{i=1}^{m} |a_{ij}|\right \} \tag{40} ∥A∥col=1≤j≤nmax{i=1∑m∣aij∣}(40)
(5) 谱范数
∥ A ∥ s p e c = σ m a x = λ m a x (41) \left \| A \right \|_{spec} = \sigma_{max} = \sqrt{\lambda_{\mathrm{max}}} \tag{41} ∥A∥spec=σmax=λmax(41)
式子中, σ m a x \sigma_{max} σmax 是矩阵 A A A 的最大奇异值, 即 A H A A^{\mathrm{H}}A AHA 的最大特征值 λ m a x \lambda_{\mathrm{max}} λmax 的正平方根. 谱范数也称最大奇异值范数或者算子范数.
(6) M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 范数
∥ A ∥ Ω = t r ( A H Ω A ) (42) \left \| A \right \|_{\Omega} = \sqrt{tr(A^{\mathrm{H}} \Omega A)} \tag{42} ∥A∥Ω=tr(AHΩA)(42)
式子中, Ω \Omega Ω 为正定矩阵 (所有特征值大于零的矩阵), t r ( A H Ω A ) tr(A^{\mathrm{H}} \Omega A) tr(AHΩA) 为矩阵 A H Ω A A^{\mathrm{H}} \Omega A AHΩA 的迹 (对角线之积).
若 A , B A,B A,B 是 m × n m \times n m×n 矩阵, 则矩阵的范数具有以下性质:
∥ A + B ∥ + ∥ A − B ∥ = 2 ( ∥ A ∥ 2 + ∥ B ∥ 2 ) (43) \left \| A+B \right \| + \left \| A-B \right \| = 2(\left \| A \right \|^2 + \left \| B \right \|^2) \tag{43} ∥A+B∥+∥A−B∥=2(∥A∥2+∥B∥2)(43)
∥ A + B ∥ ∥ A − B ∥ ≤ ∥ A ∥ 2 + ∥ B ∥ 2 (44) \left \| A+B \right \| \left \| A-B \right \| \le \left \| A \right \|^2 + \left \| B \right \|^2 \tag{44} ∥A+B∥∥A−B∥≤∥A∥2+∥B∥2(44)
与矩阵范数有联系的量是矩阵的内积, 对于任意 m × n m \times n m×n 复矩阵 A A A 和 B B B, 矩阵的内积记作 $\left \langle A,B \right \rangle $, 定义为
⟨ A , B ⟩ = A H B (45) \left \langle A,B \right \rangle = A^{\mathrm{H}}B \tag{45} ⟨A,B⟩=AHB(45)
以下是矩阵的内积与范数之间的关系
(1) C a u c h y − S c h w a r t z \mathrm{Cauchy-Schwartz} Cauchy−Schwartz 不等式
∣ ⟨ A , B ⟩ ∣ 2 ≤ ∥ A ∥ 2 ∥ B ∥ 2 (46) |\left \langle A,B \right \rangle |^2 \le \left \| A \right \|^2 \left \| B \right \|^2 \tag{46} ∣⟨A,B⟩∣2≤∥A∥2∥B∥2(46)
当且仅当 A = c B A=cB A=cB, 等号成立, 其中, c c c 是某个复常数.
(2) P a t h a g o r a s \mathrm{Pathagoras} Pathagoras 定理
⟨ A , B ⟩ 2 = 0 ⇒ ∥ A + B ∥ 2 = ∥ A ∥ 2 + ∥ B ∥ 2 (47) \left \langle A,B \right \rangle^2 = 0 \Rightarrow \left \| A+B \right \|^2 = \left \| A \right \|^2 + \left \| B \right \|^2 \tag{47} ⟨A,B⟩2=0⇒∥A+B∥2=∥A∥2+∥B∥2(47)
(3) 极化恒等式
R e ( ⟨ A , B ⟩ ) = 1 4 ( ∥ A + B ∥ 2 − ∥ A − B ∥ 2 ) (48) Re(\left \langle A,B \right \rangle) = \frac{1}{4}(\left \| A+B \right \|^2 - \left \| A-B \right \|^2) \tag{48} Re(⟨A,B⟩)=41(∥A+B∥2−∥A−B∥2)(48)
R e ( ⟨ A , B ⟩ ) = 1 2 ( ∥ A + B ∥ 2 − ∥ A ∥ 2 − ∥ B ∥ 2 ) (49) Re(\left \langle A,B \right \rangle) = \frac{1}{2}(\left \| A+B \right \|^2 - \left \| A \right \|^2 - \left \| B \right \|^2) \tag{49} Re(⟨A,B⟩)=21(∥A+B∥2−∥A∥2−∥B∥2)(49)
式子中, R e ( . ) Re(.) Re(.) 表示取复数的实部.