在前五讲的理论基础上,我们现在开始正式讨论随机矩阵。假设 A A A是一个 m × n m \times n m×n的随机矩阵,它的元素 A i j A_{ij} Aij是互相独立的零均值的亚高斯随机变量,关于它的范数有下面的结论
随机矩阵的范数 K = max i , j ∥ A i j ∥ ψ 2 K=\max_{i,j}\left\| A_{ij} \right\|_{\psi_2} K=maxi,j∥Aij∥ψ2, ∀ t > 0 \forall t>0 ∀t>0
P ( ∥ A ∥ ≲ K ( m + n + t ) ) ≥ 1 − 2 e − t 2 P(\left\| A\right\| \lesssim K(\sqrt{m}+\sqrt{n}+t)) \ge 1-2e^{-t^2} P(∥A∥≲K(m+n+t))≥1−2e−t2
这个结果说明矩阵 A A A的范数的尾部概率也具有亚高斯性。如果 A A A是 n × n n \times n n×n的对称阵,则
P ( ∥ A ∥ ≲ K ( n + t ) ) ≥ 1 − 4 e − t 2 P(\left\| A\right\| \lesssim K(\sqrt{n}+t)) \ge 1-4e^{-t^2} P(∥A∥≲K(n+t))≥1−4e−t2
证明
第一步,我们先考虑一下算子范数,
∥ A ∥ = max x ∈ S n − 1 y ∈ S m − 1 ⟨ A x , y ⟩ \left\| A \right\| = \max_{x \in S^{n-1} \\ y \in S^{m-1}}\langle Ax,y\rangle ∥A∥=x∈Sn−1y∈Sm−1max⟨Ax,y⟩
存在 x ∈ S n − 1 , y ∈ S m − 1 x \in S^{n-1},y \in S^{m-1} x∈Sn−1,y∈Sm−1使得 ∥ A ∥ = ⟨ A x , y ⟩ \left\| A \right\|=\langle Ax,y\rangle ∥A∥=⟨Ax,y⟩,假设 N \mathcal{N} N是 S n − 1 S^{n-1} Sn−1的一个 ϵ \epsilon ϵ-net(根据第四讲的讨论,我们总是可以用一个球框住这样的集网,因此不失一般性,我们可以构造cardinality满足 ∣ N ∣ < 9 n , ∣ M ∣ < 9 m |\mathcal{N}|<9^n,|\mathcal{M}|<9^m ∣N∣<9n,∣M∣<9m的集网), M \mathcal{M} M是 S m − 1 S^{m-1} Sm−1的一个 ϵ \epsilon ϵ-net,则根据定义 ∃ x 0 ∈ N , ∃ y 0 ∈ M \exists x_0 \in \mathcal{N},\exists y_0 \in \mathcal{M} ∃x0∈N,∃y0∈M, ∥ x − x 0 ∥ 2 ≤ ϵ , ∥ y − y 0 ∥ 2 ≤ ϵ \left\| x-x_0\right\|_2 \le \epsilon,\left\| y-y_0\right\|_2 \le \epsilon ∥x−x0∥2≤ϵ,∥y−y0∥2≤ϵ,计算
⟨ A x 0 , y 0 ⟩ = ⟨ A x , y ⟩ + ⟨ A ( x − x 0 ) , y ⟩ + ⟨ A x 0 , y 0 − y ⟩ \langle Ax_0,y_0\rangle=\langle Ax,y\rangle+\langle A(x-x_0),y\rangle+\langle Ax_0,y_0-y\rangle ⟨Ax0,y0⟩=⟨Ax,y⟩+⟨A(x−x0),y⟩+⟨Ax0,y0−y⟩
其中第二项满足
⟨ A ( x − x 0 ) , y ⟩ ≥ − ∥ A ( x − x 0 ) ∥ 2 ∥ y ∥ 2 = − ∥ A ( x − x 0 ) ∥ 2 ≥ − ϵ ∥ A ∥ \langle A(x-x_0),y\rangle\ge -\left\| A(x-x_0)\right\|_2\left\| y\right\|_2 \\ =-\left\| A(x-x_0)\right\|_2 \ge -\epsilon \left\| A \right\| ⟨A(x−x0),y⟩≥−∥A(x−x0)∥2∥y∥2=−∥A(x−x0)∥2≥−ϵ∥A∥
类似地,第三项满足
⟨ A x 0 , y 0 − y ⟩ ≥ − ϵ ∥ A ∥ \langle Ax_0,y_0-y\rangle \ge -\epsilon \left\| A \right\| ⟨Ax0,y0−y⟩≥−ϵ∥A∥
因此
∥ A ∥ ≤ 1 1 − 2 ϵ ⟨ A x 0 , y 0 ⟩ ≤ 1 1 − 2 ϵ max x ∈ N y ∈ M ⟨ A x , y ⟩ \left\| A \right\| \le \frac{1}{1-2\epsilon}\langle Ax_0,y_0\rangle \le \frac{1}{1-2\epsilon}\max_{x \in \mathcal{N} \\ y \in \mathcal{M}}\langle Ax,y\rangle ∥A∥≤1−2ϵ1⟨Ax0,y0⟩≤1−2ϵ1x∈Ny∈Mmax⟨Ax,y⟩
第二步,我们讨论随机矩阵的二次型, ∀ x ∈ N , y ∈ M \forall x \in \mathcal{N}, y \in \mathcal{M} ∀x∈N,y∈M,
⟨ A x , y ⟩ = ∑ i = 1 n ∑ j = 1 m A i j x i x j \langle Ax,y\rangle=\sum_{i=1}^n \sum_{j=1}^m A_{ij}x_ix_j ⟨Ax,y⟩=i=1∑nj=1∑mAijxixj
于是根据推广Hoeffding不等式的第一个结论, ∃ C > 0 \exists C>0 ∃C>0,
∥ ⟨ A x , y ⟩ ∥ ψ 2 ≤ C ∑ i = 1 n ∑ j = 1 m ∥ A i j x i x j ∥ ψ 2 = C ∑ i = 1 n ∑ j = 1 m x i 2 y j 2 ∥ A i j ∥ ψ 2 ≤ C ∑ i = 1 n ∑ j = 1 m x i 2 y j 2 K 2 = C K 2 \left\| \langle Ax,y\rangle\right\|_{\psi_2} \le C \sum_{i=1}^n \sum_{j=1}^m \left\| A_{ij}x_ix_j\right\|_{\psi_2} \\ = C \sum_{i=1}^n \sum_{j=1}^mx_i^2y_j^2 \left\| A_{ij}\right\|_{\psi_2} \le C \sum_{i=1}^n \sum_{j=1}^mx_i^2y_j^2 K^2 = CK^2 ∥⟨Ax,y⟩∥ψ2≤Ci=1∑nj=1∑m∥Aijxixj∥ψ2=Ci=1∑nj=1∑mxi2yj2∥Aij∥ψ2≤Ci=1∑nj=1∑mxi2yj2K2=CK2
这说明 ⟨ A x , y ⟩ \langle Ax,y\rangle ⟨Ax,y⟩是亚高斯的。
第三步,使用亚高斯性,
P ( ⟨ A x , y ⟩ ≥ u ) ≤ 2 e − c u 2 / K 2 , ∃ c > 0 P(\langle Ax,y\rangle \ge u) \le 2 e^{-cu^2/K^2},\exists c>0 P(⟨Ax,y⟩≥u)≤2e−cu2/K2,∃c>0
于是
P ( max x ∈ N y ∈ M ⟨ A x , y ⟩ ≥ u ) ≤ ∑ x ∈ N y ∈ M P ( ⟨ A x , y ⟩ ≥ u ) ≤ 9 m + n 2 e − c u 2 / K 2 = 2 e ( m + n ) log 9 − c u 2 / K 2 P(\max_{x \in \mathcal{N} \\ y \in \mathcal{M}}\langle Ax,y\rangle \ge u) \le \sum_{x \in \mathcal{N} \\ y \in \mathcal{M}} P(\langle Ax,y\rangle \ge u) \\ \le 9^{m+n}2 e^{-cu^2/K^2}=2e^{(m+n)\log 9-cu^2/K^2} P(x∈Ny∈Mmax⟨Ax,y⟩≥u)≤x∈Ny∈M∑P(⟨Ax,y⟩≥u)≤9m+n2e−cu2/K2=2e(m+n)log9−cu2/K2
因为 u u u可以任意选取,为了使这个尾部概率尽可能小,我们希望通过选取 u u u使得这个概率的上界在 m , n m,n m,n趋于无穷时收敛到0,一种可行的选取是
u = C ′ K ( m + n + t ) u 2 ≥ C ′ 2 K 2 ( m + n + t ) u = C'K(\sqrt{m}+\sqrt{n}+t) \\ u^2 \ge C'^2K^2(m+n+t) u=C′K(m+n+t)u2≥C′2K2(m+n+t)
其中 C ′ > 0 C'>0 C′>0是个常数,于是
2 e ( m + n ) log 9 − c u 2 / K 2 ≥ 2 e ( m + n ) log 9 − c C ′ 2 ( m + n ) − c C ′ 2 t 2e^{(m+n)\log 9-cu^2/K^2} \ge 2e^{(m+n)\log 9-cC'^2(m+n)-cC'^2t} 2e(m+n)log9−cu2/K2≥2e(m+n)log9−cC′2(m+n)−cC′2t
选取 C ′ C' C′使得
( m + n ) log 9 − c C ′ 2 ( m + n ) < 0 , c C ′ 2 ≥ 1 (m+n)\log 9-cC'^2(m+n)<0,cC'^2 \ge 1 (m+n)log9−cC′2(m+n)<0,cC′2≥1
则
2 e ( m + n ) log 9 − c C ′ 2 ( m + n ) − c C ′ 2 t ≥ 2 e − 2 t 2 2e^{(m+n)\log 9-cC'^2(m+n)-cC'^2t} \ge 2e^{-2t^2} 2e(m+n)log9−cC′2(m+n)−cC′2t≥2e−2t2
这样我们就说明了 ∃ C > 0 \exists C>0 ∃C>0
P ( ∥ A ∥ ≤ C K ( m + n + t ) ) ≥ 1 − 2 e − t 2 P(\left\| A\right\| \le C K(\sqrt{m}+\sqrt{n}+t)) \ge 1-2e^{-t^2} P(∥A∥≤CK(m+n+t))≥1−2e−t2
第四步,说明对称的情况,如果 A T = A A^T=A AT=A,我们是不能直接用第三步的结果的,因为前三步得到的结论要求 A A A的所有分量都是独立的,而对称的矩阵自带约束 A i j = A j i A_{ij}=A_{ji} Aij=Aji,因此关于主对角线对称的两个元素必定不独立。一种拆分方法是我们把对称矩阵沿主对角线拆开:
A = A + + A − A=A^+ + A^- A=A++A−
其中 A + A^+ A+表示下三角部分(包含主对角线,上三角部分为0), A − A^- A−表示上三角部分(不包含主对角线,主对角线及下三角部分为0),于是
∥ A ∥ = ∥ A + ∥ + ∥ A − ∥ \left\| A\right\| =\left\| A^+\right\|+\left\| A^-\right\| ∥A∥=∥∥A+∥∥+∥∥A−∥∥
分别对 ∥ A + ∥ \left\| A^+\right\| ∥A+∥与 ∥ A − ∥ \left\| A^-\right\| ∥A−∥使用前三步的结论即可。