UA MATH567 高维统计III 随机矩阵6 亚高斯矩阵的范数

UA MATH567 高维统计III 随机矩阵6 亚高斯矩阵的范数

在前五讲的理论基础上,我们现在开始正式讨论随机矩阵。假设 A A A是一个 m × n m \times n m×n的随机矩阵,它的元素 A i j A_{ij} Aij是互相独立的零均值的亚高斯随机变量,关于它的范数有下面的结论

随机矩阵的范数 K = max ⁡ i , j ∥ A i j ∥ ψ 2 K=\max_{i,j}\left\| A_{ij} \right\|_{\psi_2} K=maxi,jAijψ2, ∀ t > 0 \forall t>0 t>0
P ( ∥ A ∥ ≲ K ( m + n + t ) ) ≥ 1 − 2 e − t 2 P(\left\| A\right\| \lesssim K(\sqrt{m}+\sqrt{n}+t)) \ge 1-2e^{-t^2} P(AK(m +n +t))12et2

这个结果说明矩阵 A A A的范数的尾部概率也具有亚高斯性。如果 A A A n × n n \times n n×n的对称阵,则
P ( ∥ A ∥ ≲ K ( n + t ) ) ≥ 1 − 4 e − t 2 P(\left\| A\right\| \lesssim K(\sqrt{n}+t)) \ge 1-4e^{-t^2} P(AK(n +t))14et2

证明

第一步,我们先考虑一下算子范数,
∥ A ∥ = max ⁡ x ∈ S n − 1 y ∈ S m − 1 ⟨ A x , y ⟩ \left\| A \right\| = \max_{x \in S^{n-1} \\ y \in S^{m-1}}\langle Ax,y\rangle A=xSn1ySm1maxAx,y

存在 x ∈ S n − 1 , y ∈ S m − 1 x \in S^{n-1},y \in S^{m-1} xSn1,ySm1使得 ∥ A ∥ = ⟨ A x , y ⟩ \left\| A \right\|=\langle Ax,y\rangle A=Ax,y,假设 N \mathcal{N} N S n − 1 S^{n-1} Sn1的一个 ϵ \epsilon ϵ-net(根据第四讲的讨论,我们总是可以用一个球框住这样的集网,因此不失一般性,我们可以构造cardinality满足 ∣ N ∣ < 9 n , ∣ M ∣ < 9 m |\mathcal{N}|<9^n,|\mathcal{M}|<9^m N<9n,M<9m的集网), M \mathcal{M} M S m − 1 S^{m-1} Sm1的一个 ϵ \epsilon ϵ-net,则根据定义 ∃ x 0 ∈ N , ∃ y 0 ∈ M \exists x_0 \in \mathcal{N},\exists y_0 \in \mathcal{M} x0N,y0M ∥ x − x 0 ∥ 2 ≤ ϵ , ∥ y − y 0 ∥ 2 ≤ ϵ \left\| x-x_0\right\|_2 \le \epsilon,\left\| y-y_0\right\|_2 \le \epsilon xx02ϵ,yy02ϵ,计算
⟨ A x 0 , y 0 ⟩ = ⟨ A x , y ⟩ + ⟨ A ( x − x 0 ) , y ⟩ + ⟨ A x 0 , y 0 − y ⟩ \langle Ax_0,y_0\rangle=\langle Ax,y\rangle+\langle A(x-x_0),y\rangle+\langle Ax_0,y_0-y\rangle Ax0,y0=Ax,y+A(xx0),y+Ax0,y0y

其中第二项满足
⟨ A ( x − x 0 ) , y ⟩ ≥ − ∥ A ( x − x 0 ) ∥ 2 ∥ y ∥ 2 = − ∥ A ( x − x 0 ) ∥ 2 ≥ − ϵ ∥ A ∥ \langle A(x-x_0),y\rangle\ge -\left\| A(x-x_0)\right\|_2\left\| y\right\|_2 \\ =-\left\| A(x-x_0)\right\|_2 \ge -\epsilon \left\| A \right\| A(xx0),yA(xx0)2y2=A(xx0)2ϵA

类似地,第三项满足
⟨ A x 0 , y 0 − y ⟩ ≥ − ϵ ∥ A ∥ \langle Ax_0,y_0-y\rangle \ge -\epsilon \left\| A \right\| Ax0,y0yϵA

因此
∥ A ∥ ≤ 1 1 − 2 ϵ ⟨ A x 0 , y 0 ⟩ ≤ 1 1 − 2 ϵ max ⁡ x ∈ N y ∈ M ⟨ A x , y ⟩ \left\| A \right\| \le \frac{1}{1-2\epsilon}\langle Ax_0,y_0\rangle \le \frac{1}{1-2\epsilon}\max_{x \in \mathcal{N} \\ y \in \mathcal{M}}\langle Ax,y\rangle A12ϵ1Ax0,y012ϵ1xNyMmaxAx,y

第二步,我们讨论随机矩阵的二次型, ∀ x ∈ N , y ∈ M \forall x \in \mathcal{N}, y \in \mathcal{M} xN,yM
⟨ A x , y ⟩ = ∑ i = 1 n ∑ j = 1 m A i j x i x j \langle Ax,y\rangle=\sum_{i=1}^n \sum_{j=1}^m A_{ij}x_ix_j Ax,y=i=1nj=1mAijxixj

于是根据推广Hoeffding不等式的第一个结论, ∃ C > 0 \exists C>0 C>0
∥ ⟨ A x , y ⟩ ∥ ψ 2 ≤ C ∑ i = 1 n ∑ j = 1 m ∥ A i j x i x j ∥ ψ 2 = C ∑ i = 1 n ∑ j = 1 m x i 2 y j 2 ∥ A i j ∥ ψ 2 ≤ C ∑ i = 1 n ∑ j = 1 m x i 2 y j 2 K 2 = C K 2 \left\| \langle Ax,y\rangle\right\|_{\psi_2} \le C \sum_{i=1}^n \sum_{j=1}^m \left\| A_{ij}x_ix_j\right\|_{\psi_2} \\ = C \sum_{i=1}^n \sum_{j=1}^mx_i^2y_j^2 \left\| A_{ij}\right\|_{\psi_2} \le C \sum_{i=1}^n \sum_{j=1}^mx_i^2y_j^2 K^2 = CK^2 Ax,yψ2Ci=1nj=1mAijxixjψ2=Ci=1nj=1mxi2yj2Aijψ2Ci=1nj=1mxi2yj2K2=CK2

这说明 ⟨ A x , y ⟩ \langle Ax,y\rangle Ax,y是亚高斯的。

第三步,使用亚高斯性,
P ( ⟨ A x , y ⟩ ≥ u ) ≤ 2 e − c u 2 / K 2 , ∃ c > 0 P(\langle Ax,y\rangle \ge u) \le 2 e^{-cu^2/K^2},\exists c>0 P(Ax,yu)2ecu2/K2,c>0

于是
P ( max ⁡ x ∈ N y ∈ M ⟨ A x , y ⟩ ≥ u ) ≤ ∑ x ∈ N y ∈ M P ( ⟨ A x , y ⟩ ≥ u ) ≤ 9 m + n 2 e − c u 2 / K 2 = 2 e ( m + n ) log ⁡ 9 − c u 2 / K 2 P(\max_{x \in \mathcal{N} \\ y \in \mathcal{M}}\langle Ax,y\rangle \ge u) \le \sum_{x \in \mathcal{N} \\ y \in \mathcal{M}} P(\langle Ax,y\rangle \ge u) \\ \le 9^{m+n}2 e^{-cu^2/K^2}=2e^{(m+n)\log 9-cu^2/K^2} P(xNyMmaxAx,yu)xNyMP(Ax,yu)9m+n2ecu2/K2=2e(m+n)log9cu2/K2

因为 u u u可以任意选取,为了使这个尾部概率尽可能小,我们希望通过选取 u u u使得这个概率的上界在 m , n m,n m,n趋于无穷时收敛到0,一种可行的选取是
u = C ′ K ( m + n + t ) u 2 ≥ C ′ 2 K 2 ( m + n + t ) u = C'K(\sqrt{m}+\sqrt{n}+t) \\ u^2 \ge C'^2K^2(m+n+t) u=CK(m +n +t)u2C2K2(m+n+t)

其中 C ′ > 0 C'>0 C>0是个常数,于是
2 e ( m + n ) log ⁡ 9 − c u 2 / K 2 ≥ 2 e ( m + n ) log ⁡ 9 − c C ′ 2 ( m + n ) − c C ′ 2 t 2e^{(m+n)\log 9-cu^2/K^2} \ge 2e^{(m+n)\log 9-cC'^2(m+n)-cC'^2t} 2e(m+n)log9cu2/K22e(m+n)log9cC2(m+n)cC2t

选取 C ′ C' C使得
( m + n ) log ⁡ 9 − c C ′ 2 ( m + n ) < 0 , c C ′ 2 ≥ 1 (m+n)\log 9-cC'^2(m+n)<0,cC'^2 \ge 1 (m+n)log9cC2(m+n)<0,cC21


2 e ( m + n ) log ⁡ 9 − c C ′ 2 ( m + n ) − c C ′ 2 t ≥ 2 e − 2 t 2 2e^{(m+n)\log 9-cC'^2(m+n)-cC'^2t} \ge 2e^{-2t^2} 2e(m+n)log9cC2(m+n)cC2t2e2t2

这样我们就说明了 ∃ C > 0 \exists C>0 C>0
P ( ∥ A ∥ ≤ C K ( m + n + t ) ) ≥ 1 − 2 e − t 2 P(\left\| A\right\| \le C K(\sqrt{m}+\sqrt{n}+t)) \ge 1-2e^{-t^2} P(ACK(m +n +t))12et2

第四步,说明对称的情况,如果 A T = A A^T=A AT=A,我们是不能直接用第三步的结果的,因为前三步得到的结论要求 A A A的所有分量都是独立的,而对称的矩阵自带约束 A i j = A j i A_{ij}=A_{ji} Aij=Aji,因此关于主对角线对称的两个元素必定不独立。一种拆分方法是我们把对称矩阵沿主对角线拆开:
A = A + + A − A=A^+ + A^- A=A++A

其中 A + A^+ A+表示下三角部分(包含主对角线,上三角部分为0), A − A^- A表示上三角部分(不包含主对角线,主对角线及下三角部分为0),于是
∥ A ∥ = ∥ A + ∥ + ∥ A − ∥ \left\| A\right\| =\left\| A^+\right\|+\left\| A^-\right\| A=A++A

分别对 ∥ A + ∥ \left\| A^+\right\| A+ ∥ A − ∥ \left\| A^-\right\| A使用前三步的结论即可。

你可能感兴趣的:(#,高维统计,概率论,机器学习)