UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类问题的样本量需求计算

UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类的样本量

如果 X X X是零均值的随机变量,则 Σ = E X X T \Sigma = EXX^T Σ=EXXT,假设 { X i } i = 1 m \{X_i\}_{i=1}^m { Xi}i=1m X X X的一组样本,一种常用的协方差的估计是
Σ ^ = 1 m ∑ i = 1 m X i X i T \hat \Sigma = \frac{1}{m}\sum_{i=1}^m X_iX^T_i Σ^=m1i=1mXiXiT

假设 X X X的四阶矩有限,则根据弱大数定律,
Σ ^ → L 2 Σ , m → ∞ \hat \Sigma \to_{L^2} \Sigma,m\to \infty Σ^L2Σ,m

这个是估计量的一个渐近性质,它保证估计量是一个一致估计。但一致性是一个理论性质,因为在实际统计问题中我们不可能有无限个样本,于是一个在实践中更有价值的问题时,我们至少需要多少个样本(也就是 m m m要多大)才能使 Σ ^ \hat \Sigma Σ^ Σ \Sigma Σ尽可能接近?


我们用算子范数 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| Σ^Σ表示 Σ ^ \hat \Sigma Σ^ Σ \Sigma Σ接近的程度,则下面的结论成立:

协方差估计偏差的上界
假设 X X X是零均值的亚高斯随机向量, ∀ x ∈ R n \forall x \in \mathbb{R}^n xRn, ∃ K ≥ 1 \exists K \ge 1 K1
∥ ⟨ X , x ⟩ ∥ ψ 2 ≤ K ∥ ⟨ X , x ⟩ ∥ 2 \left\| \langle X,x \rangle \right\|_{\psi_2} \le K\left\| \langle X,x \rangle \right\|_{2} X,xψ2KX,x2

∃ C > 0 \exists C>0 C>0
E ∥ Σ ^ − Σ ∥ ≤ C K 2 ( n m + n m ) ∥ Σ ∥ E\left\| \hat \Sigma - \Sigma \right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m})\left\| \Sigma \right\| EΣ^ΣCK2(mn +mn)Σ

证明
定义 Z = Σ − 1 / 2 X Z = \Sigma^{-1/2}X Z=Σ1/2X,则 E Z Z T = I n EZZ^T = I_n EZZT=In,根据定义
∥ Z ∥ ψ 2 = sup ⁡ x ∈ S n − 1 ∥ ⟨ Z , x ⟩ ∥ ψ 2 = sup ⁡ x ∈ S n − 1 ∥ ⟨ Σ − 1 / 2 X , x ⟩ ∥ ψ 2 = sup ⁡ x ∈ S n − 1 ∥ ⟨ X , Σ − 1 / 2 x ⟩ ∥ ψ 2 ≤ K ∥ ⟨ X , Σ − 1 / 2 x ⟩ ∥ 2 = K ∥ ⟨ Z , x ⟩ ∥ 2 = K \left\| Z \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle Z,x \rangle \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle \Sigma^{-1/2}X,x \rangle \right\|_{\psi_2} \\ = \sup_{x \in S^{n-1}} \left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{\psi_2} \le K\left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{2} \\ = K\left\| \langle Z,x \rangle \right\|_{2}=K Zψ2=xSn1supZ,xψ2=xSn1supΣ1/2X,xψ2=xSn1supX,Σ1/2xψ2KX,Σ1/2x2=KZ,x2=K

计算
∥ Σ ^ − Σ ∥ = ∥ Σ 1 / 2 ( Σ − 1 / 2 Σ ^ Σ − 1 / 2 ) Σ 1 / 2 − Σ 1 / 2 Σ 1 / 2 ∥ = ∥ Σ 1 / 2 ( Σ − 1 / 2 Σ ^ Σ − 1 / 2 − I n ) Σ 1 / 2 ∥ ≜ ∥ Σ 1 / 2 R Σ 1 / 2 ∥ ≤ ∥ Σ 1 / 2 ∥ ∥ R ∥ ∥ Σ 1 / 2 ∥ = ∥ R ∥ ∥ Σ ∥ \left\| \hat \Sigma - \Sigma \right\|=\left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2})\Sigma^{1/2} - \Sigma^{1/2}\Sigma^{1/2} \right\| \\ = \left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n)\Sigma^{1/2} \right\| \triangleq \left\| \Sigma^{1/2}R\Sigma^{1/2} \right\| \\ \le \left\| \Sigma^{1/2} \right\|\left\| R \right\| \left\| \Sigma^{1/2} \right\| = \left\| R \right\| \left\| \Sigma \right\| Σ^Σ=Σ1/2(Σ1/2Σ^Σ1/2)Σ1/2Σ1/2Σ1/2=Σ1/2(Σ1/2Σ^Σ1/2In)Σ1/2Σ1/2RΣ1/2Σ1/2RΣ1/2=RΣ

接下来要做的就是找 ∥ R ∥ \left\| R \right\| R的上界,
R = Σ − 1 / 2 Σ ^ Σ − 1 / 2 − I n = Σ − 1 / 2 ( 1 m ∑ i = 1 m X i X i T ) Σ − 1 / 2 − I n = 1 m ∑ i = 1 m Z i Z i T − I n = 1 m A T A − I n R=\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n = \Sigma^{-1/2}(\frac{1}{m}\sum_{i=1}^m X_iX^T_i) \Sigma^{-1/2}-I_n \\ =\frac{1}{m} \sum_{i=1}^m Z_iZ_i^T-I_n = \frac{1}{m}A^TA - I_n R=Σ1/2Σ^Σ1/2In=Σ1/2(m1i=1mXiXiT)Σ1/2In=m1i=1mZiZiTIn=m1ATAIn

其中 A A A的行向量是 Z i T Z_i^T ZiT,使用未证明的结论(Vershynin Exercise 4.6.2), ∃ C > 0 \exists C>0 C>0
E ∥ 1 m A T A − I n ∥ ≤ C K 2 ( n m + n m ) E \left\| \frac{1}{m}A^TA - I_n\right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m}) Em1ATAInCK2(mn +mn)

综上,定理得证。

你可能感兴趣的:(#,高维统计,协方差,机器学习)