如果 X X X是零均值的随机变量,则 Σ = E X X T \Sigma = EXX^T Σ=EXXT,假设 { X i } i = 1 m \{X_i\}_{i=1}^m { Xi}i=1m是 X X X的一组样本,一种常用的协方差的估计是
Σ ^ = 1 m ∑ i = 1 m X i X i T \hat \Sigma = \frac{1}{m}\sum_{i=1}^m X_iX^T_i Σ^=m1i=1∑mXiXiT
假设 X X X的四阶矩有限,则根据弱大数定律,
Σ ^ → L 2 Σ , m → ∞ \hat \Sigma \to_{L^2} \Sigma,m\to \infty Σ^→L2Σ,m→∞
这个是估计量的一个渐近性质,它保证估计量是一个一致估计。但一致性是一个理论性质,因为在实际统计问题中我们不可能有无限个样本,于是一个在实践中更有价值的问题时,我们至少需要多少个样本(也就是 m m m要多大)才能使 Σ ^ \hat \Sigma Σ^与 Σ \Sigma Σ尽可能接近?
我们用算子范数 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| ∥∥∥Σ^−Σ∥∥∥表示 Σ ^ \hat \Sigma Σ^与 Σ \Sigma Σ接近的程度,则下面的结论成立:
协方差估计偏差的上界
假设 X X X是零均值的亚高斯随机向量, ∀ x ∈ R n \forall x \in \mathbb{R}^n ∀x∈Rn, ∃ K ≥ 1 \exists K \ge 1 ∃K≥1,
∥ ⟨ X , x ⟩ ∥ ψ 2 ≤ K ∥ ⟨ X , x ⟩ ∥ 2 \left\| \langle X,x \rangle \right\|_{\psi_2} \le K\left\| \langle X,x \rangle \right\|_{2} ∥⟨X,x⟩∥ψ2≤K∥⟨X,x⟩∥2
则 ∃ C > 0 \exists C>0 ∃C>0
E ∥ Σ ^ − Σ ∥ ≤ C K 2 ( n m + n m ) ∥ Σ ∥ E\left\| \hat \Sigma - \Sigma \right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m})\left\| \Sigma \right\| E∥∥∥Σ^−Σ∥∥∥≤CK2(mn+mn)∥Σ∥
证明
定义 Z = Σ − 1 / 2 X Z = \Sigma^{-1/2}X Z=Σ−1/2X,则 E Z Z T = I n EZZ^T = I_n EZZT=In,根据定义
∥ Z ∥ ψ 2 = sup x ∈ S n − 1 ∥ ⟨ Z , x ⟩ ∥ ψ 2 = sup x ∈ S n − 1 ∥ ⟨ Σ − 1 / 2 X , x ⟩ ∥ ψ 2 = sup x ∈ S n − 1 ∥ ⟨ X , Σ − 1 / 2 x ⟩ ∥ ψ 2 ≤ K ∥ ⟨ X , Σ − 1 / 2 x ⟩ ∥ 2 = K ∥ ⟨ Z , x ⟩ ∥ 2 = K \left\| Z \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle Z,x \rangle \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle \Sigma^{-1/2}X,x \rangle \right\|_{\psi_2} \\ = \sup_{x \in S^{n-1}} \left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{\psi_2} \le K\left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{2} \\ = K\left\| \langle Z,x \rangle \right\|_{2}=K ∥Z∥ψ2=x∈Sn−1sup∥⟨Z,x⟩∥ψ2=x∈Sn−1sup∥∥∥⟨Σ−1/2X,x⟩∥∥∥ψ2=x∈Sn−1sup∥∥∥⟨X,Σ−1/2x⟩∥∥∥ψ2≤K∥∥∥⟨X,Σ−1/2x⟩∥∥∥2=K∥⟨Z,x⟩∥2=K
计算
∥ Σ ^ − Σ ∥ = ∥ Σ 1 / 2 ( Σ − 1 / 2 Σ ^ Σ − 1 / 2 ) Σ 1 / 2 − Σ 1 / 2 Σ 1 / 2 ∥ = ∥ Σ 1 / 2 ( Σ − 1 / 2 Σ ^ Σ − 1 / 2 − I n ) Σ 1 / 2 ∥ ≜ ∥ Σ 1 / 2 R Σ 1 / 2 ∥ ≤ ∥ Σ 1 / 2 ∥ ∥ R ∥ ∥ Σ 1 / 2 ∥ = ∥ R ∥ ∥ Σ ∥ \left\| \hat \Sigma - \Sigma \right\|=\left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2})\Sigma^{1/2} - \Sigma^{1/2}\Sigma^{1/2} \right\| \\ = \left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n)\Sigma^{1/2} \right\| \triangleq \left\| \Sigma^{1/2}R\Sigma^{1/2} \right\| \\ \le \left\| \Sigma^{1/2} \right\|\left\| R \right\| \left\| \Sigma^{1/2} \right\| = \left\| R \right\| \left\| \Sigma \right\| ∥∥∥Σ^−Σ∥∥∥=∥∥∥Σ1/2(Σ−1/2Σ^Σ−1/2)Σ1/2−Σ1/2Σ1/2∥∥∥=∥∥∥Σ1/2(Σ−1/2Σ^Σ−1/2−In)Σ1/2∥∥∥≜∥∥∥Σ1/2RΣ1/2∥∥∥≤∥∥∥Σ1/2∥∥∥∥R∥∥∥∥Σ1/2∥∥∥=∥R∥∥Σ∥
接下来要做的就是找 ∥ R ∥ \left\| R \right\| ∥R∥的上界,
R = Σ − 1 / 2 Σ ^ Σ − 1 / 2 − I n = Σ − 1 / 2 ( 1 m ∑ i = 1 m X i X i T ) Σ − 1 / 2 − I n = 1 m ∑ i = 1 m Z i Z i T − I n = 1 m A T A − I n R=\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n = \Sigma^{-1/2}(\frac{1}{m}\sum_{i=1}^m X_iX^T_i) \Sigma^{-1/2}-I_n \\ =\frac{1}{m} \sum_{i=1}^m Z_iZ_i^T-I_n = \frac{1}{m}A^TA - I_n R=Σ−1/2Σ^Σ−1/2−In=Σ−1/2(m1i=1∑mXiXiT)Σ−1/2−In=m1i=1∑mZiZiT−In=m1ATA−In
其中 A A A的行向量是 Z i T Z_i^T ZiT,使用未证明的结论(Vershynin Exercise 4.6.2), ∃ C > 0 \exists C>0 ∃C>0
E ∥ 1 m A T A − I n ∥ ≤ C K 2 ( n m + n m ) E \left\| \frac{1}{m}A^TA - I_n\right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m}) E∥∥∥∥m1ATA−In∥∥∥∥≤CK2(mn+mn)
综上,定理得证。