对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面
基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。
对于估计参数 θ \theta θ为标量时,假定PDF满足**“正则”**条件
E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 ( for any θ ) \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0\quad (\ \text{for any }\theta \ ) E[∂θ∂lnp(x;θ)]=0( for any θ )
其中数学期望对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。那么无偏估计量 θ ^ \hat{\theta} θ^的方差必然满足
D ( θ ^ ) ≥ 1 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = 1 E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)≥−E[∂θ2∂2lnp(x;θ)]1=E[(∂θ∂lnp(x;θ))2]1
其中导数是在 θ \theta θ的真实值处求,数学期望是对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。因此,我们可以说一个无偏估计量 g ( x ) g(\boldsymbol{x}) g(x)达到CRLB,当且仅当,该估计量满足
∂ ln p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) ∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中, I ( θ ) = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=−E[∂θ2∂2lnp(x;θ)],称为Fisher information。证明见附录A。
Remarks: CRLB是衡量一个无偏估计器是否有效的重要工具,也就是说,给定一个无偏估计器,我们可以利用克拉美-罗下界去判断这个估计器是否是最优的。
x = h θ + w , w ∼ N ( 0 , C w ) \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{C}_{\boldsymbol{w}}) x=hθ+w,w∼N(0,Cw)
其中 θ \theta θ是未知参数, x ∈ R p \boldsymbol{x}\in \mathbb{R}^p x∈Rp是观测值(observed signal), w \boldsymbol{w} w是均值为 0 \boldsymbol{0} 0,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯噪声。
我们考虑如下估计器
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 x \hat{\theta}=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{x} θ^=(hTCw−1h)−1hTCw−1x
对于该模型,其似然函数 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)为
p ( x ; θ ) = 1 ( 2 π ) p / 2 ∣ C w ∣ 1 / 2 exp [ − 1 2 ( x − h θ ) T C w − 1 ( x − h θ ) ] p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right] p(x;θ)=(2π)p/2∣Cw∣1/21exp[−21(x−hθ)TCw−1(x−hθ)]
因此
无偏性
E [ θ ^ ] = ∫ x θ ^ p ( x ; θ ) d x \mathbb{E}[\hat{\theta}]=\int_{\boldsymbol{x}} \hat{\theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} E[θ^]=∫xθ^p(x;θ)dx
我们可以将 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)看作为自变量为 x \boldsymbol{x} x均值为 h θ \boldsymbol{h}\theta hθ,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯PDF,即 ∫ x x p ( x ; θ ) d x = h θ \int_{\boldsymbol{x}}\boldsymbol{x}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\boldsymbol{h}\theta ∫xxp(x;θ)dx=hθ。因此 E [ θ ^ ] = ( h T C w − 1 h ) − 1 h T C w − 1 h θ = θ \mathbb{E}[\hat{\theta}]=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\theta=\theta E[θ^]=(hTCw−1h)−1hTCw−1hθ=θ,即 θ ^ \hat{\theta} θ^为无偏估计量。
有效性
∂ ln p ( x ; θ ) ∂ θ = ( x − h θ ) T C w − 1 h \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}=(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} ∂θ∂lnp(x;θ)=(x−hθ)TCw−1h ∂ 2 ln p ( x ; θ ) ∂ θ 2 = − h T C w − 1 h \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}=-\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} ∂θ2∂2lnp(x;θ)=−hTCw−1h
关于矩阵求导不太熟悉的朋友可以看下这个网站:https://en.wikipedia.org/wiki/Matrix_calculus。
基于上述表述,该系统模型的CRLB为
− 1 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = 1 h T C w − 1 h -\frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} −−E[∂θ2∂2lnp(x;θ)]1=hTCw−1h1
而估计器 θ ^ \hat{\theta} θ^的方差为
D ( θ ^ ) = ( ( h T C w − 1 h ) − 1 h T C w − 1 ) C w ( ( h T C w − 1 h ) − 1 h T C w − 1 ) T = ( h T C w − 1 h ) − 1 D(\hat{\theta})=\left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right) \boldsymbol{C}_{\boldsymbol{w}} \left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right)^T=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1} D(θ^)=((hTCw−1h)−1hTCw−1)Cw((hTCw−1h)−1hTCw−1)T=(hTCw−1h)−1
由于 h T C w − 1 h \boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} hTCw−1h是一维的,有 ( h T C w − 1 h ) − 1 = 1 h T C w − 1 h (\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} (hTCw−1h)−1=hTCw−1h1,因此,该估计量是有效的,即该无偏估计量 θ \theta θ的方差可以达到CRLB。
一致性
将系统模型 x = h θ + w \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w} x=hθ+w代入估计器中,有
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 ( h θ + w ) = θ + ( h T C w − 1 h ) − 1 h T C w − 1 w \hat{\theta} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{h}\theta+\boldsymbol{w})\\ =\theta+(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w} θ^=(hTCw−1h)−1hTCw−1(hθ+w)=θ+(hTCw−1h)−1hTCw−1w
若假设噪声能量一定,即 C w \boldsymbol{C}_{\boldsymbol{w}} Cw元素值固定,随着观测样本 p → ∞ p\rightarrow\infty p→∞,则噪声的方差
D ( ( h T C w − 1 h ) − 1 h T C w − 1 w ) = 1 h T c w − 1 h D((\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w})=\frac{1}{\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} D((hTCw−1h)−1hTCw−1w)=hTcw−1h1
从公式可以看出,假设噪声 w \boldsymbol{w} w的每个元素具有相同的方差,则必然 lim p → ∞ h T c w − 1 h → ∞ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty p→∞limhTcw−1h→∞。因此,当 p → ∞ p\rightarrow \infty p→∞时,我们可以将估计量 θ ^ \hat{\theta} θ^看作
θ ^ = θ + n , n ∼ N ( 0 , ( h T C w − 1 h ) − 1 ) and lim p → ∞ h T c w − 1 h → ∞ \hat{\theta}=\theta+n,\quad n\sim\mathcal{N}(0,(\boldsymbol{h}^T\boldsymbol{C}_\boldsymbol{w}^{-1}\boldsymbol{h})^{-1}) \ \ \text{and} \ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty θ^=θ+n,n∼N(0,(hTCw−1h)−1) and p→∞limhTcw−1h→∞
因此,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有
lim N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1 N→∞limP{∣θ^−θ∣<ϵ}=1
即,该估计量满足一致性。
由于 θ ^ \hat{\theta} θ^是无偏估计,即
∫ x ( θ ^ − θ ) p ( x ; θ ) d x = 0 ⇒ ∫ θ ^ p ( x ; θ ) d x = θ \int_{\boldsymbol{x}} (\hat{\theta}-\theta)p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \Rightarrow \quad \int \hat{\theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\theta ∫x(θ^−θ)p(x;θ)dx=0⇒∫θ^p(x;θ)dx=θ
注意,估计器 θ ^ \hat{\theta} θ^是关于观测量 x \boldsymbol{x} x的函数。上式等式两边对 θ \theta θ求偏导有
∫ θ ^ ∂ p ( x ; θ ) ∂ θ d x = 1 ⇒ ∫ θ ^ ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 − − − ( ∗ 1 ) \int \hat{\theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}\text{d}x=1\\ \qquad \qquad \qquad \qquad \qquad \Rightarrow \int \hat{\theta}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}x=1 \qquad ---(*1) ∫θ^∂θ∂p(x;θ)dx=1⇒∫θ^∂θ∂lnp(x;θ)p(x;θ)dx=1−−−(∗1)
由正则条件 E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 \mathbb{E}\left[\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right]=0 E[∂θ∂lnp(x;θ)]=0,即
∫ ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0 ∫∂θ∂lnp(x;θ)p(x;θ)dx=0
有
θ ∫ ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ⇒ ∫ θ ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 − − − ( ∗ 2 ) \theta \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ \qquad \qquad \Rightarrow \int \theta \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0---(*2) θ∫∂θ∂lnp(x;θ)p(x;θ)dx=0⇒∫θ∂θ∂lnp(x;θ)p(x;θ)dx=0−−−(∗2)
合并(*1)与(*2),有
∫ ( θ ^ − θ ) ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 ⇒ ∫ ( θ ^ − θ ) p ( x ; θ ) ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 \ \ \ \ \int (\hat{\theta}-\theta)\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=1\\ \qquad \qquad \ \ \Rightarrow \int (\hat{\theta}-\theta)\sqrt{p(\boldsymbol{x};\theta)}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\sqrt{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}=1 ∫(θ^−θ)∂θ∂lnp(x;θ)p(x;θ)dx=1 ⇒∫(θ^−θ)p(x;θ)∂θ∂lnp(x;θ)p(x;θ)dx=1
由于柯西-施瓦茨不等式
∫ f 2 ( x ) d x ∫ g 2 ( x ) d x ≥ ( ∫ f ( x ) g ( x ) d x ) 2 \int f^2(x)\text{d}x \int g^2(x)\text{d}x \geq\left({\int f(x)g(x)\text{d}x}\right)^2 ∫f2(x)dx∫g2(x)dx≥(∫f(x)g(x)dx)2
当且仅当 f ( x ) = g ( x ) f(x)=g(x) f(x)=g(x)时,取等号。
根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),有
( ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ) ( ∫ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) ≥ 1 ⇒ ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ≥ 1 ( ∫ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) \left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)\geq 1\\ \Rightarrow \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}\geq \frac{1}{\left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)} (∫(θ^−θ)2p(x;θ)dx)(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)≥1⇒∫(θ^−θ)2p(x;θ)dx≥(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)1
即
D ( θ ^ ) ≥ 1 E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta})\geq \frac{1}{\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)≥E[(∂θ∂lnp(x;θ))2]1
现在只需证明
E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] \mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] E[(∂θ∂lnp(x;θ))2]=−E[∂θ2∂2lnp(x;θ)]
证:由正则条件 E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0 E[∂θ∂lnp(x;θ)]=0,等式两边对 θ \theta θ求偏导,有
∂ ∂ θ ∫ ∂ ln p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ⇒ ∫ [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 p ( x ; θ ) + ∂ ln p ( x ; θ ) ∂ θ ∂ p ( x ; θ ) ∂ θ ] d x = 0 ⇒ ∫ ∂ 2 ln p ( x ; θ ) ∂ θ 2 p ( x ; θ ) d x = − ∫ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x \frac{\partial }{\partial \theta} \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \qquad \qquad \qquad \ \\ \quad \Rightarrow \int \left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)+\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}}\right]\text{d}\boldsymbol{x}=0\\ \qquad \ \Rightarrow \int \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=-\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} ∂θ∂∫∂θ∂lnp(x;θ)p(x;θ)dx=0 ⇒∫[∂θ2∂2lnp(x;θ)p(x;θ)+∂θ∂lnp(x;θ)∂θ∂p(x;θ)]dx=0 ⇒∫∂θ2∂2lnp(x;θ)p(x;θ)dx=−∫(∂θ∂lnp(x;θ))2p(x;θ)dx
现在证明,若估计量 θ ^ = g ( x ) \hat{\theta}=\text{g}(\boldsymbol{x}) θ^=g(x)可以达到CRLB,则有
∂ ln p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) ∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中, I ( θ ) = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=−E[∂θ2∂2lnp(x;θ)]。
证:等式两边同时对 θ \theta θ求偏导,有
∂ 2 ln p ( x ; θ ) ∂ θ 2 = ∂ I ( θ ) ∂ θ ( g ( x ) − θ ) − I ( θ ) \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} =\frac{\partial \mathbf{I}(\theta)}{\partial \theta}(g(\boldsymbol{x})-\theta)-\mathbf{I}(\theta) ∂θ2∂2lnp(x;θ)=∂θ∂I(θ)(g(x)−θ)−I(θ)
等式两边同时对乘上 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ),并对 x \boldsymbol{x} x积分,得
E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = − I ( θ ) \mathbb{E}\left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} }\right]=-\mathbf{I}(\theta) E[∂θ2∂2lnp(x;θ)]=−I(θ)
证毕。