Fisher信息量与Fisher观测信息量

Fisher信息量

Fisher信息量的定义在之前的博客中详细介绍了,定义是:
I ( θ ) = − E θ [ ∂ 2 f ( x ; θ ) ∂ θ 2 ] = − ∫ x ∂ 2 f ( x ; θ ) ∂ θ 2 f ( x ; θ ) d x I(\theta)=-E_{\theta}[\frac{\partial ^2 f(x;\theta)}{\partial \theta^2}]=-\int_{x}\frac{\partial ^2f(x;\theta)}{\partial \theta^2}f(x;\theta)dx I(θ)=Eθ[θ22f(x;θ)]=xθ22f(x;θ)f(x;θ)dx
最大似然估计量的渐进分布的方差由Fisher信息量的倒数给出:
θ ^ = N ( θ , 1 I ( θ ) ) \hat{\theta}=N(\theta, \frac{1}{I(\theta)}) θ^=N(θ,I(θ)1)其中, θ \theta θ是参数真值。由于真值不得而知,因此只能用plug-in形式的Fisher信息量: I ( θ ^ ) I(\hat{\theta}) I(θ^)

Fisher观测信息量

Fisher包括后来的一些统计学家如斯坦福的Efron认为Fisher观测信息比plug-in的Fisher信息量更加能够反映估计值 θ ^ \hat{\theta} θ^的准确性。
观测Fisher信息定义为:
I ( x ) = − ∂ 2 f ( x ; θ ) ∂ θ 2 ∣ θ = θ ^ I(x)=-\frac{\partial ^2 f(x;\theta)}{\partial \theta ^2}|_{\theta = \hat{\theta}} I(x)=θ22f(x;θ)θ=θ^
这里自变量换成 x x x是因为利用数据获得了一个具体取值,也就是说 θ ^ = g ( x ) \hat{\theta}=g(x) θ^=g(x)这很好理解,首先求取似然函数负二阶导数,然后利用数据 x x x估计一个 θ ^ \hat{\theta} θ^,然后带入到负二阶导数的表达式里面去。估计值的分布变成了 N ( θ , 1 I ( x ) ) N(\theta, \frac{1}{I(x)}) N(θ,I(x)1)

你可能感兴趣的:(机器学习,math,机器学习,算法,概率论)