Cramer-Rao下界

在参数估计和统计中,Cramer-Rao界限(Cramer-Rao bound, CRB)或者Cramer-Rao下界(CRLB),表示一个确定性参数的估计的方差下界。命名是为了纪念Harald Cramer和Calyampudi Radhakrishna Rao。这个界限也称为Cramer-Rao不等式或者信息不等式。

它的最简单形式是:任何无偏估计的方差至少大于Fisher信息的倒数。一个达到了下界的无偏估计被称为完全高效的(fully efficient)。这样的估计达到了所有无偏估计中的最小均方误差(MSE,mean square error),因此是最小方差无偏(MVU,minimum variance unbiased)估计。

给定偏倚,Cramer-Rao界限还可以用于确定有偏估计的界限。在一些情况下,有偏估计方法的结果可能方差和均方差都小于无偏估计的Cramer-Rao下界。

标量情形

标量的无偏情形

假设 θ 是一个位置确定性参数。我们需要从观察变量 x 估计它。而它们满足一个概率密度函数 f(x;θ) 。任何 θ 的无偏估计 θ̂  的方差的下界为Fisher信息 I(θ) 的倒数:

Varθ̂ 1I(θ)

其中Fisher信息定义为
I(θ)=E[(lnf(x;θ)θ)2]=E[2lnf(x;θ)θ2]

其中 E 表示求期望。

无偏估计 θ̂  的效率描述估计的方差有多接近下限,定义为

e(θ)=I(θ)1Var(σ̂ )

显然有
0e(σ̂ )1

标量的一般情形

更一般的情况是考虑参数 θ 的无偏估计 T(X) 。这里的无偏性理解为 E[T(X)]=ϕ(θ) 。这种情况下,方差的下界为

Var(T)[ϕ(θ)]2I(θ)

其中 ϕ(θ) 表示 ϕ(θ) 关于 θ 的导数, I(θ) 仍然是Fisher信息。

有偏估计的界限

考虑估计 θ̂  ,设其偏倚 b(θ)=E[θ̂ ]θ ,令 ϕ(θ)=b(θ)+θ 。利用上式,任何期望为 ϕ(θ) 的无偏估计的方差都大于等于 (ϕ(θ)2)/I(θ)) 。于是

Var(θ̂ )[1+b(θ)]2I(θ)

b(θ)=0 ,上式退化为无偏估计得方差界限。当估计 θ̂  退化为常数(概率密度函数为脉冲函数),则方差退化为0。

从上式,利用标准分解可以推出有偏估计的均方误差下界为

E[(θ̂ θ)2][1+b(θ)]2I(θ)+b(θ)2

注意,如果 1+b(θ)<1 ,那么上式右端的下界可能小于Cramer-Rao下界。例如,当 1+b(θ)=nn+2<1

多元变量的情形

定义向量 θ=[θ1,θ2,,θd]TRd ,它的概率密度函数为 f(x;θ) 满足后面的两个正则化条件。Fisher信息矩阵是一个 d×d 的矩阵,元素 Im,k 定义为

Im,k=E[θmlnf(x;θ)θklnf(x;θ)]=E[2θmθklnf(x;θ)]

T(X) 为一个向量函数的估计, T(X)=(T1(X),T2(X),,Td(X))T ,记它的期望向量 E[T(X)] ϕ(θ) 。Cramer-Rao下界认为T(X)的协方差矩阵满足

Covθ(T(X))ϕ(θ)θ[I(θ)]1(ϕ(θ)θ)T

其中

  • 矩阵大于等于符号 AB 表示 AB 是一个半正定矩阵;
  • ϕ(θ)/θ 是雅克比矩阵,它的第 ij 个元素为 ϕi(θ)/θj

T(X) θ 的无偏估计(例如 T(θ)=θ ),则Cramer-Rao法则退化为

Covθ(T(X))I(θ)1

两个正则化条件

边界依赖两个关于 f(x;θ) T(X) 的弱正则化条件:

  • Fisher信息矩阵总是存在。等价地说,对于所有 x ,如果 f(x;θ)>0 ,则 lnf(x;θ)/θ 存在并且有限。
  • x 的积分和对 θ 的微分可以交换顺序。也就是说,在下式右侧有限时,有
    θ[T(x)f(x;θ)dx]=T(x)[θf(x;θ)]dx

上述条件通常可以通过以下任意一个条件来确认:

  1. 函数 f(x;θ) x 中有边界支持,并且边界不依赖于 θ
  2. 函数 f(x;θ) 有有限的支持,连续可微,并且对于所有 θ 积分收敛。

标量情形的证明

假设 T=t(X) 是一个 ϕ(θ) 的无偏估计,且 E(T)=ϕ(θ) 。目标是证明,对于所有 θ

Var(t(X))[ϕ(θ)]2I(θ)

X 为随机变量,且概率密度函数为 f(x;θ) . T=t(X) 为统计量,且作为 ϕ(θ) 的估计。定义 V 为概率密度函数关于 θ 的偏导数

V=θlnf(X;θ)=1f(X;θ)θf(X;θ)

可以发现, V 的概率密度函数也是 f(X;θ) 。利用第二个正则化条件,可以得到 V 的期望为0。即
E(V)=f(x;θ)[1f(x;θ)θf(x;θ)]dx=θ[f(x;θ)dx]=0

因为 E(V)=0 ,由协方差定义式可以推出 Cov(V,T)=E(VT) 。展开可以得到
Cov(V,T)= = = =E(T[1f(X;θ)θf(X;θ)])t(x)[1f(x;θ)θf(x;θ)]f(x;θ)dxθ[t(x)f(x;θ)dx]ϕ(θ)

由柯西-施瓦茨不等式可得
Var(T)Var(V)|Cov(V,T)|=|ϕ(θ)|

因此
Var(T)[ϕ(θ)]2Var(V)=[ϕ(θ)]2I(θ)

参考文献

https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions

你可能感兴趣的:(概率统计)