假设有样本数据 Y=y Y = y ,需要估计没有样本数据的随机变量 X X 。认为待估计值 x^ x ^ 是 y y 的函数:
x^=g(y) x ^ = g ( y )
例如,给定 Y=y Y = y ,则 X X 的 MMSE M M S E 估计为
g(y)=E[X|Y=y]. g ( y ) = E [ X | Y = y ] .
但是,我们很难在实际应用中使用 MMSE M M S E 估计。原因如下:首先,函数 g(y)=E[X|Y=y] g ( y ) = E [ X | Y = y ] 的表达式可能很复杂。其次,为了得到 E[X|Y=y] E [ X | Y = y ] ,我们需要知道条件概率密度函数 fX|Y(y) f X | Y ( y ) ,而这在某些问题中很难获得。
为了避免这些难题,可以用一个简单点的函数式 g(y) g ( y ) 来估计 X X 。在实际应用中,一般将 g(y) g ( y ) 定义为 y y 线性函数。因此,可以将 X X 的估计写为如下形式:
XL^=g(Y)=aY+b, X L ^ = g ( Y ) = a Y + b ,
其中, a a 和 b b 为待求解的实数。具体来讲,我们的目的是求解 a a 和 b b ,使得上述估计的 MSE=E[(X−XL^)2 M S E = E [ ( X − X L ^ ) 2 最小。将求解得到的 a a 和 b b 代入原式,即为线性 MMSE M M S E 。下面的定理将会给出 a a 和 b b 取最优值得推导。
定理 9.1
假设随机变量 X X 和 Y Y 的均值和方差都是有限大的实数, ρ ρ 是 X X 和 Y Y 相关系数,对于函数:
h(a,b)=E[(X−aY−b)2]. h ( a , b ) = E [ ( X − a Y − b ) 2 ] .
有如下性质,
1. 当
a=a∗=Cov(X,Y)Var(Y),b=b∗=EX−aEY. a = a ∗ = C o v ( X , Y ) V a r ( Y ) , b = b ∗ = E X − a E Y .
时,函数 h(a,b) h ( a , b ) 取最小值。
2. h(a∗,b∗)=(1−ρ2)Var(X). h ( a ∗ , b ∗ ) = ( 1 − ρ 2 ) V a r ( X ) .
3. E[(X−a∗Y−b∗)Y]=0(正交定理) E [ ( X − a ∗ Y − b ∗ ) Y ] = 0 ( 正 交 定 理 )
证明:
由定理9.1可知,
h(a,b)=E[(X−aY−b)2]=E[X2+a2Y2+b2−2aXY−2bX+2abY]=EX2+a2EY2+b2−2aEXY−2bEX+2abEY. h ( a , b ) = E [ ( X − a Y − b ) 2 ] = E [ X 2 + a 2 Y 2 + b 2 − 2 a X Y − 2 b X + 2 a b Y ] = E X 2 + a 2 E Y 2 + b 2 − 2 a E X Y − 2 b E X + 2 a b E Y .
因此 h(a,b) h ( a , b ) 是关于 a a 和 b b 的二次函数,分别对 a a 和 b b 取导,并使它们为0。有
EY2⋅a+EY⋅bEY⋅a+b=EXY=EX(9.4)(9.5) (9.4) E Y 2 ⋅ a + E Y ⋅ b = E X Y (9.5) E Y ⋅ a + b = E X
求解上面方程组即可获得 a a 和 b b ,
a∗=Cov(X,Y)VarY, b∗=EX−aEY. a ∗ = C o v ( X , Y ) V a r Y , b ∗ = E X − a E Y .
根据二阶导数性质,当 a a 和 b b 取上述值时,函数 h(a,b) h ( a , b ) 为最小值。根据等式 (9.5) ( 9.5 ) ,有 E(X−a∗Y−b∗]=0 E ( X − a ∗ Y − b ∗ ] = 0 。从而可知,
h(a∗,b∗)=E[(X−a∗Y−b∗)2]=Var(X−a∗Y−b∗)=Var(X−a∗Y)=Var(X)+a∗2Var(Y)−2a∗Cov(X,Y)=Var(X)+Cov(X,Y)2Var(Y)2Var(Y)−2Cov(X,Y)Var(Y)Cov(X,Y)=Var(X)−Cov(X,Y)2Var(Y)=(1−ρ2)Var(X). h ( a ∗ , b ∗ ) = E [ ( X − a ∗ Y − b ∗ ) 2 ] = V a r ( X − a ∗ Y − b ∗ ) = V a r ( X − a ∗ Y ) = V a r ( X ) + a ∗ 2 V a r ( Y ) − 2 a ∗ C o v ( X , Y ) = V a r ( X ) + C o v ( X , Y ) 2 V a r ( Y ) 2 V a r ( Y ) − 2 C o v ( X , Y ) V a r ( Y ) C o v ( X , Y ) = V a r ( X ) − C o v ( X , Y ) 2 V a r ( Y ) = ( 1 − ρ 2 ) V a r ( X ) .
最后,根据等式 (9.4) ( 9.4 ) 有:
E(X−a∗Y−b∗)Y]=EXY−a∗EY2−b∗EY=0. E ( X − a ∗ Y − b ∗ ) Y ] = E X Y − a ∗ E Y 2 − b ∗ E Y = 0.
注意, X X 在给定 Y Y 时的线性 MMSE M M S E 估计误差为 X^=X−a∗Y−b∗ X ^ = X − a ∗ Y − b ∗ ,根据定理 9.1 9.1 ,可以得出:
E[X^]E[X^Y]=0,=0. E [ X ^ ] = 0 , E [ X ^ Y ] = 0.
因此,可以将 X X 关于 Y Y 的线性 MMSE M M S E 估计写为:
XL^=Cov(X,Y)Var(Y)(Y−EY)+EX. X L ^ = C o v ( X , Y ) V a r ( Y ) ( Y − E Y ) + E X .
设 X X 和 Y Y 的相关系数为 ρ=ρ(X,Y) ρ = ρ ( X , Y ) ,则有 Cov(X,Y)=ρσX,σY C o v ( X , Y ) = ρ σ X , σ Y ,上式可以写为:
XL^=ρσXσY(Y−EY)+EX. X L ^ = ρ σ X σ Y ( Y − E Y ) + E X .
线性 MMSE M M S E 估计
假设我们有变量 Y Y 的样本数据,随机变量 X X 的线性 MMSE M M S E 估计为:
XL^=Cov(X,Y)Var(Y)(Y−EY)+EX=ρσXσY(Y−EY)+EX. X L ^ = C o v ( X , Y ) V a r ( Y ) ( Y − E Y ) + E X = ρ σ X σ Y ( Y − E Y ) + E X .
该估计的误差 X^=X−XL^ X ^ = X − X L ^ ,满足正交性质:
E[X^]Cov(X^,Y)=0,=E[X^Y]=0. E [ X ^ ] = 0 , C o v ( X ^ , Y ) = E [ X ^ Y ] = 0.
线性 MMSE M M S E 的 MSE M S E 为:
E[(X−XL)2]=E[X^2]=(1−ρ2)Var(X). E [ ( X − X L ) 2 ] = E [ X ^ 2 ] = ( 1 − ρ 2 ) V a r ( X ) .
注意,为了计算 X X 的线性 MMSE M M S E 估计,我们只需要知道期望 E(X) E ( X ) , E(Y) E ( Y ) ,方差 σX σ X 和 σY σ Y ,以及协方差 Cov(X,Y) C o v ( X , Y ) ,相对 MMSE M M S E 估计, LMMSE L M M S E 的条件容易满足很多。
注:本文翻译自:Linear MMSE Estimation of Random Variables