若我们有观测量
y = x + w , y=x+w, y=x+w,其中 w ∼ N ( 0 , N 0 2 ) w\sim \mathcal{N}(0,\frac{N_0}{2}) w∼N(0,2N0),为了从独立的AWGN中获得零均值实信号 x x x的估值 x ^ \hat x x^,我们采用MSE估计,即
M S E : = E [ ( x − x ^ ) 2 ] , {\rm MSE}:={\mathbb E}[(x-{\hat x})^2], MSE:=E[(x−x^)2],这里的平均既是针对随机信号 x x x的,也是针对噪声 w w w的。估计问题与高斯噪声中的检测问题有很大不同,因为检测是要在有限种可能中做出判断,而估计问题却是要获得估计值。
下面我们先从无观测时的估计出发,随后再讨论有观测的情况。
现在有一随机变量 X X X,想要对其进行估计,假定其PDF p X ( x ) p_{\rm X}(x) pX(x)已知,则其MSE为
M S E = E [ ( X − x ^ ) 2 ] = ∫ ( x − x ^ ) 2 p X ( x ) d x . {\rm MSE}={\mathbb E}[(X-{\hat x})^2]=\int{(x-{\hat x})^2p_{\rm X}(x)}dx. MSE=E[(X−x^)2]=∫(x−x^)2pX(x)dx.为了最小化MSE,我们求其关于 x ^ \hat x x^的一阶导数,有
− 2 ∫ ( x − x ^ ) p X ( x ) d x = 0 , -2\int{(x-{\hat x})p_{\rm X}(x)}dx=0, −2∫(x−x^)pX(x)dx=0,因此
∫ x ^ p X ( x ) d x = ∫ x p X ( x ) d x , \int {{\hat x}p_{\rm X}(x)}dx=\int {xp_{\rm X}(x)}dx, ∫x^pX(x)dx=∫xpX(x)dx,即 x ^ = E [ X ] {\hat x}={\mathbb E}[X] x^=E[X]。进一步,我们求MSE关于 x ^ \hat x x^的二阶导数,有
2 ∫ p X ( x ) d x = 2 > 0 , 2\int{p_{\rm X}(x)}dx=2>0, 2∫pX(x)dx=2>0,即当 x ^ = E [ X ] {\hat x}={\mathbb E}[X] x^=E[X]时,MSE最小。这样我们可以得到最小MSE为
M S E = E [ ( X − x ^ ) 2 ] = E [ ( X − E [ X ] ) 2 ] = v a r [ X ] . {\rm MSE}={\mathbb E}[(X-{\hat x})^2]={\mathbb E}[(X-{\mathbb E}[X])^2]={\rm var}[X]. MSE=E[(X−x^)2]=E[(X−E[X])2]=var[X].
【小结】如果我们知道随机变量 X X X的PDF,则当其估计值 x ^ = E [ X ] {\hat x}={\mathbb E}[X] x^=E[X]时候,能够得到最小MSE,这个最小MSE就是 X X X的方差。
若我们有观测量
Y = X + W , Y=X+W, Y=X+W,其中 W ∼ N ( 0 , N 0 2 ) W\sim \mathcal{N}(0,\frac{N_0}{2}) W∼N(0,2N0)为独立的AWGN,则可以用后验概率密度函数 p X ∣ Y ( x ∣ y ) p_{\rm X|Y}(x|y) pX∣Y(x∣y)来代替 p x ( x ) p_{\rm x}(x) px(x)。现在我们的目标是最小化
M S E : = E [ ( X − x ^ ( y ) ) 2 ∣ Y = y ] = ∫ ( x − x ^ ( y ) ) 2 p X ∣ Y ( x ∣ y ) d x , {\rm MSE}:={\mathbb E}[(X-{\hat x(y)})^2|Y=y]=\int{(x-{\hat x(y)})^2p_{\rm X|Y}(x|y)}dx, MSE:=E[(X−x^(y))2∣Y=y]=∫(x−x^(y))2pX∣Y(x∣y)dx,这里我们引入 x ^ ( y ) {\hat x}(y) x^(y)是想表示与测量值 Y Y Y的特定取值 y y y相关联的估计值 x ^ \hat x x^(这意味着不同的 y y y会有不同估计值 x ^ \hat x x^),不过为了表达式看起来更简洁,下文中我们用 x ^ \hat x x^代替 x ^ ( y ) \hat x(y) x^(y)。与无测量情况相同,我们求一阶导数:
− 2 ∫ ( x − x ^ ) p X ∣ Y ( x ∣ y ) d x = 0 , -2\int{(x-{\hat x})p_{\rm X|Y}(x|y)}dx=0, −2∫(x−x^)pX∣Y(x∣y)dx=0,因此可以得到
x ^ = ∫ x p X ∣ Y ( x ∣ y ) d x = E [ X ∣ Y = y ] . {\hat x}=\int{xp_{\rm X|Y}(x|y)}dx={\mathbb E}[X|Y=y]. x^=∫xpX∣Y(x∣y)dx=E[X∣Y=y].与之相关的MMSE为条件方差 σ Y ∣ X 2 \sigma_{\rm Y|X}^2 σY∣X2。显然与无测量时的唯一区别在于,我们将测量值作为条件。
【小结】如果我们知道与随机变量 X X X相关的随机变量 Y = y Y=y Y=y(观测量),则当 X X X的估计值 x ^ = E [ X ∣ Y = y ] {\hat x}={\mathbb E}[X|Y=y] x^=E[X∣Y=y]时候,能够得到最小MSE,这个最小MSE就是条件方差 σ Y ∣ X 2 \sigma_{\rm Y|X}^2 σY∣X2。
下面我们来说明问什么MMSE估计器具有正交性质,即误差与观测量独立:
E [ ( X − x ^ ) Y ] = 0. {\mathbb E}[(X-\hat x)Y]=0. E[(X−x^)Y]=0.
证明:
由于 x ^ \hat x x^为 X X X的估计值,因此有
E X Y [ x ^ Y ] = ∫ − ∞ ∞ ∫ − ∞ ∞ x ^ y p X , Y ( x , y ) d x d y {\mathbb E}_{\rm XY}[{\hat x}Y]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}{\hat x}yp_{\rm X,Y}(x,y)dxdy EXY[x^Y]=∫−∞∞∫−∞∞x^ypX,Y(x,y)dxdy = ∫ − ∞ ∞ y p y ( y ) [ ∫ − ∞ ∞ x ^ p X ∣ Y ( x ∣ y ) d x ] d y , =\int_{-\infty}^{\infty}yp_{\rm y}(y)[\int_{-\infty}^{\infty}{\hat x}p_{\rm X|Y}(x|y)dx]dy, =∫−∞∞ypy(y)[∫−∞∞x^pX∣Y(x∣y)dx]dy,对于MMSE估计,由于 x ^ = E [ X ∣ Y = y ] {\hat x}={\mathbb E}[X|Y=y] x^=E[X∣Y=y],因此有
E X Y [ x ^ Y ] = ∫ − ∞ ∞ y p y ( y ) [ ∫ − ∞ ∞ x p X ∣ Y ( x ∣ y ) d x ] d y {\mathbb E}_{\rm XY}[{\hat x}Y]=\int_{-\infty}^{\infty}yp_{\rm y}(y)[\int_{-\infty}^{\infty}{ x}p_{\rm X|Y}(x|y)dx]dy EXY[x^Y]=∫−∞∞ypy(y)[∫−∞∞xpX∣Y(x∣y)dx]dy = ∫ − ∞ ∞ ∫ − ∞ ∞ x y p X , Y ( x , y ) d x d y = E X Y [ X Y ] . =\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}{x}yp_{\rm X,Y}(x,y)dxdy={\mathbb E}_{\rm XY}[XY]. =∫−∞∞∫−∞∞xypX,Y(x,y)dxdy=EXY[XY].故可以得到
E X Y [ ( X − x ^ ) Y ] = 0. {\mathbb E}_{\rm XY}[({X-\hat x})Y]=0. EXY[(X−x^)Y]=0.获证。
显然,决定MMSE正交特性的关键原因是,此时的估计值 x ^ \hat x x^就是 X X X在 Y = y Y=y Y=y时候的条件均值,即 x ^ = E [ X ∣ Y = y ] {\hat x}={\mathbb E}[X|Y=y] x^=E[X∣Y=y]。一般来说,条件均值算子 E [ X ∣ y ] {\mathbb E}[X|y] E[X∣y]是关于 y y y的复杂非线性函数。为了简化分析,我们假定该算子是线性的,由于 x x x的均值为零,则有 x ^ = c Y 。 事 实 上 , {\hat x=cY}。事实上, x^=cY。事实上,当 x x x是高斯随机变量时,这个假定不失一般性,因为在这种情况下,条件平均算子确实是线性的。
下面我们来看如何获得 c c c?由MMSE的正交性可以得到
E [ ( X − c Y ) Y ] = 0 , {\mathbb E}[(X-cY)Y]=0, E[(X−cY)Y]=0,因此,有
E [ X 2 ] = c E [ X 2 ] + c E [ W 2 ] , {\mathbb E}[X^2]=c{\mathbb E}[X^2]+c{\mathbb E}[W^2], E[X2]=cE[X2]+cE[W2],故
c = E [ X 2 ] E [ X 2 ] + N 0 / 2 . c=\frac{{\mathbb E}[X^2]}{{\mathbb E}[X^2]+{N_0}/{2}}. c=E[X2]+N0/2E[X2].对该结果直觉上的理解是,我们用发送信号能量( E [ X 2 ] {\mathbb E}[X^2] E[X2])在总接收能量( E [ X 2 ] + N 0 / 2 {\mathbb E}[X^2]+{N_0}/{2} E[X2]+N0/2)中所占的比例大小,对接收信号 y y y进行加权。此时相应的MMSE为
E [ ( X − x ^ ) 2 ] = E [ ( X − c Y ) 2 ] = c ⋅ N 0 2 , {\mathbb E}[(X-\hat x)^2]={\mathbb E}[(X-cY)^2]=c\cdot\frac{N_0}{2} , E[(X−x^)2]=E[(X−cY)2]=c⋅2N0,即
M M S E : E [ X 2 ] ⋅ N 0 2 E [ X 2 ] + N 0 / 2 . {\rm MMSE:}\ \frac{{\mathbb E}[X^2]\cdot \frac{N_0}{2}}{{\mathbb E}[X^2]+{N_0}/{2}}. MMSE: E[X2]+N0/2E[X2]⋅2N0.
现在考虑在向量空间中估计 X X X,即
y = h x + w , {\bf y}={\bf h}x+{\bf w}, y=hx+w,这里的 x x x与 w ∼ N ( 0 , N 0 2 I ) {\bf w}\sim {\mathcal N}(0,\frac{N_0}{2}{\bf I}) w∼N(0,2N0I)相互独立, h ∈ R n {\bf h}\in {\mathbb R}^n h∈Rn。已知 y \bf y y到 h \bf h h方向上的映射
y ~ = h T y ∣ ∣ h ∣ ∣ 2 = x + w \tilde y=\frac{{\bf h}^{\rm T}{\bf y}}{||\bf h||^2}=x+w y~=∣∣h∣∣2hTy=x+w是充分统计量,这是因为 y \bf y y到与 h \bf h h正交方向上的映射与信号 x x x以及 w w w( h \bf h h方向上的噪声)都正交。这样我们就可以将问题变为标量估计:从 y ~ \tilde y y~中估计 x x x,其中 w ∼ N ( 0 , N 0 2 ∣ ∣ h ∣ ∣ 2 ) w\sim {\mathcal N}(0,\frac{N_0}{2||{\bf h}||^2}) w∼N(0,2∣∣h∣∣2N0)。因此,应用MMSE估计,可以得到 x x x的最优线性估计为
x ^ = E [ X 2 ] ∣ ∣ h ∣ ∣ 2 E [ X 2 ] ∣ ∣ h ∣ ∣ 2 + N 0 / 2 y ~ , {\hat x}=\frac{{\mathbb E}[X^2]||{\bf h}||^2}{{\mathbb E}[X^2]||{\bf h}||^2+{N_0}/{2}}{\tilde y}, x^=E[X2]∣∣h∣∣2+N0/2E[X2]∣∣h∣∣2y~,根据 x ^ = c T y \hat x={\bf c}^{\rm T}{\bf y} x^=cTy,可得
c = E [ X 2 ] E [ X 2 ] ∣ ∣ h ∣ ∣ 2 + N 0 / 2 h , {\bf c}=\frac{{\mathbb E}[X^2]}{{\mathbb E}[X^2]||{\bf h}||^2+{N_0}/{2}}{\bf h}, c=E[X2]∣∣h∣∣2+N0/2E[X2]h,以及
M M S E = E [ X 2 ] ⋅ N 0 2 E [ X 2 ] ∣ ∣ h ∣ ∣ 2 + N 0 / 2 . {\rm MMSE}=\frac{{\mathbb E}[X^2]\cdot \frac{N_0}{2}}{{\mathbb E}[X^2]||{\bf h}||^2+{N_0}/{2}}. MMSE=E[X2]∣∣h∣∣2+N0/2E[X2]⋅2N0.
另外一种衡量线性估计器性能的指标是信噪比
S N R : = ( c T h ) 2 E [ x 2 ] ∣ ∣ c ∣ ∣ 2 ⋅ N 0 2 , {\rm SNR}:=\frac{({\bf c}^{\rm T}{\bf h})^2{\mathbb E}[x^2]}{||{\bf c}||^2\cdot \frac{N_0}{2}}, SNR:=∣∣c∣∣2⋅2N0(cTh)2E[x2],定义为估计中信号能量与噪声能量的比值,这是由 x ^ = c T y \hat x={\bf c}^{\rm T}{\bf y} x^=cTy得到的。
将我们的讨论扩展到复数域是很自然的。我们首先考虑复数标量估计
y = x + w , y=x+w, y=x+w,这里 w ∼ C N ( 0 , N 0 ) w\sim {\mathcal CN}(0,N_0) w∼CN(0,N0)与零均值发送信号 x x x独立。假定线性估计 x ^ = c ∗ y \hat x=c^*y x^=c∗y,有
M S E = E [ ∣ x − x ^ ∣ 2 ] {\rm MSE}={\mathbb E}[|x-\hat x|^2] MSE=E[∣x−x^∣2] c = E [ ∣ x ∣ 2 ] E [ ∣ x ∣ 2 ] + N 0 , c=\frac{{\mathbb E}[|x|^2]}{{\mathbb E}[|x|^2]+{N_0}}, c=E[∣x∣2]+N0E[∣x∣2], M M S E = E [ X 2 ] N 0 E [ X 2 ] + N 0 . {\rm MMSE}=\frac{{\mathbb E}[X^2]N_0}{{\mathbb E}[X^2]+{N_0}}. MMSE=E[X2]+N0E[X2]N0.
MMSE的正交性为 E [ ( x ^ − x ) y ∗ ] = 0. {\mathbb E}[(\hat x -x)y^*]=0. E[(x^−x)y∗]=0.
下面考虑如何在复向量空间里估计标量 x x x
y = h x + w , {\bf y}={\bf h}x+{\bf w}, y=hx+w,其中 w ∼ C N ( 0 , N 0 I ) w\sim {\mathcal CN}(0,N_0{\bf I}) w∼CN(0,N0I)与 x x x独立,且 h ∈ C n . {\bf h}\in \mathcal{C}^n. h∈Cn.与实向量空间类似,我们可以得到
y ~ = h H y ∣ ∣ h ∣ ∣ 2 = x + w , \tilde y=\frac{\bf h^{\rm H}y}{||{\bf h}||^2}=x+w, y~=∣∣h∣∣2hHy=x+w,其中, w ∼ C N ( 0 , N 0 ∣ ∣ h ∣ ∣ 2 ) w\sim{\mathcal CN}(0,\frac{N_0}{||{\bf h}||^2}) w∼CN(0,∣∣h∣∣2N0)。因此,最优估计器为
c = E [ X 2 ] E [ X 2 ] ∣ ∣ h ∣ ∣ 2 + N 0 h , {\bf c}=\frac{{\mathbb E}[X^2]}{{\mathbb E}[X^2]||{\bf h}||^2+{N_0}}{\bf h}, c=E[X2]∣∣h∣∣2+N0E[X2]h,以及
M M S E = E [ X 2 ] ⋅ N 0 E [ X 2 ] ∣ ∣ h ∣ ∣ 2 + N 0 . {\rm MMSE}=\frac{{\mathbb E}[X^2]\cdot {N_0}}{{\mathbb E}[X^2]||{\bf h}||^2+{N_0}}. MMSE=E[X2]∣∣h∣∣2+N0E[X2]⋅N0.