工作小笔记——对MLE和MAP的简单理解

文章目录

  • 前言
  • 1. 问题描述
  • 1.1 MLE
  • 1.2 MAP
  • 2. 简单通信系统的例子
    • 2.1 MLE解调
    • 2.2 MAP解调
  • 3. 数据拟合
    • 3.1 MLE的推导及其与最小二乘的关系
    • 3.2 MAP的考虑
  • 参考文献


前言

本文简单描述最大似然估计(MLE, Maximum Likelihood Estimation)和最大后验概率估计(Maximum A Posteri)的关系和区别。

1. 问题描述

考虑一个随机变量A和它的观测值B,如何通过观测到B的值估计A的值?有两种基于条件概率的估计方式:

  • 第一种,构造一个条件概率函数: P ( B ∣ A ) P(B|A) P(BA),即已知A的情况下B的概率分布,求满足该条件概率最大的A的值,即为A的估计值。
  • 第二种,构造一个条件概率函数: P ( A ∣ B ) P(A|B) P(AB),即已知B的情况下A的概率分布,求满足该条件概率最大的A的值,即为A的估计值;

1.1 MLE

考虑上述第一种,我们求满足 P ( B ∣ A ) P(B|A) P(BA)最大的A的值。 P ( B ∣ A ) P(B|A) P(BA)又称为似然概率,所以这种估计方式叫做最大似然估计(MLE)。

1.2 MAP

考虑上述第二种,求满足 P ( A ∣ B ) P(A|B) P(AB)最大的A的值。也就是说,求观测到B的情况下,A最有可能的值,直观上来说,这是我们真正要做的事情。然后,一般而言,条件概率 P ( A ∣ B ) P(A|B) P(AB)并不好求。于是,根据贝叶斯公式进行变换后可得求A的估计值的公式:
A ^ = argmax A [ P ( A ∣ B ) ] = argmax A [ P ( B ∣ A ) × P ( A ) P ( B ) ] = argmax A [ P ( B ∣ A ) × P ( A ) ] \begin{aligned} \hat{A} &= \text{argmax}_{A}[P(A|B)] \\ &= \text{argmax}_{A}[\frac{P(B|A) \times P(A)}{P(B)}] \\ &= \text{argmax}_{A}[P(B|A) \times P(A)] \end{aligned} A^=argmaxA[P(AB)]=argmaxA[P(B)P(BA)×P(A)]=argmaxA[P(BA)×P(A)]

2. 简单通信系统的例子

以一个简单通信系统为例,假设发送端发送的符号是一个两电平信号,分别为0和1,经过一个高斯白噪声信道后,接收端根据接收到的信号来判决发送的是0还是1。

2.1 MLE解调

接收到的信号 R R R是一个随机变量,满足 R ∈ N ( μ , σ 2 ) R \in N(\mu, \sigma^2) RN(μ,σ2)的概率分布,其中:

  • 发送符号为0时, R ∈ N ( 0 , σ 2 ) R \in N(0, \sigma^2) RN(0,σ2),其概率密度函数如下图蓝线所示;
  • 发送符号为1时, R ∈ N ( 1 , σ 2 ) R \in N(1, \sigma^2) RN(1,σ2),其概率密度函数如下图红线所示。
    工作小笔记——对MLE和MAP的简单理解_第1张图片
    那么,如何根据接收到的信号幅度估计发送的符号是0还是1?显然,把接收到的信号幅度值对应到上图的x轴,判断这两条曲线的y轴值,选取y值最大的那条概率密度曲线对应的符号作为估计值。
    如上图中红色箭头所示的位置,发送符号的估计值为1。

2.2 MAP解调

还是以上面这个简单通信系统举例,由于已知发送的两电平符号的概率是均匀分布,也就是说发0和发1的概率是一样的,所以上述MAP的公式退化为MLE。

假设我们知道发送端发送符号时,有0.3的概率发0,有0.7的概率发1,那么0和1时的两条概率曲线变成下图所示。给定一个x的值,很大概率会被判成1。似乎和常识不符。
工作小笔记——对MLE和MAP的简单理解_第2张图片

3. 数据拟合

假设有一组样本数据: D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } \textbf{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_n, y_n) \} D={(x1,y1),(x2,y2),...,(xn,yn)},其中:

  • x i \mathbf{x}_i xi为一个 m m m维的向量, x i = [ x i 1 x i 2 x i 3 . . . x i m ] T \mathbf{x}_i = \begin{bmatrix} x_{i1} & x_{i2} & x_{i3} & ... & x_{im} \end{bmatrix}^T xi=[xi1xi2xi3...xim]T i = 1 , . . , n i=1,..,n i=1,..,n
  • y i y_i yi为标量
  • y i y_i yi x i x_i xi之间满足如下映射关系: y i = ω T x i + b y_i = \mathbf{\omega}^T \mathbf{x}_i + \mathbf{b} yi=ωTxi+b,其中:
    ω = [ ω 1 ω 2 ω 3 . . . ω m ] T \mathbf{\omega} = \begin{bmatrix} \omega_1 & \omega_2 & \omega_3 & ... & \omega_m \end{bmatrix}^T ω=[ω1ω2ω3...ωm]T

3.1 MLE的推导及其与最小二乘的关系

数据拟合的问题就是已知样本集合 D D D的情况下,估计 ω \mathbf{\omega} ω的过程。这个过程可以用最大似然的概念来描述,就是求 argmax ω [ P ( D ∣ ω ) ] \textbf{argmax}_{\mathbf{\omega}}[P(\textbf{D} | \mathbf{\omega})] argmaxω[P(Dω)]

上述过程中,如果令 x i 0 = 1 x_{i0}=1 xi0=1,则 b b b可以吸收到 ω T x i \mathbf{\omega}^T \mathbf{x}_i ωTxi中去,为了简化起见,以下推导都省略 b b b

P ( D ∣ ω ) = ∏ i = 0 n p ( x i , y i ∣ ω ) \begin{aligned} P(\textbf{D} | \mathbf{\omega}) &= \prod_{i=0}^{n}p(\textbf{x}_i, y_i |\mathbf{\omega}) \end{aligned} P(Dω)=i=0np(xi,yiω)
对于数据集合,可以认为其样本包含高斯噪声,即: y i = ω T x i + N ( 0 , σ 2 ) y_i = \mathbf{\omega}^T \mathbf{x}_i + N(0,\sigma^2) yi=ωTxi+N(0,σ2),所以有:
p ( x i , y i ∣ ω ) = 1 2 π exp ( − ( y i − ω T x i ) 2 2 σ 2 ) p(\textbf{x}_i, y_i |\mathbf{\omega}) =\frac{1}{\sqrt{2\pi}} \textbf{exp} (- \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}) p(xi,yiω)=2π 1exp(2σ2(yiωTxi)2)

采用对数似然函数可以得到:
L ( ω ) = ∑ ( l o g 1 2 π − ( y i − ω T x i ) 2 2 σ 2 ) L(\omega) = \sum(\mathbf{log}\frac{1}{\sqrt{2\pi}} - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}) L(ω)=(log2π 12σ2(yiωTxi)2)

去除与 ω \omega ω无关项,最大似然估计的 ω ^ \hat{\mathbf{\omega}} ω^,即求似然函数 L ( ω ) L(\omega) L(ω)的最大值等价于:
ω ^ = argmax ω [ L ( ω ) ] = argmin ω [ ∑ ( y i − ω T x i ) 2 ] \begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)] \\ &= \textbf{argmin}_{\mathbf{\omega}}[ \sum(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2 ] \end{aligned} ω^=argmaxω[L(ω)]=argminω[(yiωTxi)2]
由此可知,在观测为高斯噪声条件下,最大似然等价于最小二乘。

3.2 MAP的考虑

如果说 ω \omega ω的先验概率已知,即 p ( ω ) p(\omega) p(ω)为已知函数,那么MAP的估计值就是:
ω ^ = argmax ω [ L ( ω ) + l o g p ( ω ) ] = argmax ω [ l o g p ( ω ) − ( y i − ω T x i ) 2 2 σ 2 ] \begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)+\mathbf{log}p(\omega)] \\ &= \textbf{argmax}_{\mathbf{\omega}}[\mathbf{log}p(\omega) - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}] \end{aligned} ω^=argmaxω[L(ω)+logp(ω)]=argmaxω[logp(ω)2σ2(yiωTxi)2]
如果 p ( ω ) p(\omega) p(ω)也是高斯分布,那么MAP就变成了kalmann滤波器。

参考文献

无。

你可能感兴趣的:(概率论,机器人,算法,学习)