本文简单描述最大似然估计(MLE, Maximum Likelihood Estimation)和最大后验概率估计(Maximum A Posteri)的关系和区别。
考虑一个随机变量A和它的观测值B,如何通过观测到B的值估计A的值?有两种基于条件概率的估计方式:
考虑上述第一种,我们求满足 P ( B ∣ A ) P(B|A) P(B∣A)最大的A的值。 P ( B ∣ A ) P(B|A) P(B∣A)又称为似然概率,所以这种估计方式叫做最大似然估计(MLE)。
考虑上述第二种,求满足 P ( A ∣ B ) P(A|B) P(A∣B)最大的A的值。也就是说,求观测到B的情况下,A最有可能的值,直观上来说,这是我们真正要做的事情。然后,一般而言,条件概率 P ( A ∣ B ) P(A|B) P(A∣B)并不好求。于是,根据贝叶斯公式进行变换后可得求A的估计值的公式:
A ^ = argmax A [ P ( A ∣ B ) ] = argmax A [ P ( B ∣ A ) × P ( A ) P ( B ) ] = argmax A [ P ( B ∣ A ) × P ( A ) ] \begin{aligned} \hat{A} &= \text{argmax}_{A}[P(A|B)] \\ &= \text{argmax}_{A}[\frac{P(B|A) \times P(A)}{P(B)}] \\ &= \text{argmax}_{A}[P(B|A) \times P(A)] \end{aligned} A^=argmaxA[P(A∣B)]=argmaxA[P(B)P(B∣A)×P(A)]=argmaxA[P(B∣A)×P(A)]
以一个简单通信系统为例,假设发送端发送的符号是一个两电平信号,分别为0和1,经过一个高斯白噪声信道后,接收端根据接收到的信号来判决发送的是0还是1。
接收到的信号 R R R是一个随机变量,满足 R ∈ N ( μ , σ 2 ) R \in N(\mu, \sigma^2) R∈N(μ,σ2)的概率分布,其中:
还是以上面这个简单通信系统举例,由于已知发送的两电平符号的概率是均匀分布,也就是说发0和发1的概率是一样的,所以上述MAP的公式退化为MLE。
假设我们知道发送端发送符号时,有0.3的概率发0,有0.7的概率发1,那么0和1时的两条概率曲线变成下图所示。给定一个x的值,很大概率会被判成1。似乎和常识不符。
假设有一组样本数据: D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } \textbf{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_n, y_n) \} D={(x1,y1),(x2,y2),...,(xn,yn)},其中:
数据拟合的问题就是已知样本集合 D D D的情况下,估计 ω \mathbf{\omega} ω的过程。这个过程可以用最大似然的概念来描述,就是求 argmax ω [ P ( D ∣ ω ) ] \textbf{argmax}_{\mathbf{\omega}}[P(\textbf{D} | \mathbf{\omega})] argmaxω[P(D∣ω)]。
上述过程中,如果令 x i 0 = 1 x_{i0}=1 xi0=1,则 b b b可以吸收到 ω T x i \mathbf{\omega}^T \mathbf{x}_i ωTxi中去,为了简化起见,以下推导都省略 b b b。
P ( D ∣ ω ) = ∏ i = 0 n p ( x i , y i ∣ ω ) \begin{aligned} P(\textbf{D} | \mathbf{\omega}) &= \prod_{i=0}^{n}p(\textbf{x}_i, y_i |\mathbf{\omega}) \end{aligned} P(D∣ω)=i=0∏np(xi,yi∣ω)
对于数据集合,可以认为其样本包含高斯噪声,即: y i = ω T x i + N ( 0 , σ 2 ) y_i = \mathbf{\omega}^T \mathbf{x}_i + N(0,\sigma^2) yi=ωTxi+N(0,σ2),所以有:
p ( x i , y i ∣ ω ) = 1 2 π exp ( − ( y i − ω T x i ) 2 2 σ 2 ) p(\textbf{x}_i, y_i |\mathbf{\omega}) =\frac{1}{\sqrt{2\pi}} \textbf{exp} (- \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}) p(xi,yi∣ω)=2π1exp(−2σ2(yi−ωTxi)2)
采用对数似然函数可以得到:
L ( ω ) = ∑ ( l o g 1 2 π − ( y i − ω T x i ) 2 2 σ 2 ) L(\omega) = \sum(\mathbf{log}\frac{1}{\sqrt{2\pi}} - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}) L(ω)=∑(log2π1−2σ2(yi−ωTxi)2)
去除与 ω \omega ω无关项,最大似然估计的 ω ^ \hat{\mathbf{\omega}} ω^,即求似然函数 L ( ω ) L(\omega) L(ω)的最大值等价于:
ω ^ = argmax ω [ L ( ω ) ] = argmin ω [ ∑ ( y i − ω T x i ) 2 ] \begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)] \\ &= \textbf{argmin}_{\mathbf{\omega}}[ \sum(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2 ] \end{aligned} ω^=argmaxω[L(ω)]=argminω[∑(yi−ωTxi)2]
由此可知,在观测为高斯噪声条件下,最大似然等价于最小二乘。
如果说 ω \omega ω的先验概率已知,即 p ( ω ) p(\omega) p(ω)为已知函数,那么MAP的估计值就是:
ω ^ = argmax ω [ L ( ω ) + l o g p ( ω ) ] = argmax ω [ l o g p ( ω ) − ( y i − ω T x i ) 2 2 σ 2 ] \begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)+\mathbf{log}p(\omega)] \\ &= \textbf{argmax}_{\mathbf{\omega}}[\mathbf{log}p(\omega) - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}] \end{aligned} ω^=argmaxω[L(ω)+logp(ω)]=argmaxω[logp(ω)−2σ2(yi−ωTxi)2]
如果 p ( ω ) p(\omega) p(ω)也是高斯分布,那么MAP就变成了kalmann滤波器。
无。