MLE和MAP关系详解

1.什么是MLE,什么是MAP

MLE:最大似然估计
MAP:最大后验估计
MLE通俗的讲:在估计模型的参数θ时,我们的依据是百分之百来自于观测数据的,也就是通过观测数据去预测参数θ,仅仅依赖于观测数据(样本)
MAP通俗的将:在估计模型的参数θ时,我们的依据不只是手中的观测数据,还要来自于一个先验。先验可理解为专家的经验
举一个栗子:
假设我们有一个不均匀的硬币,我们想要预测正面向上的概率(即参数θ),现在我们把这枚硬币抛了6次。用T代表正面,F代表反面,那么出现的观测值为 T, F, T, T, F, F

  • 根据这个结果,若用MLE的方法估计正面向上的概率是多少呢?
    因为MLE完全依赖于观测数据,正面向上出现了 3 次,所以 P(θ) = 3/ 6 = 1/2
  • 若用MAP来估计会怎样呢
    因为MAP方法会有一个先验,假设这里的先验是:专家告诉你这枚硬币正面出现的概率是 80%, 然而我们通过实验观察概率 只有 50%, 与先验有一定的差距,这个差距有可能是抛硬币的次数太少,所以我们还是听取专家的意见,取一个折中值 即 P(θ) = 50% ~ 80% 之间。
    而当我们抛了 100000 次硬币,通过实验观察到的概率是 70%,这时候由于样本很多,我们可以很自信的说 70% 就是最后模型参数的估计值,而不需要听取专家意见了
    这说明:随着数据量的增多,专家的经验的影响也就越弱了

2.从数学角度定义MLE和MAP

如图所示:MAP多出了 P(θ)先验, P(θ)这一项有特殊含义,当 P(θ)服从高斯分布时,那么相当于 MLE 加上了 L2正则项;当 P(θ)服从拉普拉斯分布时,那么相当于 MLE 加上了 L1正则项;

MLE和MAP关系详解_第1张图片

3.从高斯分布到L2正则

我们以二分类的逻辑回归为例子
先贴上二分类逻辑回归的公式
MLE和MAP关系详解_第2张图片
两个式子合并:
在这里插入图片描述
当 y = 1 时,显然是第一个式子,后面一项为1
上面是针对一个样本的,我们写上所有样本。D 代表训练数据集,各个样本独立同分布,所以可以连乘
MLE和MAP关系详解_第3张图片

用MLE来求

我们只考虑参数 w,而b 是一个实数,不影响后面分析过程,所以先不考虑
MLE和MAP关系详解_第4张图片

用MAP求

MLE和MAP关系详解_第5张图片

P(θ) ~ 高斯分布

因为没有考虑 b, 所以 w = θ
P(θ) 服从0 均值,σ^2 的高斯分布。pdf :概率密度函数
MLE和MAP关系详解_第6张图片
把P(θ) 代入到 MAP 公式中
MLE和MAP关系详解_第7张图片
最后可得
MLE和MAP关系详解_第8张图片

由于 σ 是我们自定义的参数
在这里插入图片描述
是常数
在这里插入图片描述
这就是一个L2正则项

P(θ) ~ 拉普拉斯分布

先上拉普拉斯的定义MLE和MAP关系详解_第9张图片MLE和MAP关系详解_第10张图片
计算P(θ), 图中的 b 是公式中的 λ
MLE和MAP关系详解_第11张图片
代入到上面 MAP 公式中
MLE和MAP关系详解_第12张图片
最后是
MLE和MAP关系详解_第13张图片
因为我们是最大化,所以参数λ前面符合为 负号,若是最小化就是 加号
上面是用了逻辑回归模型为例子,其实所有模型都可以这样做

总结

高斯先验 => L2正则
拉普拉斯先验 => L1正则

4. MAP 的解 趋于MLE的解

当数据量非常非常多时,因为,可以观测下面的式子
MLE和MAP关系详解_第14张图片
当 n 趋于无穷时,第二项的和占了绝大部分,而 log p(θ) 的值就显得微不足道到了
所以结论成立了

你可能感兴趣的:(NLP自学笔记,机器学习,自然语言处理)