最大似然估计_最大似然估计与最大后验估计

最大似然估计_最大似然估计与最大后验估计_第1张图片

摘要

最大似然估计(Maximum Likelihood Estimation)与最大后验估计(Maximum A Posteriori)是机器学习中最常用的两种点估计参数估计方法. 最大似然估计以最大化观测数据集上的似然度为目标, 强调从观测数据集上拟合出产生观测数据集的分布, 常用的交叉熵损失(cross entropy loss)、 均方误差损失(Mean Square Error)都可以以最大似然估计作为其理论基础. 而最大后验估计则是贝叶斯推断的一个典型应用, 其强调将关于参数的先验知识带入到参数预估中, 以达到对参数不确定性的建模, 在机器学习理论中充当参数正则化的角色. 本文这两种机器学习中常用的点估计方法进行总结, 阐述其与信息论、均方误差损失、参数正则化之间的联系. 本文组织如下:

  1. 阐述最大似然估计及其与信息论之间的关联;
  2. 均方误差损失与最大似然估计的关联;
  3. 阐述贝叶斯推断与最大后验估计;
  4. 总结.

关键词: 最大似然估计, 最大后验估计, 贝叶斯推断, 机器学习

校对:

知乎专栏: 张同学讲机器学习


最大似然估计与信息论

假设我们有观测数据集

, 如果我们希望通过预估参数
来获得产生数据集
的近似分布
, 一个非常自然的想法是既然数据集
已经产生了, 何不让分布
最大化, 即使得分布
以最大概率产生观测数据集
中的数据, 这便是最大似然估计的指导思路. 具体地, 我们有

由于多个概率值进行连乘操作容易引起数值溢出的问题, 我们通常会求解等价问题

我们通常称(2)为负对数似然函数

(Negative Log Likelihood), 这在机器学习中是常用的损失函数. 如果我们将产生观测数据集
的分布记为
, 由大数定理
可知, 当
时, 独立同分布的随机变量所产生样本的算数平均值依概率收敛于期望, 故(2)可转化为

由(3)可知, 待估参数

的求解过程其实是对关于分布
的期望
求最值的过程. 那么这是怎么与信息论产生联系的呢? 信息论
是对信息进行量化与处理的一门学科, 其基本思想是
一个大概率会发生的事件所拥有的信息量应该非常少, 甚至为零. 反之, 一个小概率发生的事件其所拥有的信息量应该比较大. 同时, 两个独立事件的信息量具有可叠加性. 为了满足这些对信息量进行度量的特性, 信息论定义事件
发生的自信息(self-information)为

(4)度量了事件

发生的信息量, 而对于随机变量
所服从分布的总体信息量, 我们使用期望

我们称(5)为香农熵(Shannon entropy), 它描述了依据概率分布

进行发生的随机事件所含有的信息量的期望值. 既然我们现在可以度量一个概率分布所含有的信息量, 一个很自然的想法是, 我们可以对不同概率分布的香农熵进行比较, 从而描述不同概率分布之间的差异性. 具体地, 对于随机变量
所服从的两个不同的概率分布
, 我们使用 KL散度(Kullback-Leibler divergence)来对其差异性进行描述

KL散度只有当

完全一致时才会为零, 且其具有非负性, 这使得KL散度非常适合用来度量不同分布之间的距离. 需要注意的是, KL散度具有不对称性, 即
.
描述了使用分布
对分布
进行逼近时所需的额外信息量, 当这个额外信息量为零时,
就含有和
一样的信息量. 而(6)等号右边的第二项其实就是(3)中的期望, 第一项则为
的信息量取反为一个常量, 所以我们有

我们称

为分布
的交叉熵(Cross entropy), 当我们试图使用分布
去拟合分布
时, 只需要使得二者的交叉熵尽量小, 就能缩小其含有的信息量差异. 所以,
最大似然估计从信息论的角度来看, 是在最小化产生观测数据的分布
和模型分布
之间的交叉熵
, 即

均方误差损失与最大似然估计

在实际生产中, 我们经常使用MSE(Mean squared error, 均方误差损失)

作为损失函数来对数据之间的映射关系进行拟合, 具体地, 对于数据集
, 我们通过使用模型
学习一个从
的映射, 使得在数据集
上的MSE最小, 即

选择不同的拟合函数对应不同的模型, 如使用线性函数

进行拟合时, 便是常用的线性回归. 现在我们从条件概率分布的角度来看待这个拟合问题, 对于给定的随机变量
, 我们试图使条件似然函数
最大, 从而最大程度地利用已经观测到的数据集
来对参数
进行估计. 这在实际生产中是最为常用的建模方式, 大多数的有监督学习正是基于此范式. 当观测数据集足够大时, 对于给定的
, 我们可以观测到不同的
, 即给定随机变量
的值, 随机变量
服从条件概率分布
. 我们使用
来逼近
, 具体地, 当

由中心极限定理

, 我们不妨假设
为高斯分布, 即
. 当给定
时, 为了使得条件似然函数
尽量地大, 由高斯分布
的性质可知, 我们应该使
尽可能靠近高斯分布的均值, 所以我们使用模型
来作为高斯分布的均值, 即
, 从而使得参数
的估计过程直接影响
的取值(此处我们取
). 则由(10)我们有

由(10)(11)可得, 当我们取条件似然函数为高斯分布的概率密度函数时, 使用最大似然估计对参数

进行预估, 实际上是在使用 MSE 作为损失函数来对函数的映射关系进行拟合.

贝叶斯推断与最大后验估计

前文所阐述的最大似然估计是典型的点估计方法, 其承袭了频率学派的观点, 认为参数为确定的未知数, 参数估计就是找出未知数的过程. 贝叶斯学派的观点则更激进一些, 认为参数其实也是随机变量, 服从一定的分布. 我们可以将对参数的信念和经验用关于参数的先验分布进行建模, 并使用观测数据来对参数进行修正, 最后使用修正后的参数分布来进行推断, 这便是贝叶斯推断的大致过程. 具体地, 若观测数据集为

, 在使用分布
表示我们对参数
的先验和信念时, 我们希望通过数据集
来修正我们对
的预估, 由贝叶斯公式

由(12)可知, 先验的分布在观测数据不断加入到似然度后得到修正, 参数

会从不确定的值不断向部分确定的值靠拢, 使得先验从一个蕴含高度不确定性的高熵状态, 向其后验的低熵状态靠拢. 有了参数的后验分布, 就可以进行贝叶斯推断, 具体地, 对于新的数据

在预估新数据

的分布时, 贝叶斯推断把参数的所有可能性都考虑进去, 包括确定性较高的取值和确定性较低的取值, 充分地利用了所有参数的信息. 由(13)我们也可以发现, 贝叶斯推断时因为考虑所有参数分布的信息, 致使计算量相比最大似然估计这种点估计方式会增大很多, 在实际生产中难以应用. 例如, 当使用神经网络作为预估模型时, 贝叶斯推断在参数上进行积分意味着参数每变化一次, 神经网络便要做一次前向传播计算, 而这个代价非常地高. 所以我们退而求其次, 只使用后验概率最大的参数作为参数的点估计, 这样既能将对参数的先验信息代入到模型的推断中, 又能节省计算资源, 具体地

(14)便是最大后验估计的主要内容. 由(14)可知, 最大后验估计是在最大似然估计的基础上加上了参数

的先验信息. 当
的先验取均值为
, 协方差矩阵为
, 即
,
的先验正比于
, 此时的先验分布为一个
正则化项, 所以最大似然估计加上一个
正则化项可解释为最大后验估计的一个近似.

总结

本文总结了最大似然估计和最大后验估计的理论框架与计算范式, 其在现代机器学习技术和工业生产中有较强的理论指导意义, 理解并熟练掌握有助于对新技术的学习与使用.


引用

[1] Wikipedia contributors. (2019, June 4). Likelihood function. InWikipedia, The Free Encyclopedia. Retrieved 10:57, June 5, 2019, fromhttps://en.wikipedia.org/w/

[2] Wikipedia contributors. "大数定律." 维基百科, 自由的百科全书. 维基百科, 自由的百科全书, 19 May 2020. Web. 19 May 2020.‹https://zh.wikipedia.org/w/index.php?title=%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B&oldid=59719812›.

[3] Goodfellow, Ian et al. Deep Learning. 2016, pp. 65~68.

[4] Wikipedia contributors. (2020, June 18). Mean squared error. In Wikipedia, The Free Encyclopedia. Retrieved 15:41, August 9, 2020, from https://en.wikipedia.org/w/index.php?title=Mean_squared_error&oldid=963224523

[5] Zhang, L. (2019). 多元高斯分布完全解析. Retrieved from https://zhuanlan.zhihu.com/p/58987388

[6] Wikipedia contributors. (2020, August 7). Central limit theorem. In Wikipedia, The Free Encyclopedia. Retrieved 16:38, August 11, 2020, from https://en.wikipedia.org/w/index.php?title=Central_limit_theorem&oldid=971682692

[7] Wikipedia contributors. (2020, August 12). Bayes' theorem. In Wikipedia, The Free Encyclopedia. Retrieved 13:45, August 13, 2020, from https://en.wikipedia.org/w/index.php?title=Bayes%27_theorem&oldid=972578120

你可能感兴趣的:(最大似然估计)