最大似然估计(Maximum Likelihood Estimation)与最大后验估计(Maximum A Posteriori)是机器学习中最常用的两种点估计参数估计方法. 最大似然估计以最大化观测数据集上的似然度为目标, 强调从观测数据集上拟合出产生观测数据集的分布, 常用的交叉熵损失(cross entropy loss)、 均方误差损失(Mean Square Error)都可以以最大似然估计作为其理论基础. 而最大后验估计则是贝叶斯推断的一个典型应用, 其强调将关于参数的先验知识带入到参数预估中, 以达到对参数不确定性的建模, 在机器学习理论中充当参数正则化的角色. 本文这两种机器学习中常用的点估计方法进行总结, 阐述其与信息论、均方误差损失、参数正则化之间的联系. 本文组织如下:
关键词: 最大似然估计, 最大后验估计, 贝叶斯推断, 机器学习
校对:
知乎专栏: 张同学讲机器学习
假设我们有观测数据集
由于多个概率值进行连乘操作容易引起数值溢出的问题, 我们通常会求解等价问题
我们通常称(2)为负对数似然函数
由(3)可知, 待估参数
(4)度量了事件
我们称(5)为香农熵(Shannon entropy), 它描述了依据概率分布
KL散度只有当
我们称
在实际生产中, 我们经常使用MSE(Mean squared error, 均方误差损失)
选择不同的拟合函数对应不同的模型, 如使用线性函数
由中心极限定理
由(10)(11)可得, 当我们取条件似然函数为高斯分布的概率密度函数时, 使用最大似然估计对参数
前文所阐述的最大似然估计是典型的点估计方法, 其承袭了频率学派的观点, 认为参数为确定的未知数, 参数估计就是找出未知数的过程. 贝叶斯学派的观点则更激进一些, 认为参数其实也是随机变量, 服从一定的分布. 我们可以将对参数的信念和经验用关于参数的先验分布进行建模, 并使用观测数据来对参数进行修正, 最后使用修正后的参数分布来进行推断, 这便是贝叶斯推断的大致过程. 具体地, 若观测数据集为
由(12)可知, 先验的分布在观测数据不断加入到似然度后得到修正, 参数
在预估新数据
(14)便是最大后验估计的主要内容. 由(14)可知, 最大后验估计是在最大似然估计的基础上加上了参数
本文总结了最大似然估计和最大后验估计的理论框架与计算范式, 其在现代机器学习技术和工业生产中有较强的理论指导意义, 理解并熟练掌握有助于对新技术的学习与使用.
引用
[1] Wikipedia contributors. (2019, June 4). Likelihood function. InWikipedia, The Free Encyclopedia. Retrieved 10:57, June 5, 2019, fromhttps://en.wikipedia.org/w/
[2] Wikipedia contributors. "大数定律." 维基百科, 自由的百科全书. 维基百科, 自由的百科全书, 19 May 2020. Web. 19 May 2020.‹https://zh.wikipedia.org/w/index.php?title=%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B&oldid=59719812›.
[3] Goodfellow, Ian et al. Deep Learning. 2016, pp. 65~68.
[4] Wikipedia contributors. (2020, June 18). Mean squared error. In Wikipedia, The Free Encyclopedia. Retrieved 15:41, August 9, 2020, from https://en.wikipedia.org/w/index.php?title=Mean_squared_error&oldid=963224523
[5] Zhang, L. (2019). 多元高斯分布完全解析. Retrieved from https://zhuanlan.zhihu.com/p/58987388
[6] Wikipedia contributors. (2020, August 7). Central limit theorem. In Wikipedia, The Free Encyclopedia. Retrieved 16:38, August 11, 2020, from https://en.wikipedia.org/w/index.php?title=Central_limit_theorem&oldid=971682692
[7] Wikipedia contributors. (2020, August 12). Bayes' theorem. In Wikipedia, The Free Encyclopedia. Retrieved 13:45, August 13, 2020, from https://en.wikipedia.org/w/index.php?title=Bayes%27_theorem&oldid=972578120