极大似然估计MLE

〇、说明

极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。统计学中,极大似然估计是重要的参数估计方法;机器学习领域,也经常看到直接使用极大似然估计以及使用极大似然思想的方法。

在这篇笔记里,主要涉及极大似然的思想和非参数极大似然估计NPMLE。

如有错误疏漏,烦请指出。如要转载,请联系笔者,[email protected]

一、常规极大似然估计

1.1、问题描述

在参数估计[1]任务中,极大似然估计在给定样本已知概率分布(密度)条件下,估计分布参数的重要方法。

(在机器学习中,会用到未知概率分布(密度)的极大似然估计,见下文)

1.2、极大似然思想

极大似然估计的核心思想,就是估计出使样本出现概率最大的参数作为分布(密度)参数;从另一个角度,极大似然估计认为已经发生的(这些样本出现)就是是概率最大的,从而求出分布(密度)参数。

1.3、极大似然估计

极大似然估计在绝大多数概率论或统计课程中都有详细的介绍,我这里就不赘述了,具体参见课本和网上资料。

这里贴几个还不错的网上资料:

维基百科《极大似然估计》[2]

《最大似然估计》[3]

二、非参数极大似然估计

2.1、缘起

笔者在参考李航博士《统计学习方法》[4]学习最大熵模型,遇到条件概率P(Y|X)的对数似然函数(6.2.4节)时,真的是一头雾水。如下图

极大似然估计MLE_第1张图片
[4]

一直接触的极大似然估计都是已知模型,通过样本求参数。而这个似然函数,模型未知,参数未知,更不知道是怎么来的,懵圈了。。。

2.2、搜寻

为了搞清楚这个问题,查阅了《统计学习方法》的参考文献《A Maximum Entropy Approach to Natural Language Processing》[5],也没有搞清楚这个问题。

后来各种关键字在google上搜,终于搜到了比较靠谱的信息,大概如下:

https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]

http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]

http://statweb.stanford.edu/~owen/empirical/[8]

这大概是一个经验似然(Empirical Likelihood)问题,但是有点艰深,笔者并不打算深入挖掘下去,只是从机器学习数学基础的角度搞清楚上述公式的由来。笔者看到了[4]的第一个公式,终于明白了李航博士书中公式的由来,如下。

2.3、NPMLE

非参数极大似然估计(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多数初级的概率论课本里是没有的。

这里根据常规MLE的假设和建模过程,来简略推导NPMLE的似然函数。下图[3]为常规MLE的假设和似然函数建模过程。

极大似然估计MLE_第2张图片
[3]

参考常规MLE,假设非参数的分布有相同的采样,但没有参数。

极大似然估计MLE_第3张图片


附录

参考

[1]、百度百科《参数估计》

[2]、维基百科《极大似然估计》

[3]、《最大似然估计》

[4]、李航《统计学习方法》

[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》

[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf

[7]、http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf

[8]、http://statweb.stanford.edu/~owen/empirical/

你可能感兴趣的:(极大似然估计MLE)