极大似然估计MLE

〇、说明

极大似然估计(Maximum Likelihood Estimation,MLE)，也称最大似然估计。统计学中，极大似然估计是重要的参数估计方法；机器学习领域，也经常看到直接使用极大似然估计以及使用极大似然思想的方法。

在这篇笔记里，主要涉及极大似然的思想和非参数极大似然估计NPMLE。

如有错误疏漏，烦请指出。如要转载，请联系笔者，[email protected]。

一、常规极大似然估计

1.1、问题描述

在参数估计[1]任务中，极大似然估计在给定样本且已知概率分布(密度)条件下，估计分布参数的重要方法。

(在机器学习中，会用到未知概率分布(密度)的极大似然估计，见下文)

1.2、极大似然思想

极大似然估计的核心思想，就是估计出使样本出现概率最大的参数作为分布(密度)参数；从另一个角度，极大似然估计认为已经发生的(这些样本出现)就是是概率最大的，从而求出分布(密度)参数。

1.3、极大似然估计

极大似然估计在绝大多数概率论或统计课程中都有详细的介绍，我这里就不赘述了，具体参见课本和网上资料。

这里贴几个还不错的网上资料：

维基百科《极大似然估计》[2]

《最大似然估计》[3]

二、非参数极大似然估计

2.1、缘起

笔者在参考李航博士《统计学习方法》[4]学习最大熵模型，遇到条件概率P(Y|X)的对数似然函数(6.2.4节)时，真的是一头雾水。如下图

[4]

一直接触的极大似然估计都是已知模型，通过样本求参数。而这个似然函数，模型未知，参数未知，更不知道是怎么来的，懵圈了。。。

2.2、搜寻

为了搞清楚这个问题，查阅了《统计学习方法》的参考文献《A Maximum Entropy Approach to Natural Language Processing》[5]，也没有搞清楚这个问题。

后来各种关键字在google上搜，终于搜到了比较靠谱的信息，大概如下：

https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]

http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]

http://statweb.stanford.edu/~owen/empirical/[8]

这大概是一个经验似然(Empirical Likelihood)问题，但是有点艰深，笔者并不打算深入挖掘下去，只是从机器学习数学基础的角度搞清楚上述公式的由来。笔者看到了[4]的第一个公式，终于明白了李航博士书中公式的由来，如下。

2.3、NPMLE

非参数极大似然估计(Non-Parametric Maximum Likelihood Estimation,NPMLE)，在大多数初级的概率论课本里是没有的。

这里根据常规MLE的假设和建模过程，来简略推导NPMLE的似然函数。下图[3]为常规MLE的假设和似然函数建模过程。

[3]

参考常规MLE，假设非参数的分布有相同的采样，但没有参数。

附录

参考

[1]、百度百科《参数估计》

[2]、维基百科《极大似然估计》

[3]、《最大似然估计》

[4]、李航《统计学习方法》

[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》

[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf

[7]、http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf

[8]、http://statweb.stanford.edu/~owen/empirical/