极大似然估计

动机

在学习机器学习算法过程中,发现很多算法策略都采用极大似然估计, 如:线性、逻辑回归,决策树,隐马尔科夫模型。极大似然估计的用途这么广泛, 那么它是从哪里来呢? 它的朴素思想又是什么? 它的背后是否有理论基础呢?

来源

最早使用极大似然法的前辈正是高斯,没错就是数学天才高斯。在《绕日天体运动的理论》中阐述了误差分布的问题中, 就使用了极大似然估计的方法。 

简介

极大似然估计法是机器学习算法中常见的估计方法。其实极大似然估计是源于统计学的一种参数估计方法。 参数估计方法,除了有极大似然法之外, 当然还有大名鼎鼎的贝叶斯估计法但是极大似然估计法和贝叶斯估计法也是有联系的,极大似然估计也是贝叶斯估计的一种特殊情况。

要了解统计学习 参数估计方法,可参考陈希孺院士的概率论与数理统计。

思想

那么极大似然估计背后朴素的思想是什么呢?

采用极大似然估计的信念在于:当前训练样本分布 可以 代表 总体分布,所以用样本去训练 总体分布参数, 可以得到较好的效果。

优点和缺点

没有一个模型是万能的, 也没有一个方法是万能。 极大似然估计也有它合适的应用场景。

极大似然估计的训练效果取决于样本的数量。

根据大数定律, 随着样本数量的增加, 当样本数量趋于无穷时, 样本分布趋近于总体分布。也就说极大似然估计适合应用于大样本的参数估计。

但是,问题在于:如果当前样本不能较好得反映总体分布, 或者样本数量太小, 极大似然估计就失效了。

你可能感兴趣的:(极大似然估计)