[TOC]
极大似然估计的一般思想
极大似然估计(Maximum Likelihood),顾名思义,就是根据似然度(也就是可能性,likelihood)对感兴趣的参数(如正态分布的\mu与\sigma,指数分布的\lambda)进行估计。
极大似然估计的原理是一种非常直观的思想,那就是谁的可能性大,谁的脸面就大。
从一个非常简单的例子来看一下极大似然估计的思想:
有A、B两个箱子:A 箱子有99个白球,1个黑球;B箱子有99个黑球,一个白球。假如随机从一个箱子中抽取一个球为白色。
问,这个箱子是A箱子还是B箱子?
人们根据直观印象就会强烈断言这个箱子是A箱子,因为A箱子抽取一个白球的可能性太大了。也就是说,使得事件“取出一个球是白球”发生的可能性更大的“参数估计”是A,而不是B,所以A是极大似然估计。
极大似然估计是一种参数估计,它常常用于对样本数据所服从的分布的参数进行估计。
也就是说,对于一个样本数据,为了获悉这个数据的分布情况需要两步:1. 这个分布是什么类型,是正态分布还是指数分布?2. 这个分布的具体参数是什么,如果是正态分布,它的的\mu与\sigma是多少,如果是指数分布,那么它的\lambda值是多少?
而极大似然估计就是为了解决第二歩获得分布的参数大小的问题。
极大似然估计的直观例子
有以下例子,如下图13个红色球代表一个小鼠重量的样本,试问这13个小鼠重量数据的具体分布是什么?
首先根据这个数据趋势:大部分数据集中在中央,小部分数据在两端,两端数据虽然不是特别均衡,但是已经非常接近,不太像是一个偏态的分布,所以更倾向于符合正态分布。
而指数分布(数据集中一端,并向另一端递减)或Gamma分布(数据集中在中间,但两端分布不均衡)就不太符合对数据趋势的描述。
于是就从正态分布出发,寻找它的关键参数\mu与\sigma的估计。
先看一下均值\mu的情况:
根据极大似然估计的一般思想,极大似然估计就是找出使得样本事件发生的可能性最大的\mu值,此值即是\mu的极大似然估计值。
假定先随意指定一个\mu值(\sigma值先随意指定一个),如下图A所示,这个正态分布使得这13个样本数据发生的概率最大是第2个点,其他大部分点的概率都很低,尤其是最右侧的7-8个点的发生概率非常低,整体而言这个\mu值使得样本数据发生的概率并不高。那么目前的这个\mu值的使得样本数据发生的可能性(likelihood)就比较小。
假如增加\mu值,得到如下图B所示的正态分布,则可以看出大部分的点都在正态分布的中间聚集,而少部分在两端出现,此时的\mu值很明显使得样本的13个数据发生时的可能性更大。
按照以上思想,变动不同的\mu值,并计算此时的likelihood值,就可得到如下图,于是\mu的估计值就是可能性最大的\mu值。
\sigma的情况是类似的:
找到最佳的\mu值后,\sigma值也有多种可能,在尝试不同的\sigma值后,总能找到一个最佳的\sigma值使得此时可能性(likelihood)最大,如下图所示。
于是就获得了此时样本数据的极大似然估计分布。
极大似然估计的计算
极大似然估计的一般思想是很直观的,且在上一部分“极大似然估计的直观例子”中,以一个例子直观的说明了正态分布的极大似然估计过程。在那里是通过不断尝试参数值的方法找到的最佳点,那么如果要使用解析方法应该如何计算你呢?
在此之前,首先要明确一个概念:
可能性(likelihood)的意义是什么?同普通意义上的概率有什么区别?
likelihood也是一种概率,但是它一般特指为极大似然估计中选定分布下的样本事件发生的概率。
以正态分布为例,概率是指的一个正态事件在正态分布密度图上的线下面积。
如下图小鼠重量服从正态分布N(32,2.5^2),则小鼠重量在32-34g的概率就是图中红色区域的面积。所以概率是先知道分布,再得出特定条件下的事件概率。
但是likelihood是另一层面的概念,它是在并不知道分布的情况下,使用不同分布去适配事件,看此时的事件发生概率。
比如测定了一个小鼠的重量为34g,为了找到这个小鼠的原始分布,那么可以使用正态分布N(32,2.5^2)来描述,得到此时事件“小鼠重量为34g”的概率,也可以使用正态分布N(34,2.5^2)来描述,同样得到此时事件“小鼠重量为34g”的概率,等等,而这些概率就是likelihood。也就是说likelihood是在给定了样本的情况下,使用不同分布描述样本时的样本事情发生的概率大小。而极大似然估计的目的就是在这些所有的likelihood值中找到最大likelihood对应的参数值。
正态分布的极大似估计
设样本服从正态分布N(\mu,\sigma^2),样本容量为n,则似然函数为这n个样本同时发生的概率:
L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2}
于是只要求解满足L(\mu,\sigma^2)的最大值的\mu和\sigma即可,为了便于计算,两端取对数:
lnL(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2
求导:
\begin{equation} \left\{ \begin{array}{lrc} \frac{\partial lnL(\mu,\sigma^2)}{\partial \mu}=\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\,u) \quad\quad &=0\\ \frac{\partial lnL(\mu,\sigma^2)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2&=0 \end{array} \right. \end{equation}
于是:
\begin{equation} \left\{ \begin{array}{lrc} \hat{\mu}=\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i \\ \hat{\sigma^2}=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \end{array} \right. \end{equation}
专题以往文章
- StatQuest生物统计学专题 - 基础概念
- StatQuest生物统计学专题 - p值
- StatQuest生物统计学专题 - 生物重复和技术重复
- StatQuest生物统计学专题 - RPKM,FPKM,TPM
- StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法
- StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法
- StatQuest生物统计学 - Independent Filtering
- StatQuest生物统计学 - FDR及Benjamini-Hochberg方法
- StatQuest生物统计学 - 拟合基础
- StatQuest生物统计学 - 线性拟合的R2和p值
- StatQuest生物统计学专题 - 分位数及其应用
参考资料
StatQuest课程:https://statquest.org/video-index/
极大似然估计详解:https://blog.csdn.net/zengxiantao1994/article/details/72787849