【最大似然估计】详解概率论之最大似然估计

  • 本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!
  • ​​个人主页:有梦想的程序星空
  • ​​个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。
  • ​​如果文章对你有帮助,欢迎​​关注​​点赞​​收藏​​订阅。

1、概率密度函数

概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最重要的概念之一。

定义:设X​为一随机变量,若存在非负实函数f(x) \ge 0​,使对任意实数a < b​,有:

P\{ a \le x < b\} = \int_a^b {f(x)dx}

​则称X​为连续随机变量,f(x)​称为X​的概率密度函数,简称概率密度或密度函数。

概率密度函数具有如下性质

(1)非负性:f(x) \ge 0

(2)规范性:\int_{ - \infty }^{ + \infty } {f(x)dx} = 1

条件概率密度函数:对于任意给定的y​,在给定区间(a,b)​内,条件概率密度函数p(x|y)​都有如下公式成立:

\int_a^b {f(x|y)dx} = 1

​2、分布函数

连续型随机变量的分布函数:设X​为连续型随机变量,其密度函数为f(x)​,则有:

F(x) = P\{ X \le x\} = \int_{ - \infty }^x {f(x)dx}

​对上式两端关于x​求导:

F'(x) = [\int_{ - \infty }^x {f(x)dx} ]' = f(x)

​任何随机变量都有相应的分布函数。

f(x)​的几何意义如下:

​密度函数与分布函数的关系:

(1)积分关系:F(x) = \int_{ - \infty }^x {f(x)dx}

(2)导数关系:若f(x)​在x​处连续,F'(x) = f(x)​。

3、似然函数

似然函数是一种关于统计模型中的参数的函数,表示模型参数的似然性。似然函数是给定联合样本值x关于(未知)参数\theta的函数:

L(\theta |x) = f(x|\theta )

f(x|\theta )是一个密度函数,表示\theta下关于联合样本值x的联合密度函数。

假如连续型随机变量x的概率密度函数为f(x|\theta ),样本集D上有m个样本,则D上的似然函数为:

 L(\theta |D) = \prod\limits_i^m {f({x_i}|\theta )}

4、最大似然估计的原理

最大似然估计(Maximum Likelihood Estimation,简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。

最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

首先假设{x_1},{x_2}, \cdots ,{x_n}为独立同分布的采样,\theta为模型参数,f为我们所使用的模型,遵循上述的独立同分布假设。参数为\theta的模型f产生上述采样可表示为:

f({x_1},{x_2}, \cdots ,{x_n}|\theta ) = f({x_1}|\theta ) \times f({x_2}|\theta ) \times \cdots \times f({x_n}|\theta )

回到上面的“模型已定,参数未知”的说法,此时,已知的为{x_1},{x_2}, \cdots ,{x_n},未知的为\theta,故似然函数定义为:

L(\theta |{x_1}, \cdots ,{x_n}) = f({x_1}, \cdots ,{x_n}|\theta ) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}

在实际应用中常用的是两边取对数,得到公式如下:

\begin{array}{l} \ln L(\theta |{x_1}, \cdots ,{x_n}) = \sum\limits_{i = 1}^n {\ln f({x_i}|\theta )} \\ \hat \ell = \frac{1}{n}\ln L \end{array}

其中\ln L(\theta |{x_1}, \cdots ,{x_n})称为对数似然,而\hat \ell称为平均对数似然。而平时所称的最大似然为最大的对数平均似然,即:

{\hat \theta _{mle}} = \mathop {\arg \max }\limits_{\theta \in \Theta } \hat \ell (\theta |{x_1}, \cdots ,{x_n})

5、最大似然估计的求解步骤:

(1)写出似然函数:

L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {p({x_i}|\theta )}(离散型随机变量)

L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}(连续型随机变量)

(2)取对数\ln L

(3)对{x_1},{x_2}, \cdots ,{x_n}求偏导数\frac{​{\partial \ln L}}{​{\partial {\theta _i}}},i = 1,2, \cdots ,m

(4)判断方程组\frac{​{\partial \ln L}}{​{\partial {\theta _i}}}是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计常在{\theta _i}的边界上到达。

关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!

你可能感兴趣的:(深入浅出讲解自然语言处理,机器学习,概率论,机器学习,算法)