概率、似然与极大似然估计

今天来学习极大似然估计这个颇为抽象的内容。

1、似然与概率的概念

二者看似相近,实则不同。在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个重要内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。

概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性。比如抛硬币,抛之前并不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果(可能性)便是确定的。也就是说,概率是对事件发生可能性的推测或认知,是已知的

似然刚好相反,是在确定的结果下去推测产生这个结果的可能环境(参数)。还是抛硬币的例子,假设随机抛掷一枚硬币1,000次,结果500次人头朝上,500次数字朝上(实际情况一般不会这么理想,这里只是举个例子),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是运用出现的结果来判断这个事情本身的性质(参数),也就是似然

通过上面两段描述,可以准确的看出二者不同点:概率描述的是在一定条件下某个事件发生的可能性,概率越大说明这件事情越可能会发生;而似然描述的是结果已知的情况下,该事件在不同条件下发生的可能性,似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

如果结果和似然是针对相同的事件而言,二者在值上是相等的。如果用 θ表示环境对应的参数,x表示结果,那么概率可以表示为:\small P=(x|\theta ),这是条件概率的表达方式,可理解为在θ的条件下发生x的概率。对应的,似然可以表示为:\small L=(\theta|x),可理解为已知结果为x,对应的环境参数θ的可能性概率。

二者值虽然相等,但其意义不同:分别从不同角度来描述一件事情。

在机器学习领域,我们更关注的是似然函数的最大值,我们需要根据已知事件来找出产生这种结果最有可能的条件,目的是根据这个最有可能的条件去推测未知事件的概率。

2、对数化的似然函数

实际问题往往要比抛一次硬币复杂得多,会涉及到多个独立事件,在似然函数的表达式中通常都会出现连乘:

\small L=\prod _{i=1}^{N}Pi

对多项乘积的求导往往非常复杂,但是对于多项求和的求导却要简单的多,对数函数不改变原函数的单调性和极值位置,而且根据对数函数的性质可以将乘积转换为加减式,这可以简化求导的过程:

\small log(L)=log(\prod _{i=1}^{N}Pi)=\sum_{i=1}^Nlog(Pi)

在机器学习的公式推导中,经常能看到类似的转化。

3、极大似然估计

只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

求极大似然函数估计值的一般步骤:

(1) 写出似然函数;

(2) 对似然函数取对数,并整理;

(3) 求导数;

(4) 解似然方程 。

4、极大似然估计举例

1)问题提出:学生身高问题

我们需要调查我们学校的男生和女生的身高分布。 假设你在校园里随便找了100个男生和100个女生。他们共200个人。将他们按照性别划分为两组,然后先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是这个分布的均值μ和方差∂2我们不知道,这两个参数就是我们要估计的。记作θ=[μ, ∂]T。

  问题:我们知道样本所服从的概率分布的模型和一些样本,而不知道该模型中的参数。

2)估计方法

根据问题,已知的条件有:

a:样本服从的分布模型

b:随机抽取的若干样本

求解:通过极大似然估计求解模型的参数

求解方法:

根据极大似然的求解方法,如下:

(1)列出似然函数

样本集:X={x1,x2,…,xN}, N=100

概率密度:p(xi|θ)是抽到男生i(的身高)的概率

考虑到样本独立且同分布,所以同时抽到这100个男生的概率就是他们各自概率的乘积,就是从分布为p(x|θ)的总样本集中抽取到这100个样本的概率,也就是样本集X中各个样本的联合概率,用下式表示:

\small L(/\theta )=L(x_1,x_2,x_3....,x_n;\theta)=\prod _{i=1}^{n}p(x_i;\theta)

这个概率反映了,在概率密度函数的参数是θ时,得到X这组样本的概率。 需要找到一个参数θ,其对应的似然函数L(θ)最大,也就是说抽到这100个男生(的身高)概率最大。这个叫做θ的最大似然估计量,记为:

\small \hat{\theta}=arg\; max\:l(\theta)

(2) 对似然函数取对数,并整理

\small log(L)=log(\prod _{i=1}^{n}p(x_i;\theta))=\sum_{i=1}^nlog(p(x_i;\theta))

(3) 求导数,令导数为0,得到似然方程。

(4) 解似然方程,得到的参数即为所求。

 

文章参考:

1、http://fangs.in/post/thinkstats/likelihood/

2、https://www.cnblogs.com/Gabby/p/5344658.html

 

 

你可能感兴趣的:(机器学习)