极大似然估计

极大似然估计

1 独立同分布

概率统计中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量被称作独立同分布(independent and identically distributed (i.i.d.))。

随机变量 X1 X2 独立,是指 X1 的取值不影响 X2 的取值, X2 的取值也不影响 X1 的取值。
随机变量 X1 X2 同分布,意味着 X1 X2 具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差;也就是说,若随机变量 X1 X2 是同类型分布,且分布参数完全相同,则 X1 X2 一定同分布。

比如实验条件保持不变,抛硬币的一系列正反面结果就是独立同分布的。

2 似然函数

统计学中,似然函数就是关于统计模型参数的函数,在参数估计中扮演着重要角色.

给定输出 x 时,关于参数 θ 的似然函数 L(θ|x) (在数值上)等于给定参数 θ 后变量X的概率:

L(θ|x)=P(X=x|θ)

在教科书中,似然常常被用作概率的同义词。但是在统计学中,二者有截然不同的用法。
概率描述了已知参数时的随机变量的输出结果.
似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次,落地都是正面向上”这种事件,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

3 离散和连续的似然函数

离散型概率分布
假定一个关于参数 θ 、具有离散型概率分布 P 的随机变量 X ,则在给定 X 的输出 x 时,参数 θ 的似然函数可表示为

L(θ|x)=Pθ(x)=Pθ(X=x)

Pθ(x) 表示 X x 时的概率。
上式常常写为 P(X=x|θ)
需要注意的是,此处并非条件概率,因为θ不(总)是随机变量。

连续型概率分布
假定一个关于参数 θ 、具有连续概率密度函数 f 的随机变量 X X 的输出 x 时,参数 θ 的似然函数可表示为

L(θ|x)=fθ(x)

上式常常写为 f(x|θ) .
同样需要注意的是,此处并非条件概率密度函数。

似然函数的主要用法在于比较它相对取值,虽然这个数值本身不具备任何含义。
例如,考虑一组样本,当其输出固定时,这组样本的某个未知参数往往会倾向于等于某个特定值,而不是随便的其他数,此时,似然函数是最大化的。
似然函数乘以一个大于0的常数之后仍然是似然函数,其取值并不需要满足归一化条件。
似然函数的这种特性还允许我们叠加计算一组具备相同含义参数独立同分布样本的似然函数。
利用似然函数进行统计推断,就是这篇博客的主题 - 极大似然估计(Maximum likelihood estimation)方法。

4 极大似然估计

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

比如我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以使用采样的方法:获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

极大似然估计中采样需满足一个很重要的假设:所有的采样都是独立同分布的。

我们根据以上情景具体描述极大似然估计:

首先,假设 x1,x2,...xn 为独立同分布的采样, θ 为模型参数, f 为我们所使用的模型,那么上述采样可表示为:

f(x1,x2,..,xn|θ)=f(x1|θ)f(x2|θ)...f(xn|θ)

此时,我们已知的为 x1,x2,...xn ,未知为 θ ,那么似然函数定义为:

L(θ|x1,x2,...,xn)=f(x1,x2,...,xn|θ)=i=1nf(xi|θ)

在实际应用中常用的是两边取对数,得到:

lnL(θ|x1,x2,...,xn)=i=1nlnf(xi|θ)

lnL(θ|x1,x2,...,xn) 就是对数似然
1nlnL 就是平均对数似然

而我们平时所用的极大似然估计就是要求得平均对数似然的极大值

极大似然估计是建立在极大似然原理的基础上的一个统计方法。
假如已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
极大似然原理是说如果我们已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
直观来看,一个随机试验如果有若干个可能的结果A,B,C,…N,那么如果在仅仅作一次的试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。而事件A发生的概率与参数 θ 相关,A发生的概率记为P(A, θ ),则 θ 的估计应该使上述概率达到最大,这样的 θ 顾名思义就称为极大似然估计。

当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。

求极大似然函数估计值的一般步骤
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程 。

最后,引用一个具体例子:
假设有个罐子,里面有黑白两种球,数目未知,两种颜色的比例也未知;我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全都拿出来数。
但我们每次可以从已经摇匀的罐中任意拿一个球出来,记录球的颜色,然后再放回罐中。
以上过程可以重复,我们就可以用记录的球的颜色来估计罐中黑白球的比例。

假如在一百次记录中,有七十次是白球,那么我们直觉会说罐中白球所占的比例最有可能是70%。

其实这直觉的背后,我们就利用了极大似然估计。
假设罐中白球的比例是 p ,那么黑球的比例就是 1p 。又因为每抽一个球后,我们又将其放回摇匀,所以每次抽出来的球服从独立同分布。
我们把一次抽出来球的颜色称为一次抽样。
题目中在一百次抽样中,七十次是白球的概率是 P(Data|M) ,这里 Data 是所有的数据, M 是所给出的模型,表示每次抽出来的球是白色的概率为 p 。如果第一抽样的结果记为 x1 ,第二抽样的结果记为 x2 ,那么 Data=(x1,x2,,x100)

P(Data|M)=P(x1,x2,,x100|M)=P(x1|M)P(x2|M)P(x100|M)=p70(1p)30

那么 p 在取什么值的时候, P(Data|M) 的值最大呢?将 p70(1p)30p 求导,并令其等于零。

    

70p69(1p)30p7030(1p)29=0

解方程可以得到p=0.7

在边界点 p=0,1 P(Data|M)=0
所以当 p=0.7 时, P(Data|M) 的值最大。

这和我们常识,按抽样的比例来计算的结果是一样的。
银锤斯汀。


本篇博客参考自
百度百科 - 独立同分布
百度百科 - 似然函数
百度百科 - 极大似然估计
《最大似然估计(Maximum likelihood estimation)》

你可能感兴趣的:(机器学习)