从信息论的角度理解极大似然法

极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大,那么就取参数估计,使A出现的概率最大。

设随机变量Y具有概率密度函数,θ是参数向量。当我们得到Y的一组独立观测值时,定义θ的似然函数为。极大似然法是采用使L(θ)最大的θ的估计值作为参数值。

为了计算方便,我们通常求使最大的θ的估计值,这与L(θ)最大是等价的,由于,当,几乎处处有


在观测样本已知的情况下,N是定值,那么,极大似然估计是使最大的θ的估计值。若Y的真实分布的密度函数为g(y),我们有


衡量两个分布g(·)和f(·|θ)差异性的统计量KL散度(或者相对熵)为:


只有当g(y)等于f(y|θ)时,KL散度才为0,因此,当随机变量Y给定时,为定值,最大化,就是最小化,即求最近似于g(y)f(y|θ)。这个解释从信息论的角度透彻地说明了极大似然法的本质。




你可能感兴趣的:(信息论,极大似然,kl散度)