参数估计不同于估计。
日常所说的估计一般是通过样本分布估计总体的分布,如用样本集的均值作为总体的期望。
参数估计也不同于非参数估计。
在参数估计中,模型是假设已知的,估计得参数后就可得完整模型;而非参数估计中是未知的。在以下参数估计的讨论中,皆假设模型是已知的,参数是未知的。
而对于参数估计,我们希望通过某些方法,通过给定样本集 D D 估计假定模型的参数。极大似然估计就可以帮我们从参数空间中选择参数,使该参数下的模型产生 D D 的概率最大(最似然的)。
考虑一组含有m个样本的数据集 X={x(1),...,x(m)} X = { x ( 1 ) , . . . , x ( m ) } ,由 pdata(x) p d a t a ( x ) 生成,独立同分布。
既然样本由隐含分布 pdata(x) p d a t a ( x ) 生成,那么该分布就可以通过隐含的参数 θ θ 完整表达。待求模型 pmodel(x;θ) p m o d e l ( x ; θ ) 就是一簇由 θ θ 确定的、在相同空间上的概率分布。我们将基于观测到的样本集,通过极大似然估计,计算 pmodel(x;θ) p m o d e l ( x ; θ ) 中的参数 θ θ ,最后将 pmodel(x;θ) p m o d e l ( x ; θ ) 作为对总体分布 pdata(x) p d a t a ( x ) 的估计。
对独立同分布的样本,生成样本集 X X 的概率如下:
对 θ θ 的最大似然估计被定义为:
多个概率的乘积公式会因很多原因不便于计算。例如,计算中很可能会因为多个过小的数值相乘而出现数值下溢。为了得到一个便于计算的等价优化问题,两边取对数:
因为当我们重新缩放代价函数时argmax不会改变,将其转化为对期望的 argmax a r g m a x :
求导后就可以获得参数 θ θ 的极大似然估计。
一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 pˆdata p ^ d a t a 和模型分部之间的差异,两者之间的差异程度可以通过KL散度度量。KL散度被定义为:
左边一项仅涉及到数据生成过程,和模型无关。这意味着当我们训练模型最小化KL散度时,我们只需要最小化 Ex∼pˆdata[−logpmodel(x)] E x ∼ p ^ d a t a [ − l o g p m o d e l ( x ) ] ,当然,这和上上式中最大化是相同的。
最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或softmax分布的负对数似然,但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。
我们可以将最大似然看作是使模型分布尽可能和经验分布 pˆdata p ^ d a t a 相匹配的尝试。理想情况下,我们希望匹配真是的数据生成分布 pdata p d a t a ,但我们没法直接知道这个分布。
虽然最优 θ θ 在最大化似然或是最小化KL散度时是相同的,但目标函数值是不一样的。在软件中,我们通常将两者都成为最小化代价函数。因此最大化似然变成了最小化负对数似然(NLL),或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度的视角在这个情况下是有帮助的,因此已知KL散度最小值是零。当x取实数时,负对数似然是负值。
最大似然估计很容易扩展到估计条件概率 P(y|x;θ) P ( y | x ; θ ) ,从而给定x预测y。实际上这是最常见的情况,因为这构成了大多数监督学习的基础。如果X表示所有的输入,Y表示我们观测到的目标,那么条件最大似然估计是:
如果假设样本是独立同分布的,那么这可以分解成
最大似然估计最吸引人的地方在于,它被证明当样本数目 m→∞ m → ∞ 时,就收敛率而言是最好的渐进估计。在合适的条件下,最大似然估计具有一致性,意味着训练样本数据趋向于无穷大时,参数的最大似然估计会收敛到参数的真实值。这些条件是:
除了最大似然估计,还有其他的归纳准则,其中许多共享一致估计的性质。然而,一致估计的统计效率可能区别很大。某些一致估计可能在固定数目的样本上获得一个较低的泛化误差,或者等价地,可能只需要较少的样本就能达到一个固定程度的泛化误差。
统计效率通常用于有参情况(parametric case)的研究中(例如线性回归)。有参情况中我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量我们和真实参数相差多少的方法是计算均方误差的期望,即计算 m 个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着 m 的增加而减少,当 m 较大时,Cramér-Rao 下界 (Rao, 1945; Cramér,1946) 表明不存在均方误差低于最大似然估计的一致估计。
因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。