似然函数(likelihood)、最大似然函数、最小二乘解

在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代。但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率)。而 likelihood (function) 这一概念是由Fisher提出,他采用这个词,也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系,但又不完全一样的这一感觉。

中文把它们一个翻译为概率(probability),一个翻译为似然(likelihood)也是独具匠心。

似然函数的定义:


上式中,小x指的是联合样本随机变量X取到的值,即X= x;这里的θ是指未知参数,它属于参数空间;而

是一个密度函数,特别地,它表示(给定)θ下关于联合样本值x的联合密度函数。

从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于θ的函数,后者是关于x的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

两者的联系:

 如果X是离散随机变量,那么其概率密度函数可改写为:

即代表了在参数为θ下,随机变量X取到x的可能性。并且,如果我们发现:


那么似然函数就反应出这样一个朴素推测:在参数下随机向量X取到值x的可能性大于在参数下随机向量X取到值x的可能性。换句话说,我们更有理由相信相对于来说更有可能是真实值。这里的可能性是由概率来刻画。

综上,概率(密度)表达给定下样本随机向量X = x的可能性,而似然表达了给定样本X = x下参数(相对于另外的参数)为真实值的可能性。

最大似然估计:

在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。最大似然估计,最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤: 
(1) 写出似然函数
(2) 对似然函数取对数,并整理
(3) 求导数
(4) 解似然方程

最小二乘法(Least Square )的解析解可以用 Gaussian 分布以及最大似然估计求得

首先假设线性回归模型具有如下形式:

其中:,,误差

已知:


如何求参数W呢?

如果用最小二乘法的话,有误差函数:


我们对W求偏导,然后令个偏导 = 0,联立解方程——这就是最小二乘法求W的过程。

如果用最大似然函数求解的话:

假设误差服从高斯正态分布:

也就是说:


则最大似然估计推导:


对上式求偏导然后令个偏导 = 0,联立解方程。

总结:两者的结果是一样的。







你可能感兴趣的:(机器学习)