最小二乘法和最大似然估计

 

一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}。而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>。一般用于线性回归中进行参数估计通过求导求极值得到参数进行拟合,当然也可以用牛顿法或者梯度上升。而逻辑回归——分类问题中寻找最佳参数,首先也是通过极大似然估计得到cost function,然后一般用梯度上升或者牛顿法求解参数。。。

此外多说一点:线性回归中的损失函数和逻辑回归中的损失函数略有不同,linear regression中要不是最小二乘中的J(θ)<估计值与观察值的平方和最小>或者为最大似然估计中使联合概率密度达到最大。

而logistic regression中损失函数在这篇blog中讲解过:http://blog.csdn.net/lu597203933/article/details/38468303

 

二:最小二乘法:

基本思想:

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。

 

这里m是样本数量,θ表示要求的参数,yi是观测值, h是估计值

 

最小二乘的作用

用于得到回归方程的参数的一个最优估值。在统计学上,该估值可以很好的拟合训练样本。并且对于新的输入样本,当有了参数估值后,带入公式可以得到输入样本的输出。

 

如何求解最小二乘

多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。

解:

 最小二乘法和最大似然估计_第1张图片

最小二乘法和最大似然估计_第2张图片

其中:

最小二乘法和最大似然估计_第3张图片


三:极大似然估计

基本思想

当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

 

极大似然估计的定义:

最小二乘法和最大似然估计_第4张图片

最小二乘法和最大似然估计_第5张图片

最小二乘法和最大似然估计_第6张图片

最小二乘法和最大似然估计_第7张图片

最小二乘法和最大似然估计_第8张图片

最小二乘法和最大似然估计_第9张图片


注意:一般的扰动项是对立同分布的,符合正态分布,因此y-hθ(x)也是正态分布,y就是以hθ(x)为中心的正态分布。

 

求解极大似然

同样使用多元函数求极值的方法。

 

四:最小二乘与极大似然估计的区别和理解

区别来自:http://blog.sina.com.cn/s/blog_4b12446d010191ri.html

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。

在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。



最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。

 

理解来自:http://www.zhihu.com/question/20447622

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为leastsquare,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

 

五:为什么最小二乘法对误差的估计要用平方?

在区别当中提到了当假设数据满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。这也是为什么最小二乘法对误差的估计用平方!!下面给出证明来自:http://www.fuzihao.org/blog/2014/06/13/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95%E5%AF%B9%E8%AF%AF%E5%B7%AE%E7%9A%84%E4%BC%B0%E8%AE%A1%E8%A6%81%E7%94%A8%E5%B9%B3%E6%96%B9/

最小二乘法和最大似然估计_第10张图片


当然上面的公式有误,少了个σ,但是不影响结果。

 

参考文献:

1http://blog.csdn.net/luo86106/article/details/40508455最小二乘和最大似然估计


 

你可能感兴趣的:(机器学习,机器学习实战笔记)