最小二乘法

最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。
最小二乘法是用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。
最小二乘法通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

比如从最简单的一次函数y=kx+b讲起
已知坐标轴上有些点(1.1,2.0),(2.1,3.2),(3,4.0),(4,6),(5.1,6.0),求经过这些点的图象的一次函数关系式.
当然这条直线不可能经过每一个点,我们只要做到5个点到这条直线的距离的平方和最小即可,这这就需要用到最小二乘法的思想.然后就用线性拟合来求。

在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程.

例如,在现实世界中,这样的情形大量存在着:两个变量XY(比如身高和体重)彼此有一些依赖关系,由X可以部分地决定Y的值,但这种关系又是不确定的.人们常常借助统计学中的回归模型来寻找两个变量之间的关系,而模型的建立当然是依据观测数据.首先通过试验或调查获得xY的一组对应关系(x1Y1)(x2Y2),…,(xnYn),然后回答下列5个问题:

1. 这两个变量是否有关系?(画出散点图,作直观判断)

2. 这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型y=b0b1x,二次函数模型y=b0b1xb2x2

3. 建立回归模型.

4. 对模型中的参数进行估计,最小二乘法是这些参数的一种常用估计方法.

5. 讨论模型的拟合效果.

在上述第3步中,设所建立的回归模型的一般形式是,其中Y称为响应变量,x称为解释变量或协变量;是一个由参数决定的回归函数;是一个不可观测的随机误差.为了通过试验数据来估计参数的值,可以采用许多统计方法,而最小二乘法是目前最常用、最基本的.由的估计值决定的方程称为经验回归方程或经验方程.

教科书中涉及的回归模型是最简单的一元线性模型

Y=b0+b1x+

此时模型的拟合效果可以通过Pearson相关系数

来描述。事实上,在线性回归模型中可以证明相关指数等于相关系数的平方.

2.什么是最小二乘法思想

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小.

例如,对于回归模型

,…,为收集到的观测数据,则应该用来估计,这里的估计值。这样点的估计就是,它们之间距离的平方就是

进而最小二乘估计量就是使得

                       (*)

达到最小值的参数.特别当各个和相应的估计值相等,即时,最小二乘估计量就是使得

                               (**)

达到最小值的参数.

    如果我们能够在固定解释变量值的前提下观测预报变量,就认为解释变量的观测值和估计值相等,从而可以通过(**)式求最小二乘估计.在实际应用中,人们常忽略“各个和相应的估计值相等”的条件,而把(**)式的最小值点称为参数的最小二乘估计量,其原因有二:其一是不知道最小二乘方法的原理;或是找不到估计量的合理数学表达式,也就无法通过(*)式求最小二乘估计量,只好用(**)式的最小值点作为参数的估计.

在教科书中,已知(x1y1)(x2y2),…,(xnyn)是变量XY的一组观测数据,要估计的是回归直线方程y=b0b1x中参数b0b1的值。所以这时目标函数为

是这时的最小二乘法就是寻求b0b1的值,使在各点处的偏差yi(b0b1xi)i=12,…,n)的平方和达到最小.在这种情形中,有意思的事情是:估计得到的直线=b0b1x一定经过观测数据点的中心()).

进一步,若观测数据全部落在某一直线上,则这个直线方程的截距和斜率必是模型参数的最小二乘估计量.因此最小二乘法还为我们提供了一种求解方程组的方法.

关于最小二乘估计的计算,涉及更多的数学知识,这里不想详述.其一般的过程是用目标函数对各bi求偏导数,并令其等于0,得到一个线性方程组.高斯当年将其命名为正则方程,并创设了解线性方程组的消元法——高斯消元法.

从计算的角度看,最小二乘法与插值法类似,都是处理数据的算法.但从创设的思想看,二者却有本质的不同.前者寻求一条曲线,使其与观测数据“最接近”,目的是代表观测数据的趋势;后者则是使曲线严格通过给定的观测数据,其目的是通过来自函数模型的数据来近似刻画该函数.在观测数据带有测量误差的情况下,就会使得这些观测数据偏离函数曲线,结果使得与观测数据保持一致的插值法不如最小二乘法得到的曲线更符合客观实际.

最小二乘法能在统计学中得到应用,也是因为测量误差的存在。事实上,在高斯等人创立了测量误差理论,对最小二乘法进行了误差分析之后,这种方法才在统计界获得了合法地位,正式成为了一种统计方法.

3.关于最小一乘法

将上述最小二乘法的一般形式改为

目标函数=

就是最小一乘法。最小一乘法诞生在1760年,比最小二乘法还要早40多年.但是由于当时无法解决的计算问题,最小一乘法在此后的百余年中都没有获得长足的发展.直到1950年,发现了用线性规划求解的方法以及电子计算机的使用,才解决了计算难题.如今,统计理论的发展使最小一乘法在某些应用部门(如数量经济学)显示了优良的性质,正在逐步受到应用界的重视.

    有意思的是,有人做过这样的试验:准备大量的散点图,让一些人各自用目测的方法画直线.结果表明,大多数人目测的结果更接近于最小一乘法而不是最小二乘法获得的直线。

二、最小二乘法的发现史及其在统计学中的地位

发现最小二乘法的动因是天文学和测地学中处理数据的需要.陈希孺先生所著《数理统计学简史》中记载了这样一段历史.在18世纪,天文学和测地学中的一些数据分析问题可以描述如下:有(m1)个可以测量的量x0x1,…,xm,和m个未知的参数β1β2βm.按照某种理论,它们之间应有线性关系

                                         

但是由于实际工作中对x0x1,…,xm的测量存在误差,而且⑴式只是理论上的近似而非严格成立.也就是说,⑴式左边的表达式实际上不等于0,其真实值与测量有关,可视为一种误差.若进行了n次测量,在实际问题中,n总是大于甚至是远远大于m,目的是多提供一些信息,以便对参数β1β2,…,βm作出较精确的估计.设在第i次测量中,x0x1,…,xm分别取值x0ix1i,…,xmi,则按照⑴式,应有

                i=12,…,n)。            

若⑵式严格成立,则只要从上述n个方程中任意挑出m个就可以解出β1β2,…,βm的值.但⑵式并非严格成立,于是需要设计合适的算法来估计参数的值.

    1750年,天文学家梅耶发表了一种方法.他在研究海上航行船只的定位问题时,得到了一个包含3个未知参数的形如⑴式的关系式以及27组观测数据.梅耶把这27个方程分成3组,然后把每组中的9个方程相加,共得到3个方程,这样可以解出3个未知参数.至于分组的方法,梅耶以其中一个系数为准,按各方程中此系数的大小分组:最大的9个,最小的9个和剩下的9个各成一组.在最小二乘法发现之前,这个方法曾经比较流行,并被冠以梅耶的名字.值得一提的是,梅耶还估计了这种方法的误差,并试图对误差的界限作一个估计.虽然今天看来梅耶的做法有一些错误,但他在那么早的阶段就做出这种努力,是难能可贵的.

    1787年,拉普拉斯在研究天文问题时引出了一个形如⑴式的m4n24的方程组.他的求解方法是,先把24个方程编号,然后按下列方式得到需要求解的4个方程.

    方程124个方程的和;

方程2:前12个方程之和-后12个方程之和;

方程3:编号为3410111718的方程之和-编号为171420的方程之和;

方程4:编号为28915162122的方程之和-编号为56121319的方程之和。

拉普拉斯没有解释如此组合的原因,这使得他的方法无法应用于类似的问题.

对解决这类问题做过尝试的还有大数学家欧拉,但他的做法显得杂乱无章,缺乏基本的合理性.看来这个问题的解决还需要一点新的思路.1805年,法国数学家勒让德采取了一个新的角度来考虑这个问题.他不再关心如何找出个数等于未知数个数的方程组,而是考虑如何使误差在整体上达到平衡,于是他采取使

的原则去求解β1β2βm.这一原则使误差不过分集中在几个方程上,而是比较均匀地分布于各方程,从而有助于揭示系统的更接近真实的状态.而勒让德之前的学者的做法对于误差在各方程之间的分布的影响是不清楚的.

后来,最小二乘法逐步渗入到统计数据分析领域,对统计学的发展产生了重大影响.统计史家对此评价很高,有的认为最小二乘法之于统计学,犹如微积分之于数学.有的学者称最小二乘法是19世纪统计学的“中心主题”.最小二乘法之所以能获得如此的显赫地位,主要得益于它与线性模型的联系.勒让德创设最小二乘法是为了解决形如⑴式的线性表达式(如今已发展为线性模型)的,由此导出的也是一个线性的方程组,这使得最小二乘法具有计算简便的特点.但更加重要的是,“线性”的特点使最小二乘法在误差分析方面较之其他方法具有不可替代的优势.在1809年高斯对最小二乘估计进行的误差分析中发现,在线性模型的所有无偏估计类中,最小二乘估计是唯一的方差最小的无偏估计;进入20世纪后,哥色特、费歇尔等人还发现,在正态误差的假定下,最小二乘估计有较完善的小样本理论,使基于它的统计推断易于操作且有关的概率计算不难进行.与此同时,对最小二乘法误差分析的研究也促进了线性模型理论的发展.如今,线性模型已经成为理论结果最丰富、应用最广泛的一类回归模型.

三、对“用最小二乘法探求回归直线方程”的教学建议

1.体现“过程性”

    在本部分内容的教学中,应结合具体问题体现两个过程.一是回归分析的过程,即:要研究两个定量变量(如年龄和脂肪含量)是否具有某种关系画散点图,直观判断用回归直线代表试验数据的趋势用最小二乘法求得斜率和截距的估计值,得到经验方程=b0+b1x用经验回归方程对相应变量进行预测.二是用最小二乘法估计回归直线的过程.这个过程包括两个环节,一是通过让学生自己寻求回归直线,引导他们认识到应该从“整体上”看待这个问题,即“从整体上看,各观测数据点与直线的距离最小”是确定直线的一个合理原则;二是让学生经历用数学语言刻画“从整体上看,各观测数据点与直线的距离最小”的过程.

2.体现统计思想

    对于本部分内容,统计思想主要体现在两个方面.首先建立回归直线的目的,是为了从整体上代表两个变量的观测数据的关系,这与用平均数来代表一个变量的数据是类似的.二是观测值不可能正好落在回归直线上.这是因为回归直线方程y=b0+b1x线性回归模型Y=b0+b1x+=y+的一部分,这里是误差项.该模型假定,变量xy有线性关系y=b0+b1x,而凡是不能被该线性关系描述的y的变化都由误差项来承担.由于误差,观测值不可能正好落在这条直线上.如果这个模型有意义的话,这些观测值不会离这条直线太远.而且b0b1是通过样本估计出来的(通常用表示),存在随机误差,这种误差也会导致预测结果的偏差.

 

你可能感兴趣的:(最小二乘法)