【机器学习】一元线性回归模型:最小二乘估计

一元线性回归模型:最小二乘估计

一、一元线性回归模型
变量之间存在确定性关系和相关关系。比如,圆的面积和半径之间的关系属于确定性关系;身高和体重之间属于相关关系。从而进入了回归模型对相关关系进行研究。
考虑两个存在相关关系的变量的情形,我们把其中一个记为Y,表示因变量,另一个记为X,表示自变量。此时X只能在一定程度上决定Y值,但是不能准确确定,那么为了研究X与Y之间的关系,我们对(X,Y)进行了一系列的观察,获得了:

并且假设这一系列的数据在平面直角坐标系中的位置关系如下图所示,即数据呈现一种直线形状,那么此时X与Y之间的相关关系我们可以用一个线性方程表示:

【机器学习】一元线性回归模型:最小二乘估计_第1张图片
因为X不能严格确定Y,所以增加一个误差项e,表示Y不能由X所确定的那一部分。公式1称为理论回归直线,其中的常数项和斜率都是未知的,需要通过观测数据来估计,将数据代入公式1,得到

公式2通常称为一元线性回归模型,其中表示对应第i组数据的误差,即包括可能影响Y的其他未知的众多因素,也包括一些随机因素对Y的综合影响,我们把这些误差视为随机误差,并假设E()=0.除此之外,还会假设:


这些假设称为高斯-马尔可夫假设。

二、最小二乘估计
最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小,也即使

达到最小的作为的估计。这就是最小二乘估计。那么从数学的角度来讲就转化为求Q函数的最小值问题,根据微分知识,那么Q函数分别对两个参数求偏导并令它们等于0:


该公式称为正则方程式,进一步化简可得:

其中
最终解得:
【机器学习】一元线性回归模型:最小二乘估计_第2张图片
于是将它们代入公式1,略去误差项e即可得到回归直线:

实际应用之中会对回归直线进行检测,有诸多方法,本文不讲述。

以上内容为个人理解所得,每一个文字和公式皆是手动敲打,难免有错误之处,望读者海涵和指出。

你可能感兴趣的:(机器学习,最小二乘估计)