最小二乘法的思路及推导过程

一、最小二乘法的思路

最小二乘法(Least Squares)是回归分析中的一种标准方法,它是当方程数量大于未知数个数时,利用数据点构建的方程组,对未知参数进行一种近似估计的方法。之所以叫做“最小二乘”,是因为利用的优化项是由所有数据点与模型观测点残差的平方和构成的,通过极小化残差的平方和,达到一种从整体上最“接近”实际观测数据的模型参数。

二、最小二乘法的公式推导

以最简单的线性最小二乘法拟合为例。设最终需要得到的拟合直线公式为

y=ax+b

其中,ab为待估计的参数。

设我们拥有的一组数据的观测点对为(x_1,y_1),(x_2,y_2),...,(x_n,y_n),一共有N对数据点,则将这些数据点分别代入方程,可以得到一共N个方程构成的方程组,通过极小化实际观测数据与模型观测数据的残差平方和:

\varepsilon^2=\sum_{i=1}^N(y_i-(ax_i+b))^2

\varepsilon^2分别对参数a,b求偏导,并令偏导等于零,可得

\frac{\partial \varepsilon^2}{\partial a}=2\sum_{i=1}^{N}(y_i-(ax_i+b))(-x_i)=0

化简后得到

\sum x_iy_i-a\sum x_i^2-b\sum x_i=0                                   (1)

在这里,由于都是对i下标从1-N求和,所以将求和上小标均省略。

对参数b求偏导,可得

\frac{\partial \varepsilon^2}{\partial b}=2\sum_{i=1}^{N}(y_i-(ax_i+b))=0

化简后得到

\sum y_i=a\sum x_i+Nb                                                     (2)

利用方程(1),(2)组成的关于未知参数a,b的二元一次方程组,联立求解,可得

\large \left\{ \begin{matrix} a&=&\frac{\sum x_i \sum y_i-N\sum x_iy_i}{(\sum x_i)^2-N\sum x_i^2} \\ b&=&\bar{y}-a\bar{x}\\ \end{matrix}\right.

其中\large \bar{x},\bar{y}上的横线代表对观测数据点求平均值。

至此,我们推导出了线性最小二乘法对于最简单两个直线参数估计情形的计算公式。

你可能感兴趣的:(大数据,最小二乘法)