总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法

一.作业推导

二.最小二乘法

最小二乘法指通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

线性最小二乘法满足以下基本公式:
考虑超定方程组(超定指方程个数大于未知量个数):
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第1张图片
其中m代表有m个等式,n代表有 n 个未知数β,m>n ;将其进行向量化后为:
Xβ=y
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第2张图片
该方程组一般而言没有解,为了选取最合适的β让该等式"尽量成立",这里引入残差平方和函数S
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第3张图片
在统计学中,残差平方和函数可以看成n倍的均方误差MSE。
当β=β^ 时,S(β)取最小值,有:
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第4张图片
对S(β)进行微分求最值,得:
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第5张图片
如果矩阵XX非奇异则β有唯一解:
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第6张图片

三.梯度下降法

梯度下降法是迭代法的一种,可以解决线性回归问题。
它的原理是:
如果实值函数f(x)在点 x=a 处可微且有定义,那么函数 f(x)在点 a处,沿着梯度的反方向-deltaf(a) 下降的最快。即梯度的方向是函数增长速度最快的方向,那么梯度的反方向就是函数减少最快的方向。
其迭代公式为:
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第7张图片其中,s(k)代表梯度负方向,ρk表示梯度方向上的搜索步长。
梯度下降法每次都以梯度的反方向下降,所以,有可能会容易走出锯齿路线,从而增加迭代次数。

四.牛顿法

实际的应用中多数方程不存在求根公式,因此求精确根非常困难,甚至不可能,从而寻找方程的近似根就显得特别重要。本方法使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。牛顿迭代法是求方程根的重要方法之一,其最大优点是在方程f(x)=0 的单根附近具有平方收敛,而且该法还可以用来求方程的重根、复根,此时线性收敛,但是可通过一些方法变成超线性收敛。
总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法_第8张图片

五.高斯牛顿法

高斯牛顿法是非线性回归模型中求回归参数进行最小二乘的一种迭代方法。该方法使用泰勒级数展开式去近似地代替非线性回归模型,然后通过多次迭代,多次修正回归系数,使回归系数不断逼近非线性回归模型的最佳回归系数,最后使原模型的残差平方和达到最小。
其直观思想是先选取一个参数向量的参数值β,若函数ft(Xt,β)在β0附近有连续二阶偏导数,则在β0的邻域内可近似地将ft(Xt,β)看作是线性,因而可近似地用线性最小二乘法求解。

其基本步骤如下:

(1)已知m个点:

在这里插入图片描述

(2)函数原型为:

在这里插入图片描述
其中,(m>=n)
在这里插入图片描述

(3)目的是找到最优解β,使得残差平方和最小:

在这里插入图片描述
残差为:
在这里插入图片描述

(4)要求最小值,即S的对β偏导数等于0:

在这里插入图片描述

(5)在非线性系统中,在这里插入图片描述是变量和参数的函数,没有close解。因此给定一个初始值,用迭代法逼近解:

在这里插入图片描述
其中k是迭代次数,在这里插入图片描述是迭代矢量。

(6)每次迭代函数是线性的,在在这里插入图片描述处用泰勒级数展开:


其中,J是已知的矩阵,为了方便迭代,令在这里插入图片描述

(7)此时残差表示为:

在这里插入图片描述
在这里插入图片描述

(8)带入步骤4中的公式:

在这里插入图片描述
解得:在这里插入图片描述

(9)写成矩阵形式:

在这里插入图片描述

(10)最终迭代公式为:

在这里插入图片描述
其中,Jf是函数f=(x,β)对β的雅可比矩阵。

你可能感兴趣的:(总结最小二乘法,梯度下降法,牛顿法和高斯牛顿法)