线性回归小结

假设我们有许多样本数据{x(i),y(i)},其中x(i)是第i个样本变量,y(i)是第i个变量的类别,对于每个样本变量都有许多特征feature(x)=X={x1,X2,…Xn},现在我们建立判别函数hq (x)=q1x1+…qnxn,线性回归的目标是找到判别函数的最佳系数,尽量让判别函数对待测试数据的分类结果正确。

为了让判别函数与真实结果尽量一致,我们要让判别函数的结果与真实分类结果的差的绝对值最小。但是绝对值是不好计算的,因此我们把差的绝对值换成差的平方,写成:

线性回归小结_第1张图片线性回归小结_第2张图片

这里添加1/2系数是为了方便求导的时候去掉常数系数,因为常数项并不影响求解;s是样本个数。这个函数称为损失函数。

求解这个方程常用的有最小二乘法、梯度下降法。

(1)最小二乘法经常用来最小化误差的平方和来拟合数据。这个方法刚好就适用于现在的问题,我们将x看做自变量,y看做因变量,现在x-y函数坐标系中有很多(x,y)点,现在就是求解一条拟合曲线来适合数据,使得所有的(x,y)点离拟合曲线的距离之和最短。在《矩阵论》中,最小二乘法可以简单的通过一个矩阵来求解:

,判别函数系数,则,对于所有的数据,则有

最小二乘法是最小化误差,那么误差函数为


由于是二次函数,因此极值点肯定在导数为0的位置,对误差函数的系数求导,不要常数项得到:



这样就求出了判别函数项。

(2)梯度下降法能求出极值的原理可以参照牛顿下降法。梯度下降法最终也是收敛到导函数为0的地方。对于误差函数J(q),我现在有一个判别函数系数初始值q0,那么不断更新qk+1=qk+aÑ J(q),其中a是步长,是一个经验值,Ñ表示求导,这里是对q求导。如此迭代下去直到q收敛,就是最终的判别函数系数。

你可能感兴趣的:(机器学习)