局部加权回归LOESS(locally weighted regression)

欠拟合和过拟合

首先看下面的三幅图,
局部加权回归LOESS(locally weighted regression)_第1张图片

第一幅拟合为了 y=θ0+θ1x 的一次函数
第二幅拟合为了 y=θ0+θ1x+θ2x2 的二次函数
第三幅拟合为了 y=5j=0θjxj 的五次项函数

最左边的分类器模型没有很好地捕捉到数据特征,不能够很好地拟合数据,我们称为欠拟合
而最右边的分类器分类了所有的数据,也包括噪声数据,由于构造复杂,后期再分类的新的数据时,对于稍微不同的数据都会识别为不属于此类别,我们称为过拟合

局部加权回归

局部加权回归是一种非参数学习算法,这使得我们不必太担心对于自变量最高次项的选择

我们知道,对于普通的线性回归算法,想要预测 x 点的 y 值,我们通过:

  1. 通过拟合θ来找到 i(y(i)θTx(i))2 的最小值
  2. 预测的值为 θTx

对于局部加权回归算法,我们通过下列步骤预测 y 的值:

  1. 通过拟合θ来找到 iw(i)(y(i)θTx(i))2 的最小值
  2. 预测的值为 θTx

这里的 w(i) 是权重,它并非一个定值,我们通过调节 w(i) 的值来确定不同训练数据对结果的影响力,
w(i) 很小时,它对应的 y(i)θTx(i) 也很小,对结果的影响也很小;
而当它很大时,其对应的 y(i)θTx(i) 也很大,对结果的影响很大。
w(i) 的计算方法有很多种,其中一种公式为:

w(i)=exp((x(i)x)22τ2)

它很像高斯分布,函数图类似下图,要预测的点 x 对应的中间的顶点处的自变量,可以看出,离 x 处越近的地方 w(i) 值越大,越远的地方 w(i) 越小,这就使得离 x 处近的数据对预测结果的影响更大。

局部加权回归LOESS(locally weighted regression)_第2张图片

你可能感兴趣的:(机器学习,机器学习)