[斯坦福大学公开课：机器学习（二）] 欠拟合与过拟合、逻辑回归

欠拟合与过拟合

假设随机变量x∈R，需要预测随机变量y。下面最左边这副图中，显示了函数y=θ₀+θ₁x对数据集的拟合。通过观察，我们发现数据集并不像是一条直线，因此函数对数据集并没有很好得拟合。

另外，我们给刚才的函数加上一个额外的特征x ²，此时y=θ ₀+θ ₁x+θ ₂x ²，我们获得了一条对数据集拟合更好的曲线。那么，我们是否就可以就认为加入越多的特征，函数拟合得就越好？上面最右边的图显示了用含有五阶多项式去拟合数据集的结果。我们看到，尽管曲线完美得经过了数据集中的每一个点，但是我们不能因此而断定这就是一个好的预测函数。我们将最左边的图称为 欠拟合(underfitting)，表示模型并没有很好的捕捉到数据的结构。右边的图，我们将它称为 过拟合(overfitting)。

局部加权线性回归(Locally weighted linear regression)

在我们之前的线性回归算法中，为了做出预测，我们需要：
1. 调整 θ使得∑_i(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²最小化。
2. 输出θ^Tx。

而在局部加权线性回归算法中，我们采用的做法如下：
1. 调整θ使得∑_iω⁽ⁱ⁾(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²最小化。
2. 输出θ^Tx。

在这里，ω⁽ⁱ⁾是一个非负的权值。直觉上，如果ω⁽ⁱ⁾相对于某个i非常大，那么我们才选取θ的时候，应该尽量让(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)小一点；如果ω⁽ⁱ⁾很小，那么(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)将会被忽略。

在选取权值时，一个相对比较标准的做法是：

我们注意到，权值取决于我们需要估计的x周围特定的点。若|x ⁽ⁱ⁾ - x|很小，那么ω ⁽ⁱ⁾接近于1；若|x ⁽ⁱ⁾ - x|很大，ω ⁽ⁱ⁾将会很小。因此，在调整θ的过程中，对于距离查询点(query point)越近的训练样本，将会赋予更高的权重。其中，参数τ控制整个函数的形状，即在训练样本远离查询点的过程中，权重下降的速度。我们将τ称为 带宽参数(bandwidth parameter)。

局部加权线性回归是我们看到的第一个非参数算法(non-parametric)。而我们之前看到的线性回归被称为参数学习算法，因为它有若干个固定的参数用来拟合数据。一旦调整好参数并将它们保存，我们再也不需要为将来的预测而保留训练数据。相反，局部加权线性回归在做预测时，需要保留周围所有的训练集。

逻辑回归(Logistic regression)

现在让我们来讨论分类问题。它像是一个回归问题，但是我们需要预测的y值是仅仅是一系列离散的值。目前，我们将关注于二元分类问题，即y只能取两个值，0或者1。比如说，我们想要建立一个垃圾邮件分类器，此时x⁽ⁱ⁾可能代表一些邮件的特征，当y=1时，邮件属于垃圾邮件；否则y=0。0也被称为负类(negative class)，1被称为正类(positive class)。给定一个x⁽ⁱ⁾，相关的y⁽ⁱ⁾也被称为该训练样本的标签(label)。

我们当然也可以忽略y是一个离散的值这一事实，而采用之前的线性回归来做预测。然而，在当前问题上使用该算法表现相当差，并且线性回归无法使得h��_θ(x)范围在{0, 1}。

为了修正上述不足，我们将改变h��_θ(x)的形式：