欠拟合(underfitting)又称高偏差(high bias):(如图1直线拟合)没有很好的拟合训练数据,就好象算法有很强的偏见或者说非常大的偏差,认为房子价格与面积线性相关,与数据不符,最终导致拟合数据效果很差
过拟合(overfitting)又称高方差(high variance):(如图3)如果我们拟合一个高阶多项式,那么这个假设函数几乎能够拟合所有数据,这就面临可能的函数,太过庞大,变量太多的问题。没有足够的数据来约束它,来获得一个好的假设函数。
**注意:**过度拟合将会在变量过多的时候出现,这时训练出的假设能很好地拟合训练集,所以代价函数实际上可能非常接近0,拟合的曲线千方百计的拟合训练集,导致它无法泛化到新样本,无法预测新样本的价格。如果有过多的变量,而只有非常少的训练数据就会出现过拟合问题。
**泛化(generalize)*一个假设模型应用到新样本的能力。新样本数据是指没有出现在训练集的房子。
**前向传播算法(forward propagation)*依次计算激活项,从输入层到隐藏层再到输出层的过程叫前向传播。如图,每一个a都是由上一层所有的x和每一个x所对应的权重参数Θ决定的。我们把这样从左到右的算法称为前向传播算法。
查准率(Precision)和召回率(Recall) 我们将算法预测的结果分成四种情况: