过拟合、欠拟合和正则化

1、过拟合和欠拟合

过拟合、欠拟合和正则化_第1张图片

 图1.通过图中的数据可以明显看出随着房子面积增大,住房价格逐渐稳定,因此该算法没有很好的拟合训练集,称为欠拟合或者叫做高偏差(后面会提到) 

图2.曲线较好的穿过了每一个点。因此该算法较好的拟合了训练集

图3.为过拟合或叫做高方差

概括的说过拟合的问题,过拟合将会出现在变量过多的时候,这时候训练出来的假设函数h_{\Theta }(x)很好的拟合训练集,所以代价函数J(θ)非常接近于0或者等于0。但是这样的曲线由于它千方百计地拟合训练集中地数据,就会导致它无法泛化到新的样本中。

泛化:一个假设模型应用到新样本的能力

新样本:就是那些没有出现在训练集的数据

2、如何解决过拟合问题

减少选取变量的数量

  • 人工检查变量清单并决定那些变量重要
  • 模型选择法对变量进行自动选择

正则化

  • 保留所有特征变量,减少量级或参数θ的大小(当我们有很多特征变量时,而且其中每一个参数都能对预测值y产生影响)

3.、代价函数 

过拟合、欠拟合和正则化_第2张图片我们要使\Theta _{3}\approx 0\Theta _{4}\approx 0,当参数值越小,就意味着更简单的假设函数模型。这一长串函数就相当于一个二次函数。

4、线性回归的正则化

过拟合、欠拟合和正则化_第3张图片

你可能感兴趣的:(机器学习笔记,机器学习,算法,深度学习)