斯坦福大学机器学习-有关与过拟合问题

1)  The Problem of Overfitting(过拟合问题)

拟合问题举例-线性回归之房价问题:

a) 欠拟合(underfit, 也称High-bias)

斯坦福大学机器学习-有关与过拟合问题_第1张图片

b) 合适的拟合:

斯坦福大学机器学习-有关与过拟合问题_第2张图片

c) 过拟合(overfit,也称High variance)

斯坦福大学机器学习-有关与过拟合问题_第3张图片

什么是过拟合(Overfitting):

如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好(),但是对于新数据预测的很差。

过拟合例子2-逻辑回归:

与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合:

a) 欠拟合

斯坦福大学机器学习-有关与过拟合问题_第4张图片

b) 合适的拟合

斯坦福大学机器学习-有关与过拟合问题_第5张图片

c) 过拟合

斯坦福大学机器学习-有关与过拟合问题_第6张图片

如何解决过拟合问题:

首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征:

斯坦福大学机器学习-有关与过拟合问题_第7张图片

那么对于训练集,拟合的会非常完美:

斯坦福大学机器学习-有关与过拟合问题_第8张图片

所以针对过拟合问题,通常会考虑两种途径来解决:

a) 减少特征的数量:

-人工的选择保留哪些特征;

-模型选择算法(之后的课程会介绍)

b) 正则化

-保留所有的特征,但是降低参数的量/值;

-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;

你可能感兴趣的:(机器学习)