3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型

1.样本数量对bias和variance的影响

3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第1张图片
预测的模型与实际模型之间的差距为 bias+variance
3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第2张图片
样本数量越多,预测值与μ、 σ²越接近。
3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第3张图片
上图中第四个图,实际模型位于靶心红色点位置,对N个样本(图中分散的小蓝点)的预测值求平均(图中大蓝点),发现预测模型与实际模型存在偏差,该偏差即来自于bias和variance。个人理解:bias偏置值看距离远近,variance方差看点的分散程度

2.模型复杂度对bias和variance的影响

3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第4张图片
如上图,越简单的模型,variance越小,模型预测的结果越集中;越复杂的模型,variance越大,模型预测的结果越分散。(由于拟合度不够,variance较小,简单的模型受不同数据的影响较小;太复杂的模型可能有过拟合的现象,variance较大,复杂模型受不同数据的影响较大)
3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第5张图片

模型越简单,过拟合风险小,但是模型本身固有偏差大;模型越复杂,模型越无偏,但是方差大,过拟合风险大。
3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第6张图片

3.bias & variance 的判断与改善

3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第7张图片

判断:
模型连训练集的例子都不能适应(欠拟合)–>bias太大
模型可以适应训练集的例子,但是在测试集上有很大的误差(过拟合)–>variance太大
bisa过大的解决办法:
添加更多特征作为输入(如第2篇文章举的例子,增加体重、身高…作为输入)
换个复杂些的模型
此时增加训练集起不到什么有效的作用(模型是错的,增加多少训练集也不会有帮助)
variance过大的解决办法:
增加训练集(增加数据集是解决variance过大的万能方法)
正则化,在loss function中加一项参数,使曲线平滑(但这样做可能会伤害bias,原因在第2篇文章中)

3.偏置值和方差(bias & variance)对预测结果的影响及如何选择最优模型_第8张图片
模型的选择:通过调整bias和variance来找到一个有更小错误率的模型
如上图,model3在一个测试集上的表现最好,但在另外一个测试集上,model3的表现就不那么好了(此时public testing set的结果是不可靠的,他不能反应model3在private testing set上的err)
解决办法:增加验证集
将原本的训练集再划分为新的训练集+验证集validation set,验证集的作用就是帮助选择model。比如:
1.现在有3个model,3个model在训练集上训练好之后,接下来看一下3个模型在验证集上的表现,
2.假设model3的表现是最好的
-------2.1可以直接确定model3就是最好的模型
-------2.2如果感觉划分后训练集的数据太少,那么就再使用全部的测试集(即最开始的training set) 在model3上再训练一次
最后再用model3来预测测试集,尽管此时在得到的错误率大于如上图所示的0.5,但是这时候model3在public traing set上的err才能真正反映他在private traing set上的err

你可能感兴趣的:(深度学习)