Machine Learning Yearning31~32

1.如果训练误差比较小,低于期望的误差,而验证误差却较高于寻来你误差,这时,bias较小,variance较大,增加训练数据也许能够减小验证误差和训练误差。但是,如果训练误差本来就比较大,而且验证误差更大,这时bias和variance都大,就得想办法同时减少bias和variance了。
2.在画学习曲线时,当样本很小时,根据数据集的不同情况,会出现学习曲线震动非常厉害的情况,比如都取了负样本,这时很难看出学习曲线正确的趋势。以下有两个办法来解决这个问题:1,选取多组小样本训练数据,有放回抽样(无放回也可以),对每个模型得到的验证结果进行平均;2,如果原本训练数据类别极度不平衡,或者类别数量特变多,那我们可以选择一个相对平衡的子集而不是完全随机选取(以防全都是某一类的情况出现),比如使得选取的数据每类的比例和原始数据每类的比例接近相同。
当然如果原始是数据很大,每类数量分布比较均匀,那么就没有必要使用这些技巧。
那么当数据量非常大,使用均匀间隔画学习曲线的代价非常大,那么就可以使用不均匀间隔进行,比如逐渐增大间隔。

你可能感兴趣的:(吴恩达笔记,吴恩达笔记)