机器学习基石(林轩田)第十六章 笔记与感悟总结

16.1 Three Learning Principles - Occam’ Razor

机器学习基石(林轩田)第十六章 笔记与感悟总结_第1张图片

机器学习基石(林轩田)第十六章 笔记与感悟总结_第2张图片


简单的hypothesis,简单的model

机器学习基石(林轩田)第十六章 笔记与感悟总结_第3张图片

机器学习基石(林轩田)第十六章 笔记与感悟总结_第4张图片

简单的model。当输入乱乱的资料时,Ein无法很小。

因此,如果用简单的模型,能够分开资料,那么就说明其中会有某种规律。

而不能分开,则说明没有啥规律。

因为复杂的模型能够拟合所有的数据,所以你根本不知道到底是有规律的样本?

还是随机抛硬币产生的样本(没有内在规律)。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第5张图片

机器学习基石(林轩田)第十六章 笔记与感悟总结_第6张图片

16.2 Three Learning Principles - Sampling Bias

总统选举的故事。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第7张图片

clue:电话当时是很贵的。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第8张图片


因为,训练和数据和实际的数据要在同一的分布下来做。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第9张图片

老师当年用来validation的资料是随机选取的,而比赛实际上是用的前七部电影作为训练,后三部电影作为预测。故最后得到的模型并不能提现顺序性,最后模型失败。

因此,training set要和validation set 越接近越好,这样说明最后的模型能够很好的适应test set

机器学习基石(林轩田)第十六章 笔记与感悟总结_第10张图片


银行的资料不知道那些没有通过的人,到底发生什么事。这样当一个顾客来的时候,数据集的分布就不均匀。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第11张图片

机器学习基石(林轩田)第十六章 笔记与感悟总结_第12张图片

16.3 Three Learning Principles - Data Snooping

回顾一下,我们偷看资料的风险。

我们用肉眼偷看资料,是一件很有风险的事情。

机器学习基石(林轩田)第十六章 笔记与感悟总结_第13张图片


偷看资料实际上发生很频繁,不仅是肉眼偷看。

因为资料的变化范围很大,故需要放缩工作。

现在问题是,一种是将前六年统计特性作为放缩,然后预测完后再放缩回去就好。

另一种是,这么麻烦干啥,直接将八年的数据一块放缩得了。

问题在于:我们实际上,将后两年的考卷放进了训练集了,多了两年的资料,红色那条线看到了投资回报率很高很高!!!!我们间接的偷看了!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


我们如果一直站在前人的肩膀上的话,那么我们实际上就是在不断的拷问我们的数据,最后它一定能够给我们一个好的表现模型。因为我们实际上做了过拟合。

实际上偷看很难避免。 




16.4 Three Learning Principles - Power of Three










你可能感兴趣的:(Ĵ机器学习基石(林轩田))