前言:
本文是对蜥蜴书第二版第一章学习概要。
利用经验E来学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。 -Tom Mitchell
有监督学习
有标签
无监督学习
无标签
半监督学习
部分有标签
强化学习
有奖惩。
在线学习
不良的数据可能会使系统性能降低。
批量学习
正则化:regularization 通过约束模型使其更简单,降低过拟合的风险。
超参数:hyper-parameter
是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
样本分成独立的三部分
验证集(validation set ) 25%
验证集用来确定模型参数。
训练集(train set)50%
测试集(test set)25%
测试集则检验最终选择最优的模型的性能如何。
当样本总量少的时候,上面的划分就不合适了。
常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。
就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。