ML入门书籍Tom Mitchell《机器学习》笔记——第二章概念学习

概念学习:给定某一类别的若干正例和反例,从中获得该类别的一般定义。也就是说判断某个东西是不是属于这个概念。


概念学习可以看作是一个搜索的过程。Tom在书中介绍了两种搜索的算法:Find-S(寻找极大特殊假设)和候选消除算法(确定变型空间)。


Find-S:就是说,先假设最特殊的函数,所有参数输入,输出的结果都是反例,也就是得不到我们要的那个目标概念(正例)。这时,如果一个训练数据带到这个函数,发现结果是正例,说明我们假设的函数太特殊了,因此要放宽要求,至少让这个训练数据的参数输入能产生一个正例的输出结果。

就这样一步一步,我们可以获得最大的特殊假设(函数),使得所有的训练数据符合这个假设。


候选消除算法:Find-S只能获得一个符合的假设,但是我们知道符合所有训练数据的假设往往不只有一个。候选消除算法就可以获得这些所有假设的集合(变型空间)。

这个空间的下限其实就是Find-S所获得的极大特殊假设,上限是什么呢?

先假设最一般的函数,如果有一个训练数据的输出是反例,说明我们这个目标函数太宽泛了,因此得缩小范围,一步步缩小,直到所有训练数据都符合这个极大一般假设,就可以了。那么这个极大一般假设也就是变型空间的上限。


很显然,我们在上述推理过程中,可以发现两个算法的前提条件是训练样例中不能有错误,否则正确的假设也会被排除掉。说明这两个算法的去噪能力极弱。

其次,在整个搜索的空间中一定要有正确的目标函数,否则没有的话,全搜索完也没用啊。


所以可以看出,这里面有许多前提假设,这些前提假设至关重要。Tom因此引出了归纳偏置的概念。

一个完全无偏的学习器,也就是说该学习器如果不对目标概念做预先的假定,它从根本上无法对未见实例进行分类。

归纳偏置:归纳学习需要某种形式的预先假定。

一种算法如果有偏性越强,那么它的归纳能力越强,可以分类更多的未见实例。

你可能感兴趣的:(机器学习)