浅谈归纳偏置

        本人学渣一枚,如有错误,敬请指出。

       《机器学习》2.7节谈到了归纳偏置,我不敢说自己对归纳偏置理解的很透彻,但这里简单记录一下我对归纳偏置的理解,以后我也会继续补充。

       本节从假设空间可能不包括目标概念引出了无偏学习,无偏学习的假设空间一定包含目标概念。然后讲到无偏学习的无用性,即如果采用无偏学习,那么在遇见一个训练集中不存在的实例时,无偏学习器无法对其分类。换句话说就是学习器无法从训练集中泛化。针对这个问题,正式提出了归纳偏置,即归纳偏置可以使得学习器具有泛化的功能。然后详细介绍了归纳偏置的定义,并给了候选消除法的例子。

       但在这里我有个问题,如果有了归纳偏置,那么目标概念就一定在假设空间了吗?

 

       2.7.2中EnjoySport的例子中,提到了两种定义无偏学习假设空间的形式。

       1、根据6种属性,确定下96中组合值,然后对于每一种组合EnjoySport都有Yes和No两种结果,于是一共有296种概念。

       2、允许使用之前假设的任意析取、合取和否定式。

       我觉得这两种定义假设空间的方式在本质上一样的,假设空间都是实例空间X的幂集,无非是第二种可以利用析取合取操作,进而可以很自然的运用到候选消除算法上。

      

       无偏学习为什么不能对未见过的实例进行分类呢,书上提到,每一个未见过的实例都会被变型空间中刚好半数的假设化为正例,另一半化为反例。因为无偏学习的假设空间都是实例空间的幂集,于是存在这样的情况:所有实例的属性都相同,但是一个假设将其化为正,另一个假设化为反。所以在变型空间(变型空间和假设空间是有区别的,变型空间中的所有假设都符合训练集的结果)中必然存在这样一对假设h和h’,他们对同样一个未见过的实例x分别化为正和反。这就是无偏学习的无用性,无法根据训练集泛化。

 

       归纳偏置的作用是使得学习器具有了泛化的功能。但归纳偏置的定义是以另一种方式给出的。即在一般的归纳推理(Dc∧xi)>L(xi,Dc) 中,我们无法确保其正确性。归纳假设就是一系列前提的集合,这些前提使得之前的归纳推理一定是正确的。

 

       候选消除算法的归纳偏置就是目标概念c在给定的假设空间中(此处假设空间指的是前一节讲候选消除法时定义的假设空间)。我接下来简述一下为什么有了这条归纳假设,我们的归纳推理就一定是正确的。

       1、因为c在假设空间中,所以c一定在变型空间中。

       这一点根据变型空间的定义就很容易知道了。因为变型空间中的假设都是和训练集中实例一致的假设,而目标概念一定是和训练集中实例一致的。

       2、当候选消除算法可以对一个实例进行分类时,意味着变型空间内所有的假设对这个实例的分类是一致的。

       所以如果我们有(Dc∧xi)>L(xi,Dc),因为目标概念就在变型空间中,那么就意味着,我们的目标概念对xi的分类就是L(xi,Dc),所以这个分类时一定正确的,除此之外,别的其他所有假设对xi的分类也是一致的。那么在进一步想,如果有假设h对其分类和目标概念c对其的分类不一致,那么就不会输出结果,所以这个学习算法L就是有待进一步优化的,并且h

 

       我觉得无偏学习有点类似于枚举法,如果我们没见过那个实例就无法对他进行分类,而有偏学习则相当于得到一个函数关系式,我们可以根据函数式去预测一个实例的类别,而归纳偏置就是函数关系式遵守的规则,比如斜率,截距之类。


你可能感兴趣的:(机器学习)