机器学习(西瓜书)学习笔记2——假设空间和归纳偏好

一、假设空间

首先,有两个概念:归纳和演绎。简言之,归纳就是特殊推一般,演绎就是一般推特殊。机器学习是从大量样本训练,再利用测试数据进行测试。很显然,机器学习属于归纳的过程,亦称:归纳学习。

以西瓜举例,西瓜成熟与否和西瓜的色泽、根蒂、敲声这三个属性有关系,色泽的属性值:乌黑、青绿。根蒂的属性值:蜷缩、硬挺。敲声的属性值:浊响、沉闷。由这三种属性值可以构成24种不同的组合,这称为假设空间。其中,满足(色泽:乌黑,根蒂:蜷缩,敲声:浊响)其中任意一个属性可以认为是好瓜。

二、归纳偏好

通过学习得到的模型对应了假设空间的一个假设。但是,假如现在有三个与训练集一致的假设,但是他们对应的模型在遇到相同的问题时,会产生不同的预测结果。那么,应该选择哪种模型?我们无法通过训练模型得知哪个模型“更好”。这时,学习算法本身的“偏好”就会起到决定性作用。机器学习算法在学习过程中对某种类型假设的偏好,称为:“归纳偏好”。

任何一个有效的机器学习算法必有归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果。

算法的归纳偏好可以通过“奥卡姆剃刀”来实现,即,“若有多个假设与观察一致,则选最简单的那个”。如何选择“最简单”?难易的标准又是什么?需要NFL(No Free Lunch Theorem)定理解决。

 

你可能感兴趣的:(机器学习)