机器学习基础-假设空间、样本空间与归纳偏置

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

在进入正题前先说一说函数,在陶哲轩所著的实分析集合论章节中定义:函数是从定义域A到值域B的映射,即对于A中的每个值B中都有唯一的值对应。假设定义域A中元素个数为X,值域B中元素个数为Y,那么产生函数个数为fe3beb5ff8f7b84c4cbe5277c7e7fc60cf1.jpg个。假设A={1,2} ,B={3,4}则可能产生的函数有:

1、1->3,2->3

2、1->3,2->4

3、1->4,2->4

4、1->4,2->3

这样4个。如果说定义域和值域的元素很多甚至是实数集,那么可能产生的函数集合大小就是天文数字甚至是无穷大了!

机器学习中的本质任务是根据提供的数据拟合出一个模型进行预测,这个模型本质上就是一个函数,拟合模型的过程实际也是寻找函数的过程,因此假设空间实际上就是模型空间本质上是函数集合。

样本空间是指能够拟合训练数据的模型集合(函数集合),以上例为基础,假设给定x=1,y=3,那么能够拟合该数据的有1和2两个函数,显然样本空间由于训练数据的引入是包含于假设空间的,但是样本空间的大小同样可能无穷大,为了说明该问题引用周志华的西瓜书插图:

机器学习基础-假设空间、样本空间与归纳偏置_第1张图片

现在将定义域和值域放到实数集上,能够拟合图中6个数据点的曲线理论上有无穷个,但我们必须选择其中一个,根据奥卡姆剃刀原则(如果有多个假设与观察一致选择最简单的那个),由此我们自然认为平滑的A曲线比B曲线更加简单而选择A,这个过程叫做归纳偏置。

 

转载于:https://my.oschina.net/u/1268334/blog/3015215

你可能感兴趣的:(机器学习基础-假设空间、样本空间与归纳偏置)