机器学习基石第7周

The VC Dimension
一.Definition of VC Dimension

机器学习基石第7周_第1张图片
上次课我们知道我们的成长函数B(N,k)有上限,如图中的表所示,左边的表示B(N,k)右边的表示N^(k-1),我们发现当N>=2,K>=3时,B(N,K)小于N^(k-1)所以我们在使用的时候直接使用N^(k-1)而不用B(N,K)。
机器学习基石第7周_第2张图片
机器学习基石第7周_第3张图片
以上说明一个好的机器学习结果需要一个好的的data,一个好的假设空间和一点好的运气。
这里写图片描述
机器学习基石第7周_第4张图片
机器学习基石第7周_第5张图片
VC维的性质如下:
机器学习基石第7周_第6张图片

二.VC Dimension of Perceptrons
机器学习基石第7周_第7张图片
机器学习基石第7周_第8张图片
这里写图片描述
我们之前已得知当数据为1维时感知算法的vc维为2,2维时vc维维3,所以我们猜测当数据为d维时,VC维会不会等于d+1.
证明该猜想分第二张图的两种情况。
首先证明d(VC)>=d+1:
要证明上诉只需要证明:
这里写图片描述
机器学习基石第7周_第9张图片
上图X的d+1行代表有d+1个样本即输入N=d+1,每个样本的维度为d(加上阈值维度就是d+1)所以X是个(d+1)*(d+1)的数组。
我们令Y为1和-1的任意一种组合(即代表了所有可分的情况)我们希望对任何一种情况Y都能找到一个w使得(Xw)=y其中每个w代表一条直线,因为X是可逆的,所以有W=X(-1)y所以总能找到一条直线(d维)将d+1个数据完全分开。

接下来证明d(VC)<=d+1:
要证明上诉只需证明:
这里写图片描述
机器学习基石第7周_第10张图片
如上图所示X为(d+2)*(d+1)的数组,d+2行代表d+2个数据输入,d+1代表数据为d维空间(加一是因为阈值),且X的秩为d+1,那么根据线型代数知识,一个d+1维向量能够被d+1个线型无关的d+1维向量线型表示出来。
如上图所示,当a1为正,其余ai为负时,最后的x(d+2)一定为正,我们找不出一个W能使前面的数据类型不变,最后一个数据点为负的情形。所以得证。

三.Physical Intuition of VC Dimension

机器学习基石第7周_第11张图片
每个旋钮都有无数种可能,但是只有固定的几个位置才能产生作用。
机器学习基石第7周_第12张图片
VC维就是决定旋钮的自由度的,即有效旋钮位置的个数。
机器学习基石第7周_第13张图片
与M一样,VC维的大小也一样要慎重选择。

四.interpreting VC Dimension
机器学习基石第7周_第14张图片
指定δ的值并且将其反带入上式得到误差范围ε与错误概率δ的关系。
机器学习基石第7周_第15张图片
用上式代替ε就能得到|Ein(g)-Eout(g)|的范围与δ的关系,在给定δ和ε后我们就能通过该式子求得N,d(vc)的大小。我们称根号项为模型的复杂度。
机器学习基石第7周_第16张图片
当d(vc)变大后,假设空间有效h变大,对数据能更加清楚的进行划分,所以in-sample error会变小,但是模型复杂度会变大,所以out-of-sample error会先变小在变大。所以并不是in-sample error越小越好,要综合考虑各方因素。
机器学习基石第7周_第17张图片
根据公式一般当N=10000d(vc)时才能达到有效的学习效果,但是实际上要求N=10d(vc)就能达到有效的学习效果。原因如上图所示。即我们公式计算的是最坏最坏的情况,且求了很多次的上限的上限的上限。

你可能感兴趣的:(机器学习基石学习笔记)