林轩田《机器学习基石》(七)—— The VC dimension

首先明确:Generalization是“举一反三”的能力。

什么是E_{out} \approx E_{in}?答:未来测试表现与我们现在的表现是类似的。

上一次我们说到,如果N足够大,且m_H(N)有break point,那么E_{out} \approx E_{in}

对于break point k来说,有

林轩田《机器学习基石》(七)—— The VC dimension_第1张图片

我们是否可以利用最右端的N^{k-1}呢?答案是肯定的,可以发现

林轩田《机器学习基石》(七)—— The VC dimension_第2张图片

因此,N\geq 2, k\geq 3时候,我们有

林轩田《机器学习基石》(七)—— The VC dimension_第3张图片

由于我们一开始在解决“两个问题”的时候已经假设N够大(之前已经讲过什么是“两个问题”,一会儿还会再复习一下,现在就先默认),所以上述N\geq 2可以删去。

综上,我们可以把之前一直提的不等式写为如下的样子:

林轩田《机器学习基石》(七)—— The VC dimension_第4张图片

再次解释一下这几节课为了推这个不等式我们得到的一些结论:

1.一个好的H:m_H(N)有break point

2.一个好的D:N足够大

1+2得到:E_{out} \approx E_{in}

3.一个好的算法A:好的算法使得选出的g,它的E_{in}很小

1+2+3得到:这个机器大概率学到了一些东西。

一、VC维

我们试图不再说break point了,我们想给它一个正式的名字,但我们不是关注的break point ‘k’而是关注最大的non-break point(大概是因为之前式子中的幂次是k-1)。

我们定义VC维记作d_{\mathrm{VC}}(H),它是满足m_{H}(N)=2^{N}的最大的N,也是

N \leq d_{\mathrm{VC}} \Rightarrow资料可能被H shatter(不是一定,即其实是存在某个资料被H shatter但不一定是我们手上的这个)

{k}' > d_{\mathrm{VC}} \Rightarrow那么k’是break point

所以如果N \geq 2, d_{\mathrm{VC}}\geq 2m_H(N) \leq N^{d_{\mathrm{VC}}}

我们看看之前举的四个实际例子中的d_{\mathrm{VC}}(H)

林轩田《机器学习基石》(七)—— The VC dimension_第5张图片

什么是好的H?答:有限的d_{\mathrm{VC}}(H)

d_{\mathrm{VC}}(H)可以推出g可以举一反三,这说明了以下几点其实在整个机器学习的过程中没那么重要了:

1.算法A的选择

2.资料的分布P

3.真实的函数f

流程图也变为:

林轩田《机器学习基石》(七)—— The VC dimension_第6张图片

允许图中那些灰色部分不知道,所以在一些坏的状况下,也有E_{out} \approx E_{in}

二、Percetrons的VC维

对于二维的情况:

林轩田《机器学习基石》(七)—— The VC dimension_第7张图片

2D下的PLA算法,已知Perceptrons的 k=4,即d_{\mathrm{VC}}=3。根据VC Bound理论,当N足够大的时候,E_{out} \approx E_{in}。如果找到一个g,使E_{in}(g)\approx 0,那么就能证明PLA是可以学习的。

那么如果超过二维呢?

我们做一些推测

1D perceptron (pos/neg rays): d_{\mathrm{VC}}=2

2D perceptron: d_{\mathrm{VC}}=3

那么是否有

d-D perceptron: d_{\mathrm{VC}}=d+1??

要想证明等式成立,只需要证明下面两个不等式成立

1.d_{\mathrm{VC}}\geq d+1

2.d_{\mathrm{VC}}\leq d+1

首先证明:d_{\mathrm{VC}}\geq d+1

值得注意,如果我们知道存在某d+1个资料可以shatter,则d_{\mathrm{VC}}\geq d+1

首先给一个X,它是由d+1笔资料构成的(灰色的不算,只看橘色的,第一笔是原点0,最左边灰色的是threshold,即塞进去的第0维,如果不知道的话可以看前几节笔记有写这是为了让w看起来简便从而使代码方便)

林轩田《机器学习基石》(七)—— The VC dimension_第8张图片

显然上述我们构造的X是可逆的。

shatter在此处的意思是,我们可以找到一个w使得(X \mathbf{w})=\mathbf{y},这里的y是任意'o x'的排列结果。

由于X是可逆的,所以我们可以求出来我们要的w:\mathbf{w}=X^{-1} \mathbf{y},所以这个w是存在的,意思是d+1笔资料是shatter的。

也就证明了d_{\mathrm{VC}}\geq d+1

 

接下来证明d_{\mathrm{VC}}\leq d+1

值得注意,如果任意d+2笔资料都不会被shatter,那么d_{\mathrm{VC}}\leq d+1

已知:线性相关会限制产生dichotomy得到数量。

构造:

林轩田《机器学习基石》(七)—— The VC dimension_第9张图片

由于d+2>d+1(行>列,这里d+1列是因为加了一行1,所以肯定是线性相关的)

所以有(这些a都是固定的数,我们知道a的大小,所以也一定知道它的正负,正的a标记红色,负的a标记蓝色)

要是想让d+2shatter,那么d+1肯定必须shatter,

所以此处我们先承认d+1 shatter,所以我们可以找到一个w0,使得w0乘以xi的符号都和他们的系数a的符号一致(因为shatter所以想要什么符号就总是存在一个w使得wx会是这个符号),即

图中的w就是这里说的w0.

可以看到,等式右边都是同号相乘,所以\mathbf{w}^{T} \mathbf{x}_{d+2}一定是正的,这就不shatter了。

我曾经有疑问,这里只是存在一个w使得有这样的结果,难道不能有其他的w使得这个符号变为负吗?

答:当然有可能。但是我们要的是,在其他wx的符号都不变的情况下,\mathbf{w}^{T} \mathbf{x}_{d+2}有正有负。现在知道的是,其他wx一旦确定是这种与系数正负一致的情况,\mathbf{w}^{T} \mathbf{x}_{d+2}只能是正。

三、VC维的物理意义

即衡量二元分类的自由度,就是说H可以有多少个分类,如果每一个分类(分类其实就是权重的分类)代表一个旋钮

林轩田《机器学习基石》(七)—— The VC dimension_第10张图片

多少个旋钮就代表多少个分类,一个旋钮代表一种w。为什么用旋钮说呢?因为自由度是可以任意调节的。VC Dimension代表了假设空间的分类能力,即反映了H的自由度,产生dichotomy的数量,也就等于features的个数。所以VC维是多少,就看有多少个可以自由调节的旋钮。

又回到之前我们说的“两个问题”:

林轩田《机器学习基石》(七)—— The VC dimension_第11张图片

之前都是用M来说的,现在我们都换成d_{\mathrm{VC}}来回答。

四、更深入了解VC维

我们先重新写一遍VC bound,把不等式右边用记号表示

林轩田《机器学习基石》(七)—— The VC dimension_第12张图片

即出现bad坏的情况的概率最大不超过不等式右边。现在我们不再说发生坏事的几率了,我们说发生好事的几率,对于好事发生的概率最小为1−δ,。

林轩田《机器学习基石》(七)—— The VC dimension_第13张图片

因此,我们将\varepsilon记作泛化误差

林轩田《机器学习基石》(七)—— The VC dimension_第14张图片

其中,我们把根号下的内容记作模型的复杂度,用\Omega(N,H, \delta)

林轩田《机器学习基石》(七)—— The VC dimension_第15张图片

  • d_{\mathrm{VC}}越大,E_{in}越小,Ω越大(复杂)。

  • d_{\mathrm{VC}}越小,E_{in}越大,Ω越小(简单)。

  • 随着d_{\mathrm{VC}}增大,E_{out}会先减小再增大

图中最好的Ein在中间位置:在误差较小处与模型复杂度不大的位置。

林轩田《机器学习基石》(七)—— The VC dimension_第16张图片

除了模型复杂度,还存在样本复杂度。那么我们需要多少资料N呢?

从实际的角度来讲是要

从理论的角度是要

为什么会松弛的这么厉害?原因如下:

1.Hoeffding:这使得我们可以不用知道分布P和真实函数f

2.m_H(N)代替了M:使得适用于任何数据

3.用N^{d_{\mathrm{VC}}}代替了m_H(N):这让我们只看一个h就好,适用于同样d_{\mathrm{VC}}的任何H

4.用了union bound:适用于任何算法A(包括最坏的情况,但是事实上最坏的情况没那么容易出现)

以上四点,使得理论上的数据量被宽松了。

即使这是在理论上,但我们雅瑶研究如何收紧它。

总结:

林轩田《机器学习基石》(七)—— The VC dimension_第17张图片

你可能感兴趣的:(机器学习基石,机器学习)