台大机器学习笔记(7)——The VC Dimension

本章延续第6章的内容:
http://blog.csdn.net/u010366427/article/details/50985677

7.1 Definition of VC Dimension

  本节给之前的break point一个正式的名字。设假设集H的break point为 k ,则VC Dimension为 k1 ,即 dvc=k1 。它代表的意义在于, mH(N)Ndvc ,即在 mH(N) 难以得到的情况下,我们用 Ndvc 来设置其上界,这意味着如果有 N 个以上的样本, H 一定不能做出shatter,然而,当样本数不大于 N 时, H 也有可能不能shatter。
  当 dvc 有限时,可以认为 EoutEin ,即存在泛化能力,并且与以下因素无关:
  (1)与从 H 获取模型的演算法无关
  (2)与输入数据的分布无关
  (3)与目标函数 f 无关

7.2 VC Dimension of Perceptrons

7.2.1 感知机的学习过程
  首先在线性可分的数据集中,经过一个演算法使得 Ein=0 ,然后在假定所有数据同分布、VC维有限的情况下, P[|Ein(g)Eout(g)|>ϵ] 会小于一个上限,意味着在足够多的数据下 EoutEin ,由 Eout0
7.2.2 感知机的VC维
  证明n维感知机的VC维是 n+1
  (1) n 维感知机能shatter某一 d+1 维数据
   n 维感知机的权重向量 w n+1 维的。同时设某 d+1 维数据的矩阵表示是可逆的,则存在 Xw=y ,即 w=X1y ,可知存在 w 使得 X 能按任意 y 划分。
  (2) n 维感知机不能shatter某一 d+2 维数据
  由于 xn+2=x1++xn+1 因此 wTxn+2=wTx1++wTxn+1 ,可知当 y1,,yn+1 给定时, yn+2 被锁定,故无法shatter。

7.3 Physical Intuition of VC Dimension

  VC维在物理上大致但不总是代表着 H 的自由度,即能自由决定的变量个数。自由度越高,意味着H能shatter更多的样本,故代表着H的强度,同时在高自由度下却很难使得 EoutEin

7.4 Interpreting VC Dimension

  用 dvc 将原有的6.4节的公式替换,我们可以得出 Eout 的上界,公式如下:

Eout(g)Ein(g)+8Nln(4(2N)dvcδ)

  我们令该公式带根号的后半部分为 Ω ,可以看到,当 dvc 上升时, Ein(g) 下降,但是 Ω 上升,反之亦然。也就是说,当VC维上升时,训练集误差下降,测试集误差先下降后上升。
  另外,在代入VC维后我们得到公式:
P[|EinEin|>ϵ]4(2N)dvceϵ2N/8

  根据此公式在已知其他变量的情况下可以求出未知的变量。据此,我们可以得出理论上在训练算法时应使用10000倍于VC维的数据量,但实际上由于该公式经过了多次严格约束,故而只需要10倍于VC维的数据量即可。

你可能感兴趣的:(机器学习,VC维)