Rademacher复杂度和VC-维

第三章 Rademacher复杂度和VC-维

3.1 经验Rademacher复杂度

定义:【 经验Rademacher复杂度(Empirical Rademacher complexity)】
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sBL422Gs-1657364712106)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657177015560.png)]
类比说明:
高中学校G里有很多学生g(损失函数集合里有很多损失函数),开设有m门学科如语文、数学,记S为学科的集合,$$z_i$$为单个学科。
然后计算每个学生g每门学科的成绩$$g_s={g(z_1),...,g(z_m)}$$
不同的学科,学校的认可程度不同(比如说某次评价认为数学不重要,就设置为权重-1),所以在计算单个学生的总成绩的时候会加权,权重为Rademacher变量$$\sigma$$
不同权重下,全校最高分的均值,便是Rademacher复杂度。

G 表示损失函数的集合(a family of functions mapping from Z to [a, b]),S 是样本集,大小为 m;$$\sigma$$叫做Rademacher变量,它是在{-1,+1}独立同分布的随机变量(independent uniform random variables taking values in {−1, +1}.)可以理解为就是在{-1,+1}上随机取m个值,有$$2^m$$种取值可能。直观地看这个式子,是求$$\sigma$$的期望,也就是把$$2^m$$种可能全部带进去算出$$\sigma · g$$的上界。然后取一下均值,也就是它的期望了。

举例,学校有甲乙两人$$g_1,g_2$$,有两门科目语文数学$$z_1,z_2$$
第一种情况,甲乙分数差不多$$g_1(z_1)=90,g_1(z_2)=80; g_2(z_1)=70,g_1(z_2)=90;$$如果使用不同的权重{-1,+1}有四种情况,计算会发现$$\hat{R}_S(G)=170+10+20+(-160)=40$$
第二种情况,甲乙分数差很多,$$g_1(z_1)=90,g_1(z_2)=80; g_2(z_1)=10,g_1(z_2)=30;$$ 计算会发现$$\hat{R}_S(G)=170+10+20+(-40)=160$$
不同的Rademacher变量/随机噪声$$\sigma$$表示不同的权重,意味着不同的评价标准;在不同的标准下的得分越高,就表示这个学校的学生的差异性/多样性越强,也就如上第一种情况全是高分学生,第二种情况高分低分都有,表面第二种情况下的学生更多样,在不同的标准下,更有可能存在某位学生获得好分数。

经验Rademahcer复杂度表示学生的多样性(损失函数集合的多样性the richness of the family G)。学生越多样(损失函数集合约多样),对于不同评价标准,所有学生的最高分就能更好(所有损失函数中最好的效果能更好)。
经验Rademacher复杂度衡量了函数族G在样本集S上与随机噪声关联度的期望,描述了函数族G的丰富度,更复杂的函数族G可以更好地与随机噪声关联。

3.2 Rademacher复杂度

令D表示样本分布,函数族G的Rademacher复杂度定义为所有规模为m、依据分布D得到的样本集的经验Rademacher复杂度的期望:

\mathcal{R}_m(G)=\mathop{E}_{S\sim D^m}[\hat{R}_S(G)]

接上面的例子,现实生活里,学校往往拿单次大考(大考指一次性考所有学科)的所有学科成绩(样本集 S,只取一次月考)进行评价该校学生的多样性,但是显然只有一次大考的是不能代表学校真实的学生多样性,或者说,一次的水平(经验Rademachaer复杂度)会和真实水平(期望Rademacher复杂度)存在差别。这里我们假设学校的多样性不随时间变化。

假设学校考无数次试来计算多样性,最后取均值,是不是就可以代表学校真实的学生多样性啦?!这也就是期望Rademachaer复杂度的由来了,我们可以用一次大考的的期望值表示真实的多样性水平。
S表示某次取样m次得到的样本集合(m门科目), D 表示样本空间(多次大考的集合),$$D^m$$表示限定每次大考只考m门科目。S在 $$D^m$$ 上采样就说明S是任意一次大考的m门科目成绩。

实际上我们要求的是某个损失函数的期望损失,有以下定理:
令G表示能将Z映射到[0,1]的某一函数族,对于任意$$\delta>0$$,至少以$$1-\delta$$的概率,下面的式子对所有$$g\in G $$都成立:

E[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\mathcal{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}}\\ E[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\hat{\mathcal{R}}_s(G)+3\sqrt{\frac{log\frac{2}{\delta}}{2m}}

按照前面学校的例子,就是指单个学生的真实成绩(即考试成绩的期望值, $$E[g(z)]$$ ,有学校的多样性和其他因素构成上界。

证明:
我们把右边的第一项挪到左边:

E[g]-\hat{E}_S[g]\le \mathfrak{R}_m(G)+\sqrt{\frac{-\log \delta}{2m}}

就是说学生真实水平与单次水平之间的误差,是被学校的整体多样性给限制住了。

比如说你在超级中学或者很差的学校,成绩都好/差,学校的学生多样性低,那么你每次考试成绩的跟你真实水平相差有一定的差别;但是,如果你在一般的学校,大家成绩浮动比较大,有好有坏,那么你单次考试成绩就会和真实水平相差可能更大些。

现在我们定义真实水平与单次水平间的误差的上界为$$\Phi(S)$$,对应的单次即为S,由于真实水平是不变的,所以有:$$\Phi(S)=\sup_{g\in G}E[g]-\hat{E}_S[g]$$
取上界是为了后面不等式的推导,

要知道,我们是不可能算出$$\Phi(S)$$的,因为我们不可能知道真实水平是多少;所以可以用两次的单次水平来算:则假设又一次大考 $$S^{'}$$,两次考试的区别恰好只有一门科目$$z_i$$不一样,那么有:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RbsqKVL1-1657364712109)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657179327382.png)]

这里注意的是 g 是损失函数,它一定是[0,1]范围的;可以理解为考试满分100,但是得换算成[0,1]的区间。

然后要用到McDiarmid不等式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WAD4iy5w-1657364712110)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657180012362.png)]

还用学生的例子理解,比如我的语文数学两门的平均成绩,在语文分数不变的,数学变化,那么必然两次考试的平均成绩的差值,是小于差值上界100/2的,100为数学满分,2为科目门数。
如果拥有这样的性质,就可以推导出经验值和期望值之间的误差的概率了。这个概率如上式所示,与误差$$\epsilon$$和 差值上界$$\sum c_i$$有关。

使用McDiarmid不等式后,下列不等式对于任何$$\delta >0,$$有不小于$$1-\delta/2$$的概率成立:

\Phi(S)\le\mathop{E}_S[\Phi(S)]+\sqrt{\frac{log\frac{2}{\delta}}{2m}}

下面看正式的定理证明:
设G 是一系列从Z映射到[ 0 , 1 ]的函数族。对任何δ > 0,G中的每一个函数g,都至少以1 − δ概率,下述两个式成立:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1qW3jr58-1657364712111)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657184265521.png)]
**证明:**对于任意在Z空间上的样本集$$S=(z_1,...,z_m)$$和任意函数g ∈ G ,用$$\hat{E}_{S}(g)$$来表示在S上的g的经验平均值:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J2SQtdjX-1657364712111)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657184651008.png)] 利用McDiarmid不等式,在任意样本S上定义函数$$\Phi(S)$$
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0Qc2Di0Q-1657364712113)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657184711803.png)]

让S和$$S^{'}$$表示只有一个点不同的样本,即$$z_m \in S, z_{m}^{'} \in S^{'} $$。则有:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dO1KxYdu-1657364712113)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657184909593.png)]
根据最大值的差一定不超过差的最大值可得:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r2CETon3-1657364712115)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657184937701.png)]

同样,我们也能够计算$$\Phi(S)-\Phi(S')\le\frac{1}{m}$$,因此$$|\Phi(S)-\Phi(S')|\le\frac{1}{m}$$。应用McDiarmid第一个不等式,经变换有如下形式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dLKP6CCk-1657364712115)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657185140738.png)]
$$\delta=exp(-2{\epsilon^2m})$$可得$$\epsilon=\sqrt{\frac{log\frac{1}{\delta}}{2m}}$$对任何 δ > 0 ,至少以 1-δ/2概率下式成立:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8OkEHy6s-1657364712118)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657185530058.png)]
然后对右边的期望做如下放缩:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ByUXQXwQ-1657364712119)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657185570358.png)]

等式3.8:$$S^{'}$$中的点是独立同分布采样的,所有$$E[g]=E_{s^{'}}[\hat{E}_{S^{'}}(g)]$$成立。不等式3.9利用了Jensen不等式*(对于一个凸函数 f ,都有函数值的期望大于等于期望的函数值)*和上确界函数的凸性。等式3.11,引入Rademacher变量$$\sigma_is$$,是{-1,+1}均匀分布的独立随机变量。不会改变(3.10)中的期望。当$$\sigma_i=1$$时,相应的和保持不变,当$$\sigma_i = -1$$时,相应的求和就会变号,这与在S和$$S^{'}$$之间交换变量$$z_m和z_m^{'}$$一样,交换不影响期望值。对于(3.12)由sup(U + V)<= sup(U)+sup(V)可得。(3.13)源于Rademacher复杂度的定义。
于是有:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-az6LF3QX-1657364712120)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657187412626.png)]
将左边的式子右移可得:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ws6uEczg-1657364712121)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657187452247.png)]
对于第二个不等式的证明:应用McDiarmid不等式中的第二个不等式有:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mlM8wphg-1657364712121)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657187522004.png)]
$$\frac{\delta}{2}=exp(-2\epsilon^2m)$$可得$$\epsilon=\sqrt{\frac{log\frac{2}{\delta}}{2m}}$$,即至多以 δ/2概率保证[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2zeugjIT-1657364712122)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657187974090.png)]成立。
将这个式子带入到第一个不等式中即可得到第二个不等式的推导。

**引理1:**令H为取值为{—1,+1}的函数族,令 G 为与 H 相对应的且损失函数为 O~1 损失的函数族,$$G={(x,y)->1_{h(x)≠y}:h \in H}$$,对于任何在空间 X × {-1,+1} 上的样本集$$S=((x_1,y_1),...,(x_m,y_m))$$,将S在X上的投影记作$$S_{\mathcal{x}}=(x_1,...,x_m)$$,那么,下列关于H与G的经验Rademacher复杂度的不等式成立:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ICSG3fvA-1657364712123)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657188380917.png)]

**证明:**对于任何一个样本$$S=((x_1,y_1),...,(x_m,y_m)) \in \mathcal{X} × {-1,+1}$$,经验Rademacher复杂度可被重写为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RS1uLUCy-1657364712123)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189485863.png)]

通过取期望可得:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nVHcT3Z5-1657364712124)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189527783.png)],根据假设集 H 的复杂性,这些经验Rademacher复杂度和平均Rademacher复杂度之间的联系可以用来推导二元分类的泛化界限。

定理2: 二分类的Rademacher复杂度边界:
令H为取值为{-1, +1 }的函数族,D 是输入空间 X 的分布。对任意δ > 0,在分布 D 的样本集 S 上,至少 1-δ概率,对任意 h ∈ H 以下两个式子成立:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rSQSdvIW-1657364712124)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189720775.png)]

对于第二个式子,是在特定样本集 S 上的函数,只要计算出[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gzvns0VC-1657364712125)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189815575.png)],就可以计算出R(H)的上界。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8dbSFGj-1657364712125)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189830978.png)]的计算等价于经验风险最小化问题:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ke9oVShx-1657364712126)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189871151.png)]

对于某些假设集计算起来是困难的。所以有时计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0yODBFUX-1657364712126)(https://wp.recgroup.cn/wp-content/uploads/2022/07/image-1657189830978.png)]是困难的。

你可能感兴趣的:(深度学习,人工智能,python,机器学习)