Nguyen Q C, Hein M. Optimization Landscape and Expressivity of Deep CNNs[J]. arXiv: Learning, 2017.
BibTex
@article{nguyen2017optimization,
title={Optimization Landscape and Expressivity of Deep CNNs},
author={Nguyen, Quynh C and Hein, Matthias},
journal={arXiv: Learning},
year={2017}}
引
这篇文章,主要证明,在某些不算很强的假设下,CNN的最后的损失(文中是MSE)能够达到零,而且能够满足其的网络参数的无穷多的. 另外,还有"局部"最优解都是全局最优解的特性. 证明主要用到了勒贝格积分的知识(实际上,这一部分应该算在另一篇论文上,没去看),以及更多的代数的知识.
主要内容
基本的一些定义
为输入的N个样本,而为对应的N个标签.
假设网络共有层,为第层的宽度,也即神经元的个数. 用表示由样本到第层的输出的映射.
patches: 我们将每一层的神经元分成若干份,每一份的长度相同,且是包含所有神经元,并且没有俩个patch是完全相同的. 假设,每一层被分成份,长度为. 则,可以表示为
filter: 假设每一层有个filters,则 . 容易知道, 并假设第k层的偏执为. 如果是全连接层,很明显,.
激活函数: 用表示第层的激活函数, entry-wise.
卷积层
其中.
上面的定义可以这么理解,先拿出第一个patch,用所有的filters操作一遍,并加上偏置,再通过激活函数为最后的输出,然后再拿下一个patch... 一般的卷积层,其实就是相当先分patch,再利用卷积核处理,当然这里可能存在一个排序的问题,但是作者证明的结论的过程中不需要排序.
全连接层
池化层
改写卷积层
为了更形象的表示,作者弄了一个线性映射. 看如下的例子:
其中:
, 也就是说,输入是5维的向量,卷积核是3维的,滑动为1. 相当于把扩充至,且只有所作用的patch的对应位置不为0. 这样就能用一种全连接层的是视角去看待了,而全连接层的. 所以,我们不需要再管patch了,来了一个输入,只需,然后进行加偏执和激活函数的操作即可,具体如下:
其中. 定义:
则:
定义损失函数:
假设2.4
对于第k个卷积层,存在使得是满秩的. 并且从下面的话中可以发现,只要patches满足之前讲的那些假设,那么这个假设便能够成立. 问题是,我不知道这个假设如何证明.
引理2.5
引理2.5告诉我们,让满秩的不仅存在,而且很多,多到让不满秩的的勒贝格测度为0. 也就是随便走两步都能满足假设.
假设3.1
这个假设看似很强,但是作者指出,可以通过对样本添加一个噪声来满足.
假设3.2
激活函数是连续非常数,且有一些极限性质.
引理3.3
ReLU, Sigmoid, Softplus等一些常见的激活函数都是满足上面的假设的.
定理3.4
注意, 条件1是第一层和第k层为卷积或者全连接层. 满足这些条件,则有线性独立,也即满秩.
定理3.5
注意,这里的条件1是第一层到第k层均为全连接层或卷积层. 则令不满秩的网络参数的勒贝格测度为0,也就是说,满秩是平凡的.
推论3.6
也就是说,我们能够找到网络参数,满足训练0误差.
假设4.1
注意,这里假设整个网络不包括池化层,且最后的输出层是全连接层.
并定义:
引理4.2
关于解析函数,这是复变函数里的东西,不同的版本有出入,
至少是无穷次可导的, 所以ReLU自然不列入考虑范围之内.
引理4.2说明满秩是很容易满足的.
引理4.3
定理4.4
定理4.4告诉我们,中的所有的驻点(关于)都是最小值点.
定理4.5
作者考虑一个具体的分类问题,则CNN最后的输出应该为,即有m类,如果样本属于第j类,则的第i行为的第j行. 所以,一般情况下,为单位矩阵?
注意第层为全连接层.
Proof
引理A.1
实解析函数,如果不恒为0,则的勒贝格测度为0, 也就是几乎处处不为0呗.
引理2.5 证明
, 因为是一个线性映射,所以的每一个元素都是的一个线性函数的像. 又的每一个行列式是一个多项式函数,所以是解析函数,而解析函数的复合依旧是解析函数,所以每一个行列式都是关于的一个解析函数. 而根据假设2.4,我们知道,存在一行列式不恒等于0,所以根据引理A.1, 引理2.5可得.
引理3.3
定理3.4
引理D.1
就是,我们能找到一些网络参数,使得不同的样本的各元素不同.
证明: 这个证明可以通过归纳法证明,只要我们找到使得成立,后面的结果也就可类似推导成立了. 且因为全连接层是卷积层的一个特例,所以只需证明是卷积层的时候成立即可.
用表示,其中每一列都是一个filters. 定义:
显然,属于的元素,要么使得不满秩,要么使得有俩个元素相同,则其补集一定满足引理D.1的结论. 所以我们只要证明这个补集不是空集即可.
根据假设3.1,, 所以是一个超平面,显然,其测度为0,而有限个这样的超平面的并依旧是零测集, 所以的后半部分的测度为0. 而前半部分,根据引理2.5可知,其测度也为0,所以的测度也为0.
如果,我们证明穿过激活函数依旧保持那些性质的话,关于卷积层和全连接层的证明就结束了.
既然是个连续的非常数函数,那么存在一个区间使得在其上存在双射(这个存疑,不是有一个处处连续但处处不可导的函数吗,那个也能满足?).
我们先固定, 令. 并令 以及
既然, 我们只需要选择足够小的, 就能满足.
对于任意的,
对于任意的 以及足够小的(注意,因为对于足够小的, 单调,所以若为0,则需要原像相同,而这由的选择保证不可能).
于是:
实际上,结果还要更加强一些.
最后只要再证明对池化层也成立即可.
假设对前层都成立,第层为池化层. 于是, 且对于:
既然(8)成立,所以, 自然,其最大值也不同,即
所以,结论对于池化层也成立.
定理3.4的证明, 仅说明其证明思路. 根据引理D.1,我们可以找到网络参数,使得第层满足:. 所以,接下来,只要找到使得最后的满秩就可以了.
先定义以及:
和引理D.1的证明类似,的测度为0,的列可以取到,并且满足满秩(因为满秩的集合测度不为0).
既然激活函数连续非常数,一定存在. 则定义和偏执, 且有:
相应的,有
我们可以调整的顺序,使得下列式子满足:
接下来,根据对激活函数的假设(假设3.2),可以分成俩种情况来证明:
首先是
不妨设, 则
所以收敛到最后是一个上三角矩阵. 再看一般的的前N行N列(我们只要证明这个行列不为0,则就满秩).
这个分解,就是最开始的行列式的定义,取不同行不同列的乘积的和(还有相应的符号). 易知:
对于, 就是的序. 所以.
既然行列式关于的连续函数,一定存在足够小的使得行列式不为0,即满秩, 这样,就找到了. 的证明是类似的.
另一种情况是:
其证明也是类似的,只是取充分大的.
定理3.5
定理3.5的条件更强,能够保证是关于的一个解析函数,那么的的子矩阵的行列式也为解析函数,既然我们以及找到了这样的使得某个子矩阵的行列式不为0,根据引理A.1可知,令不满秩的的参数的集合的测度为0.
推论3.6
既然,我们能够找到参数使得, 我们的任务就是找一个使得, 显然
满足这个条件.
引理4.2
显然:
其中表全集.
后面的第一部分根据定理3.5可知测度为0,第二部分根据引理2.5可知测度亦为0,所以后面的部分测度为0. 所以的测度自然也为0.
引理4.3
首先,介绍一下 Hadamard product (阿达玛积), ,
即矩阵对应元素相乘,当然这要求行列相同. 阿达玛积满足交换律,结合律:
另外, 是显然的,以及
再证明引理4.3之前,我们需要先推导出损失函数与的梯度关系,我们先整理一下:
损失函数:
第层为全连接层,所以:
定义, 其中的(i, j)元素为.
所以:
类似可证明:
再引入俩个引理,比较简单便不给出证明了.
我们已经知道, 并用 表示克罗内克积, 有
故
上界的证明是类似的,
定理4.5
定理4.5前半部分的证明,既然第k+1层为全连接层,对于驻点,我们有, 再根据定理4.4即可证明.
后半部分的证明,首先,我们证明我们能够找到使得的秩为, 且对应相同标签的样本,比如样本i, j对应同一个标签,那么的第i,j行是相同的. 在k+1层之前,我们可以找到使得.
Case1:k=L-1
那么, 直接令就能使得, 且满秩.
Case2: k=L-2
那么, 令为行满秩矩阵,且. 再定义, 并且
如果第i个样本的标签为j. 表示的第i行.
只需要令, 于是
其中令.
接着,我们只需要令
便能得到.
注意,并非满秩的.
Case 3:
类似的,取, 且的元素无一相同, .
定义:
如果样本i标签为j.
构建
取, 则, 于是我们的目的也达到了.
此时,把到看成一个新的网络,我们相当于输入个样本,我们只要构建使得, 根据Case 1可知,只要在第L-1层保持满秩即可.
首先,因为的各元素都不同,所以的各元素亦不同,这就满足了假设3.1;
其次,到都是卷积层和全连接层;
第L-1层的宽度大于样本个数m,这个来源于假设4.1的金字塔型的结构;
激活函数满足假设3.2.
所以,根据定理3.4,我们可以知道,存在能够使得L-1层满秩,而且这样的参数是很多很多的.
最后选择即可. .