(主讲人:Sanjeev Arora)
专业术语:
要点:优化概念形成了深度学习
理论目标:通过竞争直觉的排序的定理,形成新的观点和概念。新观点的数学基础。
演讲概述:
要点:优化的概念形成了深度学习
难点:大部分优化问题都是非凸的。所以,我们不希望有多项式时间算法。
优化的大概方向:
关于初始化的假设:
注意:如果在实数域优化,然后你想要让运行时间poly(d,1/),
是准确率。上街市exp(d/
)的指数。
维数灾难:在实数域,任意exp(d)平行角大于60度的方向。另外,任何exp(d/)特别方向。所有方向都有角度,在大部分
(
覆盖)中的一个。
深度学习的黑箱分析。为什么只有损失方程,而不知道中间发生了什么。我们基本没有(x,y)数学特征,因为y只是一个关于x的复杂的函数(想想图像中分类对象:x是一张图片,y是“狗”)
替代地,我们能够使。使用这个黑箱分析,我们不能达到全局最优解。
梯度下降:
定义2.1:如果,我们就可以得到
与
成正比。
证明|:
但是,这里的解决方案是关键点,比较弱。一个优化方向是:避免鞍点,像Ge在PerturbedSGD中引述的。
那第二个优化呢?像牛顿法。所以我们这样思考:
这让我们以额外的计算作为代价,对于解决方案有了更好的保证。
非黑箱分析。很多ML问题,两个神经元网络的子类。
问题:矩阵完成。假设我们给一个秩为r的nxn的矩阵M,有一些缺失项:
目标是预测出那些缺失项->学习深度为2的线性网络子类!输入1-hot输入到未知网络;设置输出为一个随机输出节点。然后,学习网络!最近的工作:所有这个问题的局部最小值,(被19证明了,对于任意的起始点)
学习多层网络的定理?是的!但通常只针对线性网络。概括网络:矩阵转换的产物。一些萌芽的理论:
引导性问题:为什么用VGG19(2千万个参数)训练CIFAR10是个好办法?
过量参数会帮助优化:民间实验。
不过当然,课本上警告我们:大型网络容易过拟合:
但,最近工作闲时,超额容量网络仍然存在
希望:这些概念可以解释“训练好的网络”更好的观点
有效容量:粗略的,log(不同的鲜艳模型)。生成理论告诉我们
这里m是训练样本数量,N是参数量,VC维度,Rademacher复杂度
担忧,虽然:对于深度网络,N作主导是毫无意义的。理想的,通过草稿证明:
Von Neumann:"可靠的机器和不可靠的元件。在人类和动物大脑中,我们有大量的和相对可靠的系统的例子,这些系统是由个体组成的,这些神经元看起来是不可靠的。在通信理论中,这可以通过适当引入的冗余来完成。"
新观点:基于压缩的方法对生成界限(引自Arora今年的ICML)这个界限粗略地表示为:
总结泛化性的一些观点:
理想的结果:显然自然学习问题不能实用深度d来解决,但可以用d+k个深度来解决。
关键是,我们讨论的是自然学习问题,它往往不具备好的数学化公式。最近的研究显示,非自然案例中确实是这样的。
问题:在深度学习中,更深的深度是好还是不好?
考虑回归问题,尤其,回归:
现在,我们用2层线性回归替换这个,所以,我们用w1w2来替换w(过参数化!):
为什么会这样?梯度下降可能采取的路径,可能更简单一点。梯度现在下降到:
无监督学习动机:“多种假设”
目标:使用大量的无标签数据,学习从图像到代码的映射。这里希望代码在分类任务上对于X是个好的下游替代品。
Generative Adversarial Nets(GANs)对抗生成网络
如果目标近似等于0,生成器获胜,之后的训练如果判别器没有奏效(到达均衡)
问题:什么会坏了GAN训练者的一天?答案是:模式崩溃!观点:自从判别器只从一小部分样本中学习,可能就不能教生成器来生成一个分布足够大的多样性。
从理论上的新思路:问题不是训练样本个数,而是判别器的尺寸/容量!
定理2.2 Arora等提出:如果判别器 size=N,那么任意一个生成器产生的分布支持O(NlogN)的时间复杂度的输入,忍让反对所有可能的判别器。
主要观点:小的判别器本来就无法检测模式崩溃。GAN训练对象不保证避免模式崩溃。但是,这个真的会发生吗?答案是,是的!回想一下生日北仑。日过你在一个房间内放入大于23个人,那就有大于50%的机会,两个人是同一天升到额。注意。
另外,如果N个图片的分布,那么个样本的几率大于50%。
简单来讲:无监督学习需要新的方法
无监督学习动机:多种假设
可能的坑:对于学好的代码,然后p(X,Z)需要学习来达到非常高的准确率,因为你将把代码放入下游任务。但这个可能并不会发生。
所以:一般的故事都有点离题。
思考:
考虑两个句子,这两个句子我们看起来很相似:
问题:没有共同的单词。所以我们怎样抓住文本/句子的相似性呢?
通常的方法:文本嵌入
(Ben Recht?)线性原则:“在考虑深度模型前,先看看线性方法行不行”但是Sanjeev说,Ben并没说这是他的做法。
表示学习的要点就是找到数据的真实结构,分类就变得简单了。但是,下游的任务是无法提前知道的。所以,表示似乎就要抓住全部或大部分的信息(比如词包)
恢复算法:
但是,Calderbank等说线性分类压缩向量Ax和x表现得一样好。
连接RL:简单的线性模型在RL中可以打败最好的深度RL在一些简单的问题上。线性原则,可以用!看看Ben的论文(下节)
如何工作: