【深度】“信息瓶颈”理论揭示深度学习本质，Hinton说他要看1万遍

本文讲的是“信息瓶颈”理论揭示深度学习本质，Hinton说他要看1万遍，利用深度神经网络的机器已经学会了交谈、开车，在玩视频游戏和下围棋时击败了世界冠军，还能做梦、画画，帮助进行科学发现，但同时它们也深深地让其发明者困惑，谁也没有料到所谓的“深度学习”算法能做得这么好。没有基本的原则指引这些学习系统，除了一些模糊的来自人类大脑的设计灵感（而关于这一点，实际上也没有人真正懂得多少）。

像大脑一样，深度神经网络也有很多层神经元。当神经元被激活时，它会发出信号，连接上面一层的神经元。在深度学习的过程中，网络中的连接会根据需要被加强或减弱，从而让网络更好地根据输入（例如一张狗的照片的像素）发送信号，信号层层向上，经过所有相关的神经元，这些神经元都与“狗”这个概念的高层抽象有关。一个深度神经网络在“学习”过数以千计的狗的照片后，能像人一样准确地识别出从未见过的照片中的狗。

从具体个例到通用概念的飞跃，让深度神经网络拥有了如同人类在推理、创作时所展现出的“智能”。专业人员想知道，是什么赋予了神经网络泛化的能力，也想知道人类的大脑在多大程度上也在进行类似的活动。

近年来少有的干货演讲，Hinton说他要看上10000遍才懂

上月，在柏林举行的一场演讲为这一疑问提供了一个可能的回答，这场演讲的视频在人工智能研究人员间广为分享。

演讲中，希伯来大学的计算机科学家和神经学家Naftali Tishby，提出了一种解释深度学习工作原理的新理论，并给出了证据支撑。Tishby认为，深度神经网络根据一种被称为“信息瓶颈”（information bottleneck）的过程在学习，他和两位合作者最早在1999年对这一过程进行了纯理论方面的描述。

信息瓶颈理论认为，网络像把信息从一个瓶颈中挤压出去一般，去除掉那些含有无关细节的噪音输入数据，只保留与通用概念（general concept）最相关的特征。Tishby和他的学生Ravid Shwartz-Ziv的最新实验，展示了深度学习过程中这种“挤压”是如何发生的（至少在他们所研究的案例里）。

Tishby的发现在AI研究圈激起了强烈的反向。Google Researc的Alex Alemi说：“我认为信息瓶颈的想法可能在未来深度神经网络的研究中非常重要。”Alemi已经开发了新的近似方法，在大规模深度神经网络中应用信息瓶颈分析。Alemi说，信息瓶颈可能“不仅能够用于理解为什么神经网络有用，也是用于构建新目标和新网络架构的理论工具”。

另外一些研究人员则持怀疑态度，认为信息瓶颈理论不能完全解释深学习的成功。但是，纽约大学的粒子物理学家Kyle Cranmer——他使用机器学习来分析大型强子对撞机的粒子碰撞——表示，一种通用的学习原理（a general principle of learning），“听上去有些道理”。

深度学习先驱Geoffrey Hinton在看完Tishby的柏林演讲后发电子邮件给Tishby。“这简直太有趣了，”Hinton写道：“我还得听上10,000次才能真正理解它，但如今听一个演讲，里面有真正原创的想法，而且可能解决重大的问题，真是非常罕见了。”

Tishby认为，信息瓶颈是学习的一个基本原则，无论是算法也好，苍蝇也罢，任何有意识的存在或突发行为的物理学计算，大家最期待的答案——“学习最重要的部分实际上是忘记”。

香农错了——利用信息论，我们能够精确定义“相关性”

Tishby很早便开始考虑信息瓶颈的问题，那时候其他研究人员也才刚刚开始酝酿深度神经网络，尽管当时无论是信息瓶颈还是深度神经网络都还没有得名。那是20世纪80年代，Tishby在思考人类是如何做语音识别的——语音识别是当时AI的一个重大挑战。Tishby意识到，问题的关键是相关性：说出来的一个词最相关的特征是什么，我们又该如何从重音、语调、模糊音等变量中将这个特征计算出来？在通常情况下，当我们面对现实生活中汪洋大海般的数据时，哪些信号是我们会保留下来的？

“相关信息（relevant information）的概念在历史上提到了许多次，但从来没有被正确地形式化，”Tishby在上个月接受采访时说：“多年来，人们认为信息论不是考虑相关性的正确方式，这个误解可以一直追溯到香农本人。”

克劳德·香农，信息论的创始人，从某种程度上说，是香农解放了人类对信息的研究，让信息能够以抽象的0、1形式和纯粹的数学意义被研究。正如Tishby所说的那样，香农认为“信息并非关乎语义”。但是，Tishby认为，这是不正确的。

Tishby意识到，利用信息论，“你能精确定义‘相关’（relevant）”。

希伯来大学计算机科学家和神经学家Naftali Tishby

假设X是一个复杂的数据集，就像一张狗的照片的像素，而Y是这些数据代表的一个更为简单的变量，比如单词“狗”。你可以任意压缩X而不丢失预测Y的能力，将X中所有与Y“相关”的信息捕获下来。在他们1999年的论文中，Tishby和他的共同作者，Fernando Pereira（现在在谷歌）和William Bialek（现在在普林斯顿大学），将这一过程转换成一个数学优化问题并且提出了数学公式。这是一个没有杀手级应用的核心基础概念。

“我沿着这条路在各种不同的情景中思考了30年，”Tishby说：“我唯一的运气就是深度神经网络变得如此重要。”

一篇论文的惊人发现：深度学习与物理重整化是完全相同的过程

深度神经网络背后的概念已经存在了几十年，但它们在语音和图像识别任务中的表现在最近几年才开始起飞，得益于改进了训练方案和更强大的计算机处理器。Tishby在读了物理学家David Schwab和Pankaj Mehta在2014年发表的一篇论文后，开始注意到深度学习与信息瓶颈理论的关联。

David Schwab和Pankaj Mehta两人发现，Hinton发明的“深度信念网络”（DBN），在一种特定的情况下，酷似物理学中的重整化（renormalization），也就是以粗粒度的方式获取物理系统的细节，从而计算其整体状态。当Schwab和Mehta将深度信念网络应用于一个处于“临界点”的磁力模型时（这时该系统是分形，在任意尺度都自相似），他们发现，网络会自动使用重整化般的过程来发现模型的状态。

这一发现令人震惊，正如生物物理学家Ilya Nemenman当时评论所说的那样，它表明了“在统计物理的背景下提取相关特征和在深度学习的背景下提取相关特征并不只是类似，而是完完全全的同一个。”

物理学家David Schwab和Pankaj Mehta在2014年的论文，证明在特定情况下深度学习等同于物理中的重整化技术，这让Tishby注意到信息瓶颈理论与深度学习之间的关联

唯一的问题是，在一般情况下，现实世界并不是分形。Cranmer说：“我不会说[重整化步骤]就是深度学习在处理自然图像时效果这么好的原因。”

但Tishby——他当时正在接受胰腺癌化疗——意识到，无论是粗粒度过程还是深度学习，都可以被一个更广泛通用的想法所涵盖。“对科学和对我以前想法的思考是我的治疗和康复的重要组成部分，”Tishby说。

Naftali Tishby的学生Noga Zaslavsky（左）和Ravid Shwartz-Ziv，他们帮助开发了深度学习信息瓶颈理论。

信息瓶颈：网络在抽取相关性时的理论边界

2015年，Tishby和他的学生Noga Zaslavsky假设深度学习是一个信息瓶颈过程，尽可能地压缩噪声数据，同时保留数据所代表的信息。Tishby和Shwartz-Ziv对深度神经网络的新实验揭示了瓶颈过程如何实际发生的。在一种情况下，研究人员使用小型神经网络，使用随机梯度下降和BP，经过训练后，能够用1或0（也即“是狗”或“不是狗”）标记输入数据，并给出其282个神经连接随机初始强度，然后跟踪了网络在接收3000个样本输入数据集后发生了什么。

实验中，Tishby和Shwartz-Ziv跟踪了每层网络保留了多少输入中的信息和输出标签中的信息。结果发现，信息经过逐层传递，最终收敛到信息瓶颈的理论边界：也就是Tishby、Pereira和Bialek在他们1999年论文中推导出的理论界限，代表系统在抽取相关信息时能够做到的最好的情况。在这个边界上，网络在没有牺牲准确预测标签能力的情况下，尽可能地压缩输入。

Tishby和Shwartz-Ziv还提出了一个有趣的发现，即深度学习分为两个阶段：一个简短的“拟合”阶段，在此期间，网络学着去标注其训练数据，以及一个更长时间的“压缩”阶段，在这个阶段网络变得能够泛化，也即标记新的测试数据。

作者在论文中指出，他们在实验中首次观察到了随机梯度下降优化过程中两个独特的阶段，经验误差最小化（ERM）和表示压缩。上图展示了SGD过程中信息逐层传递收敛的情况。

在深度神经网络通过随机梯度下降调整其连接权重的过程中，首先，网络存储的关于输入的数据会大致保持恒定或者稍微增加一点点，这时网络连接会进行调整，为输入中的模式进行编码，更好地拟合标签。有一些专家也将这个阶段与记忆进行了类比。

然后，学习切换到压缩阶段。网络开始扔掉一些关于输入数据的信息，只跟踪最强的特征——与输出标签最相关的那些关联（correlation）。这是因为，在随机梯度下降的每次迭代中，训练数据中或多或少的意外相关性会告诉网络做不同的事情，在随机游走（random walk）中上下拨动神经连接的强度。这种随机化与压缩系统输入数据的表示（representation）实际上是相同的。看这个例子，一些狗的照片的背景中可能有房子，而其他的照片没有。在网络不停地训练过程中，它可能会“忘记”一些照片中房屋和狗之间的相关性，因为其他照片抵消了这一点。Tishby和Shwartz-Ziv认为，正是对细节的遗忘使得系统能够形成通用的概念。实际上，他们的实验表明，深度神经网络在压缩阶段提高了泛化性能，在标记测试数据方面变得更好。

信息瓶颈能否解释所有的深度学习？

信息瓶颈是否能解释所有深度学习，除了压缩以外是否还有其他的泛化途径，这些还有待观察。一些AI专家认为，Tishby的想法是近期出现的关于深度学习最重要的理论见解之一。不过，哈佛大学AI研究员和理论神经科学家Andrew Saxe指出，某些非常大的深度神经网络似乎不需要专门的压缩阶段来泛化。研究人员会用一种叫做“早期停止”（early stopping）的方式进行编程，减少训练，从一开始就防止网络编码过多的相关性。

Tishby认为，Saxe及其同事分析的网络模型与标准的深度神经网络架构有所不同，但是即使如此，信息瓶颈的理论界限比其他方法更好地定义了这些网络的泛化性能。关于瓶颈是否适用于较大神经网络，Tishby和Shwartz-Ziv的最新实验部分解决了这一问题。在最新的这项实验中，Tishby他们训练了更大的，拥有33万连接的深度神经网络，识别美国国家标准和技术研究所数据库（Modified National Institute of Standards and Technology database）中60,000张手写数字的图像，这也是衡量深度学习算法性能的一个知名基准。

Tishby和Shwartz-Ziv观察到了同样的现象，网络收敛到了信息瓶颈的理论界限；他们也观察到了深度学习那两个截然不同的阶段，并且与较小的网络相比，大规模网络在这两个阶段的转换更加明显。

“我现在完全相信这是一个普遍现象。”Tishby说。

人与机器：学习过程中最重要的，是遗忘

大脑如何从我们的感官中筛选信号并将其提升到意识水平的谜团驱使了早期AI研究者对深度神经网络的兴趣，他们希望逆向设计大脑的学习规则。时至今日，AI从业者在技术进步的狂热中，已经在很大程度上放弃了这一点，迷醉于提高性能而不考虑生物学上的合理性。不过，在他们打造的思维机器能力不断提升的过程中，许多研究人员仍然希望，这些探索能够揭示关于学习和智能的通用见解。

纽约大学心理学和数据科学助理教授Brenden Lake致力于研究人类和机器学习的异同，他认为Tishby的发现是“打开神经网络黑匣子的重要一步”。但Lake强调说，大脑代表了一个更大、更黑的黑盒子。成年人的大脑拥有860亿个神经元，之间更有数百万亿个连接，很可能采用了众多策略来加强泛化，远远超越婴儿期发生的基本的图像和声音识别的学习过程，后者在很大程度上类似当前的深度学习。

Lake说，Tishby观察到的拟合和压缩阶段，似乎并不能对应到儿童学习手写字符的过程中。人类孩子学习认字写字，并不需要看数千个字符并在比较长的时间中压缩他们思维中的表示（representation）。事实上，人类儿童可以从一个样本中学习。Lake和他的同事构建模型表明，大脑可能会把新的字符解构成一系列的笔画——以前就有的思维表示，从而将字母（letter）的概念加入到先前的知识大厦中，“而不是像标准的机器学习算法一样，将一个字母作为像素图案来学习，通过映射特征学习概念”。Lake说，人类建立了一个简单的因果模型——一个更短的泛化路径。

这种想法可能为AI研究社区带来启发，进一步推动两个领域彼此间的往来。Tishby认为，他的信息瓶颈理论最终将被证明在两门学科中都有用，可能在人类学习中采取一种比AI学习更泛化的表示。信息瓶颈理论的一个直接应用，便是更好地了解人类神经网络和人工神经网络可以解决哪些问题。

“它给出了可以学习的问题的完整描述，”Tishby说：“这些都是我可以在输入中消除噪音，而不会损害我分类能力的问题。例如自然视觉、语音识别。这些也正是我们的大脑可以应付的问题。”

同时，人类神经网络和人工神经网络都无法很好地解决另一些问题，那就是每个细节都很重要，因此无法去除信息的问题。例如，大多数人不能快速地在心里将两个数字相乘。Tishby说：“我们有一大堆类似这样的问题，改变一个变量都会引发全局变化的逻辑问题。例如离散问题、加密问题。我不认为深度学习都帮助我破译密码。”

泛化——或者说遍历信息瓶颈——意味着舍弃一些细节。这对心算不好，但心算并不是大脑的主要任务。我们擅长在人群中寻找熟悉的面孔，在嘈杂、混乱的世界中对寻找显著信号的秩序。正如Naftali Tishby所说，学习中最重要的，实际上是遗忘。

原文发布时间为：2017-09-22
作者：Natalie Wolchover
编译：文强
原文链接

【深度】“信息瓶颈”理论揭示深度学习本质，Hinton说他要看1万遍

你可能感兴趣的:(数据库,人工智能)