信息瓶颈理论-基础与应用

历史沿革与导读

早在2000年,Naftali Tishby就在“The information bottleneck method”一文[1]中提出了信息瓶颈理论,给出了优化问题的数学定义和迭代算法,并且证明了算法的收敛性。
最近深度学习的热潮,也带来了对其可解释性和理论分析的关注。在2015年[2]和2017年[3]的文中,Tishby和他的学生们尝试用信息瓶颈理论用于解释深度学习,发现深度学习训练过程的“特征拟合”和“特征压缩”两个阶段,并且作了可视化分析,也在解释深度学习的细分领域发掘了一个新热点。
2018年,有研究者质疑了上述发现[4],认为深度学习训练过程未必会有上述两个阶段,也和Tishby在公开平台上进行了讨论,从而又有公众号发文提出对“信息瓶颈理论”的批判性分析。
通过分析若干相关论文,笔者初步总结如下:

  • 信息瓶颈理论是对数据压缩的率失真理论的拓展,这一工作早在2000年完成,并且有严格的形式化分析和证明,其理论本身的严谨性不存在质疑。
  • 信息瓶颈理论运用于深度学习的解释,不论是否发现“特征拟合”和“特征压缩”两个阶段,都是有益的尝试和有应用价值的,学术泡沫是大家后续吹出来的。
  • 信息瓶颈理论的实用化问题集中在训练过程的互信息估计。这个问题在信息论领域早已有若干基础,也有文献已经把相关基础整合到深度学习领域。
    下面,笔者将简要介绍信息瓶颈理论的基础、在解释深度学习训练中的应用、以及在理论实用化等三个方面内容。

信息瓶颈理论:基础与概述

有部分公众号关注了信息瓶颈理论较新的应用,特别是对深度神经网络机理的解释,因此又回溯到了2000年的那篇论文[1]。例如,从信息瓶颈理论一瞥机器学习的“大一统理论”一文中,对Tishby的论文进行了介绍,讨论了信息瓶颈理论的主要公式证明和结论,因此在这不再赘述。
笔者推荐有一定信息论基础的读者直接阅读2000年的原文,Tishby是从信息论中关于数据压缩的经典率失真定律出发,拓展出信息瓶颈理论的。本文用一张图作对比,其中*I()*表示互信息。
信息瓶颈理论-基础与应用_第1张图片
可以看出,率失真理论和信息瓶颈理论都是考虑在一定失真前提下,尽量降低对信源编码的码率(即X_hat与X的互信息),β越小所对应的压缩率越高。区别在于:

  • 率失真理论:编码时没有考虑关于信源X的外部信息,只关注编码后的X_hat与相对原始数据X之间的距离,且距离越大,失真越大。
  • 信息瓶颈理论:考虑了信源X中蕴含了关于Y的相关信息,因此对失真的定义为X_hat与外部数据Y之间的互信息(可转换为KL散度计算),且互信息越大,失真越小。因此,信息瓶颈理论可以看作率失真理论的一种特例。
    如果要解释下数据公式表达,下面为补充说明:
  • D_KL:Kullback-Leibler散度又被称为相对熵,是表征两个概率分布之间差异的度量,如下图所示。
    信息瓶颈理论-基础与应用_第2张图片
    互信息和KL散度的关系是:
    在这里插入图片描述
  • Blahut–Arimoto 算法:若集合为凸,且距离度量满足特定条件,则交替化最小化算法收敛到最小值。作为一个特例:集合是概率分布,距离度量为KL散度,则该算法为BA算法保证收敛。

信息瓶颈应用:分析深度学习

Tishby在2015年[2]和2017年[3]分别发表了用信息瓶颈理论解释深度神经网络的训练过程。我们用四幅图简要总结。

深度神经网络的信息表征过程

  • 深度神经网络DNN构建了关于输入X隐层表征的马尔科夫链。
  • 在监督学习场景中,信息瓶颈界定义了最优表征:最大化压缩输入X,并保留关于理想输出标签Y的互信息。
    信息瓶颈理论-基础与应用_第3张图片

深度神经网络的信息平面

  • 提出了信息平面:信息平面的横轴代表特征T对X的压缩率,深层压缩率越高,对应的I(X;T)越小;纵轴代表特征T中关于Y的相关信息,越接近于1则失真越小。
  • 信息平面表征DNN各层随训练的演化过程:随着输入数据量增大,从5%,45%到85%,深层特征T中关于Y的相关信息逐步提升。
    信息瓶颈理论-基础与应用_第4张图片

深度神经网络的训练阶段

  • DNN训练包含两个阶段:特征拟合和特征压缩,前者梯度均值大,方差小,即漂移drift,梯度SNR高;后者梯度均值小,方差大,即分散diffusion,梯度SNR低。最终所有层的SNR都收敛到常数。
  • 这也是有2018年论文[4]提出争议之处,认为一般而言不一定存在上述两个阶段。但是笔者想强调的是,这并不影响信息瓶颈理论本身的正确性,是通过信息论基础的数学工具严格证明推导得到的,也不影响基于信息瓶颈理论指导学习特征的设计。
    信息瓶颈理论-基础与应用_第5张图片

深度神经网络的信息瓶颈上界

  • 如前所述,越小的β代表越高的压缩率,即更深层的特征,越高的β代表越低的压缩率,相关信息损失更少。
  • 在2017年论文[3]所采用的“符合预设分布采样生成的数据集”条件下,DNN各层信息平面坐标都逼近所对应的信息瓶颈上界。请注意,Tishby用的不是真实数据集。
    信息瓶颈理论-基础与应用_第6张图片

互信息的估计:信息瓶颈理论的实用化

信息瓶颈理论在监督学习领域实用化,需要解决扩展BA算法的计算问题,BA算法需要计算互信息,而一般情况下的互信息直接计算非常困难,只有离散条件或者联合高斯分布例外,而实际数据集极少符合上述条件(所以Tishby在2017年的论文里,量化实验用的是符合离散条件的计算机仿真生成数据集)。
的确,对于真实数据集,直接计算互信息困难,但是估计互信息的方法是信息论领域的老话题了[5][6],所以并不会难倒后来人,只不过研究机器学习特别是深度学习的研究者中,关注信息论方法的人很少。不过,既然信息瓶颈理论小火了一把,总有人会注意到。例如[7],Google Research的Alemi采用变分近似(variational approximation)的方法给出了优化目标函数的可计算的近似界,并在实际手写体数据集和ImageNet数据集上进行了验证,获得了不错的效果,并且发现基于信息瓶颈理论设计的神经网络对抗攻击的鲁棒性有所提高(surprise?),然后又挖了几个学术小坑。

信息瓶颈理论有什么用?

我们可以再简要回顾下信息瓶颈理论的要点,以及在监督学习中如何应用。
信息瓶颈理论-基础与应用_第7张图片

  • 信息瓶颈理论利用“相关信息”对“学习特征”的优劣给出了形式化、可量化的描述。
  • 特征的“保真度”和“压缩率”之间的权衡可以通过调节β实现。特征的“优劣”取决于具体的任务。
  • 用信息平面的手段,可以描述学习的过程,针对不同压缩率画了一簇互信息曲线随学习的演化过程。
  • 在实际数据集中,用互信息估计的方法,可以导出可计算的近似BA算法,从而指导深度学习网络的训练。

参考文献来源

[1] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.
[2] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//2015 IEEE Information Theory Workshop (ITW). IEEE, 2015: 1-5.
[3] Shwartz-Ziv R, Tishby N. Opening the black box of deep neural networks via information[J]. arXiv preprint arXiv:1703.00810, 2017.
[4] Saxe A M, Bansal Y, Dapello J, et al. On the information bottleneck theory of deep learning[J]. 2018.
[5] Paninski L. Estimation of entropy and mutual information[J]. Neural computation, 2003, 15(6): 1191-1253.
[6] Kraskov A, Stögbauer H, Grassberger P. Estimating mutual information[J]. Physical review E, 2004, 69(6): 066138.
[7] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.

你可能感兴趣的:(机器学习,阅读笔记)