信息瓶颈理论-笔记

  • 什么是信息瓶颈理论

信息瓶颈(英语:information bottleneck)理论是信源压缩的率失真理论的一种拓展。通俗讲:

由于没有先验知识,于是只好都记住,但是可以消除数据本身的冗余(如huffman编码)。这个是最传统的数据压缩,如果允许压缩时失真,对应的是率失真理论:给定失真下可获得的最低压缩码率,即在失真和压缩码率之间权衡。

如果有先验知识,比如数据是带标签的,那消除数据本身的冗余之外,还“遗忘(压缩)”与标签无关的信息(与学习任务无关的冗余),对应的就是信息瓶颈理论:在保留关于标签相关信息和获得高效的压缩之间权衡。

 

可以看出,率失真理论和信息瓶颈理论都是考虑在一定失真前提下,尽量降低对信源编码的码率(即X_hat与X的互信息),β越小所对应的压缩率越高。区别在于:

率失真理论:编码时没有考虑关于信源X的外部信息,只关注编码后的X_hat与相对原始数据X之间的距离,且距离越大,失真越大。
信息瓶颈理论:考虑了信源X中蕴含了关于Y的相关信息,因此对失真的定义为X_hat与外部数据Y之间的互信息(可转换为KL散度计算),且互信息越大,失真越小。因此,信息瓶颈理论可以看作率失真理论的一种特例。
如果要解释下数据公式表达,下面为补充说明:
D_KL:Kullback-Leibler散度又被称为相对熵,是表征两个概率分布之间差异的度量,如下图所示。

信息瓶颈理论-笔记_第1张图片

 

  • 信息瓶颈理论能做什么

 

深度学习的解释性。用信息瓶颈理论用于解释深度学习,发现深度学习训练过程的“特征拟合”和“特征压缩”两个阶段,并且作了可视化分析,也在解释深度学习的细分领域发掘了一个新热点

 

 

  • 信息瓶颈理论解释了以下的问题:
  1. 模型训练的速度往往是开始收敛得很快,越到后面越慢,因为信息压缩花费的时间到后期指数增加了。
  2. 在样本不足的情况下,DNN往往表现出比预期要好一些的泛化能力,因为压缩I(X;T)使得泛化误差减小了。每压缩一半的bit数,维持相同泛化误差所需的样本数也减半。
  3. 从低层到高层,使用一些更改结构信息承载能力上限的技巧,可以达到压缩I(X;T)上限的效果。减少神经元个数(包括max pooling以及降维,还有临时性的drop out)、减少离散化数据的枚举数量(包括使用非线性激活函数、归一化、使用argmax),都在一定程度上减小了泛化误差。
  4. 无论是SGD还是dropout引入到网络中的噪音/不确定性,都增加了对应那一层的熵H(X|Ti(Wi-1),导致在训练过程中,I(X;T)被进一步压缩。当信号噪声比变小时,也就是训练到了中后期,随机熵导致的压缩会非常明显。然后当收敛趋于停止时,压缩效果也随之减弱,最终哪怕时间指数增加了,压缩量也会逐渐减小。
  5. 增加神经网络层数可以加快收敛速度,因为每一层随机权重都在进行信息压缩,相当于对噪音导致的信息压缩过程开了多线程。
  6. 每上升一层神经网络特征,因为信息压缩的现象,所以信息承载上限最好也随之降低,超出所需的I(X;T)比特数,并不会帮助提升预测效果,只会拖累计算速度。有时候需要借助结构改变来减少信息承载上限,从而强制进行不同层间的信息压缩。
  7. 当I(Y;X) < H(Y)的时候,Y存在X无法描述的固有随机性,存在准确率上限,无论任何模型训练得再完美,都无法让准确率超过这个上限。
  8. 训练收敛后,如果是能够比较好预测的模型,I(Y;Ti)在每一层都会比较接近于H(Y),这样假设无论从那一层切开,中间重新输入特征值T代替原本的输入X,都能够准确预测出Y。这为逐层解析DNN的特征值含义,提供了一扇分析的窗口。

Reference

https://arxiv.org/pdf/1910.00163.pdf

https://blog.csdn.net/jueliangguke/article/details/85227221

DEEP VARIATIONAL INFORMATION BOTTLENECK

https://blog.csdn.net/zb14zb14/article/details/89792285

https://www.cnblogs.com/ws12345/p/8036710.html

你可能感兴趣的:(paper,阅读笔记,深度学习-机器学习)