论文解读ON THE GENERALIZATION MYSTERY IN DEEP LEARNING

        该论文研究的是为什么深度网络泛化得很好?作者从梯度下降、稳定性角度进行了分析。得出结论:当不同示例的梯度在训练过程中很好地对齐时,即当它们是相干的时,梯度下降是稳定的,并且期望得到的模型能够很好地泛化。否则,如果示例太少或运行时间太长,则梯度下降可能无法泛化。

       该论文共有80页,目录如下,后面一部分多是一些数学证明,我将前一部分简单整理了一下,做成了思维导图,思维导图中的文字写在了后面,供大家参考。


1. Introduction
2. The Theory, Informally
3. An Illustrative Example
4. Metrics to Quantify Coherence
5. Bounding the Generalization Gap with α
6. Measuring α on Real and Random Datasets
7. From Measurement to Control: Suppressing Weak Descent Directions
8. Why are Some Examples (Reliably) Learned Earlier?
9. Learning With Noisy Labels
10. Depth, Feedback Loops, and Signal Amplification
11. What Should a Theory of Generalization Look Like?
12. Comparison with Other Theories and Explanations
13. Discussion and Directions for Future Work


A. Mathematical Properties of α
B. Comparison of α with Other Metrics
C. Proof of The Generalization Theorem
D. Methods to Measure α
E. Measuring α on Additional Datasets and Architectures
F. The Evolution of Coherence
G. Experimental Details of Easy and Hard Examples
H. The Under-Parameterized Case: A Preliminary Look
I. Additional Data

论文解读ON THE GENERALIZATION MYSTERY IN DEEP LEARNING_第1张图片

  • 一句话概括
    • 论文针对训练过程中不同样例梯度之间的交互作用予以解释。
  • 问题提出
    • 1)为什么经过梯度下降(GD)训练的过参数化神经网络能够很好地对真实数据集进行泛化,甚至它们能够拟合具有可比性的随机数据集?
    • 2)在符合训练数据的所有解决方案中,GD如何找到一个泛化良好的解决方案(当存在这样一个泛化良好的解决方案时)?
  • 论文贡献
    • 1)给出深度学习泛化谜题的答案,指出其在于训练过程中不同样例梯度之间的交互作用
    • 2)解释了深度学习一些其他现象,比如为什么一些例子比其他例子更早被可靠地学习,为什么早停止有用,为什么可以从嘈杂的标签中学习。
    • 3)激发了对GD的一系列简单的修改,减少了记忆,提高了泛化。
    • 4)论文对解决深度学习泛化的其他途径进行了综述。
  • 1. Introduction
    • 论文认为:
      • 当不同示例的梯度 (在训练过程中) 相似时,即当存在相干性时,过度参数化设置中的梯度下降可以很好地泛化。
      • 当存在相干性时,梯度下降的动力学导致模型是稳定的,也就是说,导致模型不太依赖于任何一个训练示例,并且众所周知,稳定模型(鲁棒性比较好)泛化得很好。
  • 2. The Theory, Informally
    • 如果数据集是这样的,示例是根据具体情况拟合的,那么我们预计泛化很差 (它对应于记忆),而如果有可以利用的常见模式来拟合数据,那么我们应该期待良好的泛化。
    • 平均梯度中的强方向是稳定的,因为在这些方向上多个示例相互支持或加强。特别是,训练集中单个示例的缺失或存在不会影响沿强方向的下降,因为其他示例无论如何都会对其产生影响。(自己理解:稳定的团队中,缺少一个人这个团队还会正常运行,因为其他人还会努力干活)因此,根据稳定性理论,相应的参数更新应该具有良好的泛化能力,也就是说,它们也会在未见过的例子上导致较低的损失。另一方面,平均梯度中的弱方向是不稳定的,因为它们是由少数甚至单个示例引起的。例如,在后一种情况下,训练集中缺少相应的示例会阻止沿该方向下降,因此相应的参数更新不会很好地泛化。
    • 存在高一致性(所有样本的梯度都指向同一个方向)的情况下,原始训练集上的训练和扰动版本应该不会有太大差异。
  • 3. An Illustrative Example
    • 泛化依赖于数据集
    • 两个数据集之间泛化差距的差异可以通过每个示例梯度的相似性的差异来理解
    • 梯度下降通过利用训练示例之间的共性 (如在其梯度中表示) 产生了不同的解决方案
    • 用中值梯度执行梯度下降通过消除弱梯度方向,增加了两个数据集上梯度下降的稳定性,并导致 “真实” 和 “随机” 的泛化差距为零。
    • 相干梯度方法允许我们解耦优化和泛化;因此,即使我们不能对 GD 之后的优化过程的结果说任何话,我们也可以通过沿途分析每个示例的梯度来说明解决方案是否泛化
    • 不同训练实例的梯度是相似的,并且相互加强 (也就是说,如果它们是连贯的),那么梯度下降产生的模型有望泛化得很好
  • 4. Metrics to Quantify Coherence
    • 量化每个示例梯度的相干性的一个明显指标是它们的平均成对点积
  • 7. From Measurement to Control: Suppressing Weak Descent Directions
    • 如果我们通过修改 SGD 以使用排除异常值的每个示例梯度的稳健平均值来抑制弱梯度方向,则泛化会得到改善。这提供了进一步的直接证据,表明弱方向是导致过度拟合和记忆的原因。
  • 13. Discussion and Directions for Future Work
    • (1) 更好的一致性指标和更严格的界限。通过考虑网络的图结构来获得更严格的界限,比如通过开发一些控制泛化的“最小相干”切割概念。
    • (2) 合并欠参数化案例。我们的目标是了解在高度过度参数化的设置中会发生什么。
    • (3) 仅基于训练集的泛化界限。是否有一种有效的方法可以仅使用训练集来衡量训练过程中的稳定性退化,以便为泛化差距提供一个非空的界限?也许这可以通过类似于差分隐私中的隐私会计师的“稳定性会计师”来完成。
    • (4) 对其他数据集和架构的确认。在这项工作中,我们只研究了视觉数据集。该解释是否适用于其他类型的数据(例如语言和语音)和架构(例如转换器)?
    • (5)概括性和广度。 Neyshabur 等人。 [2018b] 发现更广泛的网络概括得更好。我们现在可以解释一下吗?
    • (6) 理解纹理和形状偏差。可以在随机初始化和信号放大时使用相干性来理解为什么视觉网络偏向于基于“整体”属性(例如纹理)的特征,而不是那些基于更细微属性(例如形状)的特征?
    • (7) 新算法的实际应用。基于稳健平均的算法(例如 winsorized 梯度下降或 M3)能否帮助改进带有噪声标签的大规模学习、低数据设置学习和私有学习的最新技术水平?能否扩展它们以提供隐私保证?
    • (9) 使用连贯性来评估体系结构。我们能否使用连贯性来深入了解不同网络架构的相对优势和劣势,并改进架构以更好地泛化?
    • (10) 使用连贯性研究优化器。在这项工作中,我们将重点限制在普通梯度下降上。然而,一致性的概念可用于分析其他优化算法(例如 adam)的泛化行为,这是一个非常有趣的主题。

你可能感兴趣的:(深度学习泛化可解释性,深度学习,神经网络,人工智能)