【泛化误差论文必看】

参考 人工智能前沿讲习 的泛化误差专题

1、背景

训练集往往只是数据总体的一部分,无法包含所有可能的情况,训练出的学习算法在训练集和非训练集上的表现会是不一样的,我们使用泛化误差来度量这一差距,这也是机器学习理论最重要的问题之一。

2、论文必读

2.1、3篇领域经典

1)Understanding Deep Learning Requires Rethinking Generalization. (ICLR 2017)

【泛化误差论文必看】_第1张图片

ICLR 2017的最佳会议论文。作者通过一些很有意思的实验(比如random label实验)来试图反驳之前的机器学习理论,认为之前的一些泛化上界并不能解释深度学习的成功。很有趣的一个文章,也被后来大部分做泛化的工作引用了。

2)Train faster, generalize better Stability of stochastic gradient descent. (ICML 2016)

【泛化误差论文必看】_第2张图片

比较经典的关于SGD的泛化误差的论文。使用的是一个经典理论框架叫做algorithm stability。其结论为训练越快,泛化越好

3)Neural Tangent Kernel Convergence and Generalization in Neural Networks. 

【泛化误差论文必看】_第3张图片

 

本文提出神经正切核(NTK)。NTK算是一个比较大的理论突破,其建立了over-parameterized neural network与Kernel Method的关系。而kernel相对于神经网络的复杂函数来说,性质更清晰一些,说不定更容易分析一些。后续有很多工作基于NTK,比如可以证明梯度下降能找到深度神经网路的全局最优解等等

2.2、 3篇领域前沿

1)Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks.(ICML 2019)

【泛化误差论文必看】_第4张图片

本文精细地分析了两层 (超级宽) 神经网络的优化和泛化。结论非常有意义。

2)Sharper Bounds for Uniformly Stable Algorithms (COLT 2020)

【泛化误差论文必看】_第5张图片

本文把传统的uniform stability的high probability bound基本做到了最优。(理论研究)

3)Gradient Descent Maximizes the Margin of Homogeneous Neural Networks (ICLR 2020)

【泛化误差论文必看】_第6张图片

本文的理论分析表明,离散的梯度下降和连续的梯度流在最小化齐次神经网络的逻辑损失或交叉熵损失的过程中,也会逐渐增大标准化分类间隔的一个光滑版变种。经过足够长的训练,标准化分类间隔及其光滑版变种还将收敛到同一极限,并且该极限和一个分类间隔最大化问题的KKT点处值相等。本文的结果极大地推广了前人在线性网络上得到的类似结果;相比于前人在齐次网络上的研究,也在使用的假设更弱的情况下给出了更量化的结果。

2.3 其他

 

你可能感兴趣的:(泛化)