Test Accuracy vs. Generalization Gap:论文简览

0 Abstract

  • 选择合适的模型参数以及训练超参对于提升模型性能非常重要;
  • 文章通过检查基于泛化度量的模型选择来扩展先前的分析:
    • 聚焦于NLP任务;
    • 考虑直接预测测试误差(test error)而不是泛化差距(generalization gap)的指标;
    • 考虑不需要通过数据参与计算的指标。
  • 文章做了什么:
    • 对不同设置下数百个预训练Transformer模型进行了研究,包括变化数据量、模型大小和优化超参数等;
    • 对来自Huggingface的8个NLP模型家族的总共51个预训练Transformer进行了分析,包括GPT2、BERT等;
    • 考察了28个现有和新颖的泛化度量标准,并发现从“heavy-tail”(HT)角度得出的度量标准在NLP任务中表现出更强的相关性;
    • 为了更深入地研究这些度量标准,作者扩展了之前基于幂律(power law)频谱分布的公式,引入了指数(exponential)和指数截尾幂律(exponentially-truncated power law,E-TPL)家族。
      【重尾现象:当一个概率分布被认为是"heavy-tailed"时,意味着它的尾部包含了一些极端事件或异常值,这些事件的概率远高于正态分布(正态分布的尾部事件概率迅速减小),可以用幂律来进行描述】

1 Introduction

  • 泛化指标对于模型选择非常重要,而近年有研究指出现有指标的不足之处:
    • 对于环境超参(数据、网络架构、训练策略)的改变缺乏鲁棒性;
    • Simpson悖论:当应用于学习模型集合或整体研究的每个子部分时,泛化指标的表现不同;
    • 过于依赖CV模型,难以泛化到其他任务(例如NLP)。
  • 相较于CV任务,NLP任务的泛化指标选择需要注意什么:
    • 大语言模型的数据是网络规模且难以获取的,因此泛化指标在不需要访问数据就可以评价模型是最优的;
    • CV上的指标通常不适用于NLP,因为即使NLP模型已经在训练数据上学到了很多信息,它仍然可能存在一定程度的训练误差(难以达到“完美拟合”),泛化差距不是一个合理的评价指标。而问题在于,许多现有的泛化度量标准通常通过比较模型的泛化差距(即训练性能与测试性能之间的差异)来评估模型性能。
  • 一个情景引出文章研究的问题:
    • 考虑有两个模型,它们分别有测试误差1、2,训练误差1、2,以及泛化差距1 = 1 − 1 和2 = 2 − 2;假设一个泛化度量标准可以完美地排名泛化差距(例如1 > 2),但即使我们知道这两个模型的确切训练误差1、2,我们仍然无法确定哪一个模型具有较小的测试误差;
    • 对于NLP任务,我们更倾向于使用能够直接预测测试误差(或类似NLP任务中的评估指标,如测试BLEU分数)趋势的泛化度量标准,而不是泛化差距的趋势。
  • 重尾自正则化理论(heavy-tail self regularization,HT-SR)
    • 直接预测测试误差而不是泛化误差;
    • 不需要访问数据;
    • HT-SR理论的核心原则是,在权重矩阵的特征值分布(ESD)中,由于在优化过程中提取了数据中的各种相关性,会自然地产生重尾结构【HT结构,对HT结构进行分析有助于选择合适的正则化方法或优化策略,以减轻模型的过拟合倾向】,用于预测模型质量。
  • 文章贡献总结:
    1. 首次系统性研究NLP领域的泛化度量标准:该研究首次系统NLP领域的各种泛化度量标准进行了相关性分析。
    2. 广泛的研究对象:研究包括考虑了360个不同设置的Transformers模型,以及来自Huggingface的八个最先进的预训练Transformer模型家族,如BERT、GPT2、ALBERT等。
    3. 模型选择无需使用训练/验证/测试数据的研究:文章进行了首次系统研究,探讨了如何在不使用任何训练/验证/测试数据的情况下,基于泛化度量标准进行Transformer模型的选择。
    4. 在不同模型类别下的相关性分析:研究还测量了28个泛化度量标准与模型质量(通过测试性能来衡量)在三种不同的模型类别下的相关性:(i) 使用最佳超参数训练的模型,(ii) 训练不同阶段的单一模型,(iii) 使用不同超参数训练的模型。
    5. 重新审视以往的发现:对于受到边界和PAC-Bayesian理论启发的数据相关度量标准的先前研究结果进行了重新审视,发现虽然这些度量标准在预测泛化差距方面表现良好,但没有一个能够令人满意地直接预测测试误差。
    6. 发现HT-Based形状度量标准的性能优越性:在适当应用的情况下,研究发现基于重尾结构(HT)的形状度量标准在预测模型质量方面一致表现优于规模度量(或基于范数的度量标准)。
    7. 扩展HT-SR理论的研究:研究还扩展了对HT-SR理论的研究,并调查了用于拟合重尾/轻尾分布的替代模型。结果表明,在次优训练的模型上,指数截尾幂律(E-TPL)拟合相对稳健,是幂律(PL)拟合的可替代选择。

你可能感兴趣的:(深度学习,人工智能,nlp,机器学习)