论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022

1. motivation

模型不可知元学习(MAML)是目前小样本元学习的主要方法之一。尽管MAML有效,但由于固有的双层结构,其优化可能具有挑战性。具体而言,这种双层结构使得MAML的损失面可能有更多的鞍点和局部极小值,也就更容易陷入局部最优,而不是其经验风险最小化对应值。

论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022_第1张图片

 2. contribution

为了尽可能的避免陷入局部最优,本文利用最近的锐度感知最小化(sharpness aware minimization),提出了一种sharpness aware MAML方法,称之为Sharp-MAML。

实验部分Sharp-MAML达到了SOTA的效果。文中理论部分也进行了Sharp-MAML的收敛速度分析和泛化边界分析来补充实证研究。

3. 锐度感知最小化(SAM)

SAM利用损失面的几何形状,通过同时最小化损失值和损失锐度来提高泛化性能(Sharpness-aware minimization for efficiently improving generalization,ICLR 2021)。

SAM的优化问题为:

如果定义sharpness为:

那么SAM的优化目标就是最小化sharpness和经验损失的和。SAM通过在每次迭代t中进行如下步骤来寻找平坦最小值,即:

4. Sharp-MAML

MAML具有多个局部和全局最小值的复杂损失情况,这可能产生相似的经验损失值,同时具有显著不同的泛化性能。本文提出将SAM与MAML相结合给出了一个新的优化问题。

1) Sharp-MAML问题定义

使用两个非负的超参数和给出sharp的问题定义:

论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022_第2张图片

相比于MAML是一个双层优化问题,sharp-MAML是一个四层优化问题,但在算法设计中,将有效地近似(P)中的两个最大值,因此Sharp-MAML的成本几乎与MAML相同。

 2)Sharp-MAML的三种变体

  • Sharp-MAML_{low}: SAM只应用在任务内部更新过程:

  • Sharp-MAML_{up}:SAM只应用在元更新过程:

  •  Sharp-MAML_{both}:SAM同时应用在任务内部更新过程和元更新过程。

    对于任务m,perturbation的计算为:

    那么对于每个任务都能够计算得到任务参数:

    在所有任务的query set上就可以计算得到元梯度:

    由此可以计算元更新阶段的perturbation:

    那么元更新阶段的扰动微调参数,就为:

    则元更新过程就为:

5. 实验部分

论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022_第3张图片               论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022_第4张图片

6. 总结

虽然说本文的创新点就是把SAM和MAML进行了一个结合,但是理论(这部分的证明也是按照SAM的理论给了一个推导)和实验都比较充分。直观上但对我的帮助比较有限,SAM向损失中额外引入的梯度信息能够有效的提升模型的泛化性能,但在目标域上却不一定能有类似的效果。

你可能感兴趣的:(小样本学习,基于优化的元学习,算法,深度学习,机器学习,人工智能,迁移学习)