[论文笔记]Adapter turning

引言

今天带来第一篇大语言模型高效微调的论文Adapter Tuning笔记。

预训练+微调的范式是一种高效的迁移学习机制。然而,当有很多下游任务时,微调参数并不高效:对于每个任务都要有一个全新的模型。

作者提出了基于adapter模块的迁移学习方法,可以产生一个紧凑和可扩展的模型。只需要为每个任务增加少部分可训练参数,而固定原来模型的参数。

作者说Adapter可以获取接近SOTA的表现。

总体介绍

在预训练的模型中进行迁移学习可以在很多NLP任务上得到很好的表现。当下游任务很多时,又不希望为每个下游任务微调一个全新的模型。

作者提出了基于adapter模块的迁移学习方法,可以产生一个紧凑和可扩展的模型。紧凑意味着对于每个任务只需要额外少量的参数。可扩展意味着可以逐步训练以解决新任务,而不会忘记先前的任务。

在NLP中最常用的迁移学习技术有两种,分别是基于特征的迁移和微调。作者提出了基于adapter模块的另一种迁移学习方法。

基于特征的迁移关于预训练实数嵌入向量,这些向量可以为单词、语句或段落级别。然后把这些向量应用到自定义的下游模型。

微调就是从预训练的模型中拷贝权重然后基于下游任务更新它们。最近的工作表面微调通常效果比基于特征要好。

但是这两种方法都需要为每个任务训练一组新的权重,而作者提出的adpater微调方法可以更高效的利用参数。

[论文笔记]Adapter turning_第1张图片

图1的x轴表示每个任务训练的参数量。基于Ada

你可能感兴趣的:(论文翻译/笔记,#,大模型[论文],论文阅读,深度学习,人工智能)