迁移和调整预训练的transformer以选择答案句子Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence

摘要

作者首先通过使用大型和高质量的数据集对预先训练的模型进行微调,将其转换为一般任务的模型。然后,我们执行第二个微调步骤,使迁移模型适应目标域。我们的经验表明,TANDA生成更稳定和稳健的模型,减少了选择最优超参数所需的工作量。另外,我们还证明了TANDA的迁移步骤使得自适应步骤对噪声更加鲁棒。

介绍

本文研究了基于transformer的AS2(answer sentence selection)模型的使用,并为解决AS2的数据匮乏问题和微调步骤的不稳定性提供了有效的解决方案。具体而言,我们的论文贡献如下:

(1)我们通过添加一个中间微调步骤来提高transformer模型的稳定性,该步骤旨在将它们专门化为目标任务(AS2),即该步骤将预先训练的语言模型转换为目标任务的模型。
(2)我们证明,即使使用小尺寸的目标数据,迁移的模型可以通过后续的微调步骤有效地适应目标域。
(3)我们的转移和适应(TANDA)方法使微调:(i)更容易和更稳定,无需樱桃采摘参数;以及(ii)对噪声鲁棒,即来自目标域的噪音数据能够用来训练一个更精准的模型。

(4)我们通过转换最近发布的自然问题(NQ)语料库(Kwiatkowski et al。2019)从MR到AS2任务。这是一个非常重要的步骤。ASNQ是我们工作对研究界的重要贡献。
(5)最后,我们的研究方法和实证研究的普遍性表明,我们的TANDA发现也适用于其他NLP任务,尤其是文本推理,尽管实证分析对证实这些主张至关重要。

TANDA: Transfer and Adapt

用了一个大规模数据集进行标准微调步骤,这个步骤是为了将Transformer模型迁移到AS2任务当中,由于目标域的特殊性,所得到的模型不能对目标域的数据执行最优。因此,我们应用第二个微调步骤来使分类器适应目标AS2域。例如,在迁移步骤中,我们可能会有一些一般性的问题,例如,一个健康人的平均心率是多少,而在适应步骤中,目标领域(如体育新闻)可能包含一些特定的问题,例如:费城老鹰队何时打过fog bowl?

总结

本文的工作将经典的精调(fine-tuning)过程拆成了两次,其中一次针对通用数据集,另一次针对目标数据集,此外,还专门构建了适用于AS2任务的通用数据集ASNQ。本文在两个著名的实验基准库:WikiQA和TREC-QA上进行实验,分别达到了 92% 和 94.3% 的 MAP 分数,超过了近期获得的 83.4% 和 87.5% 的最高分数。本文还讨论了 TANDA 在受不同类型噪声影响的 Alexa 特定数据集中的实验,确认了 TANDA 在工业环境中的有效性。

 

 

你可能感兴趣的:(机器阅读笔记)