论文阅读Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

利用段落检索和生成模型进行开放域问答

ACL 2021 论文地址
摘要:
开放域问答的生成模型已被证明具有竞争力,无需借助外部知识。虽然这种方法很有前途,但它需要使用具有数十亿个参数的模型,这些参数的训练和查询成本很高。在本文中,我们研究了这些模型从检索可能包含证据的文本段落中获益的程度。我们获得了自然问题和琐事QA开放基准测试的最新结果。有趣的是,我们观察到,当增加检索通道的数量时,该方法的性能显著提高。这证明序列到序列模型提供了一个灵活的框架,可以有效地聚合和组合来自多个段落的证据。

引言:
最近,几项工作表明,可以从基于大量数据训练的大规模语言模型中提取事实信息(Radford et al.,2019;Petroni et al.;2019;Jiang等人,2019年;Talmor等人,2019)。基于这一观察和自然语言处理模型预训练的进展,Roberts等人(2020)引入了一种用于开放域问答的生成模型。在不依赖外部知识的情况下,该方法在几个基准上获得了竞争性结果。然而,它需要包含数十亿个参数的模型,因为所有信息都需要存储在权重中。这使得查询和训练模型的成本很高。在本文中,我们研究了这种方法可以从访问外部知识源(如维基百科)中获益多少。

基于检索的方法以前被考虑在使用抽取模型的开放域问答的背景下(Chen等人,2017)。在这种情况下,系统首先检索支持文档,然后从这些文档中提取答案。已经考虑了不同的检索技术,使用基于TF/IDF的稀疏表示或使用密集嵌入(Guu等人,2020;Karpukhin等人,2020)。提取答案的模型通常基于上下文化的单词表示,如ELMo或BERT(Peters等人,2018;Devlin等人,2019),并预测跨度作为答案。当使用提取模型时,聚集和组合来自多个通道的证据并不简单,并且已经提出了多种技术来解决这一限制(Clark和Gardner,2018;Min等人,2019a)。

在本文中,我们探索了一种两全其美的简单方法,该方法基于开放领域问答生成建模和检索的令人兴奋的发展。该方法分两步进行,首先使用稀疏或密集的方法检索支撑通道表示。然后,序列到序列模型生成答案,除了问题之外,还将检索到的段落作为输入。虽然概念上很简单,但该方法在TriviaQA和NaturalQuestions基准测试中设置了最新的结果。特别是,我们表明,当检索到的段落数增加时,我们的方法的性能显著提高。我们认为,这是一个证据,证明与提取模型相比,生成模型善于将多个段落的证据结合起来。

相关工作:
开放域问答是回答一般域问题的任务,其中证据不作为系统的输入。尽管这是自然语言处理中长期存在的问题(V oorhees,1999),但在Chen等人的工作之后,这项任务最近重新引起了人们的兴趣。(2017)。在这个版本的问题中,学习系统可以得到强有力的监督,以与答案相对应的跨度的形式。Chen等人(2017)提出通过首先从维基百科检索支持文档,然后从检索到的文档中提取答案来解决问题。提出了不同的方法来解决这样的设置,即系统没有黄金跨度,但只有正确答案。Clark和Gardner(2018)提出在与答案相对应的所有跨度上使用全局归一化,随后将其应用于基于BERT的模型(Wang等人,2019)。Min等人(2019a)介绍了一种基于硬期望最大化的方法,以解决来自该设置的噪声监控。Wang等人(2018b)描述了一种使用置信度和覆盖率得分来汇总不同段落答案的技术。

文章检索是开放域问答中的一个重要步骤,也是改进QA系统的一个积极研究领域。最初,基于TF/IDF的稀疏表示用于检索支持文档(Chen等人,2017)。Lee等人(2018)引入了一种基于BiLSTM的监督学习方法来重新排序段落,而Wang等人(2018a)使用强化学习训练了一个排序系统。改进QA系统检索步骤的第二种方法是使用附加信息,如维基百科或维基数据图(Min等人,2019b;Asai等人,2020)。最近,多项研究表明,完全基于密集表示和近似最近邻的检索系统与传统方法相比具有竞争力。这种模型可以使用问答对形式的弱监督进行训练(Karpukhin等人,2020),或者使用完形填空任务和微调的端到端进行预训练(Guu等人,2020;Lee等人,2019)。

生成答案对于需要生成答案的数据集,如叙事QA(Kocisk`y等人,2018)、CoQA(Reddy等人,2019)或ELI5(Fan等人,2018),生成性问题回答在之前的工作中大多被考虑。这些数据集的生成方式与支持文档中的跨度不一致,因此需要抽象模型。Raffel等人(2020)表明,生成模型在阅读理解任务中具有竞争力,如SQuAD(Rajpurkar等人,2016),其中答案是跨度。Roberts等人。(2020)建议在不使用额外知识的情况下,使用大型预训练生成模型进行开放域问答。与我们的工作最接近的是,Min等人(2020)和Lewis等人(2020b)引入了用于开放域问答的检索增强生成模型。我们的方法与这些作品的不同之处在于生成模型如何处理检索到的段落。这允许扩展到大量文档,并从大量证据中获益。

方法:
检索器 对于支持通道的检索,我们考虑了两种方法:BM25(Robertson等人,1995)和DPR(Karpukhin等人,2020)。在BM25中,段落被表示为单词包,排名函数基于术语和反向文档频率。我们使用默认参数的Apache Lucene1实现,并使用SpaCy标记问题和段落。2在DPR中,段落和问题表示为密集向量表示,使用两个BERT网络计算。排名函数是查询和段落表示之间的点积。使用FAISS库的近似最近邻居进行检索。

阅读器 我们的开放域QA生成模型基于序列对序列网络,基于无监督数据(如T5或BART)进行预训练(Raffel等人,2020;Lewis等人,2020a)。该模型将问题以及支持段落作为输入,并生成答案。更准确地说,每个检索到的段落及其标题都与问题相连,并由编码器独立于其他段落进行处理。我们在每个段落的问题、标题和文本之前添加特殊标记问题:、标题:和上下文:。最后,解码器执行在所有检索到的段落的结果表示的连接上。因此,该模型仅在解码器中执行证据融合,我们将其称为解码器中的融合。
通过在编码器中独立处理段落,但在解码器中联合处理段落,该方法不同于Min等人(2020)和Lewis等人(2020b)。在编码器中独立处理段落允许扩展到大量上下文,因为它一次只在一个上下文上执行自我关注。这意味着模型的计算时间随通道数线性增长,而不是二次增长。另一方面,在解码器中联合处理段落允许更好地聚合来自多个段落的证据。

总结
在本文中,我们研究了一种简单的开放域问答方法,该方法依赖于在用生成模型处理支持段落之前检索支持段落。我们表明,虽然概念简单,但这种方法与现有方法相比具有竞争力,并且它可以很好地扩展检索到的段落数。在未来的工作中,我们计划使该模型更有效,特别是当扩展到大量支撑通道时。我们还计划在我们的模型中集成检索,并端到端地学习整个系统。

你可能感兴趣的:(OpenQA论文阅读,深度学习,人工智能)