机翻
问题解答(QA)是开放域对话代理的重要方面,在对话QA(ConvQA)子任务中获得了特定的研究重点。 ConvQA近期努力的一个显着局限性是响应是从目标语料库中提取答案跨度,从而忽略了高质量对话代理的自然语言生成(NLG)方面。 在这项工作中,我们提出了一种在SEQ2SEQ NLG方法中定位QA响应的方法,以在保持正确性的同时生成流利的语法答案。 从技术角度来看,我们使用数据扩充来生成端到端系统的训练数据。 具体来说,我们开发了句法转换(ST)来生成特定于问题的候选答案并使用基于BERT的分类器对它们进行排序(Devlin等人,2019)。 对SQuAD 2.0数据的人工评估(Rajpurkar等人,2018)表明,在生成对话响应时,提出的模型优于基线CoQA和QuAC模型。 通过对CoQA数据集进行测试,我们进一步展示了模型的可扩展性。 代码和数据可从https://github.com/abaheti95/QADialogSystem获得。
预训练模型已经被证明是一种有效的自然语言处理模型。受此启发,我们提出了一个新颖的对话生成预训练框架来支持各种类型的对话,包括聊天、基于知识的对话和会话问答。在这个框架中,我们采用了灵活的注意机制来充分利用双向语境和语言生成的单向特性。我们还引入了离散潜变量来处理响应生成中固有的一对多映射问题。在一个共享网络中,设计并同时完成了响应生成和潜在行为识别两个交互任务。通过对三个公开数据集的综合实验,验证了该框架的有效性和优越性
问题回答(question answering,QA)中最关键的挑战之一是标记数据的稀缺性,因为为具有人工注释的目标文本域获取问答(question-answer,QA)对的成本很高。另一种解决问题的方法是使用从问题上下文或从大量非结构化文本(如 Wikipedia)中自动生成的 QA 对。在这项工作中,我们提出了一个层次化的条件变分自动编码器(HCVAE) ,用于生成给定非结构化文本作为上下文的 QA 对,同时最大化生成的 QA 对之间的互信息以保证它们的一致性。我们通过仅使用生成的 QA 对(基于 QA 的评估)或使用生成的和人类标记的配对(半监督学习对)进行训练来评估 QA 模型的性能,从而在几个基准数据集上验证了我们的信息最大化层次化条件变分自动编码器(Info-HCVAE)。结果表明,我们的模型获得了令人印象深刻的性能增益超过所有基线的任务,只使用一小部分数据的训练。
互信息:互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性
本文介绍了一种新颖的方法,可以有效地构建结构化数据上的问答语料库。为此,我们引入了一种基于数据库中的逻辑查询计划的中间表示,称为 Operation Trees (OT)。这种表示方式允许我们在不失去生成的查询类型的灵活性的情况下反转注释过程。此外,它允许令牌与操作的细粒度对齐。因此,我们从上下文无关文法随机生成 OTs,而注释者只需编写适当的问题并分配标记。我们将我们的语料库 OTTA (Operation Trees and Token Assignment)与 Spider 和 LC-QuaD 2.0进行了比较,结果表明我们的方法在保持查询复杂性的同时,提高了注释速度三倍以上。最后,我们对数据进行了最先进的语义解析模型的训练,并显示数据集是一个具有挑战性的数据集,可以利用令牌对齐来显著提高性能
开放域问题回答可以归结为短语检索问题,在这个问题中,我们可以期望获得巨大的可扩展性和速度上的好处,但是由于现有短语表示模型的局限性,常常存在准确率低的问题。在本文中,我们的目标是通过增加上下文稀疏表示(Sparc)来提高每个短语嵌入的质量。与以往基于术语频率的稀疏向量(如 tf-idf)或直接学习的稀疏向量(只有几千个维度)不同,我们利用纠正的自我注意间接学习 n 元词汇空间中的稀疏向量。通过使用 Sparc 扩展以前的短语检索模型(Seo 等人,2019) ,我们发现在 CuratedTREC 和 SQuAD-Open 上有4% 以上的改进。我们的 CuratedTREC 评分甚至比最著名的检索和读取模型更好,至少提高了45倍的推理速度
尽管最近在谈话式问题回答方面取得了进展,大多数先前的工作并不关注后续的问题。实用的会话式问答系统在正在进行的会话中经常会收到后续问题,而系统能够确定一个问题是否是当前会话的后续问题,以便随后找到更有效的答案,这一点至关重要。本文介绍了一种新的后续问题识别任务。我们提出了一个三向关注的汇聚网络,通过捕获相关文章、会话历史和候选后续问题之间的成对交互来确定后续问题的适宜性。它使模型能够捕捉主题的连续性和主题的转移,同时给特定的候选后续问题打分。实验结果表明,我们提出的三向关注汇聚网络的性能优于所有的基线系统
大多数先前关于衔接回指消解的研究(Poesio et al. ,2004; Hou et al. ,2013b; Hou,2018a)使用成对模型来解决这个问题,并假设黄金提及信息已经给出。本文将衔接回指消解看作是基于语境的问题回答。这使我们能够在不知道任何黄金提及信息的情况下找到一个给定照应词的先行词(照应词本身除外)。针对这一问题,我们提出了一个基于迁移学习能力的问答框架(BARQA)。此外,我们提出了一种新的方法来产生大量的“准桥接”训练数据。我们表明,我们的模型在这个数据集上预先训练,并在少量的域内数据集上进行微调,在两个桥接语料库(ISNotes (Markert 等人,2012)和 BASHI (Ro siger,2018)上实现了新的最先进的桥接回指消解结果。
本文讨论了自然语言处理(NLP)应用中的输出实体的预测置信度校准问题。命名实体识别和问答等自然语言处理应用程序能够为其预测产生校准的置信度评分,这一点非常重要,尤其是当这些应用程序要部署在医疗保健等安全关键领域时。然而,这种结构化预测模型的输出空间往往过大,不能直接采用二进制或多类校正方法。在这项研究中,我们提出了一个通用的校准方案的输出实体感兴趣的神经网络基于结构化预测模型。我们提出的方法可以用于任何二进制类校准方案和神经网络模型。另外,我们证明了我们的校正方法也可以作为一个不确定性感知的,实体特定的解码步骤,以改善基础模型的性能在没有额外的训练成本或数据要求。实验结果表明,该方法在命名实体识别、词性标注和问答系统中的性能优于现有的标定技术。我们还观察到了跨多个任务和基准数据集的解码步骤在模型性能方面的改进。我们的方法也改进了域外测试场景的校准和模型性能
现有的机器阅读理解(MRC)模型不能有效地扩展到真实世界的应用程序,比如网络级的信息检索和问答(QA)。我们认为这源于 MRC 数据集的本质: 大多数数据集是静态环境,其中支持文档和所有必要的信息都得到了充分的观察。在本文中,我们提出了一个简单的方法,把现有的 MRC 数据集重构为交互式的,部分可观察的环境。具体地说,我们“遮蔽”了文档的大部分文本,并添加了上下文敏感的命令,这些命令显示隐藏文本的“瞥见”到模型中。我们将 SQuAD 和 NewsQA 作为一个初步的案例研究,然后展示了如何利用交互式语料库来训练一个通过顺序决策来寻找相关信息的模型。我们相信这个设置可以帮助将模型扩展到 web 级的 QA 场景。
BERT (来自变压器的双向编码器表示)和相关的预先训练的变压器在许多语言理解任务中提供了巨大的收益,实现了一个新的最先进的(SOTA)。BERT 被预先训练在两个辅助任务上: 蒙面语言模型和下一句预测。在这篇文章中,我们介绍了一个新的训练前任务,这个任务是受到阅读理解的启发,使得训练前的记忆和理解更好地结合起来。广度选择预训练(Span Selection PreTraining,SSPT)提出了类似完形填空的训练实例,但不是从模型参数中提取答案,而是从相关的段落中选取答案。我们发现在多个机器阅读理解(MRC)数据集上,BERT-BASE 和 BERT-LARGE 都有显著和一致的改进。具体来说,我们提出的模型具有强大的经验证明,因为它获得自然问题的 SOTA 结果,一个新的基准 MRC 数据集,表现优于 BERT-LARGE 3 f 1点的短答案预测。我们还显示了显着的影响,在 HotpotQA,提高了4点的答案预测 F1和支持事实预测 F1的1点和优于以前的最佳系统。此外,我们表明,我们的预训练方法是特别有效的时候,训练数据是有限的,改善了大量的学习曲线。
近年来,大规模数据集极大地促进了自然语言处理几乎所有领域的发展。然而,自然语言处理中目前还没有跨任务的数据集,这阻碍了多任务学习的发展。我们提出 MATINF,第一个联合标记的大规模数据集进行分类,问题回答和总结。MATINF 包含107万个带有人工标记类别和用户生成的问题描述的问答对。基于这些丰富的信息,MATINF 适用于三种主要的自然语言处理任务,包括分类、问答和摘要。我们基准现有的方法和一个新的多任务基线 MATINF 上启发进一步的研究。我们对 MATINF 和其他数据集进行了全面的比较和实验,证明了 MATINF 的优点。
神经模型已经在机器阅读理解上取得了巨大的成功,其中许多模型通常由两部分组成: 一个证据提取器和一个答案预测器。前者从参考文本中寻找最相关的信息,而后者则从所提取的证据中寻找或得出答案。尽管证据标签对于培训证据提取者很重要,但是它们并不便宜,特别是在许多非提取性 MRC 任务中,如 YES/NO 问题回答和多选择 MRC。为了解决这个问题,我们提出了一种自我训练方法(STM) ,在一个迭代的过程中,用自动生成的证据标签来监督证据提取器。在每次迭代中,用黄金答案和噪声证据标签训练基本 MRC 模型。在下一次迭代中,训练好的模型将预测伪证据标签作为额外的监督。在三个 MRC 任务中,我们评估了七个数据集上的 STM。实验结果表明了对现有 MRC 模型的改进,并分析了这种自我训练方法在 MRC 中的工作原理和原因。
通过表回答自然语言问题通常被视为一项语义分析任务。为了降低完全逻辑形式的收集成本,一种流行的方法是关注由外延构成的弱监督,而不是逻辑形式。然而,从弱监督中训练语义分析器存在困难,此外,生成的逻辑形式仅作为检索表示之前的中间步骤。在本文中,我们提出了 TaPas,一种不产生逻辑形式的问题回答表的方法。TaPas 从弱监督中训练,并通过选择表单元和有选择地应用相应的聚合运算符来预测表示。TaPas 扩展了 BERT 的体系结构,将表作为输入进行编码,通过对维基百科中的文本片段和表进行有效的联合预训练来进行初始化,并进行端到端的训练。我们对三个不同的语义解析数据集进行了实验,发现 TaPas 通过将 SQA 的准确度从55.1提高到67.2,并与 WikiSQL 和 WikiTQ 的准确度相当,但采用了更简单的模型体系结构,从而优于或竞争语义解析模型。此外,我们还发现,从 WikiSQL 到 WikiTQ 的迁移学习(在我们的设置中是微不足道的)的准确率为48.7,比最先进的水平高出4.2个百分点
由于大规模的注释数据集,机器阅读理解近年来取得了巨大的进步。然而,在临床领域,由于注释所需的领域专业知识,创建这样的数据集相当困难。最近,Pampari 等人(EMNLP’18)解决了这个问题,他们使用专家注释的问题模板和现有的 i2b2注释来创建 emrQA,这是第一个基于临床注释的大规模问答数据集。在这篇论文中,我们提供了对这个数据集和临床阅读理解的深入分析。从我们的定性分析中,我们发现(i) emrQA 的答案往往是不完整的,(ii) emrQA 的问题往往是可回答的,没有使用领域知识。在我们的定量实验中,令人惊讶的结果包括: (iii)使用一个小的抽样子集(5%-20%) ,我们可以获得与在整个数据集上训练的模型大致相同的性能,(iv)这种性能接近于人类专家的性能,(v) BERT 模型不能击败性能最好的基本模型。在我们对 emrQA 的分析之后,我们进一步探索了 CliniRC 系统的两个需要的方面: 利用临床领域知识的能力和概括到看不见的问题和背景的能力。我们认为,在创建未来的数据集时,两者都应该被考虑。
基于变压器的QA模型在所有层级都使用输入范围的自我关注(即跨问题和输入通道),从而导致它们缓慢且占用大量内存。 事实证明,在所有层上(尤其是在较低层上),无需输入范围的自我关注就可以实现。 我们介绍了DeFormer,这是一个分解的转换器,它在较低的层中用问题范围和段落范围的自我注意代替了完全的自我注意。 这允许对输入文本表示形式进行与问题无关的处理,从而可以进行预先计算的段落表示形式,从而大大减少了运行时计算。 此外,由于DeFormer与原始模型非常相似,我们可以使用标准变压器的预训练权重来初始化DeFormer,然后直接在目标QA数据集上进行微调。 我们展示了BERT和XLNet的DeFormer版本可用于将质量检查速度提高4.3倍以上,并且由于基于蒸馏的简单损失,它们的准确度仅下降1%。 我们在https://github.com/StonyBrookNLP/deformer上开放了源代码。
知识图(KG)是一种多关系图,由实体作为节点,它们之间的关系作为类型边组成。KG 上问答任务的目标是回答 KG 上的自然语言查询。多跳 KGQA 需要对 KG 的多个边进行推理才能得到正确的答案。幼稚园往往是不完整的,许多缺失的环节,提出了额外的挑战,KGQA,特别是多跳 KGQA。最近关于多跳 KGQA 的研究尝试使用相关的外部文本来处理 KG 稀疏性,但这并不总是容易实现。在另一项研究中,KG 嵌入方法被提出通过执行缺失链路预测来降低 KG 稀疏性。这种 KG 嵌入方法,尽管具有很高的相关性,但目前还没有被探索用于多跳 KGQA。我们在本文中填补了这一空白,并提出了嵌入式 kgqa。EmbedKGQA 在执行稀疏 KGs 的多跳 KGQA 时特别有效。EmbedKGQA 还放松了从预先指定的邻域选择答案的要求,这是由以前的多跳 KGQA 方法强制执行的次优约束。通过对多个基准数据集的大量实验,我们证明了 EmbedKGQA 在其他最先进的基线上的有效性
随着在线信息量的增加以及对快速访问这些内容的需求增加,问答(Question Answering,QA)的需求也在不断增加。一个常见的 QA 方法是在一个任务特定的标记数据集上微调一个预训练的语言模型。然而,这种模式依赖于稀缺且昂贵的大规模人类标记数据。我们提出了一种无监督的方法来利用生成的伪训练数据来训练 QA 模型。我们发现,通过在相关的、检索到的句子上应用一个简单的模板,而不是在原始的上下文句子上应用一个简单的模板,生成用于 QA 培训的问题,可以通过允许模型学习更复杂的上下文-问题关系,从而提高下游的 QA 性能。根据这些数据对 QA 模型进行培训,相对于以前的无监督模型,对 SQuAD 数据集的 F1得分提高了约14% ,当答案是一个命名实体时,提高了约20% ,实现了对于无监督 QA 的 SQuAD 的最新性能。
证据检索是问题回答(QA)的一个关键阶段,不仅对于提高性能,而且对于解释 QA 方法的决策都是必要的。本文介绍了一种简单、快速、无监督的迭代证据检索方法,该方法基于以下三个思想: (a)一种无监督的对齐方法,使用仅使用 GloVe 嵌入的方法对带有正当理由的问题和答案进行软对齐; (b)一种迭代过程,重新定义关注于现有理由没有涵盖的术语,当检索到的问题和候选答案中的术语和理由涵盖了这些术语时,该方法就停止了。尽管该方法简单,但在两个数据集上的证据选择任务(MultiRC 和 QASC) ,我们的方法优于以前的所有方法(包括监督方法)。当这些证据句被输入 RoBERTa 答案分类组件时,我们就可以在这两个数据集上实现最先进的 QA 性能
神经抽象的摘要模型容易产生与源文档不一致的内容,即不忠实。现有的自动指标无法有效地捕捉这些错误。我们解决了根据源文档评估生成的摘要的忠实性的问题。我们首先从两个数据集上的大量模型中收集了关于忠实度的人工注释。我们发现,当前的模型在抽象性和可信度之间进行了权衡: 输出与原始文档重叠的字数较少,更容易出错。接下来,我们提出了一个基于问题回答(QA)的忠实度度量,FEQA,它利用了最新的阅读理解技术进展。给定从摘要生成的问答对,QA 模型从文档中提取答案; 不匹配的答案表明摘要中的不实信息。在基于词汇重叠、嵌入相似度和学习语言理解模型的度量方法中,我们的基于 qa 的度量方法与人类忠实度得分之间存在显著的相关性,特别是在高度抽象的摘要上
许多自然语言问题需要在两个实体或事件之间进行定性、定量或逻辑的比较。本文通过将逻辑规则和神经网络模型相结合的方法来提高对比较问题的回答的准确性和一致性。我们的方法利用逻辑和语言知识来增加标记的训练数据,然后使用基于一致性的规则器来训练模型。为了提高预测的全局一致性,我们的方法在各种问答任务中,包括多项选择定性推理、因果推理和提取机器阅读理解,都比以前的方法有了很大的改进。特别是,我们的方法在数据集之间显著地提高了基于 roberta 的模型的性能1-5% 。我们在 WIQA 和 QuaRel 上提高了5-8% 的技术水平,在 HotpotQA 上减少了58% 的一致性违规。我们进一步证明,我们的方法可以有效地从有限的数据中学习。
本文提出了一种基于文档级远程视觉的抽取式问题回答方法,将问题和相关文档与答案串进行配对。我们比较了以前使用的概率空间和远程监督假设(假设弱回答字符串标签和可能的回答提及跨度之间的对应)。我们证明了这些假设是相互作用的,不同的配置提供了互补的好处。我们证明了一个多目标模型可以有效地结合多种假设的优点,并且比最好的单个公式表现更好。我们的方法优于先前的最先进的模型4.3点在 F1的 trivia-wiki 和1.7点在红 l 的叙述性质的总结
为了避免给出错误的答案,问答模型需要知道什么时候不回答问题。此外,用户经常问一些与模型的训练数据不一致的问题,这使得出错的可能性更大,从而避免提出更严重的问题。在这项工作中,我们提出了在域转移下设置选择性问题回答,其中 QA 模型在域内和域外数据的混合上进行测试,必须回答尽可能多的问题,同时保持高准确性。单纯基于模型的最大概率的弃权策略表现不佳,因为模型对域外输入过于自信。相反,我们训练一个校准器来识别 QA 模型错误的输入,并且在它预测可能出现错误时避免。至关重要的是,即使来自与测试数据不同的领域,校准器也可以从观察模型在非领域数据上的行为中获益。我们将这种方法与一个经过编队训练的 QA 模型相结合,并对 SQuAD 和其他五个 QA 数据集的混合进行评估。我们的方法回答了56% 的问题,同时保持了80% 的准确率; 相比之下,直接使用模型的概率只回答了48% 的问题,准确率为80%。
我们为变压器引入了一种新颖的方法,可以在多方对话中学习分层表示。 首先,使用三种语言建模任务来预训练转换器,令牌级和语音级语言建模以及语音顺序预测,它们学习令牌和语音嵌入,以便在对话上下文中更好地理解。 然后,将语音预测和令牌跨度预测之间的多任务学习应用于微调,以基于跨度的问题回答(QA)。 我们的方法在FriendsQA数据集上进行了评估,并显示出相对于两种最新的变压器模型BERT和RoBERTa分别提高了3.8%和1.4%。
尽管在许多重要任务上取得了显著的成绩,但据报告,神经网络容易受到敌对实例的攻击。以往的研究主要集中在情感分析、问答和阅读理解等语义任务上。在本研究中,我们提出了两种方法来研究语法分析者在句子和短语层面对现有文本的搜索过程中在哪里和如何犯错误,并设计了在黑盒和白盒设置中构造这些例子的算法。我们在英国宾夕法尼亚大学树库(PTB)上对一个最先进的解析器进行的实验表明,多达77% 的输入示例承认存在对抗性干扰,我们还表明,通过精心设计高质量的对手并将其包括在训练阶段,解析模型的健壮性可以得到改进,同时在干净的输入数据上几乎没有性能下降
由于大规模数据集的可用性和神经网络模型的有效性,问答系统取得了巨大的成功。最近的研究工作试图扩展这些成功的设置很少或没有标记的数据可用。在本文中,我们介绍了两种改进无监督 QA 的方法。首先,我们从维基百科中收集词汇和语法上发散的问题,以自动构建一个问答对语料库(称为 RefQA)。其次,我们利用 QA 模型提取更多合适的答案,这些答案迭代地提炼 reffqa 上的数据。我们在 SQuAD 1.1和 NewsQA 上进行实验,通过微调 BERT 而无需访问手动注释的数据。我们的方法在很大程度上优于以前的无监督方法,并且与早期的有监督模型相比具有竞争力。我们也证明了我们的方法在少镜头学习环境中的有效性
阅读长文档来回答开放领域的问题仍然是自然语言理解的挑战。本文介绍了一种新的自然问答模型 RikiNet,该模型通过阅读维基百科页面来自然回答问题。RikiNet 包含一个动态段落双重注意读取器和一个多级级联的应答预测器。读者通过一系列互补的注意机制动态地表达文档和问题。然后将表示以级联的方式馈入预测器,以获得短答案的跨度、长答案的段落和答案类型。在自然问题(NQ)数据集上,一个 RikiNet 在长答和短答任务上分别达到74.3 F1和57.9 F1。据我们所知,这是第一个单一的模式,优于单一的人的表现。此外,一个集成 RikiNet 在长答和短答任务上得到76.1 F1和61.3 F1,在官方的 NQ 排行榜上得到最好的表现
在本文中,我们提出了 coreffqa,一个准确的和可扩展的方法为共指解析任务。我们将这个问题描述为一个跨度预测任务,就像在问题回答中一样: 对于每个候选人提到的内容,使用其周围的上下文生成一个查询,并使用跨度预测模块提取文档中共同引用的文本跨度,使用生成的查询。这种方法具有以下关键优点: (1)跨度预测策略提供了在提及建议阶段检索提及的灵活性; (2)在问题回答框架中,将提及及其上下文明确编码在查询中,使得对嵌入在相关提及上下文中的提示进行深入彻底的检查成为可能; (3)过多的现有问题回答数据集可用于数据扩展,以提高模型的泛化能力。实验表明,与以前的模型相比,性能有了显著提高,CoNLL-2012基准的 F1得分为83.1(+ 3.5) ,GAP 基准的 F1得分为87.5(+ 2.5)
我们提出 BART,一个用于预训练序列到序列模型的去噪自动编码器。BART 的训练方法是: (1)使用任意的噪声函数来破坏文本,(2)学习一个模型来重构原始文本。它使用了一个标准的基于 tranformer 的神经机器翻译架构,尽管它很简单,但可以看作是通用的 BERT (由于双向编码器) ,GPT (由左到右的解码器) ,以及其他最近的预训练方案。我们评估了一系列的噪声处理方法,通过随机改变句子的顺序和使用一种新颖的填充方案(用一个掩码标记替换文本的跨度)来寻找最佳的性能。当对文本生成进行微调时,BART 特别有效,但是对于理解任务也很有效。它与 GLUE 和 SQuAD 上 RoBERTa 的性能相匹配,并在一系列抽象的对话、问题回答和摘要任务上取得了最新的成果,最高可达3.5 ROUGE。BART 还为机器翻译提供了比反向翻译系统增加1.1 BLEU 的功能,只需要对目标语言进行预训练。我们还在 BART 框架中复制了其他的预训练方案,以了解它们对最终任务性能的影响
实体集扩展是一项关键性的任务,其目的是扩展一个小的种子实体集,使其中的新实体属于相同的语义类别,这有利于许多下游的 NLP 和 IR 应用,如问题回答、查询理解和分类法构造。现有的集合扩展方法通过自适应地选择上下文特征和提取新的实体来引导种子实体集。实体集扩展的一个关键问题是避免选择模糊的上下文特征,这将改变类的语义,并导致在后续的迭代中累积错误。在这项研究中,我们提出了一个新的迭代集扩展框架,利用自动生成的类名来解决语义漂移问题。在每次迭代中,我们通过探测一个预先训练的语言模型来选择一个正类名和若干个负类名,然后根据选定的类名对每个候选实体进行评分。在两个数据集上的实验表明,我们的框架可以生成高质量的类名,并且明显优于以前的最新方法。