论文笔记

Active Reading Comprehension: A dataset for learning the Question-Answer Relationship strategy

通过QA的阅读理解（RC）是评估读者是否理解文本的有用方法。使用标准精度度量进行评估，其中高精度被认为是良好的理解。但是，有关高质量学习的文献表明，任务绩效也应在经历的回答过程中进行评估。问题-答案关系（QAR）是根据读者根据问题类型选择不同信息来源的能力来评估其理解程度的策略之一。本文中，作者建议创建一个数据集以在弱监督下学习QAR策略。

一个QAR关系的例子

作者引入了基于过程的评估作为评估阅读理解系统的新设置。他们建议将QAR学习建模为弱监督分类任务，并讨论如何将现有RC数据集用于此目的以生成新数据。他们的工作受到教育评估领域研究结果的启发，他们希望它能与当前阅读理解工作相辅相成。作者将保留有关如何将QAR分类任务用于RC模型的评估表现的详细信息，以供将来工作

Learning to Ask Unanswerable Questions for Machine Reading Comprehension

机器阅读理解中有不可回答的问题是一项艰巨的任务。在本文的工作中，作者提出了一种数据增强技术，该方法通过根据可回答的问题及其包含答案的对应段落配对自动生成相关的无法回答的问题。作者为无法解决的问题引入了一对序列模型，该模型有效地捕获了问题和段落之间的交互作用。还提出了一种利用现有阅读理解数据集为我们的问题生成模型构建训练数据的方法。实验结果表明，与序列对基线相比，对序列模型的性能始终更好。进一步使用自动生成的不可解决的问题作为SQuAD 2.0数据集上的数据增强方法，使用BERT-Base模型获得1.9的绝对F1改进，使用BERT-large模型获得1.7的绝对F1改进。
本文的主要目标就是为了增强目前模型的对应无法回答问题的反应，理应是放弃回答，而不是随意猜测一个不正确的答案。为了这样做，需要有一个构造无法回答问题的方法。作者使用了如下方法：
给定一个可回答的问题q及其包含回答a的相应段落p，旨在生成满足某些要求的不可回答的问题。首先，第p款无法解决该问题。第二，它必须与可回答的问题q和段p有关，后者避免了产生无关紧要的问题。第三，它应该要求与答案a相同类型的东西。

作者使用了如图的两种模型来完成这个任务

两种模型

在本文中，作者建议生成无法回答的问题，作为机器阅读理解的数据扩充手段。通过编辑相应的问题和条件来产生相关的无法回答的问题。为了捕获问题和段落之间的相互作用，引入了成对序列模型。还提出了一种构建无法回答的问题生成模型的训练数据的方法。自动评估和人工评估都表明，所提出的模型始终优于序列间基线。 SQuAD 2.0数据集上的结果表明，生成的无法回答的问题可以帮助改善多种阅读理解模型。对于未来的工作，作者希望通过利用外部资源来增强使用反义词来生成无法回答的问题的能力

Cognitive Graph for Multi-Hop Reading Comprehension at Scale

作者提出了一个新的CogQA框架，用于在网络规模的文档中进行多跳问答。该框架基于认知科学的双重过程理论，通过协调隐式提取模块（系统1）和显式推理模块（系统2），在迭代过程中逐步构建认知图。在给出准确答案的同时，我们的框架进一步提供了可解释的推理路径。具体而言，我们基于BERT和图神经网络（GNN）的实现1有效地处理了HotpotQA完整Wiki数据集中有关多跳推理问题的数百万份文档，在排行榜上的联合F1得分为34.9，而在F1得分为23.6。
本文解决的是多跳阅读理解任务，人类的理解可以描绘为一副认知图

认知图

本模型使用了HotpotQA进行实验，实验表明，最后的结果是相对于state-of-art来说有所改进的
CogQA我们基于BERT和GNN的实现在HotpotQA数据集上获得了最新的结果，这表明了我们框架的有效性。可以设想多个未来的研究方向。受益于认知图中的显式结构，CogQA中的系统2具有利用神经逻辑技术提高可靠性的潜力。此外，作者期望结合注意力和循环机制的前瞻性体系结构将通过优化系统之间的交互作用，大大提高系统1的能力。

Multi-hop Reading Comprehension through Question Decomposition and Rescoring

作者提出了一种用于多跳阅读理解的系统，该系统将组合问题分解为更简单的子问题，这些子问题可以通过现成的单跳RC模型来回答。由于这种分解的注释很昂贵，因此将子问题生成重塑为跨度预测问题，并表明作者的方法仅使用400个带标签的示例进行了训练，生成的子问题与人工编写的一样有效子问题。不仅如此，还引入了一种新的全局计分方法，该方法考虑了每个分解（即子问题及其答案），以选择最佳的最终答案，从而大大提高了整体性能。在HOTPOTQA上进行的实验表明，这种方法达到了最新的结果，同时以子问题的形式为其决策提供了可解释的证据
作者提出DECOMPRC用于通过问题分解进行多跳阅读理解。 DE-COMRC通过三个步骤回答问题：

1.首先，DECOMPRC根据跨度预测，根据并行的几种推理类型，将原始的多跳问题分解为几个单跳子问题。下图说明了一个示例，其中通过四种不同的推理类型分解了一个问题。

多个单跳问题

2.然后，对于每种推理类型，DECOMPRC都利用单跳阅读理解模型来回答每个子问题，并根据推理类型来组合答案。上图显示了一个示例，其中桥接生成“纽约市”作为答案，而交集生成“哥伦比亚大学”作为答案
3.最后，DECOMPRC利用分解记分器来判断哪种分解最合适，并将分解得到的答案输出为最终答案。在上图中，通过桥接获得的“纽约市”被确定为最终答案。

Retrieve, Read, Rerank: Towards End-to-End Multi-Document Reading Comprehension

先前的工作表明，检索器，阅读器和重新排序器的管道可以提高整体性能。但是，由于在每个模块中都对输入进行了重新编码，因此管道系统效率很低，并且无法利用上游组件来帮助下游培训。在这项工作中，作者提出RE3QA，这是一个统一的问题回答模型，结合了上下文检索，阅读理解和答案排名以预测最终答案。与以前的流水线方法不同，RE3QA在不同的组件之间共享上下文化的文本表示，并且经过精心设计，可使用高质量的上游输出（例如，检索到的上下文或候选答案）来直接监督下游模块（例如，阅读器）或reranker）。结果，可以对整个网络进行端到端训练，以避免上下文不一致问题。实验表明，作者的模型优于流水线基线，并在TriviaQA的两个版本和SQuAD的两个变体上实现了最新的结果。

总览RE3QA

作者为每个子任务设计了三个组件，并显示了端到端的培训策略可以带来额外的好处。 RE3QA以更快的推理速度优于流水线基线，并在四个具有挑战性的阅读理解数据集上取得了最新的结果。