论文笔记

Unsupervised Question Decomposition for Question Answering

本文的作者旨在通过将困难的问题分解为现有的QA系统可以回答的更简单的子问题来改善问题的回答(QA)。 由于收集标记的分解很麻烦,因此我们提出了一种无监督的方法来产生子问题。 具体而言,通过利用Common Crawl中的> 1000万个问题,我们学会了从多跳问题的分布映射到单跳子问题的分布。 我们使用现成的QA模型回答子问题,并将结果汇总到下游的多跳QA系统中。 在流行的多跳质量检查数据集HOTPOTQA上,我们显示了在强大的基线上的巨大改进,尤其是在对抗性和域外问题上。 我们的方法通常适用,并且可以自动学习分解不同类别的问题,同时匹配很大程度上依赖于手工设计和注释的分解方法的性能。
方法的流程如下:


流程

先将复杂问题通过一个非监督的分解模型分解为两个简单的问题,两个简单地问题通过单跳的问道行来完成回答,最后将答案和两个问题一块输入到多跳QA模型中完成最后答案的整合。
作者认为先前的分解问题的研究都是通过启发式方法来做的,很难扩展到其他领域。
作者的方法是先通过Common Crawl收集到类似分解后子问题的伪子问题和复杂问题组成训练数据,进行非监督的训练来训练分解模型。
总结来说,作者提出了一种在没有监督的情况下分解问题的算法,该算法分为三个阶段:(1)在没有监督的情况下使用伪分解学习分解;(2)使用现成的QA系统解决子问题;以及( 3)使用子问题及其答案作为附加输入,可以更准确地回答难题。在多跳QA的标准基准HOTPOTQA上进行评估时,作者的方法比不使用分解的等效模型显着提高了准确性。作者的方法仅依赖于最终答案作为监督,但与依靠强大监督的最新方法(例如支持事实标签或示例分解)一样有效。定性地,发现无监督分解导致流利的子问题,其子问题的答案通常与HOTPOTQA中带注释的支持事实相匹配。总体而言,这项工作为在无监督学习和自然语言生成中利用方法以改善机器学习系统的可解释性和泛化性开辟了令人兴奋的途径。

Compositional Questions Do Not Necessitate Multi-hop Reasoning

多跳阅读理解(RC)问题具有挑战性,因为它们需要对多个段落进行阅读和推理。作者认为,构建大型多跳RC数据集可能很困难。例如,如果针对特定实体类型的问题,即使是高度组成的问题也可以通过单跳回答,或者回答这些问题所需的事实是多余的。作者的分析集中在HOTPOTQA上,在这里表明单跳推理可以解决比以前想象的更多的数据集。本文介绍了一种基于BERT的单跳RC模型,该模型可实现67 F1,这与最新的多跳模型相当。作者还设计了一个评估环境,在该环境中,没有向人类显示预期的多跳推理的所有必要段落,但仍然可以回答80%以上的问题。结合详细的错误分析,这些结果表明,应该越来越关注证据在多跳推理中的作用,甚至可能转向具有大量多样证据集的信息检索风格评估。
总而言之,作者证明了问题组成性并不是多跳推理的充分条件。 相反,未来的数据集必须仔细考虑它们提供的证据,以确保需要多跳推理。 至少有两种不同的方法可以实现此目的。

Adversarial TableQA: Attention Supervision for Question Answering on Tables

由于社区在构建有用的数据集方面的努力,给定文字段落回答问题的任务在模型性能方面显示出了巨大的发展。最近,人们怀疑这种迅速的进步是否建立在真正理解语言的基础上。在表格问题解答(TableQA)任务中未曾问过相同的问题,在该任务中,我们负责回答给定表格的查询。我们表明,使用“答案”进行TableQA评估和监督的现有努力显示出在不影响答案的扰动对抗设置中性能下降。这种见解自然会激发人们开发出更精确地理解问题和表格的新模型。为此,我们提出了NEURAL OPERATOR(NEOP),这是一种具有注意监督的多层顺序网络,用于回答给定表的查询。 NEOP使用多个选择性递归单位(SelRUs)来进一步帮助模型答案的可解释性。实验表明,使用操作数信息来训练模型可以显着提高TableQA模型的性能和可解释性。 NEOP大大优于以前的所有模型。


各个table数据集比较

如上图所示,作者比较了目前tableQA研究的所有数据集,发现有些不是现实问题,有些则数据规模太小,有些则是使用SQL语句作为注意力的监督方法。本文修改了WIKISQL数据集,提供了一个新的数据集,使用操作数作为监督方法。


整体架构

在本文中,作者提出使用操作数信息来提高TableQA模型的性能。 为此,创建了两个名为MLB数据集和WIKIOPS数据集的新数据集,这两个数据集在注意力监控方面都比以前的数据集有所改进。 此外,嗨开发了NEURAL OPERATOR,这是一种基于神经的TableQA模型,该模型由于其分层结构和对操作数信息的使用而提高了可解释性。

Seq2sql: Generating structured queries from natural language using reinforcement learning

关系数据库存储了大量的世界数据。但是,当前访问此数据需要用户理解查询语言,例如SQL。作者提出了Seq2SQL,这是一个用于将自然语言问题转换为相应的SQL查询的深度神经网络。本文的模型使用数据库中循环查询执行的奖励来学习生成查询的策略,该策略包含不适合通过交叉熵损失进行优化的无序部分。此外,Seq2SQL利用SQL的结构来修剪生成的查询的空间,并显着简化了生成问题。除了该模型之外,作者还发布了WikiSQL,该数据库是Wikipedia上分布在24241个表中的80654个带有问题的手动注释示例的问题和SQL查询的示例,比可比较的数据集大一个数量级。通过将具有查询执行环境的基于策略的强化学习应用于WikiSQL,Seq2SQL的性能优于最先进的语义解析器,将执行精度从35.9%提高到59.4%,逻辑形式精度从23.4%提高到48.3%。


模型结构

Seq2SQL将问题和表的列作为输入。 它生成相应的SQL查询,在训练过程中,该查询针对数据库执行。 执行的结果被用作训练强化学习算法的奖励。

BREAK It Down: A Question Understanding Benchmark

理解自然语言的问题需要具有将问题分解为计算答案的必要步骤的能力。 在这项工作中,作者为问题引入了问题分解含义表示(QDMR)。 QDMR构成了通过自然语言表达的,回答问题所必需的步骤的有序列表。 作者开发了一个众包管道,显示可以对大规模QDMR进行批注,并发布BREAK数据集,其中包含超过83K对问题及其QDMR。 通过展示(a)可以将其用于改善HOTPOTQA数据集上的开放域问题回答,(b)可以确定地将其转换为伪SQL形式语言,从而减轻语义解析应用程序中的注释,从而展示了QDMR的实用性。 最后,使用BREAK来训练序列到序列模型,该模型具有将问题解析为QDMR结构的复制功能,并证明其性能远胜于几个自然基准。
本文的贡献是并非把问题分解为子问题,而是将它分解为可识别的小的单元,如图所示


问题分解结构

在本文中,作者提出了一种用于理解问题的形式主义。 已经表明可以培训群众工作者以大规模高质量地生成此类表示形式,并创建了BREAK(BREAK是分解问题的基准),其中包含来自10个数据集和3种模式(数据库,图像,文本)的超过83K分解问题。 作者还介绍了QDMR实用程序在开放域问题解答和语义解析中的作用,并构造了性能合理的QDMR解析器。 QDMR为建模问题理解提出了一个有前途的方向,本文认为这对通过问题探究推理的多项任务很有用。

你可能感兴趣的:(论文笔记)