boywaiter

自然语言推理综述翻译及笔记

Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches

https://www.researchgate.net/profile/Shane_Storks/publication/332169673_Recent_Advances_in_Natural_Language_Inference_A_Survey_of_Benchmarks_Resources_and_Approaches/links/5ddeb9f3a6fdcc2837f03c3d/Recent-Advances-in-Natural-Language-Inference-A-Survey-of-Benchmarks-Resources-and-Approaches.pdf

Abstract Natural language inference

想法：逻辑与LM结合，一部分可以通过深度模型学到，另一部分用逻辑（规则）解决

数据集：增加一些结合了外部知识反而会错的例子

1. Introduction

NLI: machines’ capability of deep understanding of language that goes beyond what is explicitly expressed, rather relying on new conclusions inferred from knowledge about how the world works.

1.1 Scope of Benchmark Datasets

Early benchmarks primarily targeted approaches that only applied linguistic context, where LMs are typically good at.

1.2 Scope of Knowledge Resources

It is an unsolved problem to comprehensively taxonomize all of the human knowledge and reasoning required to perform general inference (Davis & Marcus, 2015). For the purpose of this survey, though, we attempt to provide an overview of three types of knowledge resources: linguistic knowledge, common knowledge, and commonsense knowledge.

Linguistic knowledge. knowledge about the language. This includes an understanding of word meanings, grammar, syntax, semantics, and discourse structure.

Common knowledge. well-known facts about the world that are often explicitly stated. 类似于考试范围。

Commonsense knowledge. Commonsense knowledge, on the other hand, is typically unstated, as it is considered obvious to most humans (Cambria et al., 2011), and consists of universally accepted beliefs about the world (Nunberg, 1987). 类似于考试范围中并没有指定的加减法等常识。

Two particularly important domains of commonsense knowledge are intuitive physics, i.e., humans’ basic understanding of physical interactions in the world, and intuitive psychology, i.e., humans’ basic understanding of human emotion, behavior, and motives (DARPA, 2018).

1.3 Scope of Approaches

Due to the unexplainability of these recent approaches, as well as statistical biases recently found in benchmark datasets (Schwartz, Sap, Konstas, Zilles, Choi, & Smith, 2017; Gururangan, Swayamdipta, Levy, Schwartz, Bowman, & Smith, 2018; Niven & Kao, 2019), it remains a subject of debate in terms of how much progress we have made in enabling natural language inference ability.

2 Benchmarks and Tasks

删除线为本文前一版

NLP领域有通过创建benchmark来促进算法进展的传统。早期benchmark都引导系统利用语言环境（context）来解决任务。但某些任务，如共引消解（确定代词指代哪个实体或事件），难以通过语言环境来解决，只能通过常识知识来解决。例如， Winograd Schema Challenge (Levesque, 2011)中的"The trophy would not fit in the brown suitcase because it was too big. What was too big?"。

2.1 An Overview of Existing Benchmarks

~~通常只给训练集，测试集不公开以保证测试的公平公正。~~

From 2005 to 2015, the sizes of most benchmarks are relatively small.

From 2015, benchmarks with 100,000 instances are developed.

2.1.1 Reference Resolution

Reference resolution is the process of identifying a referent, typically a linguistic mention in a span of text, that a particular expression, e.g., a pronoun or phrase, refers to.

Winograd Schema Challenge：

See https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html,
https://commonsensereasoning.org/winograd.html, and
https://commonsensereasoning.org/disambiguation.html.

WinoGrande. AI2 and UW

A largescale, adversarial version of the problem focusing primarily on intuitive physics and psychology.

其他：

Reference resolution as a subtask within multiple task Benchmarks.

https://literarydevices.net/anaphora/

In writing or speech, the deliberate repetition of the first part of the sentence in order to achieve an artistic effect is known as Anaphora.

Even resolution

~~predator ate their prey 捕食者吃猎物~~

2.1.2 QA

MCTest：

RACE

NarrativeQA

ARC（AI2 Reasoning Challenge）：大部分四项选择问题可以通过从语料库中多个句子提取答案来回答，但并非所有问题。

MCScript：少数几个强调commonsense推理的数据集，部分问题不能根据提供的段落回答。

Propara（Mishra, Huang, Tandon, Yih, and Clark (2018) ）：由488条带标注的描述过程的文本段落组成。这些段落描述了各种过程，例如光合作用和水力发电，以便系统可以学习到涉及状态变化的过程中的对象跟踪。作者断言，认识到这些状态变化可能需要世界知识，因此必须具备常识推理才能熟练执行。段落的标注采用网格的形式，该网格描述了段落中每个参与者在经过每个句子之后的状态。如果系统理解此数据集中的一个段落，则可以说对于该段落中提到的每个实体，它可以回答有关该实体是否创建、销毁还是移动以及何时何处发生等任何问题。为了完全准确地回答所有可能的问题，系统必须产生一个与段落标注相同的网格。因此，根据系统在此任务上的性能对其评估。链接：http://data.allenai.org/propara/。

MultiRC：由Khashabi，Chaturvedi，Roth，Upadhyay和Roth（2018）编写的 MultiRC是一个阅读理解数据集，包含大约10,000个问题，涉及多个主题领域的800多个段落。它与传统的阅读理解数据集的不同之处在于，大多数问题只能通过对所附段落中的多个句子进行推理来回答，答案不是该段落中文本块，而且候选答案的数量以及正确答案的数量对于每个问题都是可变的。所有这些特性使得浅层和人工的方法难以在benchmark上良好地表现，以鼓励对文章的更深层理解。此外，benchmark测试包括段落中的各种非平凡的语义现象，例如共指关系和因果关系，这通常需要常识才能识别和解析。可以从http://cogcomp.org/multirc/下载MultiRC。

**ARCT **（Argument Reasoning Comprehension Task）

SQuAD：最初是由Wikipedia文章的段落构成的大约100,000个开放式问题集，附带了这些问题的答案。初始数据集不需要常识即可解决；问题几乎不需要推理，答案是直接来自段落的文本。为了使此数据集更具挑战性，后来发布了SQuAD 2.0（Rajpurkar et al., 2018），添加了约50,000个其他问题，这些问题依靠提供的段落无法解决。确定问题是否可回答可能需要外部知识，或者至少需要一些更高级的推理。可以从http://rajpurkar.github.io/SQuADexplorer/下载所有SQuAD数据。

CoQA：对话问答数据集包含段落，每个段落都带有一组对话形式的问题，以及它们的答案和答案的证据。数据集中总共有大约127,000个问题，但是由于它们是对话式的，因此与段落有关的问题必须按顺序一起回答。虽然CoQA的对话元素并不新鲜，例如Choi，He，Iyyer，Yatskar，Yih，Choi，Liang和Zettlemoyer的QuAC（2018），但CoQA的独特之处在于包括了与常识推理直接相关的问题，紧随Ostermann等（2018）解决对阅读理解数据集的不断增长的需求，这些数据集需要各种形式的推理。 CoQA还包括仅在测试集中出现的领域之外的问题以及无法回答的问题。可以从http://stanfordnlp.github.io/coqa/下载CoQA数据。

QuAC

OpenBookQA： Mihaylov et al.（2018）的OpenBookQA打算解决以前的QA数据集的缺点。较早的数据集通常不需要常识或任何高级推理即可解决，而那些需要大量知识的数据集则难以表示。OpenBookQA包含大约6,000个四选项选择题，可能需要科学事实或其他常识知识。MCScript（Ostermann et al., 2018）没有提供知识源，ARC提供一个包含大量事实的语料库来支撑回答问题（Clark et al., 2018），而 OpenBookQA提供了包含1,300个科学事实的``开放书本’'来支持回答问题，每个事实都与问题直接相关。对于所需的常识知识，作者希望可以使用外部资源来回答问题。可以在http://github.com/allenai/OpenBookQA中找到有关下载OpenBookQA的信息。

CommonsenseQA：Talmor，Herzig，Lourie和Berant（2019）的CommonsenseQA是直接针对常识的QA benchmark，类似CoQA（Reddy et al., 2018）和ReCoRD（Zhang，Liu，Liu，Gao，Duh和Van Durme, 2018）），包含9,500个三选项选择题。为了确保强调常识，每个问题都需要将一个目标概念和ConceptNet中的三个关联概念区分开来。利用像ConceptNet这样的大型知识图谱，不仅可以确保问题直接针对常识关系，而且还可以确保问题所需的常识知识类型和推理高度不同。可以从http://www.tau-nlp.org/commonsenseqa下载CommonsenseQA数据。

DREAM（Dialogue-Based Reading Comprehension Examination）：

**DROP **：UCI

Cosmos QA（Commonsense Machine Comprehension）：UIUC、AI2、UW

MC-TACO（Multiple Choice Temporal Common-sense）

2.1.3 文本蕴涵

识别文本蕴涵是另一种综合任务。文本蕴含是由Dagan et al.（2005年）定义的文本和假设之间的定向关系。如果可以在给定文本条件下推断假设为真，则称文本蕴涵假设。有些任务还需要认识到矛盾来扩展这一点，例如第四次和第五次RTE挑战（Giampiccolo，Dang，Magnini，Dagan和Dolan, 2008; Bentivogli，Dagan，Dang，Giampiccolo和Magnini, 2009）。执行此类任务需要利用几种较简单的语言处理技能，例如释义（paraphrase，用不同的句子表达相同的含义），对象跟踪和因果推理，但是由于它还需要了解一般人的推断，常识知识通常对于文本蕴含任务至关重要。 RTE挑战（Dagan et al., 2005）是蕴含的经典benchmark，但是现在有一些受其启发的更大的benchmarks。这些benchmark的示例在图5中列出，它们需要常识知识，例如制作雪天使的过程以及人群的存在和孤独之间的关系。在以下各段中，我们将详细介绍所有文本蕴含benchmarks。

RTE Challenge。对常识推理的评估方案的早期尝试是“识别文本蕴含（RTE）挑战”（Dagan et al., 2005）。最初的挑战提供了一项任务，其中给定了文本和假设，希望系统可以预测文本是否包含假设。在随后的几年中，出现了更多类似的挑战（Bar-Haim，Dagan，Dolan，Ferro，Giampiccolo，Magnini和Szpektor, 2006年； Giampiccolo，Magnini，Dagan和Dolan, 2007年）。第四和第五次挑战赛增加了一项新的三选项决策任务，该任务还要求系统识别文本和假设之间的矛盾关系（Giampiccolo et al., 2008； Bentivogli et al., 2009）。第六和第七个挑战的主要任务提供了一个假设和语料库中的多个可能的句子（Bentivogli，Clark，Dagan和Giampiccolo, 2010年, 2011年）。第八次挑战赛（Dzikovska，Nielsen，Brew，Leacock，Giampiccolo，Bentivogli，Clark，Dagan和Dang, 2013年）解决了一个略微不同的问题，该问题侧重于归类学生的反应以在教育环境中提供自动反馈。前五个RTE挑战数据集分别包含约1,000个示例（Dagan et al., 2005； Bar-Haim et al., 2006； Giampiccolo et al., 2007, 2008； Bentivogli et al., 2009），而第六个和第七位分别由大约33,000和49,000个示例组成。所有RTE挑战赛的数据都可以从http://tac.nist.gov/下载。

**Conversational Entailment **

SICK。 Marelli et al.的“涉及合成知识的句子（SICK）”benchmark（2014a）是接近10,000对句子的集合。该数据集提供了两项任务，一项用于句子相关性，一项用于蕴涵性。与我们的调查更相关的包含任务是RTE-4（Giampiccolo et al., 2008）和RTE-5（Bentivogli et al., 2009）风格的三选项决策任务。可以从http://clic.cimec.unitn.it/composes/sick.html下载SICK。

SNLI。 Bowman et al.的斯坦福自然语言推理（SNLI）benchmark（2015年）包含将近60万个句子对，并提供了类似于第四次和第五次RTE挑战的三选项决策任务（Giampiccolo et al., 2008； Bentivogli et al., 2009）。除了包含，矛盾或中立的标签外，SNLI数据还包括对该标签的五个人对标签的判断，这可以表明对该标签的置信度或共识水平。该benchmark后来被扩展为MultiNLI（Williams et al., 2017），遵循相同的格式，但包括多种体裁的句子，例如电话对话。 MultiNLI包含在之前介绍的GLUE benchmark测试中（Wang et al., 2018），而SNLI可以从http://nlp.stanford.edu/projects/snli/下载。

SciTail。 Khot et al.的SciTail（2018）由大约27,000个前提假设句子对组成，这些句子对由科学问题改编而成，类似于第一个RTE挑战（Dagan et al., 2005）。与其他工作任务不同，该任务主要是基于科学的，它可能需要一些比日常常识更高级的知识。可以从http://data.allenai.org/scitail/下载SciTail。

SherLIiC

2.1.4 plausible inference

虽然文本蕴含benchmark要求得出具体的结论，但其他的benchmark则需要假设的、中间的或不确定的结论，即合情推理（plausible inference, Davis & Marcus, 2015），历史上也被称为溯因推理（Abductive reasoning）。这样的benchmark通常侧重于日常事件，其中包含各种各样的实践常识关系。这些benchmark的示例在图6中列出，它们要求日常互动（例如应门）和活动（例如烹饪）的常识。在以下各段中，我们介绍所有可能的推理常识基准。

COPA。 Roemmele et al.的“选择合理的选择（COPA）”任务（2011年）提供的每个前提都有两种可能的原因或结果。示例既需要正向因果推理，也需要反向因果推理，这意味着前提可以是正确选项的原因或结果。可以从http://people.ict.usc.edu/~gordon/copa.html下载共包含1,000个示例的COPA数据。

CBT。希尔，波德斯，乔普拉和韦斯顿（2015）的儿童读物测验（CBT）包括从公开的儿童读物中提取的约20句的段落中的约687,000个完形填空式问题。这些问题要求系统用给定一组10个候选单词中的一个来填充给定故事情节的一行中的空白。根据要预测的遗漏单词的类型，将问题分为4个任务，这些单词可以是命名实体、普通名词、动词或介词。可以从http://research.fb.com/downloads/babi/下载CBT。

ROCStories。 Mostafazadeh et al.的ROCStories（2016）是一个约有50,000个五句日常生活故事的语料库，其中包含事件之间的因果关系和时间关系，是学习常识知识规则的理想之选。在这50,000个故事中，约有3,700个被指定为测试用例，其中包括合理的和不合理的故事选项，供训练过的系统选择。解决ROCStories测试用例的任务称为Story Cloze Test，这是比Chambers和Jurafsky（2008）提出的叙述性Cloze任务更具挑战性的替代方法。 ROCStories的最新版本，可以在http://cs.rochester.edu/nlp/rocstories/上进行请求。

LAMBADA

JOCI。 Zhang et al.的JHU序贯常识推断（JOCI）基准（2016年）由大约39,000个句子对组成，每个句子对都包含上下文和假设。鉴于这些，系统必须在1到5的范围内对假设的可能性进行评估，其中1对应于不可能, 2对应于技术上的可能性，3对应合理，4对应可能，5对应非常可能。此任务类似于SNLI（Bowman et al., 2015）和其他三选项蕴含任务，但提供了更多选择，本质上介于蕴含和矛盾之间。考虑到与文本蕴含任务相比，合理的推理任务的模糊性，这很合适。 JOCI可以从http://github.com/sheng-z/JOCI下载。

CLOTH。 Xie，Lai，Dai和Hovy（2017）制定的教师完形填空测验（CLOTH）基准收集了来自中学和高中英语考试的近100,000种四项选择题填空式问题答案将在给定文本中填充空白。每个问题都标有其涉及的推理类型，其中四种可能的类型是语法，短期推理，匹配/释义和长期推理。可以从http://www.cs.cmu.edu/~glai1/data/cloth/下载CLOTH数据。

SWAG。 Zellers et al.（2018）的对抗生成（SWAG）是一个基准数据集，包含约113,000个小文本的开头，每个文本有四个可能的结尾。给定每个文本所显示的上下文，系统确定四个结尾中的哪个最合理。示例还包括用于正确结尾的来源的标签，以及每个可能结尾和正确结尾的可能性的序号标签。可以从http://rowanzellers.com/swag/下载SWAG数据。

ReCoRd。 Zhang et al.的“具有常识推理的阅读理解（ReCoRD）”基准（2018）与SQuAD（Rajpurkar et al., 2016）相似，包括针对文章提出的问题，特别是新闻文章。但是，ReCoRD中的问题采用完形填空格式，需要更多的假设推理，并且许多问题明确需要常识推理才能回答。数据中标出了命名实体，用于填充完形任务的空白。基准数据包含超过120,000个示例，其中大多数声称需要常识推理。 ReCoRD可以从https://sheng-z.github.io/ReCoRDexplorer/下载。

HellsSWAG

AlphaNLI

2.1.5 直觉心理

在合情推理任务中，特别重要的知识领域是人类社会心理学领域，因为通过行为来推理情绪和意图是一项基本能力（Gordon, 2016）。一些基准的某些示例涉及社会心理学，例如，图6中的ROCStories中的求婚示例（Mostafazadeh et al., 2016），有些基准则完全集中在这方面。每个基准的示例在图7中列出，它们要求社会心理学常识，例如对被打或大喊的合理反应。在以下段落中，我们将详细介绍这些基准。

Triangle-COPA。Gordon（2016）的Triangle-COPA是COPA的一种变体（Roemmele et al., 2011年），基于流行的社会心理学实验。它包含100个COPA格式的示例和配套视频。问题专门针对情绪、意图和其他社会心理学的各个方面。数据还包括问题和选项的逻辑形式，因为该论文的重点是心理学常识的逻辑形式。三角形-COPA可以在http://github.com/asgordon/TriangleCOPA下载。

Story Commonsense。如前所述，Mostafazadeh et al.的ROCStories故事（2016）有很多常识的社会学和心理学实例。受心理学的动机和情感的经典理论启发，Rashkin等（2018a）创建了Story Commonsense（SC）基准，其中包含ROCStories中角色的动机和情感的约160,000个标注，以实现该领域的更具体的推理。除了生成动机和情感标注的任务外，该数据集还引入了三种分类任务：一种用于推断由Maslow（1943）提出的人类基本需求，一种用于推断由Reiss（2004）提出的人类动机，另一种用于推断Plutchik（1980）提出的人类情感。可以从http://uwnlp.github.io/storycommonsense/下载SC。

Event2Mind。除了动机和情感外，系统可能还需要推断围绕事件的意图和反应。为了支持这一点，Rashkin等（2018b）引入Event2Mind，这是一个基准数据集，包含从其他语料库（包括ROCStories）中提取的约25,000个独特事件的约57,000个意图和反应标注（Mostafazadeh et al., 2016）。每个事件都涉及一个或两个参与者，并提出了三个任务来预测主要参与者的意图和反应，以及预测其他参与者的反应。可以从http://uwnlp.github.io/event2mind/下载Event2Mind。

SocialIQA：the authors show that when fine-tuned on SocialIQA, deep learning models perform better when later fine-tuned on smaller-magnitude benchmarks which require commonsense knowledge.

2.1.6 多任务

某些基准包含一些重点的语言处理或推理任务，以便可以以一致的格式逐一学习阅读理解技能。虽然bAbI包括某些共指消解任务，但在其他任务中还包括某些先决条件，例如关系提取（Weston et al., 2016）。同样，对情感、释义、语法甚至双关语的识别都集中在DNC基准内的不同任务中（Poliak et al., 2018a）。表1通过它们提供的语言处理任务的类型，对所有这些多任务常识基准进行了比较。在以下段落中，我们将详细介绍这些基准。

bAbI。Weston et al.的bAbI基准（2016）包含20个先决条件任务，每个任务包含1,000个训练示例和1,000个测试示例。每个任务为系统提供一段内容，然后询问阅读理解问题，但是每个任务都专注于不同类型的推理或语言处理任务，从而使系统一次学习一种基本技能。任务如下：

1.单个支持事实2.两个支持事实3.三个支持事实4.两个参数关系5.三个参数关系6.是/否问题7.计数8.列表/集合9.简单否定10.不确定知识11.基本共指12.连词13.复合共指14.时间推理15.基本演绎16.基本归纳17.位置推理18.大小推理19.路径查找20.代理的动机

除了提供之前讨论的语言处理任务外，bAbI还提供了需要特殊类型的逻辑和物理常识知识的常识推理任务，例如其演绎和归纳任务以及时间、位置和大小推理（Weston et al., 2016）。这些任务的选定示例在图8中给出，并且要求具有常识知识，例如动物物种的成员通常都具有相同的颜色，以及对象的大小与其相互容纳能力之间的关系。可以从http://research.fb.com/downloads/babi/下载bAbI。

Inference is Everything。White et al.的推理就是一切（IIE）（2017）遵循bAbI（Weston et al., 2016）创建了一系列任务，其中每个任务都专门针对不同的语言处理任务：语义原型角色标注、释义和代词解析。每个任务都是经典的RTE挑战格式（Dagan et al., 2005），即给定上下文和假设文本，必须确定上下文是否包含假设。在这些任务中，IIE包括大约300,000个示例，所有这些示例都是通过改写从前的数据集得到的。可以通过http://github.com/decompositionalsemantics-initiative/DNC上的另一个多任务套件下载IIE。

GLUE。 Wang et al.的通用语言理解评估（GLUE）数据集（2018）包括9种专注于各种形式的更综合的任务，包括单句二进制分类和相当于RTE-4和RTE-5中的两个任务（Giampiccolo et al., 2008; Bentivogli et al., 2009）的2或3选项蕴涵。这些任务中的大多数要么直接与常识相关，要么对创建利用传统语言过程（如释义）进行常识推理的系统很有用。 GLUE任务重写或直接提取其他基准数据和语料库中的句子：

Warstadt，Singh和Bowman的语言可接受性语料库（CoLA）（2018）
Socher，Perelygin，Wu，Chuang，Manning，Ng和Potts（2013）的斯坦福情感树库（SST-2）
来自Iyer，Dandekar和Csernai（2017），Dolan和Brockett（2005）的Microsoft Research Paraphrase语料库（MRPC）
来自Iyer et al.（2017）的Quora问题对（QQP）
Cer，Diab，Agirre，Lopez-Gazpio和Specia（2017）的语义文本相似性基准（STS-B）
Williams et al.（2017）的多风格自然语言推理（MNLI）。
问题自然语言推理（QNLI）从SQuAD 1.1重铸了Rajpurkar et al.（2016）
认知文本蕴涵（RTE），包括RTE-1（Dagan et al., 2005），RTE-2（Bar-Haim et al., 2006），RTE-3（Giampiccolo et al., 2007）和RTE-5（Bentivogli et al., 2009年）
重写Winograd Schema Challenge Levesque（2011）的创建者私下共享的Winograd模式得到的Winograd自然语言推理（WNLI）

GLUE包含用于诊断目的的小型分析集，其中具有对落入其中的句对人工标注为细粒度的类别（例如，commonsense），并且标注了示例的反向版本。总体而言，GLUE拥有超过一百万个示例，可以从http://gluebenchmark.com/tasks下载。

DNC。 Poliak et al.的多种自然语言推理集合（DNC）（2018a）包含9个文本蕴含任务，需要7种不同类型的推理。就像White et al.的IIE（2017年），每个任务的数据遵循原始RTE挑战的形式（Dagan et al., 2005）。 DNC中的某些任务涵盖了所有推理系统所需的基本推理技能，而其他任务则涵盖了需要常识的更具挑战性的推理技能。每个任务都通过重写以前的数据集得到：

事件事实，通过重写UW（Lee，Artzi，Choi和Zettlemoyer, 2015年），MEANTIME（Minard，Speranza，Urizar，Altuna，van Erp，Schoen和van Son, 2016年）和（Rudinger，White， & Van Durme, 2018b）得到
命名实体识别，从Groningen Meaning Bank（Bos，Basile，Evang，Venhuizen和Bjerva, 2017）和ConLL-2003共享任务（Tjong Kim Sang & De Meulder, 2003）重写得到
性别照应消解（Gendered Anaphora Resolution），通过重写Winogender数据集（Rudinger et al., 2018a）得到
词法推理，重写MegaVeridicality（White和Rawlins, 2018年），VerbNet（舒勒, 2005年）和VerbCorner（Hartshorne，Bonial和Palmer, 2013）得到
比喻性语言，重写Yang，Lavie，Dyer和Hovy（2015）和Miller，Hempelmann和Gurevych（2017）的双关语得到
关系提取，部分摘自FACC1（Gabrilovich，Ringgaard和Subramanya, 2013）
主观性，重写Kotzias，Denil，De Freitas和Smyth（2015）得到

DNC基准总共包含约570,000个示例，下载网址为 http://github.com/decompositional-semantics-initiative/DNC。

SuperGLUE

2.2 Criteria and Considerations for Creating Benchmarks

基准测试的目的在于支持技术开发并提供衡量研究进展的平台。这个目标能否实现取决于基准的性质。本节介绍从创建所综述的基准中获得的成功和经验教训，并总结了指导基准创建的主要注意事项和标准，特别是在任务格式、评估方案、数据偏差、数据收集方法和基准复杂度。

2.2.1任务格式

在创建基准时，确定问题的解决方案是重要的一步。在现有的基准中，存在一些常见的任务格式，尽管某些格式可以互换，但其他格式仅适用于特定任务。我们对这些格式进行了回顾，指出了它们适合的任务类型。

分类任务。大多数基准测试任务都是分类问题，其中每个响应都是有限数量的选项中的一个选项。这些包括文本蕴含任务（最通常需要关于一对句子的二元或三元决策），完形填空任务（需要选择多项选择来填充空白）和传统的多选回答任务。

文本蕴含任务。 RTE Challenges最初引入了一种非常流行的格式，其中给定了一对文本，即上下文和假设，必须确定上下文是否包含假设（Dagan等，2005）。在第四次和第五次RTE挑战赛中，这种格式被扩展为一个三元决策问题，其中的假设可能与上下文矛盾（Giampiccolo等，2008； Bentivogli等，2009）。 JOCI基准进一步将问题扩展到五元决策任务，其中假设文本在给定上下文的情况下从不可能到很可能变化（Zhang et al。，2017）。

尽管此格式通常用于解决诸如RTE挑战之类的文本限制问题，但它几乎可以用于任何类型的推理问题。一些多任务基准已将格式用于几种不同的推理任务，例如，推理就是一切（White等人，2017），GLUE（Wang等人，2018）和DNC（Poliak等人，2018a）），基准测试通过自动将以前基准测试重写为RTE格式，在其大多数子任务中使用经典的RTE格式。大多数这些问题要么处理比RTE挑战更特殊的推理过程，要么比RTE挑战所要求更高的推理，显示了格式的灵活性。其中一些任务包括指代消解、双关语识别和问答。这些重写的子任务的示例在图8中列出。

Cloze任务。另一种流行的格式是完形填空任务，最初由泰勒（1953）构思。此类任务通常涉及删除文本中的一个或多个单词，本质上需要一个单词来填充空白，通常是从一组选项中选择，但并非总是如此，例如LAMBADA，这是一个开放式的完形填空任务（Paperno等人，2016年）。这种格式是对传统语言建模任务（即预测单词序列中下一个单词的任务）的扩展，其灵感来自于需要针对诸如语音识别之类的问题计算语言序列的概率分布的需求（Bahl，Jelinek，＆Mercer，1983）和机器翻译（Brown，Cocke，Della Pietra，Della Pietra，Jelinek，Lafferty，Mercer，＆Roossin，1990）。完形填空格式已在多个NLI基准中使用，包括CBT（Hill等，2015），ROCStories基准的故事完形填空测试（Mostafazadeh等，2016），CLOTH（Xie等，2017）， SWAG（Zellers等，2018）和ReCoRD（Zhang等，2018）。这些最新的基准提供了两个到十个选项来填补空白，范围从要求预测单个单词到句子的一部分以及整个句子。图9中列出了完形填空任务的示例。

传统的多项选择任务。如果不是蕴含形式或完形填空形式，则分类任务往往被表述为传统的多项选择题。使用此格式的基准包括COPA（Roemmele等，2011），Winograd Schema Challenge（Davis，Morgenstern和＆Ortiz，2018）和MCScript（Ostermann等，2018）。在综述的多项基准测试中，最常见的是两项和四项决策问题。

开放式任务。另一方面，某些基准测试需要更多开放性的回应，而不是提供一小部分可供选择的选择。答案可能仅限于给定文本中的一段，例如SQuAD（Rajpurkar等，2016，2018）或QuAC（Choi等，2018）。它们可能不局限于大量类别标签的子集，例如Story Commonsense中的Maslow，Reiss和Plutchik任务（Rashkin等人，2018a）。当然，它们可能是纯开放式的，例如Event2Mind（Rashkin等人，2018b），NarrativeQA（Kociský等人，2018），DR或DROP（Dua等人，2019）。这些开放式格式的示例在图10中列出。

2.2.2评估方案

如前所述，图灵测试（Turing，1950年）长期以来一直受到AI研究人员的批评，因为它似乎并未真正评估机器智能。如Ortiz（2016）所述，迫切需要新的智能基准来支持AI技术的增量开发和评估。这些基准不仅应提供合格或不合格的等级，还应提供连续规模的反馈，以实现渐进式发展和方法比较。这些基准的一个主要考虑因素是客观的、易于计算的信息评估指标。这些指标可用于比较不同的方法，并将机器性能与人类表现进行比较。

评估指标。评估指标的选择高度依赖于任务的类型，因此计算它们的难度也很大。如果正确答案或类别标签在基准数据上均匀分布，则分类任务通常使用完全匹配准确性。如果不是这种情况，通常的做法是另外提出F度量作为评估指标（Wang等，2018）。精度和查全率也可以提供，但是F度量（在计算中考虑了两者）在最近调查的基准中更为常见。多项选择和分类任务格式（例如RTE，完形填空和传统的多项选择）都可以使用这些指标。

本质上，更开放的任务更难评估，但是它们仍然可以是客观的和有益的。可以像选择多项任务一样评估像SQuAD（Rajpurkar等人，2016）或QuAC（Choi等人，2018）之类的任务，其中答案只能是所提供文本中的一段。精确匹配准确性和F度量用作这两个基准的评估指标，比较预测跨度和真实跨度（不包括标点和文章）中的标记集合。如果答案是一大类类别标签的子集，例如Story Commonsense中的Maslow，Reiss和Plutchik任务，则评估是相似的，但特别是对于这些基准，还需要计算准确性和召回率（Rashkin等， 2018a）。

在Event2Mind（Rashkin等人，2018b）中给出多个纯开放式响应的情况下，评估更加困难。Event2Mind特别使用平均交叉熵和“recall@10”，即人类生成的真实标签落入系统生成的前10个预测中的次数百分比。在bAbI（Weston等人，2016），LAMBADA（Paperno等人，2016）和CoQA（Reddy等人，2018）中，将开放式响应与单个真实答案进行比较，使用精确匹配的准确性和F-measure。这些基准能够使用这种精确的评估方法，因为响应的长度很短。特别是在bAbI中，正确的响应仅限于一个单词或单词列表，而在LAMBADA中，响应仅是单个单词以填补空白。这种限制对于这种简单而准确的开放式响应评估至关重要。对于更长的响应，例如，如NarrativeQA（Kociskýˇ等，2018）所述，机器翻译的评估指标如BLEU（Papineni，Roukos，Ward和＆Zhu，2002）或Meteor（Denkowski＆Lavie，2011），或类似文本摘要的度量标准（如ROUGE（Lin，2004年）），通常用于比较生成的答案和真实答案。但是，已经发现许多这样的度量标准与人类对生成的文本的判断没有很好的相关性（Belz＆Reiter，2006； Elliott＆Keller，2014），因此应谨慎解释。

基线性能。基准为研究人员提供了比较不同方法的通用数据集和实验设置。首次发布新基准时，通常会报告简单基准方法的结果。理想情况下，应该设计基准测试使得简单的基线会导致性能不佳，以确保无法通过简单的方法解决它，而需要一种更高级的方法。对于分类问题，通常通过随机选择来计算简单的基线方法，从训练数据中选择多数类或选择与问题或提供的文本在n元语法中重叠度最高的（Richardson等，2013）。这些基线方法的示例可以在Story Cloze Test基线中找到，其中包括大多数此类方法以及更多（Mostafazadeh等人，2016）。对于开放式问题，可以像bAbI基准一样使用浅层词汇方法（例如，使用语言模型）（Weston等，2016）。当发布新基准时，来自一个或多个类似现有基准的最先进模型的结果通常也会设置为基线。后来，随着针对基准测试开发出更高级的方法，它们通常被用作下一代基准测试的最先进基线。随着时间的推移，该周期将不断提高基线性能，并推动开发新的和改进的模型以及新的基准。

人类表现度量。为了评估机器智能的进步，通常会测量基准任务上的人类表现以提供参考点。可以用几种不同的方式来衡量人的表现。一种典型的方法是选择几位可能是众包的人类评判者来解决基准数据的随机子集。表现可以在评判者之间平均，例如对CBT进行评估（Hill等人，2015），或通过所有评判者的多数票来计算，例如对SWAG（Zellers等人，2018）。人类表现也可以通过标注者同意来衡量，例如，对ROCStories而言（Mostafazadeh等，2016）。通常可以通过测试参与创建数据集的研究人员来额外提供“专家”表现评估。例如，这是由RACE（Lai等人，2017）和SWAG的作者完成的。

在许多基准测试中，计算模型的一种衡量标准是评估它与人类表现之间的接近程度或是否超出了人类表现。当一个系统超过了人类的表现时，这似乎表明该系统已经获得了基准所要求的技能和知识。但是，由于许多神经模型无法解释，因此通常难以证明。此外，最近在许多流行的基准中都发现了数据偏差（Gururangan等人，2018），从而允许采用简单方法（Schwartz等人，2017）和最新的神经系统（Niven＆Kao，2019）利用偏差并人为地获得高性能。这使这些无法解释的系统受到了更高的审查。

2.2.3数据偏差

创建基准时，面临的一个挑战是无意中引入基准的数据偏向。例如，在视觉问题回答（VQA）基准的第一版（Agrawal，Lu，Antol，Mitchell，Zitnick，Parikh和＆Batra，2017年）中，研究人员发现机器学习模型正在学习数据中的几种统计偏差，并且可以在不看图像的情况下回答验证集中多达48％的问题（Manjunatha，Saini，＆Davis，2018）。这种人为的高系统性能是有问题的，因为它不能归功于底层技术。在这里，我们总结了以前的NLI研究中遇到的偏差的几个关键方面。其中一些（例如类别标签分布）更容易避免，而其他一些（例如隐藏的相关偏差）更难以解决。

标签分布偏差。类标签分配偏差是最容易避免的。在多项选择题中，正确答案的顺序位置应完全随机化，以使每个可能的选择均以均匀分布的形式出现在基准数据中。对于类别标签具有特定含义的其他分类任务（例如，文本蕴含），必须确保类别标签平衡必须更早发生，即在创建示例时。应注意确保为每个类生成相同数量的示例。当类标签保持平衡时，多数类基线将在任务中得分尽可能低。尽管二元选择任务应具有50％的多数类基线，但DNC中的MegaVeridicality子任务（Poliak等人，2018a）由于类别标签分布不均而具有67％的多数类基线，因此与之相比，增量改进的空间大大少于性能较低的简单基线的基准。

问题类型偏差。对于涉及问答的基准，以前的工作已经努力平衡问题的类型，特别是如果问题是由众包产生的。这将确保解决基准测试所需的广泛知识和推理。保持问题类型平衡的一种相当简单的方法是计算每个问题的第一个单词的分布，就像CoQA（Reddy等人，2018）和CommonsenseQA（Talmor等人，2019）的创建者所做的那样。人们还可以手动标记和分析随机抽样的问题样本，这些样本具有与所需知识或推理类型有关的类别，或者专家不是必需的，则可以由众包人群进行标记。 SQuAD 2.0（Rajpurkar等人，2018）和ARC（Clark等人，2018）的创建者展示了此类示例。为了完全避免问题类型的偏差，为所有提供的文本实现一套标准的问题可能是有益的。 ProPara在其过程段落中为所有实体执行此操作（Mishra等人，2018），将关于每个实体的问题限制为在该段落中是创建，销毁还是移动它，以及何时何地发生。 Manjunatha等。（2018）建议通过迫使问题要求特定技能（例如说出时间或减去）来回答问题，从而进一步避免VQA基准中的偏差。此经验法则也适用于文本基准，例如在DROP基准中（Dua等，2019），这需要离散的推理技能，例如算术来回答有关段落的问题。

表层相关偏差。最难以发现和避免的偏差类型是由答案和问题的特征之间的偶然相关性引起的。一个例子是性别偏差，当使用有偏差的数据进行训练时，NLI系统特别难以避免这种情况。 Rudinger等。（2018a）在共指消解方案中强调了这个问题，表明在性别代词歧义消除方面，接受过性别偏差数据训练的系统表现更差。例如，请从图3中的Winogender数据集中考虑问题：“The paramedic performed CPR on the passenger even though she knew it was too late.”在确定she是谁时，受性别偏差训练数据训练的系统可能更可能错误地选择passenger而不是paramedic，因为在这种职业背景下，男性性别代词出现在训练数据中的可能性比女性性别代词高。为避免这种情况，性别代词在训练数据，尤其是与职业和活动有关的数据中出现的频率应该相当。在Event2Mind数据中发现了相似的性别偏差，该数据来自电影脚本（Rashkin等人，2018b）。

在编写自然语言数据时（例如，生成问题或假设），某些人类文体上的创作，例如可预测的句子结构，某些语言现象的存在以及词汇使用，也可能导致这些表面相关偏差。如果数据是由众筹人群工作者创作的，这是最常见的情况（Gururangan等人，2018），但是在专家创作的数据中也发现了类似的偏差（Trichelair等人，2018）。在“故事完结测试”（Mostafazadeh等人，2016）中，系统为故事提供了一个合理一个不合理的结局，并且必须选择哪个结局是合理的。但是，Schwartz等人的先前工作。（2017）表明，仅查看两个可能的结局，即可完成Story Cloze Test的准确率高达72.4％。他们通过在可能的结局中利用人类的写作风格偏差来做到这一点，而不是进行更现实的推理。例如，他们发现否定语言通常用于错误的结尾（例如“讨厌”），而正确的结尾更可能使用热情的语言（例如“！”）。图9中显示了一个带偏差的负面结局的示例。Sharma，Allen，Bakhshandeh和Mostafazadeh（2018）已开始着手更新基准数据并消除这些负向性。

对于众筹人群工作者来说，生成故事完形填空测试数据并不是一项快速或简单的任务，Gururangan等人。（2018年）表明，这种偏差可能来自人群工作者采用可预测的注释策略和启发式方法来快速生成数据。很多包括成对短句的文本蕴含基准已揭示了这些策略。例如，在作为SICK基准（Marelli等，2014a）的一部分的SemEval 2014（Marelli，Bentivogli，Baroni，Bernardi，Menini和Zamparelli，2014b）蕴含任务中，Lai和Hockenmaier（2014）发现一个例子中否定的存在与矛盾类别标签的出现有关。他们训练的分类器仅使用此特征即可达到61％的准确性。后来，Poliak，Naradowsky，Haldar，Rudinger和Van Durme（2018b）和Gururangan等人。（2018）发现假设句子中特定单词的存在会在几个蕴含基准中使蕴含预测产生偏差。例如，发现SNLI中矛盾例子中的“ nobody”（Bowman等人，2015）是矛盾的指标，同时发现了诸如“动物”和“ instrument”之类的通用词，以及与性别无关的代词，是蕴含的指标。 Gururangan等。进一步发现，句子长度过长是中立关系的指示，并表明众筹人群工作者经常从上下文句子中删除单词以创建蕴含的假设句子。使用这样的偏差，Poliak等人的基线方法仅使用包含基准的假设句子就能在SNLI，推理即一切（White等人，2017）中两项任务JOCI（Zhang等人，2017），SciTail（Khot等人，2018）以及GLUE中的MultiNLI任务（Williams等人，2017; Wang等人，2018）上超过多数类基线。

解决表面相关偏差。已经开发出各种方法来解决该数据偏差问题。例如，要识别偏差，一种简单的技术是计算基准示例内单词与预测类之间的相互信息。这是由研究人员在发现蕴含基准中的风格偏差时进行的（Gururangan等人，2018）。创建新基准数据时，应对其进行这种类型的分析。

为了避免偏差，可能需要更多涉及的技术。例如，在创建SWAG基准时（Zellers等人，2018），引入了一种新颖的对抗过滤过程，以确保写作风格在最终选择之间是一致的，并且探索性的风格分类器无法识别出正确的答案。实现方式是通过使用语言模型为每个问题过度生成否定选择，然后使用一组强大的分类器来过滤掉在给定的任意训练测试划分下太容易识别的否定示例。当SWAG发布时，它对最先进的分类器具有挑战性。但是不久之后，一个新模型就以高精度解决了SWAG问题（Devlin，Chang，Lee和Toutanova，2018年）。 Zellers等人通过将这种新模型纳入对抗性过滤以及使用更新的语言模型来生成文本。（2019a）创建了一个名为HellaSWAG的更新版本，新的最先进模型在该版本上苦苦挣扎。对抗过滤的变体被用于创建其他基准，例如WinoGrande（Sakaguchi等，2019）和AlphaNLI（Bhagavatula等，2019），以分别消除统计偏差并从一组假设中选择最具挑战性的选择对，使得最先进的基线方法性能降低。随着发现更强大的分类器并进而加强对抗过滤的迭代过程继续进行，一个重要的问题将是何时消除所有统计偏差，或者是否有可能消除所有统计偏差。尽管如此，鉴于最近取得的这些成功，对抗过滤应继续用于新的基准测试，以挑战最新的最先进模型，并可能在可能的情况下用于增强现有基准测试。

Belinkov，Poliak，Shieber，Van Durme和Rush（2019）提出的另一种避免这些偏差的技术，尤其是在文本蕴含问题中，是训练一个模型，给定假设句子和类别标签来预测前提句子。此训练设置可确保模型在前提下忽略意外的语言假象，从而尝试消除表面上的统计偏差。尽管开发避免数据偏差的这些范型很有希望，但是随着现有技术水平的不断发展，不断努力寻找和改进避免此类偏差的技术将是重要的。

2.2.4 收集方法

理想情况下，收集基准数据的方法应具有成本效益，并应产生高质量且无偏差的数据。手动和自动方法均已应用。可以由专家或研究人员或通过众筹人群工作者来进行手动数据整理，这有其自身的考虑因素。自动方法通常涉及通过应用语言模型来自动生成数据，或者从现有资源中自动提取或挖掘数据。如附录A所述，通常会通过这些方法的组合来创建基准。在本节的其余部分，我们总结了这些不同方法的利弊。

手动与自动生成。直到最近，许多现有基准还是由专家组手动创建的。这可能涉及乏味的过程，例如从其他语料库或Internet手动收集数据，例如第一个RTE Challenge（Dagan等，2005），或从头开始编写大多数数据，例如Winograd Schema Challenge（Levesque，2011； Levesque）。等人，2012； Morgenstern＆Ortiz，2015； Morgenstern等，2016）。这种方法可确保数据的高质量，因此通常需要很少的验证，但是它不可扩展。与使用其他方法创建的数据集相比，这些数据集通常很小。

NLP的最新进展使得可以自动生成基准任务的文本数据（例如，自然语言陈述，问题等）。尽管这种方法是可扩展和高效的，但是数据的质量却有所不同，并且通常直接取决于所使用的语言模型。例如，在bAbI中（Weston等人，2016），当代理与虚拟世界中的对象交互以及彼此交互时，会自动生成示例。这种方法可确保产生的数据对物理世界的约束敏感。但是，由于问题和答案都是用简单的结构编写的，因此机器很容易理解数据。仅基线系统就能以100％的精度解决大多数数据集。因此，bAbI任务通常被视为玩具任务。曼宁和哈德森（Manning and Hudson，2018）提出了一种更复杂的基于规则的方法，该方法用于概率性地生成文本数据，该数据鼓励使用更多种语言，而不会增加任何偏差。尽管自动自然语言生成方法正在改进，但此类方法可能仍将需要一些手动验证。

自动生成与文本挖掘。互联网和现有数据集中公开提供了数百万种自然语言文本，因此可以通过自动挖掘文本并提取句子来从这些文本构建语言基准。当信息源由专家创建且高度准确时，此过程最成功。例如，在CLOTH（Xie等人，2017）基准中，数据实例是从教师创建的填空英语测试中提取的。尽管其他自动生成的完形填空任务（例如CBT）（Hill等人，2015）大多随机选择缺失的单词，但CLOTH更具挑战性，因为每个示例中的缺失单词都是由专家选择的。对于通过挖掘不太可靠或一致的来源而建立的许多其他基准，通常需要进行自动或人工验证或过滤，例如在创建SWAG（Zellers等人，2018）时（部分从其他语料库中提取），例如大型电影描述挑战赛（Rohrbach等，2017）和ActivityNet中的字幕（Heilbron等，2015）。

众包注意事项。近年来，由于众包平台（例如Amazon Mechanical Turk）的增长，直接从众包工作者那里获取语言数据变得更加可行。众包使研究人员能够创建比以往任何时候都更大的数据集，但是它带有与任务复杂性、工人资质、数据验证和成本优化有关的一系列注意事项。

任务复杂度。在创建众包任务时，重要的是要考虑到预期众包工作者将要做的困难程度。当给出过于复杂的说明时，非专家人群可能会难以理解说明并在执行任务时牢记这些说明。轻松的众包任务通常涉及快速通过/失败验证或重新标记数据，例如在验证SNLI中（Bowman等人，2015）。艰巨的众包任务通常需要人群工作者编写大型文本，例如，创建ROCStories（Mostafazadeh等人，2016），其中，需要遵循对故事内容的相当详尽的限制，以确保故事高质量，工人编写五句故事，重点突出，组织良好。必须对这些限制进行简要，清晰的解释，并且可能需要进行多次试点研究，以确保工人正确理解和遵循说明（Mostafazadeh等人，2016）。

工人资格。无论任务有多困难，都应努力避免工人提交无效数据，无论他们是恶意挑衅的还是无法遵循指示。这可以通过某种资格鉴定任务来完成，可能要求准工作人员识别可接受的陈述的示例（Mostafazadeh等人，2016），或者测试准工作人员的语法（Richardson等人，2013）。寻找优秀的员工并奖励他们和/或招募他们从事更多工作也可能是值得的（Mostafazadeh等人，2016）。根据我们在众包中的经验，我们发现，如果一个工人提交了一个无效的提交，那么该工人的所有提交都可能是无效的，因此应拒绝该工人，并有可能将其禁止执行任务。另一方面，如果一个工人有一个出色的提交，那么所有工人的所有提交可能都是出色的。

数据验证。即使众包数据是由非专家生成的，数据也可以由非专家轻松验证。在创建ROCStories时，Mostafazadeh等人。（2016年）采用了几种新颖的众包数据验证方法。对于诸如ROCStories的编写之类的困难的众包任务，参与验证尤其必要，这需要众包工作者遵循严格的准则来撰写长篇文章。众包数据验证通常只需要一个单独的工作组即可查看生成的数据并识别任何不良示例，例如DNC基准数据的验证（Poliak等人，2018a）。对于标记任务，多个人群工作者可以标记相同的示例，并可以据此衡量一致性以估计数据质量，例如在创建JOCI基准时（Zhang等，2017）。

对于高度涉及数据创作和验证的复杂写作任务，将众包任务同时交给两个交互的工作人员可能是有利的。例如，雷迪等。（2018），根据Amazon Mechanical Turk上提供的段落的实际人类对话创建CoQA，并以最少的验证获得高数据质量。在创建数据时，两个交互的工人会相互验证彼此的工作，甚至可以报告未遵循指示的工人，从而减轻了检查工人资格的负担。

成本优化。尽管雇用众包人群工人通常比雇用固定工人便宜，但是成本可能仍然有限，特别是如果创建者希望通过更多的人群工人进行验证来正确评估生成的数据的质量时。例如，ROCStories（Mostafazadeh等人，2016）由大约50,000个经过良好评估的五句故事和13,500个测试用例组成，每个故事平均花费26美分，每个测试用例平均花费10美分，因此生成数据集的费用接近15,000美元。如果这种彻底验证的成本是一个问题，那么例如在验证SNLI时验证所产生数据的随机样本（Bowman等人，2015）可以作为基准数据整体质量的指标。

最终，每种数据收集方法都有其自身的优点和缺点。手动创作可生成高质量的，经过专家验证的数据，但速度缓慢且无法扩展。同时，自动创作的数据的质量在很大程度上取决于所使用的语言模型，尽管速度更快，但可能需要手动验证。如果使用文本挖掘而不是从头开始生成，则数据更有可能代表人类语言，但是根据从中提取数据的来源，仍然可能需要手动验证。最后，众包是一种遵循任何标准或限制来收集人类创作数据的快速便捷的方法，但是它带有特殊的考虑因素，可以解决工作难度，工人资格，数据验证和成本优化。在制定新基准时，需要仔细考虑上述折衷。

2.2.5基准测试的复杂性

鉴于自然语言推断的可用基准有多种，因此对这些基准的复杂性或难度有所了解将很有帮助。但是，如本节前面所述，这些基准之间存在许多差异。因此，进行公正和直接的比较是不可行的。因此，我们不会尝试说明一个基准是否比另一个基准更复杂。但是，相反，我们讨论了可能影响基准复杂性感知的各个方面，并考虑了它们的潜在含义。

复杂性的感知。考虑任务复杂性的一种自然方法是同时考虑机器和人员在任务上的表现。低性能可能意味着较高的复杂性，反之亦然。图11显示了选定基准的人类表现和最先进的机器性能。这个数字似乎表明，bAbl（Weston等人，2016）对于人类和机器而言都是最容易的。这可能并不奇怪，因为bAbl基准数据是通过简单的结构综合生成的，而这些更简单的语言模式可以由深度学习模型很好地捕获。对于大多数基准测试，人类表现的准确性介于80-90％之间。这些基准之间的机器性能差异更大。对于某些基准测试，例如SQuAD 1.1（Rajpurkar等人，2016）和SWAG（Zellers等人，2018），机器性能实际上超过了人类表现。这是否意味着这些问题很容易解决？另一方面，那些机器性能超过人类表现的基准具有相对较低的人类表现。这是否表明这些问题实际上是困难的，因为它们对人类来说似乎很困难？重要的是要注意，无论是人还是机器，这些性能指标都可以使我们对任务的复杂性有所了解，但是由于多种原因，它们并不是完美的指标，下面将讨论其中的一些原因。

人类表现度量的注意事项。基准设计的选择，例如评估框架，可能会影响人类表现评估。如果基准在可能的响应中具有较高的可变性，则人类表现可能会降低，但这并不一定意味着基准非常困难。一个例子是SQuAD 1.1，它以一段话作为答案，人类准确率为77.0％（Rajpurkar et al。，2016）。尽管这可能表明任务很艰巨，但最先进的性能实际上远远超过了人类性能，这恰恰相反。在分析人类反应时，作者发现错误通常发生在人类去掉答案这段话中不必要的单词或短语。因此，较低的人类表现可能主要是由于评估框架的局限性，而不是任务的难度。

还应该考虑收集人类表现的方法。如果测量是众包的，则人类表现可能会低于预期，这是最近基准测试的典型表现。人群工作者希望快速完成任务以最大化他们的收入，因此可能不会像在日常工作中那样花大量的时间进行示例推理。因此，如第2.2.2节所述，有时会提供从数据集作者或其他专家那里收集的其他人类表现衡量指标作为上限。然而，人群工作者和专家的表现之间的差异可能很高，例如RACE的准确性为73.5％与94.5％（Lai等人，2017）。一群群众工人也可以用来产生更高的人类性能指标。同样，尽管如此，一名工人的表现与一组工人的表现之间的差异可能很高，例如，从一名工人到五个工人的团队，SWAG的准确度为82.8％至88.0％（Zellers等，2018）。这种不确定性使人们对这些表现评估策略的自然性提出了疑问，在解释涉及众包的人类表现时必须考虑这些因素。

机器性能测量的注意事项。某些任务对于基于个人能力人类实际上要比机器更难，在比较他们的性能时应考虑这些任务。 CBT就是一个例子，它的语言建模子任务需要预测带有或不带有上下文段落的句子中的随机单词（Hill等，2015）。对于人类来说，很难预测某些类型的单词（例如介词）（在没有上下文的情况下，准确度为67.6％），这可能是因为人类擅长推断含义，并且许多介词具有相似的含义。因此，在CBT的这一子任务中，神经语言模型更具有捕获模式的能力，可以轻易击败人类。虽然这项任务实际上对人类来说很困难，但机器已经能够执行该任务，因此对研究问题的兴趣降低了。

另一方面，高机器性能并不总是意味着在这些任务上，机器的性能确实比人类更好。如第2.2.3节中所述，基准数据中存在统计偏差使得这种度量值得怀疑。此外，由于最先进的神经方法缺乏可解释性（基准不需要），因此无法证明这一点。随着消除这些偏差并为最新模型提供更好的解释能力的工作进展，机器性能测量将变得更加值得信赖。

影响复杂性感知的因素。除了解释机器性能时必须考虑的那些限制外，一些外部因素也会影响任务的感知复杂性。除了将在第4节中讨论的特定技术或方法的变化之外，我们发现训练数据的大小以及基准年龄和受欢迎程度最为显著。

训练数据大小。具有大量训练数据的基准非常适合深度神经网络，该网络可以学习语言的各种模式，尤其是在具有统计偏见的数据集中，如第2.2.3节所述。图12将基准数据的总体数据大小与几个基准的最新准确性进行了比较，包括自每个基准发布以来最新技术水平的提高。

在图中，执行线性回归表明没有统计学上的显著相关性，但是我们可以定性地解释数据。除了一些数据点，我们看到绝对最新技术性能和与基准性能的差异都呈现出略微积极的趋势。基准测试中包含10,000多个示例，似乎表现出最高的性能和最大的改进。在具有少于1,000个示例的小型基准测试中，例如Winograd Schema Challenge（Davis等人，2017），我们看到的改进有限，这可能是因为神经网络难以收敛于如此小的数据。相反，在大型基准测试中，有超过100,000个示例，例如SQuAD 1.1（Rajpurkar等人，2016），SWAG（Zellers等人，2018）和GLUE（Wang等人，2018），我们看到了最高的状态-自发布以来最先进的性能，以及一些最先进的性能改进。

尽管这很直观，但我们确实看到了一些异常情况。例如，虽然bAbI（Weston等人，2016）的数据量相对较小，但最新的准确性已达到100％。这很可能是因为该基准中的数据是综合生成的并具有可预测的结构，这是使基准更容易使用的另一个潜在因素。我们还看到了性能或改进受到限制的大型基准，例如，Story Cloze测试（Mostafazadeh等，2016）和Cosmos QA（Huang等，2019），并且我们预测基准的年龄或受欢迎程度可能是导致该结果的因素。

基准年龄。基准发布的时间肯定会影响基准的工作量，因此必须影响最新的机器性能。图13显示了相对于基准发布年份的最新水平和人类表现之间的差异。虽然我们再也找不到统计上显著的趋势，但许多数据点在质量上都支持我们在较旧的基准方面取得了更多进步。这并不意味着新的基准比我们已经取得更大进展的基准要难得多，而是可能还没有足够的时间或足够的人员来努力取得类似的进展。但是，在图中可以发现一些有趣的异常，例如Winograd Schema Challenge（Davis等，2017）和Story Cloze Test（Mostafazadeh等，2016）。如前所述，虽然前者可能用很小的数据量来解释，但后者尽管可以使用几年并且拥有大量的训练数据，但与人类表现的差距相对较大。这可能是由于Schwartz等人。（2017）在一项共享任务中的获奖表明基准具有人类写作风格的偏差，可以在基准上人为地提高性能（Mostafazadeh，Roth，Louis，Chambers和Allen，2017），如第2.2.3节所述。此基准的最后一次排行榜提交是在撰写本文（2019年10月）一年前，因此似乎研究人员可能对此失去了兴趣。同时，在同年的其他大型基准中，例如bAbI（Weston等人，2016）和SQuAD 1.1（Rajpurkar等人，2016），已经达到或超过了人类表现。

较新的基准通常存在较大的差距，这可能只是因为它们较新。数据对抗性构建的最新趋势和避免数据偏差也可以部分解释这一点，例如在AlphaNLI（Bhagavatula等人，2019）和WinoGrande（Sakaguchi等人，2019）等基准测试中，它们采用了对抗性方法从数据中消除一些统计偏差。另一方面，在此研究趋势之前创建的基准很容易通过最新模型解决，因此人机性能差距较小。但是也有例外。例如，与对手WinoGrande（Sakaguchi等人，2019）相比，Winograd Schema Challenge（Davis等人，2017）与人类表现的差距更大。同样，这可能是因为以前的基准测试没有太多数据，也因为它是由几位专家构建的，这可能会使神经模型更难以发现和利用写作风格的偏见。

基准人气。基准的普及也可能会影响到正在研究该基准的研究人员的数量，因此会影响该基准取得多少进展，从而可能会使其难以感知。如果基准更受欢迎，我们可以预期它会在排行榜上获得更多提交，因此最新技术与人类表现之间的差距将迅速缩小。另一方面，如果基准不那么受欢迎，它将收到更少的意见书，并且最新的性能也不会发生太大变化，这可能会导致基准被认为更加困难。对于具有在线排行榜的选定基准，图14将独特的，公开提交的数量与人机性能差距进行了比较。

对于提交数量较少的基准，变化很大，表明基准的受欢迎程度与进度之间没有关系。但是，对于提交数量高得多的少数基准测试，我们发现人机性能差距越来越大，这表明已经超出了人机性能。最受欢迎的基准测试，即SQuAD 1.1（Rajpurkar等，2016）和2.0（Rajpurkar等，2018）取得了最大的进步，机器性能远远超过了人类性能。

总而言之，当涉及基准任务的复杂性时，没有一种直接的方法可以对此进行分析。虽然基准上的人和机器性能可以说明任务的复杂性，但我们必须考虑这些性能指标本身的各种限制，以及可能阻碍或推动机器性能进步的其他因素，例如基准数据大小，年龄和知名度。所有这些问题都会影响我们如何看待基准测试的复杂性，因此必须对结果进行相应的解释。

3. Knowledge Resources

3.1 An Overview of Existing Knowledge Resources

3.1.1 LINGUISTIC KNOWLEDGE RESOURCES

Annotated linguistic corpora.

Penn Treebank: CFG, POS and structure.

$\to NP\ VP$

Penn Discourse Treebank (PDTB): adding annotated discourse structures.

OntoNotes: integrating with word sense, proper name, coreference, and ontological annotations, as well as some Chinese linguistic annotations.

Abstract Meaning Representation (AMR): sentence-level semantic formalism.

Lexical resources.

WordNet: concepts (a list of synonyms) and their semantic relations to other words (antonymy, hyponymy/hypernymy, entailment, etc.).

VerbNet: hierarchical English verb lexicon that is created based on the verb classes from the English Verb Classes and Alternations (EVCA) resource. VerbNet defines many classes of verbs and their argument structures, selectional restrictions on the arguments, and syntactic descriptions.

VerbOcean: captures a network of finer-grained relations among a smaller set of common verbs.

VerbCorner: provides crowdsourced validation for VerbNet.

Frame semantics.

FrameNet: provides a database of semantic frames describing situations, information about them (e.g., the expected participants), relations between them, and sentences annotated for elements of the frames.

PropBank

Pre-trained semantic vectors. Using continuous numeric vector to capture semantics of words.

Using counts of co-occurring n-grams for statistical language modeling, then using these counts to generate sparse semantic vectors
word2vec: train neural networks on word co-occurrence classification tasks generated from large texts. The learned weights from these neural networks are then used as dense vector representations of words.
GloVe
sub-word information are leveraged to better handle rare words. FastText, wordpiece embeddings

3.1.2 COMMON KNOWLEDGE RESOURCES

Common knowledge refers to well-known facts about the world that are often explicitly stated (Cambria et al., 2011).

YAGO

DBpedia

WikiTaxonomy

Freebase

NELL

Probase

Wikidata

3.1.3 COMMONSENSE KNOWLEDGE RESOURCES

Commonsense knowledge, on the other hand, is considered obvious to most humans, and not likely to be explicitly stated (Cambria et al., 2011).

Cyc

ConceptNet

SenticNet

Isanette and IsaCore

COGBASE

WebChild

LocatedNear

ATOMIC

ASER

3.2 创建知识资源的方法

与创建第2节中描述的基准类似，已采用了各种方法来创建知识资源。这些方法的范围从专家的手动编码到从Web文档中的文本挖掘，再到众包收集。这些方法的详细说明由Davis和Marcus（2015）提供。在这里，我们简要讨论这些方法的优缺点。

手动编码。早期的知识库通常是手动创建的。典型的例子是Cyc，它是由知识工程师生产的，他们将常识知识手工编码为CycL形式主义（Lenat＆Guha，1989）。自1984年首次发布以来，Cyc在过去的35年中一直在不断发展。这种手动编码的成本很高，这种手动编码的成本很高，估计总成本为1.2亿美元（Paulheim，2018）。结果，Cyc相对于其他资源而言很小，并且增长非常缓慢。另一方面，这种基于专家的方法可确保高质量的数据。

文本挖掘。文本挖掘和信息提取工具通常用于从Web上的信息源自动生成知识图谱和分类。维基百科是一种流行的信息源，经常从中提取知识创建常识知识库，例如YAGO（Suchanek等人，2007），DBpedia（Auer等人，2007），WikiTaxonomy（Ponzetto和Strube，2007）。其他知识库通过爬虫从Web上爬取，例如NELL（Carlson等人，2010），或从基准数据集，例如ATOMIC（Sap等人，2019a）或其他知识库，例如IsaCore（Cambria等人，2014b）生成。KnowItAll（Etzioni，Cafarella，Downey，Popescu，Shaked，Soderland，Weld和Yates，2005）和TextRunner（Etzioni，Banko，Soderland和Weld，2008）是从在线资源中提取此常识的流行方法。

但是，由于常识性知识很少得到明确说明，因此从文本源中提取更为困难。通常需要额外的过程来获得文本以外的知识。例如，已使用过程从网络文本（Schoenmackers，Etzioni，Weld和Davis，2010年； Gordon和Schubert，2011年）和知识图谱（Berant，Dagan和Goldberger，2011）中提取未陈述的推理和文本包含规则。这样的规则可能对第2节中介绍的许多基准很有用。已提出了一些过程来从文本中提取事件的时间常识，特别是对于MC-TACO等基准（Zhou等人，2019）很有用，需要这些知识。事件的预期持续时间可以通过Kozareva和Hovy（2011）以及Samardžic和´Merlo（2016）提出的过程来收集，事件的预期发生频率可以通过Gordon和Schubert（2012）的工作来了解。有关事件顺序及其参与者的信息可以通过Chambers和Jurafsky（2008）以及Wang，Zhang和Chang（2017）提出的过程来提取，这可能有助于收集常识性事件之间的常识。物体之间的常识性物理和空间关系可以通过福布斯（Forbes）和崔（Choi）（2017），Collell，Gool和Moens（2018）以及Yang，Birnbaum，Wang和Downey（2018b）提出的过程来推断。 Chaganty和Liang（2016）以及Spithourakis和Riedel（2018）的过程也可以识别和预测数字与语言之间的关系和趋势。实体之间的一般比较常识关系，例如熊比狗更危险的知识，可以通过Tandon，De Melo和Weikum（2014b）的过程来收集。

这些文本挖掘方法的主要优势是成本效率。根据Paulheim（2018）的说法，在Wikipedia提取的DBpedia和YAGO中创建语句的成本分别为1.85美分和0.83美分（USD），这比在Cyc中手动编码语句的成本低数百倍（估计为每条语句约$ 5.71）。这使得文本挖掘方法可以轻松扩展以创建大型知识库。但是，缺点是，如果从公开的在线数据中提取信息，则所获得的知识可能嘈杂且不一致。存在一些自动纠错过程，例如Spithourakis，Augenstein和Riedel（2016）的过程，该过程使用语言模型来识别和纠正数字的文本误解。但是，以这种方式自动生成知识资源时，仍然可能需要进行人工验证（Gordon，Van Durme和Schubert，2010年）。

众包。创建知识库的另一种非常流行的方法是众包。负责制作ConceptNet的Open Mind常识项目（Liu＆Singh，2004）使用一种竞争性的在线游戏来接受人类以自由文本形式发表的陈述（Singh，2002）。后来，研究人员通过自动过程将收集到的语句中的知识转换为知识图。这种使用游戏吸引用户免费执行人类智能任务的方法通常称为“有目的游戏”（GWAP）。其他GWAP包括用于收集VerbCorner注释的GWAP（Hartshorne等人，2013），以及Rodosthenous和Michael的Robot Trainer知识获取游戏（2016），其中玩家必须向虚拟机器人教授人类知识。众包成本很难评估。它的范围从字面上是免费获得（例如GWAP，如Open Mind常识）到估计每份声明2.25美元（Paulheim，2018）用于付费众包工作。尽管从长远来看，游戏方法可能会更便宜，但开发这样的游戏平台不可避免地会耗费更多时间。正如戴维斯（Davis）和马库斯（Marcus）（2015）指出的那样，众包的另一个挑战是典型的人群工作者可能无法遵循工程师已经掌握的理论和知识表示形式。结果，通过众包获得的知识可能有些混乱，这又经常需要人工专家的验证。

在获取的知识的成本和质量之间的权衡方面，这些方法中的每一种都有其自身的优点和缺点。这些知识资源大多数都是自下而上开发的。目标是创建通用知识库，以为各种学习和推理任务提供归纳偏置。然而，目前尚不清楚是否达到了这一目标，以及在实践中这些知识资源在多大程度上应用于自然语言推理。如戴维斯和马库斯（Davis and Marcus，2015）所建议的，对Cyc和其他资源进行系统的研究将是有用的。

3.3 利用不完整的资源

由于人类拥有大量知识，因此没有一个知识资源是完整的，即使最大的资源也缺少在NLI基准上表现良好的基本知识。例如，这是在ConceptNet（Liu＆Singh，2004）中发现的，它缺少基于直观心理学的Event2Mind基准的许多必需关系（Rashkin等，2018b）。为了解决这个问题，已经提出了几种利用不完整知识库的方法，从降维技术到提取性和自动知识库完成技术。

降维。一种方法是通过降维。其中一个例子是AnalogySpace（Speer等人，2008），该算法与最新版本的ConceptNet打包在一起（Speer等人，2017）。 AnalogySpace使用主成分分析来沿优度和难度等维度进行类比，平滑缺失和噪声关系。**Kuo和Hsu（2010）**使用一种相似的方法来计算知识图谱结构之间的相似度，并从中提取类比关系，从而产生新的关系，其中高达77.6％的关系被人群工作者判断为准确。这种方法的缺点是它不能创建新的术语，而只能在知识图谱中的任何现有术语之间生成置信度得分（Li，Taheri，Tu和Gimpel，2016年）。

提取式知识库补全。最近有工作旨在通过建立新的关系来补全知识库。Li等。（2016）训练了一个神经网络，以将ConceptNet中的关系与虚假关系区分开，然后可以将其用于对提议的新关系的真实性进行评分。此外，他们使用来自Open Mind Common Sense Singh（2002）的潜在众包文本来训练单词嵌入，该词嵌入将自然语言查询映射到ConceptNet中的刚性词关系。 Jastrz˛ebski，Bahdanau，Hosseini，Noukhovitch，Bengio和Cheung（2018）使用这种映射从文本中挖掘新颖的常识知识关系，而Saito，Nishida，Asano和Tomita（2018）训练了一个模型通过语言查询来共同生成和补全知识库，以提高所提出关系的准确性。

自动知识库完成。与其从文本中提取新的关系，不如从现有的关系中推断出新的关系。 Angeli和Manning（2014）使用一个宽松的逻辑框架从一个大型知识库中的现有关系中推断出新颖的关系，并证明了这种新关系可以成功地用于文本蕴含任务中的推理。最近，神经网络被用来产生新的关系。一个例子是记忆比较网络（Andrade，Bai，Rajendran和Watanabe，2018年），该网络对知识图中的现有时间关系（即事件的典型排序）进行概括，以获取新的时间关系。 Bosselut，Rashkin，Sap，Malaviya，Celikyilmaz和Choi（2019）最近的一项类似工作训练了一个关于现有关系的转换器，以推断知识图中的新颖关系。当在ConceptNet上训练此模型时（Speer等人，2017），人类工人将高达92.1％的生成关系评为正确，这证明了该技术对于已经很大但不完整的知识库的潜在有效性。尽管当前的努力很有希望，但未来的工作将需要继续寻找和改进解决方案，以解决在这些知识资源中观察到的长尾现象（Davis＆Marcus，2015）。

4. Learning and Inference Approaches

###4.1符号方法

Symbolic approaches

Peirce (1883) proposed the process of logical abduction, i.e., the process of making a conclusion using a limited set of observations and a minimal number of assumptions, similar to plausible inference as defined by Davis and Marcus (2015) for language problems.

Davis（2017）对常识推理中的这些方法进行了更详细的介绍。

Among the surveyed benchmarks, symbolic approaches have primarily been applied in the early RTE Challenges. One example by Raina, Ng, and Manning (2005) parsed sentences into a logical form, then performed abduction over them using learned assumptions and likelihoods in order to determine if a high-likelihood set of assumptions can be used to prove that a sentence entails another. Giampiccolo et al. (2008) used outside semantic knowledge from resources like Wikipedia, WordNet (Miller, 1995), and VerbOcean (Chklovski & Pantel, 2004) to augment information in the hypothesis sentence, then attempted to map this to words in the premise sentence using manually authored logic rules. A later approach developed natural logic (Lakoff, 1970) into a formalism for NLI, parsing the premise and hypothesis into a natural logic form and using a decision tree to compare their features and make a decision (MacCartney & Manning, 2007). They show that combining this approach with an existing statistical RTE model exceeds the state-of-the-art performance on the third RTE Challenge dataset (Giampiccolo et al., 2007). More recently, the baseline approach to the Triangle-COPA benchmark achieved 91% accuracy by creating a comprehensive set of manually authored logic and commonsense rules to use with given mappings from the natural language in the benchmark data to logical forms (Gordon, 2016).

To facilitate more practical logic-based reasoning, another body of work focuses on developing approaches to automatically mapping natural language text to a logical form (Kamath & Das, 2018), coined as semantic parsing.

手动编写的逻辑规则和形式已被证明可以很好地完成各种推理任务。Davis（2017）对常识推理中的这些方法进行了更详细的介绍，但我们介绍一些已应用于我们在第2节综述的常识基准上的方法。例如，为早期RTE挑战创建的某些系统中就应用了手动编写的逻辑规则（Raina，Ng & Manning, 2005年）。它们也被应用在最近的工作中，例如Triangle-COPA基准的基线方法，该方法达到了91％的准确率（Gordon, 2016年）。在第四次RTE挑战（Giampiccolo et al., 2008）的三选项任务中，性能最高的系统（Iftene, 2008）同时使用了手动编写的逻辑规则和Wikipedia，WordNet（Miller，1995）和VerbOcean的外部知识（Chklovski & Pantel, 2004）。尽管已证明手动编写的逻辑规则在某些任务中非常有效（Gordon, 2016年），但这种方法无法扩展到更复杂的任务和推理中。自动将自然语言句子映射为逻辑形式，称为semantic parsing，综述见 Kamath & Das, 2018。

4.2 Early Statistical Approaches

统计方法通常依赖工程化特征来训练各种任务的统计模型。例如，基于词袋和单词匹配的词法特征在较早的RTE挑战赛中经常使用（Dagan et al., 2005； Bar-Haim et al., 2006），但通常取得的结果仅比随机猜测略好（Bar-Haim et al., 2006）。更具竞争性的系统使用了更多的语言特征来进行预测，例如语义依赖性和释义（Hickl，Bensley，Williams，Roberts，Rink和 & Shi, 2006年）、同义词、反义词和源自训练数据的上位词关系，以及基准数据中隐藏关联偏差（Lai and Hockenmaier, 2014）。

外部知识和Web通常用于补充从训练数据中获得的特征。例如，在第一个RTE挑战赛中最好的系统（Dagan et al., 2005）使用了朴素贝叶斯分类器以及从在线搜索引擎中得到的词共现特征（Glickman, 2006）。第七次RTE挑战（Bentivogli et al., 2011年）的最佳系统中也采用了类似的方法，该方法利用了第3节中的知识资源，从训练数据中提取的首字母缩写词和语言知识来计算句子间蕴涵的统计度量（Tsuchida & Ishikawa, 2011）。尽管使用某些外部知识比仅使用从训练数据中提取的语言特征的模型更具优势，但统计模型在大数据规模的最新基准测试中仍然没有竞争力。然而，正如JOCI（Zhang et al., 2017）所证明的那样，此类模型可以作为新基准的有用基线。

4.3 Neural Approaches

可用于最新基准的数据量越来越大，使得训练神经模型成为可能。这些方法通常排在各种排行榜的首位。图15显示了神经模型中的一些常见组件。首先，词的分布表示是基本的，通常在大规模文本语料库上使用神经网络训练词向量或嵌入。在传统的词嵌入模型（如word2vec（Mikolov，Chen，Corrado和Dean, 2013）或GloVe（Pennington，Socher和Manning, 2014））中，嵌入向量与上下文无关。无论目标单词出现在什么上下文中，一旦经过训练，其嵌入向量始终是相同的。因此，尽管这种现象在语言中很普遍，但是这些嵌入缺乏在不同上下文中对不同的词义进行建模的能力。为了解决这个问题，最近的工作开发了上下文单词表示模型，例如Peters，Neumann，Iyyer，Gardner，Clark，Lee和Zettlemoyer的语言模型嵌入（ELMO）（2018）以及Devlin et al.（2018）的Transformers的双向编码器表示（BERT）。这些模型根据单词出现的上下文为单词提供不同的嵌入向量。这些经过预训练的词表示可以用作特征，也可以针对下游任务进行微调。例如，Radford，Narasimhan，Salimans和Sutskever（2018）的Generative Pre-trained Transformer（GPT）和BERT（Devlin et al., 2018）引入了特定于任务的最小参数，并且可以轻松地根据下游任务在修改后的最终层和损失函数基础上对参数进行微调。

在词嵌入层之上，针对不同下游应用程序设计了特定于任务的网络结构。这些结构通常采用循环神经网络（RNN，例如LSTM和GRU）、卷积神经网络（CNN），或者最近的Transformer来解决特定任务。然后根据任务选择网络的输出层，例如线性层加softmax用于分类，语言解码器用于语言生成。由于语言的序列特性，基于RNN的架构得到了广泛应用，并且经常在基线方法（Bowman et al., 2015; Rashkin et al., 2018b）和当前最先进的方法(Kim, Hong, Kang, & Kwak, 2019; Chen, Cui, Ma, Wang, Liu, & Hu, 2018; Henaff, Weston, Szlam, Bordes, & LeCun, 2017) 中实现。给定不同的结构，神经模型也将从诸如内存增强和注意力机制之类的技术中受益。对于需要基于多个支持事实进行推理的任务，例如bAbI（Weston et al., 2016），诸如内存网络（Weston，Chopra和 & Bordes, 2015）和循环实体网络（Henaff等, 2017年）等内存增强网络已显示出其有效。对于需要输入和输出之间对齐的任务，例如SNLI之类的文本蕴含任务（Bowman et al., 2015），或捕获长期依赖关系，对模型采用注意力机制通常是有益的。

接下来，我们给出当前最先进系统的示例，尤其着重于三个方面：注意力机制、内存增强以及上下文模型和表示。

####4.3.1 注意力机制

自从注意力机制在神经机器翻译中首次应用以来（Bahdanau，Cho和Bengio, 2015），注意力已广泛用于NLP任务中，尤其是刻画输入（编码器）和输出（解码器）之间的对齐。对注意力进行建模具有几个优点。它允许解码器直接来到并专注于输入的某些部分。它通过提供一种将输入序列中距离较远的状态计算进来的方法来缓解梯度消失问题。另一个优点是，模型学习到的注意力分布会自动提供输入和输出之间的对齐，有助于理解它们之间的关系。由于这些优势，注意力机制已成功应用于常识基准任务。

RNN / CNN中的注意力机制。与原始模型相比，向RNN，LSTM，CNN等添加注意力机制已显示出可以改善各种任务的性能（Kim et al., 2019）。对于要求输入和输出之间保持一致的任务尤其成功，例如需要对上下文和假设进行建模的各种RTE任务，以及需要直接指向相应段落的阅读理解问题，例如MCScript（Ostermann et al., 2018）。

例如，SNLI任务的官方排行榜（Bowman et al., 2015）报告说，性能最佳的系统（Kim et al., 2019）部分受DENSENET的启发（Huang，Liu，van der Maaten和Weinberger, 2016）。），使用密集连接的RNN，并将注意力机制中的特征和网络中的循环特征连接起来。正如Kim et al.所讨论的（2019），这种对齐产生的注意力权重有助于系统对高度相似的句子对做出准确的包含或矛盾的判断。例如上下文句子“在白色建筑物前的几个人”对比假设句子“在灰色建筑物前的几个人”。对于在SemEval 2018中使用的MCScript任务（Ostermann et al., 2018），在线结果表明，使用带有注意力层的基于双向LSTM的方法性能最好（Chen et al., 2018），达到84.13％的准确率。

带注意力机制的RNN也有局限性，特别是在输入和输出之间的对齐方式不直接的情况下。例如，Chen et al. (2018)发现，是/否问题在MCScript中特别具有挑战性，因为它们需要对否定进行特殊处理以及对问题更深层次的理解。此外，由于在MCScript中回答问题的多项选择是人为编写的，而不是像其他QA基准一样直接从随附的段落中提取出来的，因此在将单词连回段落时会遇到一些困难，而这些问题仅凭词干提取无法解决。

Transformer中的自注意力。除了将注意力机制添加到RNN，LSTM或CNN等典型的神经模型之外，最近提出的Transformer架构完全由注意力机制组成（Vaswani，Shazeer，Parmar，Uszkoreit，Jones，Gomez，Kaiser和Polosukhin, 2017）。一个关键的区别是编码器和解码器中的自注意力层。对于输入序列中的每个单词位置，自注意力使它能够注意序列中的所有位置，以更好地对单词进行编码。它提供了一种方法来潜在地捕获单词之间的远程依赖关系，例如句法，语义和共指关系。此外，取代单注意力函数，Transformer执行多头注意的意义是：它以不同的线性投影多次应用注意力函数，因此允许模型联合捕获来自不同子空间的不同注意力，例如，综合可能表示同指关系和句法关系的信息。

Transformer的另一个大好处是它适用于并行计算。诸如RNN和LSTM之类的序列模型由于其顺序性质使其难以并行化。Transformer用注意力来捕获输入和输出之间的全局依存关系，从而最大程度地提高了可并行计算的量。 NLP任务（例如机器翻译和成分句法分析）的经验结果显示出性能的显著提升和训练成本的显著降低（Vaswani et al., 2017）。Transformer最近已用于GPT（Radford et al., 2018）和BERT（Devlin et al., 2018）等预训练上下文模型中，在许多常识基准上实现了最佳性能。

####4.3.2内存增强

前面提到，有一种流行的方法，用于需要理解带有多个状态变化或多个支持事实的段落的任务，例如bAbI（Weston et al., 2016）或ProPara（Mishra et al., 2018），涉及到利用动态内存来增强系统，该内存需要维护一段时间以表示世界的状态变化。我们将讨论内存网络（Weston et al., 2015），循环实体网络（Henaff et al., 2017）和最近的知识图谱机器阅读理解（KG-MRC）系统（Das et al., 2019）以突出这种方法的关键特性。

内存网络。Weston et al.(2015)的内存网络，作为bAbI（Weston et al., 2016）和CBT（Hill et al., 2015）的高性能基线方法而引入，通过在经典网络结构中添加长期内存组件来跟踪世界状态。一个内存网络包括一个内存数组，一个输入特征映射，一个通用模块（用于在给定新输入的情况下更新内存数组），一个输出特征映射以及一个将输出转换为适当的响应或动作的响应模块。网络可以接受字符、单词或句子作为输入。网络的各个组件可以采用不同的形式，但它们的通用实现是神经网络，在这种情况下，该网络称为MEMNN。

维护长期内存的能力使得系统更多参与对世界状态和环境的跟踪。在CBT完形填空任务上（Hill et al., 2015），证明了内存网络在预测缺失的命名实体和普通名词方面可以胜过基于RNN和LSTM的方法，这是因为内存网络在进行推理时可以比这些方法利用更大的上下文。当在bAbI上进行测试时，MEMNNs也达到了高性能并超过了LSTM基线，并且在某些任务上可以用更少的训练示例来实现高性能（Weston et al., 2016）。

循环实体网络及其变种。 Henaff et al.（2017）的循环实体网络（ENTNET）由几个动态内存单元组成，其中每个单元都学会表示输入中提到的实体的状态或属性。每个单元都是一个门控RNN，仅当接收到与特定实体相关的新信息时才更新其内容。此外，ENTNET的内存单元并行运行，从而允许同时更新多个内存位置。

据我们所知，ENTNET是第一个通过bAbI中所有二十项任务的模型（Weston et al., 2016），并在CBT上取得了令人印象深刻的结果（Hill et al., 2015），在两个基准上均优于内存网络基线。 ENTNET在Story Commonsense基准（Rashkin et al., 2018a）中也被用作基线，试图追踪ROCStories（Mostafazadeh et al., 2016）故事中角色的动机和情感，并取得了一些成功。 ENTNET的一个优点是，它在读取文本时可以维护和更新世界状态，这与内存网络不同，内存网络只能在处理完整个支持的文本和问题并将其加载到内存时才进行推理。例如，给定具有多个问题的支持文本，ENTNET无需多次处理输入文本来回答这些问题，而内存网络则需要为每个问题重新处理整个输入。

尽管ENTNET在bAbI上实现了最先进的性能，但在ProPara上却表现不佳（Mishra et al., 2018），这是另一个需要跟踪世界状态的基准。据Das等（2019），ENTNET的一个缺点是，尽管它为实体维护内存寄存器，但它没有针对实体随时间推移的各个状态进行单独的嵌入。他们进一步解释说，ENTNET不会显式更新内存中的共引，这与读取结构简单的、自动生成的bAbI数据相反，在读取富含共引的人工撰写文本时肯定会导致错误。

与ENTNET相似的模型是Seo，Min，Farhadi和Hajishirzi（2017）的查询减少网络（QRN），该网络还使用了多个循环单元作为由RNN控制的内存单元，以跟踪过程文本中的实体。像ENTNET一样，内存单元并行运行，消除了梯度消失的问题，该问题使完全基于RNN的模型难以跟踪过程文本中的长期依赖关系。在处理程序文本以预测对象的状态和位置时，可以在任何时候查询模型所拥有的实体表示形式，而不仅仅是在典型过程文本基准（例如bAbI）要求的文本结尾处（Weston等，2016）。 QRN在bAbI上可达到与ENTNET相当的结果。

另一个类似的变体，由Graves，Wayne，Reynolds，Harley，Danihelka，Grabska-Barwinska，Colmenarejo，Grefenstette，Ra´malho，Agapiou，Badia，Hermann，Zwols，Ostrovski，Cain， King，Summerfield，Blunsom，Kavukcuoglu和Hassabis（2016）提出的微分神经计算机，使用多个循环单元作为存储单元。与其他模型不同，DNC的内存单元由中央LSTM控制，而ENTNET的几乎所有计算都在内存单元中进行（Henaff等，2017）。尽管ENTNET在bAbI基准上实现了比原始DNC更高的性能（Weston等人，2016），但Franke，Niehues和Waibel（2018）提出的DNC的优化双向形式超过了先前所有模型在bAbI上的最高性能，实现了约0.4的响应词错误率。这个版本非常接近完美地解决了bAbI的问题，因此我们不太可能看到任何新模型尝试基准测试。

内存、注意力和合成网络。在其他领域，例如视觉问题解答（VQA），也开发了对NLI有用的类似模型。内存、注意力和合成（MAC）网络就是这样一个例子（Hudson＆Manning，2018）。 MAC网络由链接的存储单元组成，每个链接的存储单元都包含一个单独的内存和注意力控制器。控制器关注输入的问题以更新确定该问题所需推理类型的隐藏控制状态，同时读写单元从控制器引导的知识源（例如图像或文本段落）中提取信息，并将其写入内存。虽然最初应用于VQA任务，但它已经超过了应用于语言问题的类似网络结构的性能，例如DNC（Graves等人，2016）。这样，MAC网络对于跟踪过程文本中的世界状态也可能有用。

神经过程网络。与这些模型密切相关的是由Bosselut，Levy，Holtzman，Ennis，Fox和Choi（2018）引入的神经过程网络（NPN），其目的是模拟行为对过程文本中实体的影响。它将输入的句子嵌入到GRU中，然后使用多层感知器（MLP）预测每个句子中发生的动作，并使用句子级的循环注意力机制来识别受动作影响的实体。选定的动作和实体被馈送到模拟模块中，该模块使用循环单元和由动作引起的状态变化的外部知识来维护过程文本中所有实体的状态的嵌入。与以前的类似模型不同，神经过程网络还学习函数运算符来表示动作，从而使它们能够在程序文本中解释由每个动作所改变的对象的属性。他们在烹饪食谱数据集上的结果（Kiddon，Zettlemoyer和Choi，2016年）证明，学习这些动作嵌入可以使模型学习到更多有用的程序文本表示形式。这种表示方式不仅使模型能够理解文本，而且可以预测文本中将来的动作。具有这种适合学习动作动词语义的模型，对于解释需要直观物理的NLI基准的预测可能很有用，这是许多当前最新模型所不具备的能力。

KG-MRC。**Das et al.（2019）**的知识图谱机器阅读理解（KG-MRC）系统，维护类似于内存网络的动态内存。但是，内存以知识图谱的形式存在，根据过程文本的每个句子来生成，利用了信息提取领域的研究成果。生成的知识图谱是两部分的，将段落中的实体与其位置联系在一起（当前，它仅表示位置关系）。每读入一个句子，更新实体和位置之间的连接以生成一个新图谱。根据ProPara官方排行榜，Das et al.（2019）的知识图谱-机器阅读理解（KG-MRC）系统在基准上达到了最高的准确率，在论文中报道为47.0％。它比PROPARAT（ProPara的最新技术）具有优势（Tandon，Mishra，Grus，Yih，Bosselut和Clark, 2018年）。尽管PROSTRUCT手动指定硬性和软性常识约束，但进一步的研究表明，KG-MRC自动学习这些约束，与PROSTRUCT相比，违反它们的频率更低。这表明使用循环图表示法可以帮助模型学习这些约束，这可能比手动指定要好。此外，由于KG-MRC包括训练好的阅读理解模型，因此它可能会更好地跟踪在这些文本中经常发生的共指关系的变化。

NCET。 Gupta和Durrett（2019）的神经条件随机场（CRF）实体跟踪（NCET）模型改为通过实体双向LSTM跟踪每个实体的状态和位置。这些LSTM使用新的、针对训练段落中实体的状态和位置的变化的众包标注进行训练。神经CRF维护所有对象状态的整体结构，并执行物理定律，例如对象其被破坏后无法移动。根据ProPara排行榜，NCET是基准上的最先进技术，其F值达到62.50，比KG-MRC有了明显提高。

####4.3.3 上下文模型和表示

NLP最近最激动人心的进展之一是预训练模型和嵌入的发展，这些模型和嵌入可用作特征或进一步针对下游任务进行微调。这些模型通常基于大量无监督的文本数据进行训练。诸如word2vec（Mikolov et al., 2013）和GloVe（Pennington et al., 2014）之类的早期预训练词嵌入模型已得到广泛应用。但是，这些模型与上下文无关，这意味着在不同的上下文中使用相同的嵌入，因此它们无法捕获不同的词义。最近的工作通过预训练模型解决了这个问题，该模型可以提供基于上下文的词嵌入。最具代表性的模型是ELMO，GPT和BERT。接下来，我们对这些模型进行简要概述，并总结它们在所选基准测试任务上的性能。

ELMO。 ELMO的特征性贡献在于其上下文词嵌入，每个词嵌入都依赖于它们所属的整个输入语句（Peters et al., 2018）。这些嵌入是根据双向LSTM中学到的权重计算得来，该双向LSTM在有监督的十亿字语言建模基准上（Chelba，Mikolov，Schuster，Ge，Brants，Koehn和Robinson, 2014年）预训练。只需将这些嵌入添加到以前的最佳系统的输入特征中，便可以提高性能，这表明它们确实可以成功地表示单词上下文。作者的调查显示，ELMO嵌入使识别单词含义和POS成为可能，从而进一步支持了这一点。

ELMO嵌入系统发布后，它协助了在QA、文本蕴涵和情感分析领域的多个基准上对现有技术的超越。这包括SQuAD（Rajpurkar et al., 2018）和SNLI（Bowman et al., 2015）。此后，所有这些方法现在又已被其他新方法超越。ELMo仍然通常出现在基准的基线方法中，例如SWAG（Zellers et al., 2018）和CommonsenseQA（Talmor et al., 2019）。它通常与增强的基于LSTM的模型（例如ESIM模型（Chen，Zhu，Ling，Wei，Jiang和Inkpen, 2017））或基于CNN和双向GRU的模型（例如DocQA模型（Clark & Gardner, 2018））结合使用。

GPT。 Radford et al.的GPT（2018）使用由Vaswani et al.（2017）提出的Transformer架构，特别是其中的解码器。该系统在大量无监督的开放在线数据上进行了预训练，然后不同的基准数据集上微调。与ELMO不同，GPT无监督学习上下文嵌入，这使其可以不受限制地学习语言的特征。GPT的创造者发现，当将这种技术应用于大量的清洁数据时，与监督预训练相比，它生成了更多的有区分性的特征。然后，可以很容易地有监督地针对下游任务微调Transformer体系结构，而ELMO则不适合，而应该将其用作单独的任务特定的模型的输入特征。

GPT发布后，就在文本蕴涵、语义相似性、情感分析、常识推理等方面的12个基准上实现了最佳。其中包括SNLI（Bowman et al., 2015），MultiNLI（Williams et al., 2017），SciTail（Khot et al., 2018），Story Cloze Test（Mostafazadeh et al., 2016），COPA（Roemmele et al., 2011）和GLUE（Wang et al., 2018）。据我们所知，GPT仍然是Story Cloze Test和COPA的性能最高的记录系统，准确率分别达到86.5％和78.6％。 GPT在其他一些常识基准排行榜中也占有很高的位置。它通常被用作新基准的基线，例如CommonsenseQA（Talmor et al., 2019）。

Radford et al. (2018)识别出模型的几个局限性。首先，该模型具有较高的计算要求，出于明显的原因，这是不希望的。第二，模型预训练所依赖的Internet数据不完整，有时甚至不准确。最后，与许多深度学习NLP模型一样，GPT显示了在词法变化较大的数据上进行泛化的一些问题。

为了提高泛化能力并发展无监督训练方式，最近发布了更大的GPT 2.0（Radford, Wu, Child, Luan, Amodei, & Sutskever, 2019），与原始实现高度相似，但增加了大量参数，并以语言模型的形式出现。扩展后的模型在包括CBT（Hill et al., 2015）和2016 Winograd Schema Challenge（Davis et al., 2017）在内的多种语言建模任务上取得了最佳。此外，在无监督情况下，即只在文档和问题上训练，不在答案上训练，就超过CoQA的四种基线方法（Reddy et al., 2018）中的三个。在有监督情况下，将问题和答案直接喂给模型，以便可以基于问题和答案之间的相关性来更新模型参数。该模型可以通过观察自然语言演示来学习执行任务，而无需告知问题和答案在哪里。这样，可以确保模型不会对问题和答案之间的表面相关性过拟合。对模型预测的定性研究表明，确实已经学会了一些启发式方法来回答问题。例如，如果问一个“who”的问题，该模型已学会返回问题所在段落中提到的人的名字。这就证明了模型可以执行类似于基准测试期望的推理过程。

报告结果后，GPT 2.0的作者不愿发布其完整的预训练模型，训练数据集或训练代码，声称该模型令人印象深刻的文本生成功能可用于恶意目的，例如假新闻（Mak，2019）。但是，这使得无法复制或研究其结果。批评者认为，发布此类模型对于社区开发抵御此类攻击的防御机制至关重要（Zellers，2019）。为了证明这一点，Zellers，Holtzman，Rashkin，Bisk，Farhadi，Roesner和Choi（2019b）发布了一个非常相似的文本生成模型GROVER，并表明针对它的最佳防御方法实际上就是它本身。 GROVER可用于将自身生成的假新闻与真实新闻区分开来，其准确度最高可达92％，而其他最新的判别模型最多只能达到73％的准确度。完整的经过预训练的模型和代码最终于2019年11月发布，但是这场辩论已经开始了有关当前最新语言模型的潜在危险和防御措施的重要讨论。

BERT。最近，BERT模型（Devlin et al., 2018）在包括GLUE（Wang et al., 2018），SQuAD 1.1（Rajpurkar et al., 2016）和SWAG等多个基准上超过了最新的准确率（Zellers et al., 2018）基准。根据GLUE排行榜的数据，BERT最初在多任务基准测试中达到了80.4％的整体准确率。同时，根据SQuAD排行榜， BERT以87.433％的精确匹配精度解决了SQuAD 1.1，超过了人类达5.13％，根据SWAG排行榜，以86.28％的精度解决了SWAG，大大超出了GPT达到的最佳（Radford et al., 2018）。

发布后，BERT进一步在多个新排行榜上领先，例如OpenBookQA（Mihaylov et al., 2018），CLOTH（Xie et al., 2017），SQuAD 2.0（Rajpurkar et al., 2018），CoQA（Reddy et al.2018），ReCoRD（Zhang et al., 2018）和SciTail（Khot et al., 2018）。与基本模型一起引入的更深的BERT LARGE模型在OpenBookQA（Mihaylov et al., 2018）和CLOTH（Xie et al., 2017）的排行榜中名列前茅，分别达到60.40％和86.0％的准确率。根据SQuAD排行榜，在撰写本文时，BERT的各种实现已经多次击败SQuAD 2.0的最佳，目前实现了89.147的F度量。 BERT的改进后的集成实现以86.8％的准确率高居CoQA排行榜，而ReCoRD领先榜的单模型实现以74.76％的准确率高居首位。最近，更新了损失函数的BERT新实现以83.3％的准确率在GLUE排行榜占据首位，超过了之前的实现。大部分进展都只需要短短几个月的时间。

BERT与过去的具有预训练上下文嵌入的最佳系统相比，具有许多优势。首先，它比以前的竞争性系统（如GPT）在更大的数据上预训练（Radford et al., 2018）。GPT是在一个语料库上预训练，BERT在两个更大的段落语料库上进行两个任务的训练：完形填空任务，其中输入符号被随机屏蔽，以及句子排序任务，其中给定了两个句子，系统需要预测第二句话是否直接在第一句话之后。从大规模监督任务中进行的这种迁移学习已多次证明对解决NLP问题有效。与GPT相似，BERT对其最初尝试的11个常识基准测试任务中的每一个都进行了微调。

其次，BERT使用双向形式的Transformer架构（Vaswani et al., 2017）预训练上下文嵌入。这样可以更好地捕捉上下文，这是以前的竞争方法，如GPT（Radford et al., 2018）和ELMo（Peters et al., 2018）所没有的优势。相反，GPT使用从左到右的Transformer，而ELMo使用从左到右和从右到左的LSTM的连接。

最后，BERT的输入嵌入在表示上下文方面表现出优势，除了传统的符号嵌入之外，还捕获了每个符号所属的句子的嵌入（如果输入是一对句子的话），以及符号的位置嵌入。因此，它的嵌入可以表达每个唯一的单词及其上下文，也许比以前的系统更复杂。另外，它可以唯一地表示一个句子或一对句子，有利于解决问答，文本蕴含等方面的多种语言处理任务。

尽管BERT的变体在许多被调查的基准测试中仍然是最新技术，但其深而复杂的结构使其无法解释。根据Devlin等（2018），未来工作的目标将是确定BERT是否真正捕获基准数据集中的预期语义现象。不幸的是，Niven和Kao（2019）的早期调查结果表明，与许多用于语言任务的神经模型一样，BERT利用数据中的表层相关性来实现高性能，特别是在ARCT基准上（Habernal等人，2018）。像这样针对各种基准的更先进的神经模型进行更多的研究，将有助于评估模型在执行真正推理时实际取得了多少进展。

MT-DNN. 最近，Liu, He, Chen and Gao (2019)提出的另一种基于BERT的系统称为BIGBIRD或多任务深度神经网络（MT-DNN），在多个排行榜上取得竞争性表现，例如，在SciTail上准确率为94.07％，SNLI (Bowman et al., 2015)上的准确率为91.1％，而GLUE的准确率为83.1％，超过了BERT的原始实现。BIGBIRD模型的性能提升看起来主要归因于在微调过程中添加了多任务学习。这是通过特定于任务的层完成的，该层为特定任务生成表示，例如文本相似性和句对分类。双向Transformer的预训练有助于BERT学习适用于多个任务的通用词表示形式，而多任务学习则可以防止模型在微调期间过拟合到特定任务，从而使其能够利用更多的跨任务数据。

BERT及其变体目前是几乎所有常识基准测试任务的最佳技术，在某些情况下甚至超过了人类的表现。根据Devlin et al. (2018)，未来的目标是确定BERT是否能真正捕获基准数据集中的预期语义现象。此外，BIGBIRD模型能够通过添加特定于任务的层并启用多任务来提高多个基准的性能，而BERT在学习过程中可能会过于固定任务，并且可能会因区分特定任务而丢失有用的信息。它可能会从对多任务学习方法（如BIGBIRD）的进一步研究中受益。图3比较了ELMO，GPT，BERT和BIGBIRD在各种基准上的性能。

XLNET。较新的模型XLNET（Yang，Dai，Yang，Carbonell，Salakhutdinov和Le，2019）在BERT发行后的多个基准上都超过了BERT的性能，包括GLUE（Wang等，2018），SQuAD 1.1（Rajpurkar等人，2016）和SQuAD 2.0（Rajpurkar等人，2018）和DREAM（Sun等人，2019），超过了前两个方面的人类表现。这主要是通过使用新的预训练方法来完成的。Yang等人识别出BERT的一个关键限制是，由于符号是为预训练任务而随机屏蔽的，因此在预训练和微调中，语言数据之间存在差异。此外，由于BERT假设这些被屏蔽的预测符号是独立的，所以它可能会错过这些被屏蔽的符号之间的重要关系，例如，如果被屏蔽的符号是短语“ New York”中的New和York（Yang等人，2019）。为了解决这个问题，Yang等。使用可以从左右上下文进行训练的自回归语言模型。他们使用更新的Transformer-XL而不是双向Transformer作为主要架构（该模型在固定范围内对长期依赖性进行建模）（Dai，Yang，Yang，Carbonell，Le和Salakhutdinov，2019）。虽然他们失去了双向训练文本的好处，但他们提出了一种新的排列技术，该技术可使标注序列及其所有排列的似然最大化。这使该模型可以从左右两个方向联合进行上下文训练，同时捕获自回归模型和双向模型的一些优势，并解决预训练和微调数据之间的差异。此外，置换技术使XLNET可以捕获预测符号之间的依赖关系，并且作者证明，与以前的模型相比，该模型通常捕获更多符号之间的依赖关系。

RoBERTA. BERT的原始实现和体系结构已被多种变体和其他基于Transformer的模型所超越，其中一些已在本节中进行了讨论。但是，仅采用优化的预训练方法的更新版本称为鲁棒优化的BERT方法（ROBERTA），最近已成为某些基准测试的最新技术（Liu，Ott，Goyal，Du，Joshi，Chen，Levy， Lewis，Zettlemoyer和Stoyanov，2019b），返回到RACE（Lai等，2017），SWAG（Zellers等，2018）和GLUE（Wang等，2018）的排行榜顶部，在后两者上超过了人类的表现。自那以后，ROBERTA也在其他排行榜中名列前茅，例如WinoGrande（Sakaguchi等人，2019）。对预训练方法进行的一些主要更改包括在每个时间段的完形填空预训练任务中将masked标记随机分配，而不是在每个epoch中保持相同，并在下一句预测预训练任务中添加其他任务，其中模型必须预测候选下一句是否来自同一文档。这些变化以及对超参数选择的更多关注使他们能够将BERT预训练到比以前更高的潜力。

ALBERT. 基于Transformer的模型的许多改进来自训练更多的参数，但是由于硬件限制，随着时间的流逝，这种趋势变得越来越困难（Lan，Chen，Goodman，Gimpel，Sharma和Soricut，2019年）。 Lan等人的Lite BERT（ALBERT）。（2019）实现了几种新颖的参数减少技术，以提高BERT的训练速度和效率，从而使模型可以比原始大型BERT进行更深的扩展，而参数却更少。此外，在句子排序的预训练任务中，他们基于语篇连贯性的目标使用新的自我监督的损失。这些改进带来了排行榜上的更卓越表现，包括GLUE（Wang等人，2018），SQuAD 2.0（Rajpurkar等人，2018），RACE（Lai等人，2017）和DROP（Dua等人， 2019）。

何时进行微调。这些新的经过预训练的上下文模型以不同的方式应用于基准任务。特别是，ELMo传统上一直用于为单独的特定于任务的模型生成输入特征，而基于BERT的模型通常会针对各种任务进行微调，然后直接应用于该任务。了解为什么做出这些选择对于这些模型的进一步发展很重要。

Peters et al. (2018)研究了在训练两个模型时的这种差异，并比较了将输出作为另一个模型的特征以及微调以直接用于各种任务这两种不同情况的性能。结果表明，ELMO的LSTM体系结构实际上可以进行微调，并可以直接应用于下游任务，就像BERT那样，尽管要在ELMO上执行这种微调更加困难。此外，将ELMO生成的上下文嵌入用作单独任务的输入特征时，在MultiNLI（Williams et al., 2017）和SICK（Marelli et al., 2014a）等句对分类任务上性能更好。他们推断，这可能是因为ELMO的LSTM体系结构要求符号必须顺序输入，而不是像BERT的Transformer体系结构那样，能够跨句子对将所有标记相互比较。 BERT的输出也可以用作特定任务模型的特征，并且取得了一些成功，并且以这种方式使用时，在大多数研究的任务中，它实际上比ELMO表现要好。需要特别注意的是，如果进行模型微调，则在例如Microsoft Research Paraphrase Corpus（Dolan & Brockett, 2005）等句子相似度任务上，其性能会明显提高。

Liu，Gardner，Belinkov，Peters和Smith（2019）进一步研究了这些模型产生的嵌入的可传递性，发现即使使用它们训练的线性模型也可以与最新的任务特定模型相媲美。他们还发现，来自LSTM模型（如ELMO）最低层的特征具有最高的可移植性，而较高层的功能则更具任务特定性。同时，Transformer模型（例如BERT）的中间层的特征最具可移植性，并且没有观察到嵌入通过层变得更加特定于任务。与在特定任务上进行微调相比，当将它们用于预训练的嵌入时，这可能会更清楚地揭示这些模型的性能差异。随着这些上下文模型的不断流行，对其进行更多的调查对于研究界将是无价的。

4.4 引入外部知识

当前工作趋势的一个挑战是知识资源与解决这些基准任务所采用的方法之间的脱节。如第2节所述，我们调查的大多数基准测试都需要人类解决大量外部知识。令人惊讶的是，许多最近的方法，尤其是神经方法，仅依靠基准训练数据和一些语言资源（通常是预先训练的词嵌入）来建立推理和推理的模型。尽管在第3节中讨论了常识和常识知识资源的可用性，但实际上并没有将它们全部用于实现基准任务的最新性能，并且仅在最近的任何方法中应用了其中的少数几个。

语言资源的使用。 WordNet（Miller，1995）可能是应用最广泛的词汇资源，它的单词关系对于文本蕴含问题特别有用。因此，WordNet在整个RTE挑战中都出现在早期的统计方法中（Dagan等人，2005; Hickl等人，2006; Giampiccolo等人，2008; Iftene，2008; Bentivogli等人，2011; Tsuchida＆Ishikawa，2011年）。在最近的基准测试中，WordNet还被证明可以改善神经模型的性能。例如，Bauer，Wang和Bansal（2018）使用WordNet的关系来帮助回答NarrativeQA中需要外部知识的问题（Kociskýýet al。，2018）。基于知识的推理模型（KIM），由Chen，Zhu，Ling，Inkpen和Wei（2018）所提出的与WordNet更相关的方法，，通过全程使用WordNet，提高了SNLI（Bowman等人，2015）和MultiNLI（Williams等人，（2017年）基准的性能。前提和假设文本中的成对单词使用知识丰富的共同注意进行对齐，其中如果WordNet中成对的两个单词之间存在关系，则它们具有较高的注意力得分。后来，他们使用这些关系的内容来帮助推断一个包含、矛盾或中立的类别标签。 FrameNet（Fillmore et al。，2002）也是一个有用的外部知识资源，尤其是关于常见事件的语义的知识。例如，Botschen，Sorokin和Gurevych（2018）使用FrameNet嵌入了在给定上下文中识别的事件，并将此嵌入与传统的词嵌入输入连接起来，以提高ARCT基线模型的性能（Habernal等，2018）。

使用公共知识资源。诸如DBpedia（Auer等人，2007）和YAGO（Suchanek等人，2007）等流行的公共知识资源已用于创建基准（Morgenstern等人，2016; Choi等人，2018），但尚未使用直接用于解决任何基准。可能的例外是带有信息实体的增强语言表示（ERNIE）模型，该模型使用Wikidata中的常识为文本中提到的实体创建知识增强的嵌入，但未应用于我们的调查基准（Zhang，Han，Liu， Jiang，Sun，＆Liu，2019）。另一个相关示例来自Emami，De La Cruz，Trischler，Suleman和Cheung（2018），他们使用来自搜索引擎的信息来帮助解决Winograd Schema Challenge（Davis等人，2017）。

大多数方法仅通过基准训练数据和大量的预训练文本获得相关知识。尽管这些大量的预训练文本可能有助于获得一些语言知识和常识，但是模型可能仍然缺少常识知识，而常识却通常未被阐明（Cambria等，2011），因此不太可能出现在预训练中。训练文本，大部分是从Web获得的。

使用常识性知识资源。 Cyc（Lenat＆Guha，1989）和ConceptNet（Liu＆Singh，2004）是迄今为止讨论最多的常识知识资源。但是，在我们的任何调查方法中都没有出现Cyc，而ConceptNet仅偶尔被使用。 ConceptNet用于OpenBookQA的神经基线方法（Mihaylov等，2018），其中问题明确需要外部常识和常识。有趣的是，他们发现，从ConceptNet中引入事实会分散注意力，从而降低性能，这表明选择适当关系的技术对于减少干扰非常重要。Bauer等。（2018）在NarrativeQA的知识增强型神经方法中使用了更为谨慎的技术（Kociský等人，2018）。对于问题中的每个概念，ˇ他们使用ConceptNet关系来构建候选路径，这些路径跨越给定故事情境中的一个概念，然后扩展至上下文中的另一个概念，再扩展至外部概念，从而有助于在上下文中进行多步推理，并且外部知识。然后，他们使用互信息和术语频率度量来修剪这些路径，并选择适当的知识来执行此推理。 ConceptNet也可以用于创建知识增强的单词嵌入。适用于COPA的神经模型利用了来自ConceptNet的常识知识（Roemmele＆Gordon，2018），Li，Lee-Urban，Johnston和Riedl（2013）的基于ConceptNet的嵌入，这些嵌入是通过应用word2vec跳过语法模型（ Mikolov等人，2013年）到ConceptNet中的常识元组。（Liu，Jiang，Ling，Zhu，Wei，＆Hu，2017）的Winograd Schema Challenge的最新方法使用了类似的技术以及SWAG的基线方法（Zellers et al。，2018）。这里的未来工作将需要开发新技术，以便从嘈杂的知识资源中选择适当的知识，以及使用更大范围的知识资源。

第6节讨论了未来的方向，这些方向将更多的重点放在结合外部知识来创建基准和模型中。

最近的大多数方法都依赖于基准数据集（例如训练数据）来建立推理模型。尽管在第3节中讨论了可用的知识资源，但实际上很少有知识资源可以用于解决基准任务。 WordNet（Miller，1995）也许是应用最广泛的词汇资源，它的单词关系对于文本蕴含问题特别有用。WordNet出现在整个RTE挑战早期的方法中（Dagan et al., 2005; Hickl et al., 2006; Giampiccolo et al., 2008; Iftene, 2008; Bentivogli et al., 2011; Tsuchida和Ishikawa, 2011年），最近又出现在2016年Winograd Schema挑战赛（Davis et al., 2018年； Trinh & Le, 2018年）中一个有竞争力的方法中。 DBpedia（Auer et al., 2007）和YAGO（Suchanek et al., 2007）等知名且流行的常识资源已用于创建基准（Morgenstern et al., 2016; Choi et al., 2018）），但尚未直接应用于解决基准任务。

迄今为止，ConceptNet（Liu和Singh, 2004年）和Cyc（Lenat和Guha，1989年）是最受关注的常识知识资源。但是，虽然我们偶尔会使用ConceptNet，但是Cyc似乎并未出现在我们综述的任何方法中。例如，OpenBookQA（Mihaylov et al., 2018）在神经基线方法中使用了ConceptNet，该方法通常会检索基准数据中未包含的其他常识知识。 ConceptNet最常用于创建知识增强的词嵌入。应用于COPA的神经模型，通过将word2vec skipgram模型（Mikolov et al., 2013）应用于ConceptNet中的常识元组（Li，Lee-Urban，Johnston和Riedl, 2013年），生成基于ConceptNet的嵌入，从而利用了ConceptNet中的常识知识（Roemmele & Gordon, 2018）。Winograd Schema Challenge中有一个最近的方法（Liu，Jiang，Ling，Zhu，Wei， & Hu, 2017），以及SWAG的基线方法（Zellers et al., 2018），都使用了类似的技术。尽管已证明ConceptNet对于此类目的有用，但实际上最先进的方法仍很少使用，而仅通过基准训练数据获得常识知识关系。这就提出了一些重要的问题，即如何将外部知识整合到现代神经方法中，以及如何为手头的任务获取相关的外部知识。

5. 其他相关基准

虽然本文打算涵盖需要一些超出语言上下文的外部知识或高级推理的语言理解任务，但许多相关基准并未涵盖。首先，在过去的几十年中开发的几乎所有语言理解基准都可以从常识知识和推理中受益。其次，由于语言沟通在其他感知和推理系统中是不可或缺的，近年来结合语言和视觉的基准任务也越来越多。

与语言相关的任务。许多经典的NLP任务的早期语料库，例如语义角色标注，关系提取和释义，也可能需要常识知识和推理，尽管当时并没有强调或深入研究。例如，在创建Microsoft Research Paraphrase语料库时，Dolan and Brockett（2005）发现标注文本对的任务很难精简，因为这通常需要常识，这表明语料库中的释义需要常识知识和推理来识别。此类任务实际上包含在多任务基准中，例如Inference is Everything (White et al., 2017)，GLUE（Wang et al., 2018）和DNC（Poliak et al., 2018a）。相关文本基准的其他示例包括QuAC（Choi et al., 2018），它依靠对话来进行可靠的上下文QA，但不像CoQA基准那样需要常识（Choi et al., 2018），以及由Xu, Zhou, Young, Zhao, Huang and Zhu (2018b)创建的对话数据集，探讨了使用ConceptNet的常识知识为聊天机器人生成更高质量和更相关的响应。

除英语外，还有其他语言的基准。例如，已经有意大利语和葡萄牙语的RTE数据集，并且多年来跨语言的RTE数据集已经出现在多个SemEval共享任务中(Negri, Marchetti, Mehdad, Bentivogli and Giampiccolo, 2012, 2013; Cer et al., 2017)，以鼓励机器翻译和内容同步方面的进步。还存在各种跨语言知识资源，包括最新版本的ConceptNet（Speer et al., 2017），其中包含来自多种多语言资源的关系。

视觉基准。常识在整合语言和视觉方面发挥着重要作用，例如，将语言与感知关联起来(Gao, Doering, Yang and Chai, 2016)，基于语言的行动识别证据（Yang，Gao，Sadiya和Chai, 2018），以及视觉问答（Kafle & Kanan, 2017）。视觉常识基准包括最初的VQA（Agrawal，Lu，Antol，Mitchell，Zitnick，Batra和Parikh, 2015年）等VQA基准，其他类似Visual7W的VQA数据集（Zhu，Groth，Bernstein和 & Fei-Fei, 2016年），以及带有合成图像的类似数据集，例如CLEVR（Johnson，Hariharan，van der Maaten，Fei-Fei，Zitnick和Girshick, 2017）以及Suhr，Lewis，Yeh和Artzi的工作（2017）。此外还包括常识动作识别和证据的任务，这些任务在Fouhey，Kuo，Efros和Malik（2018）的数据集，以及Zellers，Bisk，Farhadi和Choi（2019）的视觉常识推理（VCR）中找到。这些都是基于图像的，但我们也开始看到类似的基于视频的数据集，例如Something Something（Goyal，Kahou，Michalski，Materzynska，Westphal，Kim，´Haenel，Fruend，Yaniallos，Mueller-Freitag，Hoppe，Thurau，Bax， & Memisevic, 2017），旨在通过超过100,000个描述日常行为的视频来评估视觉常识。我们还看到了视觉和语言导航（VLN）任务，例如Anderson，Wu，Teney，Bruce，Johnson，Sünderhauf，Reid，Gould和van den Hengel（2018）的Room-to-Room（R2R）”。这样的基准对于促进物理关联（和物理存在的事物相关的，区别于语言等抽象的概念）的常识知识和推理的进步很重要。

##6. 讨论与结论

数据和计算资源的可用性以及新的学习和推理方法的兴起，使这成为自然语言理解和推理研究的空前激动人心的时刻。随着越来越多的基准可用，以及基准性能不断提高，一个中心问题是开发的技术是否实际上在推动自然语言推理的最新发展。为了解决这个问题，除了继续努力建立无偏差的基准（如第2.2.3节中所述）外，我们认为以下是一些未来重要的方向。

需要更加重视外部知识的获取和引入。如4.4节所述，NLI的大多数方法都依赖大量的预训练和训练数据来学习模型。这远未达到实用的标准，这提出了一些重要问题，这些问题涉及如何将外部知识适当地纳入现代方法中，以及如何以最佳方式获取与手头任务相关的外部知识。这将具有挑战性，因为如3.3节所述，大多数知识资源是不完整的，并且不包含解决基准所需的所有信息。除了像在3.3节中讨论的那样在推理过程中尝试令其完备或泛化这些资源外，解决基准与知识资源之间脱节的另一种潜在途径是将开发基准数据集和构建知识库放在一起。最近，我们看到针对特定基准的知识图谱的创建，例如Sap等人。（2019a）的ATOMIC知识图谱扩展了Event2Mind基准测试中的数据（Rashkin等人，2018b），并理想地提供了ConceptNet缺少的必需关系来解决Event2Mind。我们还看到针对特定知识图谱的基准的创建，例如CommonsenseQA（Talmor等人，2019），其中问题是从ConceptNet的子图中提取的（Liu＆Singh，2004），从而鼓励使用ConceptNet来解决基准任务。我们还看到基准和知识资源一起创建和发布。我们看到已发布基准中包含由一些必需知识构成的非结构化语料，例如ARC（Clark等人，2018）和OpenBookQA（Mihaylov等人，2018）。最近的一个例子是SherLIiC（Schmitt＆Schütze，2019），它使用从Freebase中提取的类型关系（Bollacker等人，2008）在文本蕴含问题中形成句子对，并与原始关系一起使用。基准任务和知识资源之间的紧密结合将有助于理解和形式化所需知识的范围，并有助于开发和评估可以纳入外部知识的方法。共享的任务，例如在EMNLP 2019的NLP常识性推理研讨会上的任务，已经开始通过提供一些知识资源来鼓励使用外部知识进行推理。

由于常识知识对人类是如此直观，因此研究人员甚至很难识别和形式化所需的知识。可能值得探索不仅限于文本的新任务表述形式，这些形式涉及人工代理（在模拟世界或真实物理世界中），可以使用语言进行交流、感知和行动。一些示例任务可以在交互式任务学习的背景下形成（Chai等人，2018）或体现在问答中（Das，Datta，Gkioxari，Lee，Parikh和＆Batra，2018; Gordon，Kembhavi，Rastegari，Redmon，Fox），＆Farhadi，2018）。 Ortiz（2016）进一步激发了这一想法，并提出了实施物理图灵测试的方法的建议。使用代理，并观察他们在理解语言和将语言扎根于自身感觉运动技能方面的能力和局限性，将使研究人员从实际角度更好地理解常识知识的空间，并共同解决知识获取和语言推理的问题。

需要更多地强调推理。最近的一些结果质疑最先进的方法是否实际上对这些基准任务执行了真正的推断和推理。例如，它表明利用基准数据中的统计偏差的模型在消除偏差时表现不佳（Niven＆Kao，2019; Zellers et al。，2019a）。再例如，Jia和Liang（2017）提出了SQuAD的对抗性评估方案（Rajpurkar等人，2016），该方案随机将干扰词插入段落中，这些段落不会改变段落的含义，并表明在基准测试的性能大幅下降。 Marasovic（2018）强调了几种类似的情况，现代NLI系统可能会由于输入的微小，无关紧要的变化而崩溃。所有这些发现都指向一个重要的问题：我们如何发展和评估可以实际执行推理的模型？

Davis and Marcus(2015)指出，为了使机器执行全面的常识推理，如第1节中讨论的“存钱罐”示例中所示，迫切需要能够自动集成多种类型的推理的方法，例如时间推理、合情推理和类推。因此，重要的是要对NLI所需的这一推理技能体系有更透彻的了解。但是，在NLI基准测试中通常不会对此给予太多关注。基准任务通常仅评估推断的最终结果（例如，问题是否得到正确回答），而与具体过程无关。此外，除了一些基准测试（例如bAbI）（根据预期的推理类型指定子任务）（Weston等人，2016），以及Event2Mind用于预测事件周围的特定心理状态（Rashkin等人，2018b）之外，大多数基准测试无法区分推理类型。在创建基准之后，有时会对所需技能进行有用的分析，例如Sugawara等人（2017），Chu等。（2017年）和Yatskar（2018年）为选定基准所做的工作。但是，大多数基准测试并不支持对推理能力的系统评估。因此，对于将来的基准测试，通过数据管理显式地解决不同类型的推理能力将很有帮助，这可以更好地理解机器的常识推理能力，并可以在不同领域进行有针对性的改进。

需要更充分的理由和对模型设计选择的更好理解。新的神经模型正在不断开发中。很多时候，各种模型的设计选择既不合理，也无法了解。例如，诸如参数调整策略之类的设计选择常常被忽略，而倾向于更有意义或更有趣的模型改进，但是这些小的选择实际上可以对性能产生重大影响。我们已经在其他AI子领域中看到，更复杂的模型可能会在特定基准上带来更好的性能，但是具有更好的参数调整功能的简单模型可能会在以后产生可比的结果。例如，在图像分类中，Brendel和Bethge（2019）进行的一项研究表明，与早期功能分类器相比，最近的深度神经网络几乎所有改进都来自更好的微调，而不是决策流程的改进。

NLI模型同样容易受到此类问题的影响。例如，我们最近发现BERT模型（Devlin等，2018）被多个变体和其他基于Transformer的模型所超越，这些模型对损失函数（Liu等，2019a），模型架构，训练目标（Yang等人，2019）和模型复杂度，即训练参数的数量（Radford等人，2019）。即使对模型进行了这些较大的更改，对模型各个方面的较小调整也导致了排行榜上的数百个条目（例如，与第4.3.3节和表2中的内容相关的条目）的少量改进。不过，最近我们发现，ROBERTA超越了所有这些变体，并在与BERT相同的体系结构的多个基准测试中成为最新技术，但对其预训练任务进行了一些小的更改，并更仔细地选择了超参数（Liu等， 2019b）。这证明了所有模型设计选择的重要性，并质疑了早期版本中所做更改的好处。对模型设计，预训练技术和参数调整的理论理解和动机进行更多的努力将有助于更好地进行直接研究。

需要更广泛和多维的指标进行评估。评估，尤其是通过排行榜进行评估，一直是NLI研究的关键组成部分。这些排行榜上通常使用的度量标准（例如准确性和第2.2.2节中讨论的其他度量标准）用于衡量任务能力，即学习模型解决基准任务的能力。研究人员有动机开发通过这些性能指标排在榜首的模型。这就提出了许多关于以能力为中心的评估是否是有效的研究实践的问题。我们认为，将来应考虑更广泛和多维的评估指标。任务能力。以能力为中心的评估，尽管对于推动最新技术水平很重要，但如果不加以认真对待，也会导致生产效率降低。在没有很好地理解模型行为的情况下，即使在基准上存在明显缺陷的情况下，也需要花费大量的精力来调整模型或参数以超过其他模型或人类性能。例如，在图14中，我们看到SQuAD 1.1（Rajpurkar等人，2016）显然是最受欢迎的基准。它已经看到了数百个排行榜提交者45，并且机器性能已经超过了人类的性能。但是，基准存在一些已知问题。首先，人们认为SQuAD 1.1太简单了，因为可以直接从文本中提取问题的答案。因此，它被SQuAD 2.0（Rajpurkar et al。，2018）取代，这是一个更有趣的版本，带有无法回答的问题。此外，已经证明SQuAD 1.1的最新系统缺乏对基准数据进行对抗性修改的通用性（Jia＆Liang，2017），这表明数据集中存在模型过度拟合的统计偏差。由于这些问题，持续改进排行榜上的任务能力测评不会带来任何有见地的发现，也无法使我们更接近解决更广泛的问题解答任务。应该鼓励研究人员研究一些新的，有趣的和/或具有对抗性的基准，而不是像SQuAD 1.1这样的流行排行榜百次超越其他模型，例如WinoGrande（Sakaguchi等，2019）和SocialIQA。（Sap et al。，2019b）。此外，还应考虑其他评估指标，以更好地理解自然语言推理的进展，如下所述。

任务能力。以能力为中心的评估，尽管对于推动最新技术水平很重要，但如果不加以认真对待，也会导致生产效率降低。在没有很好地理解模型行为的情况下，即使在基准上存在明显缺陷的情况下，也需要花费大量的精力来调整模型或参数以超过其他模型或人类性能。例如，在图14中，我们看到SQuAD 1.1（Rajpurkar等人，2016）显然是最受欢迎的基准。它已经看到了数百个排行榜提交者45，并且机器性能已经超过了人类的性能。但是，基准存在一些已知问题。首先，人们认为SQuAD 1.1太简单了，因为可以直接从文本中提取问题的答案。因此，它被SQuAD 2.0（Rajpurkar et al。，2018）取代，这是一个更有趣的版本，带有无法回答的问题。此外，已经证明SQuAD 1.1的最新系统缺乏对基准数据进行对抗性修改的通用性（Jia＆Liang，2017），这表明数据集中存在模型过度拟合的统计偏差。由于这些问题，持续改进排行榜上的任务能力测评不会带来任何有见地的发现，也无法使我们更接近解决更广泛的问题解答任务。应该鼓励研究人员研究一些新的，有趣的和/或具有对抗性的基准，而不是像SQuAD 1.1这样的流行排行榜百次超越其他模型，例如WinoGrande（Sakaguchi等，2019）和SocialIQA。（Sap et al。，2019b）。此外，还应考虑其他评估指标，以更好地理解自然语言推理的进展，如下所述。

效率。现代神经网络变得越来越复杂，需要越来越多的预训练数据和计算资源，训练模型的成本通常每隔几个月就要翻一番（Schwartz，Dodge，Smith和Etzioni，2019年）。正如罗杰斯（Rogers（2019）所概述的那样），在线排行榜和共享任务仅根据任务胜任力来对方法进行排名，这加剧了这一问题，鼓励研究人员通过手段在预训练中使用更多数据或投入更深的网络来实现最先进的结果。这种趋势阻碍了那些没有能力做到这一点的研究人员，特别是学术研究团队或新兴经济体的研究人员（Schwartz等人，2019），无法参加排行榜和共同任务。但是，将计算效率纳入评估范围将奖励那些更好地利用可用训练数据而不是不断增加训练前数据的方法，并允许计算资源有限的研究人员更大程度地参与进来。此外，这将鼓励AI的绿色实践（Schwartz等，2019），因为训练这些模型具有大量的碳足迹（Strubell，Ganesh，＆McCallum，2019）。

实际上，我们最近开始看到NLI基准和方法中对模型效率的重视。一些排行榜，例如SocialIQA（Sap等，2019b）46和AlphaNLI（Bhagavatula等，2019），47现在正在报告预测期间的运行时间，这是朝这个方向迈出的一步。 NLI的更有效模型也正在开发中。一个例子是ROBERTA，其中开发了一种优化的预训练方法以更好地利用原始BERT模型的参数（Devlin等人，2018）并获得更高的性能（Liu等人，2019b）。另一个受硬件限制激励的例子是ALBERT，其中参数减少技术允许使用更少的参数来获得与先前模型可比的结果，并且当模型扩展得更深时通常会获得更好的结果（Lan等人，2019）。最后，Sanh，Debut，Chaumond和Wolf（2019）的DISTILBERT通过使用模型蒸馏将BERT压缩，但性能会有所降低，这是一种模型压缩技术，其中训练了较小的模型以模仿较大模型的预测。通过这种方式，他们将模型参数减少了40％，并将预测速度提高了60％，同时在GLUE上保留了其97％的性能（Wang等人，2018）。像后者这样的努力，纯粹是以性能为代价来提高模型效率的，并未获得排行榜的当前评估标准的奖励。展望未来，我们希望这样的方法将开始得到更多的认可。

透明度。与在深度学习方法被大量应用的AI的许多子领域一样，模型的透明性和解释模型行为的能力也很重要。像BERT（Devlin et al。，2018）这样的最新模型的基本推理过程由于其深层的双向架构而无法解释，因此为什么由这些模型得出某些结论是相当不透明的楷模。尚不清楚BERT是否正在捕获语义现象还是在NLI基准中再次学习统计偏差，但来自探测研究和对抗性评估的证据（例如Niven和Kao（2019）的调查）开始表明BERT确实在学习和学习。利用某些基准中的统计偏差。更好地理解NLI系统的行为，尤其是获得高性能的深度学习模型，对于确认系统是可信赖的并且具有泛化能力至关重要。因此，评估NLI系统解释其基本推理过程的能力并更全面地证明其理解能力可能是另一个追求的方向。我们已经在VCR基准测试中看到了类似的视觉问题回答（Zellers等，2019），其中模型不仅必须回答有关图像的自然语言问题，而且还必须从屏幕上选择适当的文本解释为其回答组的选择。尽管此设置可能同样容易受到模型过度拟合人类语言的统计假象的影响，但这是朝这个方向迈出的一步。

泛化能力。可以像人类一样，可以概括的系统应该能够在最少的训练下对新数据和新任务进行推理。通过更好的概括，我们希望模型能够从任何基准中获取知识并将其应用于其他基准。领域适应，即训练数据的分布与测试数据的分布有显著差异的领域适应，是向看不见的数据推广的很好的一步，Marasovic（2018）在此强调了``最近成功的方法’’。实际上，像BERT（Devlin等人，2018）这样的最先进的模型已经在某种程度上接近于此功能，已经在大型文本语料库上进行了预训练，并且能够以最小的努力微调到新问题或特定于任务的修改。明确衡量这种适应性和概括性的一些指标将很有用。然而，为了在基准上表现良好，需要对大量训练数据进行迭代的要求仍然是概括多个问题的限制。也许这需要为将来的NLI评估提供一种新的实践，其中不提供任何训练数据，而是提供一些示例来显示评估的外观并解决工程和接口问题。这可以缓解一些由于表层数据偏差和对大型训练数据的依赖性而导致的问题，并且可以转向可以执行推理和概括的模型。

数据和计算资源的可用性以及新的学习和推理方法的兴起，使这成为常识推理和自然语言理解研究的空前激动人心的时刻。随着研究领域的发展，以下是我们认为将来必须追踪的一些重要事项。

在不同种类的知识中，两种常识知识被认为是人类推理和决策的基础：直觉心理学和直觉物理学。有一些针对直觉心理学的基准测试，例如Triangle-COPA（Gordon, 2016），Story Commonsense（Rashkin et al., 2018a）和Event2Mind（Rashkin et al., 2018b）。直觉物理学的推理分散在不同的基准中，例如bAbI（Weston et al., 2016）和SWAG（Zellers et al., 2018）。了解这种常识知识是如何在人类中发展和获取的，以及它们与人类语言产生和理解的关系可能会为语言处理的计算模型提供启示。

此外，除了本文讨论的书面语言形式的基准测试任务外，还值得探索涉及人工代理（在模拟世界或真实物理世界中）的新任务，这些人工代理可以使用语言进行交流、感知并采取行动。例如，交互式任务学习（Chai，Gao，She，Yang，Saba-Sadiya和Xu, 2018）或具体化的问答（Das，Datta，Gkioxari，Lee，Parikh和Batra, 2018）。由于常识知识对人类是直觉的，即使研究人员也很难识别和形式化此类知识。与代理合作，观察他们在理解语言和将语言和其自身的感觉运动技能相关联的能力和局限性，将使研究人员能够更好地理解常识知识的空间，并据此解决知识获取的问题。

当前工作趋势的一个挑战是常识知识资源与解决基准任务所采用的方法之间的脱节。大多数方法，特别是神经方法，只能从训练数据中积累知识或学习模型，批评者不确定这种方法是否可以得到与人类水平可比的推理能力（Cambria et al., 2011）。尽管存在许多为常识推理设计的知识库，但除极少数外，大多数知识库不直接用于解决基准测试任务。一个可能的原因是这些知识库没有涵盖解决这些任务所需的那种知识。例如，在创建Event2Mind基准（Rashkin et al., 2018b）时，就发现ConceptNet（Liu & Singh, 2004）的这一点。为了解决这个问题，已经提出了几种利用不完整知识库的方法。第3节中提到的一种方法是AnalogySpace（Speer et al., 2008），该方法使用主成分分析进行类比，以平滑缺失的常识公理。另一个例子是内存比较网络（Andrade，Bai，Rajendran和Watanabe, 2018年），该网络允许机器对知识资源中现有的时间关系进行泛化，以获取新的关系。未来的工作将需要提出更多解决方案，以解决长尾现象（Davis & Marcus, 2015）。

百度百科长尾效应，英文名称Long Tail Effect。“头”（head）和“尾”（tail）是两个统计学名词。正态曲线中间的突起部分叫“头”；两边相对平缓的部分叫“尾”。从人们需求的角度来看，大多数的需求会集中在头部，而这部分我们可以称之为流行，而分布在尾部的需求是个性化的，零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”，而所谓长尾效应就在于它的数量上，将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。

解决脱节问题的另一个潜在途径是共同开发基准任务并构建知识库。最近，我们看到针对特定任务的知识图谱的创建，例如Sap et al.（2019）的ATOMIC知识图谱，扩展了Event2Mind基准测试中的数据，并理想地提供了ConceptNet中不提供的所需关系。我们还看到针对特定知识图谱创建的基准，例如，CommonsenseQA（Talmor et al., 2019）从ConceptNet的子图中提取问题，从而鼓励使用ConceptNet来处理基准任务。基准任务和知识资源之间的紧密结合将有助于理解和规范所需知识的范围，并有助于开发和评估可以结合外部知识的方法。

随着越来越多的基准任务可用并且这些任务的性能不断提高，一个中心问题是所开发的技术是在不断推动最佳的产生，还是仅从数据集中学习了表面的东西。更好地了解这些模型的行为，尤其是获得高性能的深度学习模型至关重要。例如，将INFERSENT应用于DNC（Poliak et al., 2018a），即多任务双向蕴含基准，仅在基准中的假设文本，而不是上下文和假设句子上训练和测试，就可以在许多基准任务（有时超过90％）上实现高精度。由于人类需要上下文和假设来执行文本蕴涵，因此这表明该模型正在学习数据中难以理解的统计偏差，而不是执行实际推理。再例如，Jia和Liang（2017）提出了SQuAD的对抗性评估方案（Rajpurkar et al., 2016），该方案随机将干扰句插入段落中，这些句子不会改变段落的含义，并表明高性能模型在基准上的性能大幅下降。 Marasovic（2018）还重点介绍了另外几种模型，这些模型已被证明是虚假的，并识别出了一些近期的研究成果，这些研究表明，高性能的现代NLP系统可能会由于输入的微小、无关紧要的变化而崩溃。 BERT可能会遇到类似的问题，因为其深层的双向结构使其推理过程极难解释，因此，由该模型得出某些结论的原因是非常不透明的。目前尚不清楚BERT是捕获到了语义现象还是也学习到了统计偏差。 BERT的创建者认为，这将是未来研究的主题。

最后，像大多数深度学习应用程序一样，花费了大量的精力来调参以提高性能。最近，我们还在其他AI子领域中看到，复杂的模型可能会在特定基准上带来更好的性能，但是结果更好调参的更简单模型以后可能会产生可与之比较的结果。例如，在图像分类中，Brendel and Bethge（2019）进行的一项研究表明，最近的深度神经网络与早期特征分类器相比，几乎所有改进都来自更好的微调，而不是决策过程的改进。 NLP模型可能与此类似。在理论上的理解以及对模型设计和参数调整的动机上的更多努力将是有益的。

自然语言推理综述 翻译及笔记