机构:Facebook
作者:Patrick Lewis
发布地方:arXiv
面向任务:问题生成
论文地址:https://arxiv.org/abs/1906.04980
论文代码:https://github.com/facebookresearch/UnsupervisedQA
本文尝试探寻以下2个问题。
(1)对于抽取式问答(EQA),训练数据集的质量要求是怎么样的。
(2)无监督的抽取式问答是否可能。
针对上述问题,本文提出以下方案:
(1)先用无监督方法生成文本内容(context)、问题(question)、答案(answer)三元组。
(2)基于上述三元组自动合成抽取式问答的训练集。
上述三元组的生成步骤如下:
本文提出并对比了多种完形填空问句到自然语言问句转换的无监督方法,其中包括(1)基于自然问句非对齐语料和完形填空问句的无监督机器翻译模型(2)基于规则的方法。通过实验发现,现代的QA模型在本文合成的数据集上训练之后,竟然可以回答自然语言方式的问题。本文证明了,即使不使用任何的SQuAD数据集,本文的方法也能够让现代模型在SQuADv1上取得56.4 F1,对于答案是命名实体类型的数据集(该数据是SQuADv1的子集,其答案都是命名实体)则可以获取更高的64.5 F1,这超出了早期的监督式学习模型。
抽取式问答(EQA)是问答的一种,对于一个问题,其答案是给定文档中的一个片段。即,答案在给定的文档中。典型的benchmark dataset是SQuAD(包括SQuAD 1.1和SQuAD 2.0),但是其实现在(2019年10月8日)在这两个数据集的榜单均已经被刷爆了,即现有模型已经显著超越人类的标注结果。近期还有Natural Questions(Kwiatkowski et al., 2019)数据集,Natural Questions,NQ数据集详情。上述数据集都包含了大量的训练数据,但是对于一个新领域或者新的语种,收集训练集是需要大量人类和物力的。那么,如果手头上没有任何可用的训练数据集呢?又不想耗费巨大资源手动收集训练集,这时候该怎么办?
本文的工作就是为了解决上述问题,所提出的解决方案是探索使用无监督EQA。在无监督EQA中,不需要事先人工收集问题、文档和答案这样的三元组。本文将EQA转为无监督的问题生成:如果有一个方法,不需要使用监督QA,就能够在给定文档后生成准确的问题,那么就可以利用生成的问题训练一个QA系统。这个方法可以直接利用QA领域的最新进展,比如新的模型框架和预训练方法。这个方法具有很大的灵活性和可拓展性。本文所提出的方法也能够用于在半监督下训练数据的增强。
生成EQA训练集有3个步骤:
(1)在目标领域(比如本文这里是英文的Wikipedia)中采样一个段落(paragraph)
(2)使用预训练的方法组件,如NER或者名词识别器识别出上述段落文本中的候选答案,组成候选答案集。这里使用到的组件方法虽然是监督式的,但是没有用到形如(question,answer)或(question,context)的对齐数据。对于给定的候选答案和原始段落文本,抽取出fill the blank cloze question,即从候选答案和原始段落中生成完形填空问题。
(3)采用无监督的完形填空问题-自然问句转换器(cloze-to-natural question translator),将上述的完形填空问题转为自然问句。
上述3个步骤中,将完形填空问题转为自然问句是最具有挑战性的。可以基于复杂的规则((Heilman and Smith, 2010)完成这项转换。这些规则一方面还有语言上的限制,比如只能处理英文,另一方面在QA系统上的性能表现也较为孱弱。当需要处理其他领域或者语种时,需要大量的工程师工作来开发类似的算法。该方法特定性太强。如果在完形填空问题转为自然问句这个任务上引入监督式方法((Du et al. 2017; Du
and Cardie 2018; Hosking and Riedel 2019, inter alia)则由于需要人工标注而与初衷不符。本文对于该任务的解决方案源于无监督机器翻译(Lample et al., 2018, 2017; Lample and Conneau, 2019; Artetxe et al., 2018)。其中,我们需要收集大量的自然语言形式的问句语料和未对齐的的完形填空问题语料,并联合在线back-translation和de-noising auto-encoding技术训练一个seq2seq模型以实现自然问句和完形填空问题之间的映射。
在实验过程中发现,在本文无监督QA的基础上联合使用当下先进的QA模型框架能够取得比早期监督方法((Rajpurkar et al., 2016)更好的结果。实验发现通过词的移除和翻转而产生的(非自然的)的完形填空问题比基于规则的方法性能更好。而无监督的seq2seq模型均比移词或翻转词的引入噪声型和基于规则的系统表现更好。实验中还证明本文的方法能够用于少样本学习,比如只用32个标注样本F1值就可以取得59.3,而不使用本文方法F1值只能为40.0。
总结一下,本文有以下贡献:
(1)首次在无监督QA中提出解决方案,将无监督QA任务转为无监督的完形填空变换任务(unsupervised cloze translation)。其中使用的关键技术是无监督机器翻译。
(2)广泛地实验验证多种完形填空问题转换算法和假设
(3)通过实验证明本文方法在EQA中少样本学习的有效性
抽取式问答中问题为 q q q,相关的段落文本内容 c c c,问题对应的答案 a = ( b , e ) a=(b,e) a=(b,e),其中 b 和 e b和e b和e分别表示 c c c中的索引位置。对于这种无监督EQA,本文的方案由2阶段组成:
(1)开发一个生成模型 p ( q , a , c ) p(q,a,c) p(q,a,c),这期间不涉及使用监督QA。
(2)再训练一个判别模型 p r ( a ∣ q , c ) p_{r}(a | q, c) pr(a∣q,c),训练过程使用生成模型 p p p生成训练集。生成器 p ( q , a , c ) = p ( c ) p ( a ∣ c ) p ( q ∣ a , c ) p(q, a, c)=p(c) p(a | c) p(q | a, c) p(q,a,c)=p(c)p(a∣c)p(q∣a,c)会在反向产生数据,先通过 p ( c ) p(c) p(c)采样一段文本,再通过 p ( a ∣ c ) p(a | c) p(a∣c)计算文本范围内的答案,最后通过$ p(q | a, c)$得到该答案和文本所对应的问题。
对给定的文档语料,利用文本生成模型 p ( c ) p(c) p(c)从中均匀采样出一个长度合适的段落 c c c。通过 p ( a ∣ c ) p(a|c) p(a∣c)生成答案,这个步骤包含了什么是好答案的先验概率。这里对 p ( a ∣ c ) p(a|c) p(a∣c)提出2个简单的变体:
名词短语:
在段落 c c c中抽取出所有的名词短语,并从这个集合中均匀采样来生成一个可能的答案。这需要块处理算法(chunking algorithm)。
命名实体:
可以进一步限制候选答案为命名实体。为此,需要基于NER系统抽取出全部的命名实体提及,再均匀采样。这样也降低了问题的多样性。其有效性参见3.2节。
本文认为(可以商榷,辩证讨论)QA系统中核心难点在于问题和答案之间的建模。在这个基础上,问题和答案之间的建模可以通过问题生成器 p ( q ∣ a , c ) p(q|a,c) p(q∣a,c)捕获到。我们将这一步分为2个步骤:
(1)完形填空生成 q ′ = cloze ( a , c ) q^{\prime}=\operatorname{cloze}(a, c) q′=cloze(a,c)
(2)转换translation, p ( q ∣ q ′ ) p(q|q^{\prime}) p(q∣q′)
完形填空问题(Cloze questions)是将答案遮蔽的陈述句。完形填空生成的第一步是:缩小上下文context的范围使其能够粗略匹配真实问题。一个自然的想法是选用答案周围的句子。这种方式的结果是"For
many years the London Sevens was the last tour nament of each season but the Paris Sevens became the last stop on the calendar in ___"。
可以通过限制答案周围的子类以进一步降低长度。比如基于英语的词法分析器可以将上述结果句子进一步缩减为"the Paris Sevens became the last stop on the calendar in ___"。
在生成上述完形填空 q ′ q^{\prime} q′后,可以进一步转为更贴近真实QA任务的形式。本文这里探索4种方法,
Identity Mapping(恒等映射):
我们认为完形填空问题本身提供了能够学习QA行为的信息。为了验证这个设想,本文采用Identity Mapping作为完形填空转换的baseline。为能够产生"questions"(与真实QA任务中使用相同词典),用wh*
单词(随机选择或简单的启发式规则,参见2.4节)替换被遮蔽的token。
Noisy Clozes(噪声化的完形填空):
描述完形填空问题和自然问题之间的区别的一种方法是把这种差别作为一种干扰形式。为提升对扰动的鲁棒性,可以在完形填空问题中引入噪声。具体操作如下:删除 q ′ q^{\prime} q′中被遮蔽的token,再对其使用一个简单的噪声函数(Lample et al. (2018),在头部添加一个wh*
单词(随机选择或简单的启发式规则,参见2.4节)和在末尾添加一个问题mark。其中噪声函数由word dropout、词序组合和词遮蔽这三个操作组成。如此可以(至少对于SQuAD)简单地学习一个函数来识别与问题有n-gram重叠的答案片段,且对词序的扰动具体一定的容错能力。
Rule-Based(基于规则):
将句子中的答案嵌入到一个 ( q , a ) (q,a) (q,a)对中可以被理解为一种带有wh-移动和wh-词类型依存选择的句法转换。对于英文,现有的软件已经支持该功能,本文使用Heilman and Smith (2010) 提出的陈述句-问句 生成器。该生成器使用一系列的规则生成候选问句,再使用一个排序系统选出最佳结果。
Seq2Seq:
上述方法要么需要巨大的工程量和先验知识(基于规则),要么生成结果与自然句子仍然相距较大(identity, noisy clozes)。本文通过一个无监督的seq2seq模型解决上述2个问题。该seq2seq模型能够实现完形填空问题和自然问题之间的转换。更多细节参见2.4节。
通过生成模型得到抽取式问答的答案,大概有以下2种方法:
训练一个单独的QA系统:
对于可用的任何QA框架中,训练集都来自于本文生成器的生成。但是,生成器生成的数据不太可能达到真实QA数据集的质量,所以希望QA模型能够学习到基本的QA行为。
使用后验概率:
另一个抽取答案 a a a的方法是求最大后验概率 p ( a ∣ c , q ) p(a | c, q) p(a∣c,q)。假设在给定文本的前提下,答案概率= p ( a ∣ c ) p(a|c) p(a∣c),这等价于计算 arg max a ′ p ( q ∣ a ′ , c ) \arg \max _{a^{\prime}} p\left(q | a^{\prime}, c\right) argmaxa′p(q∣a′,c)。通过试验每个候选答案生成该问题的概率即可。该方法与Lewis and Fan (2019)中的监督方法类似。
为了训练一个seq2seq模型以实现完形填空转换,这里借鉴无监督机器翻译(NMT)领域中的近期成果。这些方法的核心是没有平行语料的源数据和目标语言的句子。这些语料中,源句子不存在任何到目标语言的翻译句子,反之亦然。具体地,在本文的配置上,我们致力于学习一个能够映射自然问题(target)和完形填空问题(source)的函数,而无需平行语料。本文仅需要大量的完形填空问题 C C C和自然问题 Q Q Q。
完形填空语料:
完形填空语料 C C C的创建是依照2.2.2节中的方法。我们将名称短语(NP)和命名实体(NE)视为答案片段(answer spans)。完形填空问题边界集(cloze question boundaries set)是包含答案的句子或从句。从Wikipedia 段落中随机采样5M的完形填空问题,并基于每个答案片段和完形填空边界创建一个语料 C C C。当存在答案实体类型信息(即. NE标签),则使用特定类型的mask来遮蔽token,以表示5种高级的答案类型。即用5种mask来区分答案类型。更多细节参考附件A.1。
自然问题语料:
至于自然问题的收集,则是从英文网页中爬取获得。对于爬取的网页,选取几个以(“how much”, “how many”, “what”,
“when”, “where” and “who”)开头,并以问句形式结尾的句子。同时丢弃带有重复问句结尾符号的句子,比如以"?!"结尾的句子。同时也丢弃长度大于20个token的句子。如此操作并去重后最终获得100M+的英文问句。语料 Q Q Q则是从中再采样出的5M问句,其中每个以wh*
开头的问句数量是相等的。
与Lample et al. (2018)一样,使用 C C C和 Q Q Q训练变换模型 p s → t ( q ∣ q ′ ) p_{s \rightarrow t}\left(q | q^{\prime}\right) ps→t(q∣q′)和 p t → s ( q ′ ∣ q ) p_{t \rightarrow s}\left(q^{\prime}|q \right) pt→s(q′∣q)。其中模型的训练联合使用了denoising autoencoding的域内训练和online-backtranslation的跨域训练。这一定程度上也可以视为一种风格转换任务,与Subra-
manian et al. (2018)相似。在推断阶段,自然问句通过 arg max q p s → t ( q ∣ q ′ ) \arg \max _{q} p_{s \rightarrow t}\left(q | q^{\prime}\right) argmaxqps→t(q∣q′)生成。更多的实验细节参考附件A.2。
Wh*
的启发式:
为"identity"和"noisy cloze"的问题生成器提供合适的wh*
单词,本文引入一种简单的启发式规则,以将每个答案类型映射到最合适的wh*
单词。比如,答案类型为TEMPORAL
则映射为when
。实验过程中,发现无监督神经机器翻译的变换函数有时候会映射错,即将答案类型映射到不适当的wh*
单词,所以也采用wh*
启发式方法来生成问句。对于神经机器翻译模型,在训练期间采用启发式在目标问句的头部添加wh*
所映射的答案类型。比如,问句以when
起始,则在头部添加“TEMPORAL
。更多细节参考附件A.3。
实验过程主要包含
(1)检验QA系统在没有使用 ( q , a ) (q,a) (q,a)对数据时候的性能表现
(2)本文方案与其他监督方法的对比
(3)本文方案与其他不需要训练集的无监督方法的对比
(4)不同设计策略对QA系统性能的影响
(5)验证本文方法是否能够应用于少样本学习
(6)评估无监督的NMT是否可以作为生成问题的有效方法
对于合成的数据集,我们采用以下2种QA模型进行训练:finetuning BERT和BiDAF+Self Attention。对于最大后验概率法,从句子及其从句中抽取出完形填空问题,再使用神经机器翻译NMT方法估计 p ( q ∣ c , a ) p(q|c,a) p(q∣c,a)。评测指标,使用的是标准的完全匹配(EM)和F1值。
无监督训练过程,由于假设无法获取到dev set,所以QA模型训练的停止条件是QA系统的性能指标在合成的数据中的留存数据集上稳定不变。此外,还采用SQuAD中的dev set来评估模型中哪个组成成分更为重要(参见3.2节)。为保留SQuAD test data的完整性,在向test server提交结果的时候仅提交本文最佳的系统。
本文方案与公开的baseline做了对比。Rajpurkar et al. (2016)提出在监督逻辑回归模型引入特征工程,并采用一个滑动窗口查找单词与问句的重叠作为答案。Kaushik and Lipton (2018)采用监督方法训练的模型无视输入问句信息,而仅简单地从文档段落中抽取出最相似的答案片段。据我们所知,本文是第一个专门针对SQuAD非监督QA的工作。Dhingra et al. (2018)集中研究的是半监督QA,但确实公布了一个无监督的评估结果。为了对比的公平性,本文利用他们公开的数据重新实现了他们的方法,并训练了BERT-Large的一个变体。他们的方法也使用完形填空问题(cloze questions),但是没有用到转换操作(translation),且严重依赖Wikipedia文章的结构。
本文提出的方法在SQuAD的test set能够取得的最好结果是54.7F1,而由5个模型(不同种子点)做集成能够进一步取得56.4F1。Table 1记录了baselines、监督学习及其无监督QA模型在SQuAD 上的表现。
从中可以看出,本文的方案显著超出baseline系统及其BiDAF+SA[Dhingra et al. (2018)],并超过早期的监督式系统。
为了了解不同组成部分对于结果性能的贡献,本文在SQuAD dev set上进一步做了消融研究。主要对BERT-base和BiDAF+SA这两个模型进行消融研究。消融研究结果如Table 2所示。
最大后验概率 vs. 在生成数据集上训练:
将最大后验概率与BERT-base和BiDAF+SA对比发现,在QA模型上训练比采用最大问句似然要有效得多。这部分归因于QA模型能够归纳答案片段,从而在测试时返回的答案并不总是命名实体提及(named entity mentions)。
答案先验知识的影响:
从上述Table 2结果可以看出,在答案先验知识上,命名实体(NEs)比名词短语(NPs)更有效。在相同的BERT-base模型上,用引入NEs信息相比引入NPs信息平均可以提升8.9F1。Rajpurkar et al. (2016)估计SQuAD中52.4%的答案是NEs,而84.2%的答案是NPs(设定NEs是NPs的子集)。但是根据本文的研究发现,每段文本中大概有14NEs,而NPs有33个,因此在训练过程中采用NEs可以降低候选答案的搜索空间。
问题长度和重叠程度的影响:
从Figure 2可以看出,采用从句进行生成会导致生成的问题更短,且与原始上下文的公共子序列也更短。这其实更贴近SQuAD问句的分布。降低完形填空问题的长度有助于translation操作生成更简单且更精确的问题。在BERT-base上采用从句比采用整个句子平均要高出 4.0 F1。采用"noisy cloze"的完形填空转换方式生成的问题比NMT更短,同时也更短的公共子序列(由于词扰动噪音)。
完形填空转换方式的影响:
噪声的效果类似正则化,在BERT-base上对比"noisy"转换方式和"identity"的转换方式,发现前者平均高出后者 9.8 F1。无监督的NMT助攻效果更佳,又比"noisy"的转换方式平均高出 1.8 F1。
QA模型的影响:
在QA模型上的对比,再次说明BERT-base比BiDAF+SA更优秀。BERT-Large(不在Table 2中)则更是比本文最好的模型高出 6.9 F1。
基于规则生成数据的影响:
采用基于规则(RB)系统生成训练集训练出的QA模型,其结果性能无法与NMT方法相比。为了验证是否由于答案类型不同而导致的,我们做了以下处理
(1)RB系统中生成的问题如果与本文的(NE类型)答案不一致,则去除
(2)本文生成的问题如果与RB系统中的答案类型(NE)不一致,则去除
Table 3的结果表明当RB系统中的问题按照文本答案类型进行一次筛选后,可以性能可以提升。而如果用RB系统的数据反过来限制本文的数据生成方案则会降低性能。
RB系统生成问题的长度比NMT模型生成的更短,RB系统生成的问题的最大公共子序列与其上下文序列的分布很近似,这表明RB系统可能是直接从其输入拷贝了大部分数据。
实验中发现QA模型虽然使用的训练集中只有NE类型的答案,但是预测答案时并不总是选用命名实体作为答案。将SQuAD数据集按照答案是否NE类型划分问题后,对于答案类型为NE类型的数据集,模型的性能提升为 64.5 F1,对于答案类型不是NE类型的数据集,模型的性能仍然有47.9 F1。这是由于预训练的BERT已经捕获一定的语言学特征,所以能够归纳出NEs在句子中所起的语义作用,而不是简单地模仿NER系统。对于BiDAF+SA模型当答案类型是NE,则F1为 58.9,当答案类型是非NE,则F1 骤降到23.0。
Figure 3 展示了本文系统对不同类型问题和答案类型的性能结果。本文系统对于"when"问题处理得最好,这类问题的答案空间更小。但是对于"what"问题由于答案类型更广泛而处于挣扎边缘,因此每次给出的答案由于置信不足而总是以多凑数。在答案类型这个维度可以看出,"“TEMPORAL"类型的答案表现最好,这与"when"问题是一致的。
需要铭记的是,本文的方案是致力于提升下游QA模型的性能!因此,对无监督NMT完形填空转换系统的输出结果进行检验也有一定的指导意义。无监督NMT此前在单语种设置用到(Subramanian et al.,2018),但是cloze-to-question
生成更具挑战,一方面由于完形填空问题和自然问句单词长度是非对称的,另一方面在转换时需要保留答案,而不仅仅是浅层的转换风格。Figure 4展示了不使用wh*
启发式规则时,模型能够学习到广泛地为答案类型生成适配wh*
单词的问题。但是对于Person/Org/Norp 和数值类型答案,仍有较大提升。
Table 4展示了对于无监督模型,NE类型答案的一些典型样本。
本文方案在处理少样本时候的表现如下Figure 5所示。
可以看出,在少样本时,本文的方案秀得一塌糊涂。
无监督领域:
最相关的工作是无监督NMT中的成果,具体参考Conneau et al., 2017; Lample et al., 2017, 2018;Artetxe et al., 2018的论文。另一个较为相关的成果是(Subramanian et al., 2018)的风格迁移论文。
半监督QA:
Yang et al. (2017) 训练的QA模型也能够生成新的问题,但是需要标注数据。Dhingra et al. (2018)对其方法进行简化,在问题生成中虽然是无监督的,但是并不针对非监督的QA也无法生成自然的问题。此外,该方法一方面对用于问题生成的文本要较强的要求和限制,另一方面还需要Wikipedia的摘要段落。Chen et al. (2018)在WebQuestions上采用半监督方法提升了语义分析性能。Lei et al. (2016)采用半监督方法进行问题相似性的建模。Golub et al. (2017)提出一种可以生成特地领域QA训练样本的方法,以实现SQuAD和NewsQA之间的迁移学习。另一种半监督的方式是将外部知识引入到QA系统,Weissenborn et al. (2017) andMihaylov and Frank(2018)在QA任务中引入了Conceptnet(Speer et al., 2016)。
问题生成:
早期是基于模板和语法规则,再往后就是在模型上加入问题生成的排序功能和从符号角度进行研究。近期则发展为采用监督式的神经网络方法,(Du et al., 2017; Yuan et al., 2017; Zhao et al., 2018; Du and Cardie, 2018; Hosking and Riedel, 2019)尝试基于SQuAD数据集中的 c , a c,a c,a对生成问题。
值得注意的是,本文方案中的最优结果是需要借助NER系统(直接采用OntoNotes 5的标注数据)和用于提取子句的解析器(基于Penn Treebank训练而得)。此外,还用到特定语言(本文指英语语种)的wh*
启发式规则以训练最优的NMT模型。以上这些限制了本文方案的适用性和灵活性,只能局限于某些有丰富语料资源(NER和treebank datasets)的特定领域和特定语种。此外,本文的方案还需要一些额外的人工特征工程,比如定义新的启发式规则。
尽管本文的方案存在上述不足,但是本文的方案从无需 ( q u e s t i o n , a n s w e r ) (question,answer) (question,answer)、 ( q u e s t i o n , c o n t e x t ) (question,context) (question,context)对这个角度看确实是无监督的。而 ( q u e s t i o n , a n s w e r ) (question,answer) (question,answer)、 ( q u e s t i o n , c o n t e x t ) (question,context) (question,context)数据对在标注大规模QA训练数据集时是最艰难的。
本文中使用到的"noisy cloze"系统由简单的规则和噪声组成,但是其性能近乎可以与复杂的最优系统媲美(可回查Table 2)。尽管这种简单的方法缺乏与问题相关的语法和句法。采用"noisy cloze"系统生成的问题在接受问句评估的"well-formed"中自然也显得很拙劣,只有2.7%是"well-formed"。这些结果表明对于SQuAD而言,问题是否自然语言形式显得没那么重要,即使是使用强question-context的词匹配方式也能够取得足够好的性能。这部分工作可以参考Jia and Liang (2017),该文作者证明了即使是有监督的模型也依赖于单词匹配。
需要补充说明的是,本文提出的问题生成方案无需多跳或者多句子的联合推理,但仍然能够在SQuAD上取得不俗的成绩。事实上,Min et al. (2018)指出SQuAD中90%的问题只需要原文中的一个句子即可应对,Sugawara et al. (2018)则发现SQuAD中76%的问题和答案存在高度的token重叠。
本文探索抽取式QA的无监督解决方案。最终发现,本文所提出的无监督方案确实可行,且超越简单的监督系统,并远远优于其他不使用标注数据集的无监督方法。本文的无监督方案在SQuAD上取得 56.4 F1,进步一步在答案类型是命名实体的子数据集上取得64.5 F1。与此同时,需要注意的是虽然在这个相对简单的QA任务结果令人鼓舞,但是未来工作需要处理更多具有挑战QA问题,减少我们对语言资源和启发式的依赖。