WINOGRANDE: An Adversarial Winograd Schema Challenge at Scale
AAAI 2020 Best Paper Award
Before: WSC (Winograd Schema Challenge) 2011, designed to be unsolvable by statistical models that rely on selectional preference or word association.
Now: solved by NLMs
Problem: What is the reason? Did LMs truly acquire commonsense power or rely on spurious biases in the datasets.
Solution:
常识性推理的基准Winograd Schema Challenge(WSC)(Levesque,Davis和Morgenstern,2011年)是一组专家精心设计的273个代词消解问题,最初设计是为了使仅依赖选择偏好或单词关联的统计模型无法解决这些问题。但是,神经语言模型的最新进展在WSC的变体上已经达到了大约90%的准确性。这就提出了一个重要的问题,即这些模型是否真正获得了强大的常识能力,或者它们是否依赖数据集中的虚假偏差而导致对机器常识的真实能力的高估。
为了研究这个问题,我们引入WINOGRANDE,这是一个由44K个问题组成的大规模数据集,其灵感来自于原始的WSC设计,但已进行了调整以提高数据集的规模和难度。数据集构建的关键步骤包括(1)精心设计的众包流程,(2)使用新颖的AFLITE算法减少系统偏差,该算法将人类可检测的单词关联泛化为机器可检测的嵌入关联。最佳的WINOGRANDE方法达到59.4 – 79.1%,比人类表现的94.0%低约15-35%(绝对值),具体取决于所允许的训练数据量(分别是2%– 100%)。
此外,我们在五个相关的基准上建立了最新的最佳结果-WSC(90.1%),DPR(93.1%),COPA(90.6%),KnowRef(85.6%)和Winogender(97.1%)。这些结果具有双重含义:一方面,它们证明了WINOGRANDE在用作迁移学习资源时的有效性。另一方面,他们担心我们在所有这些基准测试中可能高估了机器常识的真实功能。我们强调在现有和将来的基准测试中减少算法偏差的重要性,以减轻这种高估。
Winograd Schema Challenge(WSC)(Levesque,Davis和Morgenstern,2011年)作为图灵测试(Turing 1950年)的替代方案被提出,已被用作评估常识推理的基准。 WSC被设计为代词消解问题(请参见表1中的示例),该问题对人类而言是微不足道的,但对于仅依赖于统计模式却没有常识推理能力的机器而言,困难重重。但是,神经语言模型的最新进展已经报告了WSC数据集变体的准确率大约为90%。这提出了一个重要问题:
神经语言模型是否已成功获得常识,或者我们是否高估了机器常识的真实能力?
有关潜在高估的问题导致了另一个关键问题,即关于大规模神经语言模型可能正在利用潜在不需要的偏差的问题,本质上是正确解决了问题,但却是根据错误的理由。尽管WSC问题是专家精心设计的,但最近的研究表明,它们仍然容易出现偶然偏差。Trichelair等(2018)报告了单词关联(占13.5%的情况,请参见表1)以及其他类型的特定于数据集的偏差。尽管此类偏差和标注伪像在单个实例中并不明显,但由于问题的作者下意识地重复了类似的问题构造策略,它们已被引入数据集中。
为了调查有关机器常识能力的真实估计的问题,我们引入了WINOGRANDE,这是一个新数据集,包含受WSC原始设计启发而产生的44k问题,但经过修改以提高问题的规模和难度。 WINOGRANDE构建的关键步骤包括(1)精心设计的众包流程,然后是(2)一种新颖的算法AFLITE,该算法将基于单词出现的人类可检测偏差泛化为基于嵌入出现的机器可检测偏差。我们方法的主要动机是,人类编写问题时难免会在不知不觉中引入不需要的偏差。
虽然WINOGRANDE问题对于人类微不足道,准确性高达94%,但机器最佳结果(包括RoBERTa的结果)(Liu等人,2019年)要低得多,取决于训练数据的数量,介于59.4%-79.1%之间(从800到41k个实例),比人类水平的性能低15-35%(绝对值)。
此外,我们还证明WINOGRANDE向其他现有WSC和相关基准提供了迁移学习,并在其中五个上实现了新的SOTA,包括原始WSC(Levesque,Davis和Morgenstern 2011)(90.1%),DPR(Rahman和Ng 2012)(93.1%),COPA(Roemmele,Bejan和Gordon 2011)(90.6%),KnowRef(Emami等人2019)(85.6%)和Winogender(Rudinger等人2018)( 97.1%)。
尽管SOTA在多个具有挑战性的基准上的改进令人振奋,但我们谨慎地注意到,这些积极的结果必须审慎视之。该结果还可能表明在现有数据集中普遍存在虚假效果的程度,这冒着高估常识性推理中机器智能真实能力的风险。更一般而言,人为设计的问题和任务(无论它们是由众包还是专家提供)在许多情况下都包含标注伪像,而算法上的偏差缩减(例如AFLITE)对于减轻此类特定于数据集的偏差至关重要。
由于句对的结构性限制和语言知识的要求,WSC问题被认为很难通过众包进行手工制作(表1)。但是,我们提出了一种有效的方法来创建WSC问题的大规模数据集(WINOGRANDE),同时保持其原始属性,即对人类而言微不足道,而对于AI系统而言却很难。我们的方法包括精心设计的众包任务,然后是新颖的对抗过滤算法(第3节),该算法可以系统地消除数据中的偏差。
增强众包的创造力 从头开始创建句对会给众包工人带来很大的认知负担,从而他们下意识地诉诸于撰写在词法和风格上重复的句对。为了鼓励创造力并减少他们的认知负担,我们采用了限制条件下的创造力(Stokes,2005年),这是一种心理观念,表明适当的约束条件可以帮助组织和推动创造力。在实践中,众包工人被要求将随机选择的主题作为提示性上下文(以下详述),同时要求他们遵循精选数据的结构的精确原则。
众包任务 我们通过Amazon Mechanical Turk(AMT)上的众包收集WINOGRANDE问题。要求工人写出符合WSC问题要求的句对(如表1所示)(例如,避免单词关联,非零但很小的编辑距离)。为了避免重复相同的主题,工人被指示从随机分配的WikiHow文章中随机选择一个锚词,并确保两个句子都包含锚词。锚词不必一定是触发词,但是我们确保它不是诸如of,it,he,of之类的功能词。在我们的试点实验中,我们发现此限制极大地提高了工人的创造力和主题多样性。此外,还指示工人将句对长度保持在15到30个字之间,同时使句对之间的字词重叠率至少保持70%。根据最初的WSC问题,我们旨在在两个不同的领域收集句对(i)社会常识:一种情况,涉及两个具有相同性别,具有不同属性,情感,社会角色等的性别众包,以及(ii)身体常识:一种环境,涉及两个具有不同属性,用法,位置等物理对象的环境。 我们总共收集到77k个问题(即38k个句对)。
数据验证 我们通过三个不同的众包工人来验证每个收集的问题。经过严格的过程,如果(1)三名工人中的大多数选择了正确的答案选项,(2)他们同意两个答案选项是明确的(一个选项显然比另一个选项更合理),则认为该问题有效(3)不能简单地通过给出目标代词周围局部上下文的单词关联来回答问题(例如,“因为它行进得如此之快。”(赛车/校车))。结果有68%(53k)的问题被视为有效,我们丢弃了无效的问题。
尽管我们的众包过程解决了诸如单词关联之类的一些实例级别的偏差,但构造的数据集仍有可能具有特定于数据集的偏差-尤其是在扩大规模之后。为了应对这一挑战,我们提出了一种减少系统偏差的方法。
最近的一些研究(Gururangan等人2018; Poliak等人2018; Tsuchiya 2018; Niven和Kao 2019; Geva,Goldberg和Berant 2019)报告了大规模数据集中存在标注伪像的情况。标注伪像是数据中的意外模式,会以不希望的方式泄漏有关目标标签的信息。最先进的神经模型在利用此类伪像来正确解决问题方面非常有效,但却是根据错误的理由。为了解决数据集偏差带来的持续挑战,我们提出了AFLITE-一种新颖的算法,该算法可以使用最先进的词语上下文表示来系统地减少偏差。
轻量级对抗过滤 我们的方法基于Zellers等人提出的对抗过滤(AF)算法(2018),但进行了两项关键改进:(1)AFLITE的适用范围更广(不需要过多生成数据实例);(2)轻量得多(不需要在AF的每次迭代都重新训练模型)。从语言模型过度生成机器文本以用于测试实例会带来分布偏差的风险,在这种情况下,判别器可以学会区分机器生成的实例和人工生成的实例。此外,AF依赖于每次迭代都训练模型,当与BERT之类的模型对抗时,这会花费极高的计算成本(Devlin等人,2018)。
我们采用了实例的预计算神经网络嵌入作为其稠密表示,以代替人工识别的词汇特征。在这项工作中,我们使用数据集的一小部分对RoBERTa(Liu et al.2019)进行微调。具体来说,我们使用数据集(总共包含53k个实例)中的6k个实例(用于训练的5k和用于验证的1k)来微调RoBERTa(称为RoBERTa embed _\text{embed} embed)。我们使用RoBERTa embed _\text{embed} embed预计算其余实例(47k)的嵌入,作为AFLITE的输入。我们从最终数据集中丢弃了6k个实例。
接下来,我们使用数据的随机子集上训练的线性分类器(逻辑回归)集成模型来确定RoBERTa embed _\text{embed} embed中使用的表示是否强烈指示正确的答案选项。如果是这样,我们将丢弃相应的实例并进行迭代。
算法1提供了AFLITE的实现。该算法将预先计算的嵌入X和标签y以及集成模型的大小n,集成模型中分类器的训练集大小m,过滤临界值(cutoff)的大小k和过滤阈值τ作为输入。在每个过滤阶段,我们在数据的不同随机分片上训练n个线性分类器,并在对应的验证集上收集它们的预测。对于每个实例,我们将正确预测与预测总数之比作为其得分。我们根据实例的得分对实例进行排名,并删除得分高于阈值τ的前k个实例。我们重复此过程,直到在过滤阶段删除少于k个实例或剩余少于m个实例为止。当将AFLITE应用于WINOGRANDE时,我们将m设置为10,000,n = 64,k = 500,τ= 0:75。
这种方法也让人联想到NLP最近在对抗性学习方面的工作(Chen and Cardie 2018; Belinkov et al.2019; Elazar and Goldberg 2018)。 Belinkov等(2019)提出了一种针对NLI的对抗移除技术,该技术鼓励模型学习没有仅假设偏差的表示。但是,当提出新的基准时,我们不能强制任何未来的模型有目的地避免学习数据中的虚假相关性。此外,尽管仅假设偏差是NLI中有见地的偏差,但我们不对WINOGRANDE的偏差的可能来源做出任何假设。取而代之的是,我们依靠最先进的(统计)方法来发现不良的数据集捷径,从而采取更为主动的减少偏差的形式。
AFLITE的评估 我们评估AFLITE对两个基准的影响:随机数据缩减和基于PMI的过滤。在随机数据缩减中,我们对数据集进行随机子采样以评估数据集大小的减小如何影响偏差。在基于PMI的过滤中,我们计算每个句对(t)的PMI之差(f)如下:
f ( t 1 , t 2 ) = ∑ w ∈ t 1 PMI ( y = 1 ; w ) − ∑ w ∈ t 2 PMI ( y = 1 ; w ) f\left(t_{1}, t_{2}\right)=\sum_{w \in t_{1}} \operatorname{PMI}(y=1 ; w)-\sum_{w \in t_{2}} \operatorname{PMI}(y=1 ; w) f(t1,t2)=w∈t1∑PMI(y=1;w)−w∈t2∑PMI(y=1;w)
从技术上讲,我们首先按照Gururangan等人提出的方法,为数据集中的每个单词预先计算了单词和标签y = 1之间的PMI(2018)。给定句子中每个标签的PMI值之和表示该句子的标签y = 1的可能性。我们仅保留其PMI值差异很小的句对,因为它对应于难以区分的句对。
图1绘制了RoBERTa预计算嵌入,使用主成分分析(PCA)将尺寸缩小为2D(顶部)和1D(底部)。 我们观察到WINOGRANDEall和两个基线在两个正确答案选项(即y∈1,2)之间表现出不同的成分,而这种区别在WINOGRANDEdebiased中变得不那么明显,这意味着AFLITE成功地降低了数据集(在实例和标签之间)的伪关联。为了量化效果,我们使用答案选项计算样本之间的KL散度。我们发现随机数据缩减并不能减少KL散度(2.53→2.51)。有趣的是,尽管对PMI过滤的子集的主成分分析导致标签之间的显著分离,但PMI过滤仅在有限程度上降低了KL散度(→2.42)。另一方面,在WINOGRANDE去偏差的情况下,AFLITE显着降低了KL散度(→0.12),这表明该去偏差的数据集对于仅依靠伪相关性的统计模型具有挑战性。
AFLITE实际检测到了什么偏差? 根据原始WSC的目标,偏差是否是虚假的和不可取的?表2列出了AFLITE已检测为特定于数据集的偏差的示例。我们在前两个句对中看到一种结构模式,其中答案选项和目标代词之间的情感高度相关。换句话说,这些问题可以很容易地通过简单地利用极性模式(正面或负面)来解决。重要的是,这种特定于数据集的偏差是结构性的而不是字符级的,这与NLI文献中已经确定的偏差相反( Gururangan et al.2018; Poliak et al.2018),并且很难使用词汇PMI过滤等启发式方法来检测这些偏差。不必依赖于这种启发式方法,AFLITE能够通过算法检测可能包含此类偏差的样本。
应用AFLITE算法后,我们获得了一个包含12,282个实例的去偏差数据集,分为训练集(9,248),开发集(1,267)和测试集(1,767)。我们还发布了31k个AFLITE过滤掉的问题,作为额外训练集(§4)和资源(§5),WINOGRANDEall的问题总数为43,972(训练集为40,938,开发集1,267,测试集1,767)。
尽管WINOGRANDE受到原始WSC的启发,但我们做出了一些偏离WSC原始设计准则的设计选择,以便在确保数据集难度的同时大幅扩展数据集。
首先,将WINOGRANDE格式化为填空问题,其中空白对应上下文中提到的两个名称中的一个,遵循其他最近WSC变体(例如Trinh和Le(2018))所做的相同修改。相反,原始的WSC明确放置了代词(而不是空白)。从建模的角度来看,使用空格代替显式代词不会使问题变得更容易。
其次,虽然我们最初将所有问题收集为句对,但经过过滤的WINOGRANDEdebiased中的最终问题并不总是句对,因为AFLITE可能只过滤掉句对中的一个。在WINOGRANDEbiased中,大约1/3的问题不是句对。我们还发布全部由句对组成的WINOGRANDEall(训练集)。
第三,与仅由少数语言学专家编写的原始WSC问题不同,WINOGRANDE由众包工人撰写。因此,WINOGRANDE中使用的语言反映了大众使用的更加多样化和混杂的语言。重要的是,外行也会发现WINOGRANDE问题很容易解决,准确度达到94%(§4)。
我们对在原始WSC上有效的方法/模型进行WINOGRANDEdebiased(开发和测试)评估。
Wino Knowledge Hunting Emami等人的Wino Knowledge Hunting(WKH)(2018)基于一种信息检索方法,该语句将句子解析为一组查询,然后该模型从搜索结果的一小段中寻找每个候选答案的证据。这种面向IR的方法来自共引消解方面的工作(Kobdani等,2011; Ratinov和Roth 2012; Bansal和Klein 2012; Zheng等2013; Peng,Khashabi和Roth 2015)。
神经语言模型集成 Trinh and Le(2018)是应用神经语言模型的首批尝试之一,该模型已在非常大型的语料库(包括LM-1-Billion,CommonCrawl,SQuAD和Gutenberg图书)上进行了预训练。在此方法中,将任务视为带有两个选项填空问题。每个候选答案替换句子中的目标代词,神经语言模型提供了两个结果句子的可能性。这种简单而有效的方法优于以前的基于IR的方法。
BERT BERT(Devlin et al.2018)是另一种预训练的神经语言模型,在隐藏层中具有双向路径和连续句子表示。我们使用使用候选答案作为分隔符将输入句子分为上下文和选项。输入格式成为[CLS]上下文[SEP]选项[SEP];例如,The trophy doesn’t fit into the brown suitcase because the ___ [SEP] is too large. [SEP] (空白处填选项1或2),[CLS]符号嵌入用于分类哪个答案选项正确。我们使用网格搜索进行超参数调整:learning rate {1e-5, 3e-5,5e-5},epochs数{3,4,5,8},批大小{8,16},三个不同的随机种子。
RoBERTa RoBERTa(Liu等人2019)是一种改进的BERT变体,可以添加更多的训练数据,并具有更大的批大小和训练时间,以及其他细化,例如动态masking。RoBERTa在许多基准数据集上的性能优于BERT。
单词关联基线 使用BERT和RoBERTa,我们还运行单词关联基线(仅局部上下文)来检查数据集是否可以通过基于语言的偏差来解决。在此基准中,仅使用要填充的空白( w t w_t wt)周围的局部上下文( w t − 2 : EOS w_{t-2: \text{EOS}} wt−2:EOS)来训练模型(例如,because the ___ [SEP] is too large. [SEP])。这类似于NLI(Poliak et al.2018)中仅假设基准,其中任务(数据集)不需要完整的上下文来实现高性能。
在DPR数据集上微调 Rahman和Ng(2012)收集的 DPR(Defifinite Pronoun Reso lusiton Dataset),由30名本科生撰写的1,886个WSC风格问题组成。 Kocijan等(2019)最近显示,使用DPR进行微调的BERT可以提高WCS的性能(准确度为72.2%)。作为其他基准,我们用DPR对BERT和RoBERTa进行了微调,并对WINOGRANDE进行了评估。这使我们能够通过实验比较WSC和WINOGRANDE的差异。
人类评估 除上述方法外,我们把三个众包工人的多数票作为每个问题的人类性能。
表3示出了结果。 WKH和En semble LM这两个基线仅达到机会级性能(50%)。最好的模型RoBERTa达到79.1%的测试集准确率,而人类性能达到94.0%,这表明与预期一致,WINOGRANDEdebiased仍然对人来说很容易。关于单词关联(即局部上下文)基线,BERT和RoBERTa均达到接近机会级别的性能,这说明大多数WINOGRANDE偏差问题不能仅通过局部上下文来解决。最后,使用DPR进行微调的BERT和RoBERTa达到了60%以下的准确率水平,这与WSC(BERT(Kocijan等人(2019))为72%,RoBERTa为83%)和其他WSC风格问题(如第5.3节所示)的性能提升形成对比。这表明WINOGRANDEdebiased比WSC和现有变种更具挑战性。
学习曲线 为了查看训练集大小的影响,表4显示了RoBERTa训练的不同训练集大小(160至40k问题)的表现。图2显示了WINOGRANDEdebiased开发集上最佳模型RoBERTa的学习曲线。当训练数据的大小从800(训练数据的2%)到41K(训练数据的100%)时,RoBERTa的性能范围从59%到79%。为了达到人类水平的性能,当前最先进的模型需要超过118K的训练实例。
重要的是,学习曲线中可用训练数据的下端(约800)大致与WSC先前版本中可用的训练数据的大小相匹配(见表5)。对于大多数这些数据集,最先进技术已达到90%(§5)。相反,当我们控制WINOGRANDE的训练集大小时,RoBERTa的性能要低得多(59%),这证明了我们的数据集构造方法可以构造总体上比以前的数据集难得多的WSC问题。
WINOGRANDE包含大量WSC样式问题。除了用作基准数据集外,我们还使用WINOGRANDE作为资源–我们首先对数据集进行模型微调并在相关数据集上评估其性能,例如WSC,PDP,SuperGLUE-WSC,DPR,KnowRef,KnowRef和Winogender),以实现迁移学习。我们在多个现有基准数据集中建立了最先进的结果。
我们简要描述现有的WSC变体和其他相关数据集。表5提供了其汇总统计信息。
**WSC(Levesque,Davis和Morgenstern,2011年)**这是原始的Winograd Schema Challenge数据集,包含273个问题。尽管这些问题是由作者手动制作的,目的是尽可能避免单词关联的偏差,但Trichelair等人(2018)后来报告说,13.5%的问题可能仍然存在单词关联偏差。
**PDP(Morgenstern,Davis和Ortiz 2016)**PDP(专业名词歧义问题)数据集与原始WSC紧密相关,并在2016年的Winograd Schema Challenge中使用。该数据集包含80个专业名词消歧问题。它被表述为多项选择任务,其中代词必须消解为最多5个(但大多数为二元)可能的先行词之一。
**SuperGLUE-WSC(Wang等人,2019)**SuperGLUE包含多个数据集,包括WSC的修订版,我们将其称为SuperGLUE-WSC。此数据集汇总了原始的WSC,PDP和其他PDP样式的示例,并将它们重写为True / False二选一问题(例如,“Pete envies Martin because he is very successful.” Q: Does he refer to Martin? A: True) 。因此,问题的数量是WSC和PDP的大约两倍,尽管其规模仍然相对较小(总计804)。我们将WinoGrande转换为True / False二选一问题。
**DPR(Rahman和Ng,2012)**DPR(确定代词消解数据集)引入了30个本科生创作的另外1886个WSC问题。 Trichelair等(2018)指出,由于基于语言或特定于数据集的偏差水平提高,该数据集总体上比原始WSC更具挑战性。我们将原始训练集(1,332)分为训练(1,200)和开发(122)集,DPR对此没有正式的划分。
**KnowRef(Emami et al.2019)**KnowRef提供了超过8000个WSC风格的共指消解问题,这些问题可以通过启发式规则从1亿个Web句子(Reddit,Wikipedia和OpenSubtitles)中进行提取和筛选。我们报告可公开获得的测试集的结果(1.2k问题)。
**COPA(Roemmele,Bejan和Gordon,2011年)**此数据集引入了1,000个问题,旨在测试以脚本知识为重点的常识推理,形式为关于给定前提的原因和结果的二选一问题。由于COPA不提供训练集,因此我们以与SuperGLUE COPA(Wang等,2019)相同的方式将原始开发集(500)分为训练(400)和开发(100)集。
**Winogender(Rudinger et al.2018)**此数据集引入了720个问题,重点关注与人有关的代词消解,其独特目标是在共指消解系统中度量性别偏差。
我们的模型基于经过WINOGRANDE(训练和开发集)微调的RoBERTa。为了比较用作资源的不同语料库,我们还在DPR(训练和测试集)上对RoBERTa进行了优化。对于超参数搜索,我们使用与§4中相同的网格搜索策略。
额外的人员评估 我们还报告了WSC,PDP和DPR的人员性能,以校准我们的众包工人池的质量并支持以前的发现。据我们所知,这是在DPR数据集上报告人类性能的第一项工作。
表6和7显示了将WINOGRANDE的迁移学习应用于其他WSC变体的结果。总体而言,在WINOGRANDE上进行微调的RoBERTa有助于提高所有相关任务的准确性(表6),并且性能始终好于在DPR上进行微调的RoBERTa。
虽然似乎可以预期对某些相关数据集(尤其是WSC,PDP和DPR)的改进,但对COPA的重大改进却未曾想到。COPA任务——识别原因和结果——与WINOGRANDE中的任务有很大不同。对一项无关任务的重大改进表明WINOGRANDE可以作为常识知识的资源。
重要意义 我们认为,尽管在多个具有挑战性的基准上取得的这些积极成果令人鼓舞,但仍存怀疑。尤其是,这些结果还可能表明在现有数据集中普遍存在虚假数据偏差的程度,这冒着高估常识推理中机器智能真实能力的风险。
我们的结果和分析表明,继续进行去基准偏差研究的重要性以及对减少系统偏差的算法的需求不断增加,这使得基准能够随着最先进技术的发展而发展。我们将其留作未来的研究课题,以进一步调查我们的改进之处是由于现有基准的数据集偏差,还是在提高常识智能方面的真正进步。
Winogender设计为检查模型(和/或训练语料库)是否遭受性别偏差的诊断方法。偏差是通过代词性别在两种情况下准确性差异来衡量的,即代词性别匹配职业的优势性别与否(称为明白和不明白)。形式上计算为:
Δ F = Acc (Female, Non-gotcha) − Acc (Female, Gotcha) Δ M = Acc (Male, Non-gotcha) − Acc (Male, Gotcha) \Delta F \text{= Acc}_{\text{(Female, Non-gotcha)}} - \text{Acc}_{\text{(Female, Gotcha) }}\\\Delta M \text{= Acc}_{\text{(Male, Non-gotcha)}} - \text{Acc}_\text{(Male, Gotcha)} ΔF= Acc(Female, Non-gotcha)−Acc(Female, Gotcha) ΔM= Acc(Male, Non-gotcha)−Acc(Male, Gotcha)
分别代表女性和男性情况。
较大的∆F或∆M表示该模型具有较高的性别偏向性,而| ∆F| |= | ∆M | = 0(以及高精度)是理想的情形。此外,如果∆F或∆M在很大程度上为负值,则表明该模型存在相反的偏差。
表7显示了性别偏差诊断的结果。尽管我们发现在WINOGRANDE和DPR上进行微调的RoBERTa模型都显示出很高的准确性,但RoBERTa-WinoGrande中的性别差距小于RoBERTa-DPR。
我们介绍了WINOGRANDE,这是一个由44k 受WSC启发的问题的新集合,它比WSC数据集的现有变体要大得多。为了创建对伪数据偏差稳健的数据集,我们还介绍了AFLITE –一种新颖的轻量级对抗过滤算法,可用于系统性的偏差缩减。对于现有的最先进模型,所得的数据集具有更大的挑战性,而对人类而言仍然非常容易。此外,使用WINOGRANDE作为资源,我们演示了有效的迁移学习并在几个相关的基准上获得了最先进结果。
同时,我们还强调了在现有常识基准上高估现有技术方法性能的潜在风险;这些模型可能依靠虚假的统计模式(标注伪像)而以错误的原因正确地解决了问题。
我们的工作为设计用于衡量AI进展的基准提供了新的视角。与过去数十年来社区构建静态基准数据集以在未来很多年内工作不同,我们现在需要AI算法来构成对AI来说足够困难的挑战,这需要动态数据集与不断发展的最先进技术一起发展。