How Can We Know What Language Models Know? 中文注释

原始地址: How Can We Know What Language Models Know? | Transactions of the Association for Computational Linguistics | MIT Press

(2022/3/13 下午3:40:25)

(Jiang 等。, 2020, p. 423) 最近的工作提出了耐人寻味的结果,即通过让语言模型(LM)填充诸如 "奥巴马的职业 "等提示的空白处来研究语言模型(LM)所包含的知识。这些提示通常是人工创建的,而且很可能是次优的;另一个提示,如 "奥巴马曾是",可能会导致更准确地预测正确的职业。正因为如此,在一个不恰当的提示下,我们可能无法检索到LM所知道的事实,因此,任何给定的提示只能提供LM所包含的知识的下限估计。在本文中,我们试图通过自动发现更好的提示来更准确地估计LM中所包含的知识,以便在这个查询过程中使用具体来说,我们提出了基于挖掘(mine)和转述(paraphrase)的方法来自动生成高质量和多样化的提示语,以及结合不同提示语的答案的集合方法。在LAMA基准上进行的广泛实验表明,我们的方法可以将准确率从31.1%提高到39.6%,为LM的知识提供了更高的下限。我们已经发布了代码和由此产生的LM提示和查询档案(LPAQA),网址是https://github.com/jzbjyb/LPAQA。

“Specifically, we propose mining-based and paraphrasing-based methods to automatically generate high-quality and diverse prompts, as well as ensemble methods to combine answers from different prompts.” (Jiang 等。, 2020, p. 423) (pdf)

(Jiang 等。, 2020, p. 423) 近年来,语言模型(LM)的主要作用从生成或评估自然文本的流畅性(Mikolov和Zweig,2012;Merity等人,2018;Melis等人,2018;Gamon等人,2005)过渡到成为文本理解的有力工具。这种理解主要是通过使用语言建模作为特征提取器的预训练任务来实现的,通过语言建模目标学到的隐藏向量随后被用于下游语言理解系统(Dai和Le,2015;Melamud等人,2016;Peters等人,2018;Devlin等人,2019)。

有趣的是,LMs本身也可以作为文本理解的工具,通过用自然语言制定查询,直接生成文本答案(McCann等人,2018;Radford等人,2019),或者评估多个选择并挑选最可能的一个(Zweig和Burges,2011;Rajani等人,2019)。例如,LM被用来回答事实性问题(Radford等人,2019),回答常识性查询(Trinh和Le,2018;Sap等人,2019),或者提取关于实体之间关系的事实性知识(Petroni等人,2019;Baldini Soares等人,2019)。无论最终的任务是什么,LM中包含的知识都是通过提示来挖掘,让LM生成前缀的的后续信息(例如,"巴拉克-奥巴马出生于''),或者预测cloze-style模板中的缺失单词(例如,"巴拉克-奥巴马是一个职业")。

(注: cloze-style 是指在提示的前面或中间有空缺词。 续写是指在后面留空。)

然而,虽然这种范式已经被用来实现一些关于LMs所表达的知识的 有趣 的结果,但它们通常依赖于基于实验者的直觉而手工创建的提示语。这些手动创建的提示(例如,"巴拉克-奥巴马出生在'')可能是次优的,因为在训练期间,LM可能已经从大大不同的背景中学习了目标知识(例如,"巴拉克-奥巴马的出生地是夏威夷的檀香山")。因此,很有可能由于提示语不是对事实的有效查询,而无法检索到LM确实知道的事实。因此,现有的结果只是对LM所包含的知识程度的一个下限,事实上,LM的知识可能比这些初步结果所显示的还要丰富。在本文中,我们提出了一个问题:"我们如何才能提升这个下限,并对最先进的LM所包含的知识有一个更准确的估计?这在科学上是很有趣的,因为它是对LM所包含的知识的一种探测,从工程的角度来看,当使用LM作为知识提取系统的一部分时,它将导致更高的召回率。

特别是,我们专注于Petroni等人(2019)的设定,他们研究提取有关实体之间关系的知识(定义见第2节)。我们提出了两种自动方法来系统地提高用于查询关系存在的提示的广度和质量(第3节)。具体来说,如图1所示,这些方法是基于挖掘的方法,其灵感来自于以前的关系提取方法(Ravichandran和Hovy,2002),以及基于转述的方法该方法采用一个种子提示(无论是手动创建的还是自动挖掘的),并将其转述为其他几个语义相似的表达。此外,由于不同的提示在查询不同的主客体对时可能效果更好,我们还研究了轻量级的集成方法,将不同提示的答案结合在一起(第4节)。

我们在LAMA基准(Petroniet al., 2019)上进行了实验,这是一个英语基准,旨在测试LM检索实体间关系的能力(第5节)。我们首先证明,改进后的提示明显提高了这项任务的准确性,我们的方法提取的最佳提示在BERT-base(Devlin等人,2019)上的准确性从31.1%提高到34.1%,在BERT-large上也获得了类似的收益。我们进一步证明,通过集成使用多样化的提示,进一步提高了准确性,达到39.6%。我们进行了广泛的分析和消减,既收集了关于如何最好地查询存储在LM中的知识的见解,也收集了关于将知识纳入LM本身的潜在方向的见解。最后,我们发布了由此产生的LM提示和查询档案(LPAQA),以促进未来对LM中包含的知识进行探测的实验。

(集成各种提示,达到更多召回)

“sub-optimal” (Jiang 等。, 2020, p. 423) (pdf) 次优的

(Jiang 等。, 2020, p. 424) 从LM中检索事实性知识与查询标准的陈述性知识库(KB)有很大不同。在标准的知识库中,用户将其信息需求表述为由知识库模式和查询语言定义的结构化查询。例如,SELECT ?y WHERE {wd:Q76 wdt:P19 ?y}是一个SPARQL查询,用于搜索巴拉克-奥巴马的出生地。相比之下,LM必须通过自然语言提示进行查询,例如 "巴拉克-奥巴马出生在'',在空白处分配的概率最高的词将被返回作为答案。与对知识库的确定性查询不同,这不提供正确性或成功的保证。

虽然提示的想法在从LM中提取多种知识的方法中很常见,但在本文中,我们特别遵循Petroni等人(2019)的表述,其中事实性知识是以三联体的形式出现的 〈x, r, y〉。这里x表示主体,y表示客体,而r是它们的对应关系。为了查询LM,r与一个由一系列标记组成的cloze-style提示tr相关联,其中两个标记是主体和客体的占位符(例如,"'x plays at y position'")。通过用主语的表面形式替换x,并让模型预测缺失的宾语(例如,'LeBron James plays at position'),可以评估LM中事实的存在: (我们也可以反其道而行之,填充客体,预测缺失的主体 (主客体对)。由于我们的重点是改进提示,我们选择与Petroni等人(2019)一致,以进行公平的比较,并将探索其他设置留给未来的工作。另外值得注意的是,Petroni等人(2019年)只使用由一个标记组成的对象,所以我们只需要预测一个单词的缺失槽。

y = arg max y′∈V PLM(y′|x, tr),      其中tr为提示信息

其中V是词汇表,PLM(y′|x, tr)是在其他标记(即主体和提示)的条件下,LM在空白处预测y′的概率。因为我们希望我们的提示能够最有效地激发出LM本身所包含的任何知识,所以一个 "好的 "提示应该尽可能多地触发LM对基础事实对象的预测。

在以前的工作中(McCann等人,2018;Radford等人,2019;Petroni等人,2019),tr一直是基于实验者的直觉而手动定义的单一提示。正如介绍中所指出的,这种方法不能保证是最佳的,因此我们提出了从一小组训练数据中学习有效提示的方法,这些训练数据由每个关系的黄金主客体对组成。

(Jiang 等。, 2020, p. 425) 首先,我们处理提示生成问题:为每个关系r生成一组提示{tr,i}Ti=1的任务,其中至少有一些提示能有效地触发LM来预测真实客体。我们采用两种实用的方法,要么从大型语料库中挖掘提示候选者(§3.1),要么通过转述使种子提示多样化(§3.2)。

(Jiang 等。, 2020, p. 425) 基于挖掘的提示生成: 我们的第一个方法受到基于模板的关系提取方法的启发(Agichtein和Gravano,2000;Ravichandran和Hovy,2002),这些方法基于这样的观察:在大型语料库中,主语x和宾语y附近的词经常描述关系r。基于这种直觉,我们首先利用远距离监督的假设,确定所有包含特定关系r的主语和宾语的维基百科句子,然后提出两种方法来提取提示。 中间词提示 根据观察,在主语和宾语中间的词往往是关系的指示,我们直接使用这些词作为提示语。例如,"巴拉克-奥巴马出生在夏威夷 "通过用占位符替换主语和宾语被转换成 "X出生在Y "的提示。

基于依存关系的提示 Toutanova等人(2015)指出,在单词不出现在主宾中间的模板情况下(例如,"法国的首都是巴黎"),基于句法分析的模板对关系提取更有效。我们在创建提示语的第二个策略中遵循了这一见解,该策略用依存分析器解析句子,以确定主语和宾语之间最短的依赖性路径,然后使用依存路径中从最左边的单词到最右边的单词的短语作为提示语。例如,上例中的依赖路径是"'France pobj ←-- of prep ←-- capital nsubj ←-- is attr --→ Paris'",其中最左边和最右边的词是 "capital "和 "Paris",给出的提示是‘‘capital of x is y’’.。

值得注意的是,这些基于挖掘的方法不依赖于任何手动创建的提示,因此可以灵活地应用于任何我们可以获得一组主客体对的关系。这将导致多样化的提示,涵盖关系在文本中可能表达的各种方式。然而,它也可能容易产生噪音,因为以这种方式获得的许多提示可能对关系的指示性不强(例如,''x,y''),即使它们很频繁。 (有可能生成 “x, y" 这种指示性不强的提示,也就是说质量不好,是噪音)

(Jiang 等。, 2020, p. 425) 转写式提示生成: 我们的第二种生成提示语的方法更有针对性--它旨在提高词汇的多样性,同时保持对原始提示语的相对忠实。具体来说,我们通过对原始提示进行转述,使其成为其他语义相似或相同的表达方式。例如,如果我们的原始提示是''x与y共享一个边界'',它可以被转述为''x与y有一个共同的边界''和''x与y相邻''。这在概念上类似于信息检索中使用的查询扩展技术,即重新表述一个给定的查询以提高检索性能(Carpineto和Romano,2012)。

(回泽方法)

虽然很多方法可以用于转述(Romano等人,2006;Bhagat和Ravichandran,2008),但我们遵循使用回译的简单方法(Sennrich等人,2016;Mallinson等人,2017),首先将初始提示翻译成另一种语言的B候选者,然后将每个候选者回译成原始语言的B候选者。然后,我们根据B2候选人的往返概率(即Pforward( ̄t|ˆt )x Pbackward(t| ̄t ),其中ˆt是初始提示, ̄t是另一种语言的翻译提示,t是最终提示)进行排名,并保留前T个提示。

(Jiang 等。, 2020, p. 426) 提示选择与集成 在上一节中,我们描述了为一个特定的关系r生成一组候选提示{tr,i}Ti=1的方法。这些提示中的每一个在激发LM的知识方面都可能或多或少地有效,因此有必要决定在测试时如何使用这些生成的提示。在本节中,我们将介绍三种方法来做到这一点。 (对生成的提示进行怎样的处理才有效) Top-1 提示选择

对于每个提示,我们可以用以下方法衡量其预测真实客体的准确性(在训练数据集中):

A(tr,i) = ∑∈R δ(y=arg maxy′ PLM(y′|x,tr,i))   /    |R| ,

其中R是一组具有r关系的主客体对,δ(-)是Kronecker的delta函数,如果内部条件为真,返回1,否则返回0  ( 条件是 y == arg max y' PLM(y'|x,tr,i) 。在最简单的查询LM的方法中,我们选择准确率最高的提示,并只使用这个提示进行查询。 ----------------------------------------------

(克罗内克函数: 两值 相等输出 1, 不等输出  0) yij ={   1,   i=j     0,  i <> j }

-----------------------------------------------

“y” (Jiang 等。, 2020, p. 426) (pdf)

“arg maxy′ PLM(y′|x,tr,i)” (Jiang 等。, 2020, p. 426) (pdf)

(Jiang 等。, 2020, p. 426) 基于排名的集成 接下来,我们研究了不仅使用top-1提示,而且结合多种提示的方法。这样做的好处是,在训练数据中,LM可能会在不同的背景下观察到不同的实体对,而拥有各种提示可能会允许激发出现在这些不同背景下的知识。 我们的第一种合集方法是一种无参数的方法,对排名靠前的提示语的预测结果进行平均。我们根据训练集上预测物体的准确性对所有的提示进行排名,并使用前K个提示的平均对数概率来计算出物体的概率: s(y|x, r) = K∑i=1 (1/K) log PLM(y|x, tr,i),                 (1) P (y|x, r) = softmax(s(·|x, r))y,                      (2)

其中tr,i是排在第i个位置的提示。这里,K是一个超参数,小的K集中在少数最准确的提示上,大的K增加提示的多样性。 (k 小精度高,K大召回高)

(Jiang 等。, 2020, p. 426) 实验设定: 在这一节中,我们评估了我们的提示可以在多大程度上改善事实预测的性能,提高了我们所发现的LM中包含的知识的下限。 数据集: 作为数据,我们使用LAMA基准(Petroni等人,2019)的T-REx子集(ElSahar等人,2018),该子集有更广泛的41个关系(相比之下,Google-RE子集只涵盖3个)。每个关系都与来自维基数据的最多1000个主客体对和一个手动设计的提示有关。为了学习挖掘提示(第3.1节),基于排序的提示集成(第4.2节),或学习集成权重(第4.3节),我们为每个关系创建了一个单独的主客体对训练集,该训练集也来自维基数据,与T-REx数据集没有重叠。我们把这个训练集称为T-REx-train。为了与LAMA中的T-REx数据集保持一致,T-REx-train也被选择为只包含 单标记的客体(single-token objects)。为了研究我们方法的通用性,我们还报告了我们的方法在Google-RE子集上的表现,该子集的形式与T-REx相似,但相对较小,只包括三个关系。 (用 wiki数据给三种方法分别创建了训练数据集,与T-REx 数据集没有重叠,仅用于训练。 用T-Rex来进行检验)

P̈orner等人(2019)注意到,LAMA中的一些事实可以只根据实体的表面形式进行召回,而不需要记忆事实。他们过滤掉了那些容易猜测的事实,创造了一个更难的基准,表示为LAMA-UHN。我们还对LAMA-UHN的T-REx子集(即T-REx-UHN)进行了实验,以研究我们的方法是否还能在这个更难的基准上获得改进。数据集的统计数据总结在表1中。

(Jiang 等。, 2020, p. 426) 优化后集成 上述方法对前K个提示的处理是平等的,考虑到有些提示比其他提示更可靠,这是次优的。因此,我们还提出了一种直接优化提示权重的方法。形式上,我们将方程1中的分数重新定义为: s(y|x, r) = T∑i=1 Pθr (tr,i|r) log PLM(y|x, tr,i),            (3) 其中Pθr(tr,i|r)= softmax(θr)是一个以θr为参数的提示(prompt) 分布,是一个T大小的实值向量。对于每一个关系,我们学习对不同的T个候选提示进行评分,所以参数的总数是关系数量的T倍。参数θr被优化以使训练数据上的黄金标准对象P(y|x,r)的概率最大化。 P(y|x,r) 是训练样本的概率,需要优化使它最大。

“we create a separate training set of subject-object pairs also from Wikidata for each relation that has no overlap with the T-REx dataset.” (Jiang 等。, 2020, p. 427) (pdf)

(Jiang 等。, 2020, p. 427) 预训练模型: 至于要探测的模型,在我们的主要实验中,我们使用标准的BERT-base和BERT-large模型(Devlin等人,2019)。我们还用其他用外部实体表征增强的预训练模型进行了一些实验,即ERNIE(Zhang等人,2019)和KnowBert(Peters等人,2019),我们认为它们在实体的召回方面可能做得更好。

(Jiang 等。, 2020, p. 427) 评价指标:

我们用两个指标来评价提示语在探测LM方面的成功。第一个评价指标,微观平均准确度,遵循LAMA基准6,计算关系r的所有主客体对的准确度:

(1/|R| )∑ 〈x,y〉∈R δ(ˆy = y)   ,

( δ 为克罗内克函数, 里面的条件相等为1, 不等为0)

其中ˆy是预测值,y是真实值 。然后我们在所有关系中取平均值。然而,我们发现一些关系的客体分布是极其倾斜的(例如,关系母语中超过一半的客体是法语)。这可能会导致欺骗性的高分,即使是为每个关系挑选最常见对象的majorityclass基线,也能达到22.0%的分数。为了缓解这个问题,我们还报告了宏观平均的准确性,它分别计算每个独特对象的准确性,然后将它们平均起来,得到关系级的准确性

1/|uni_obj(R)|   ∑ y′∈uni_obj(R)  (   ∑ 〈x,y〉∈R,y = y′ δ(ˆy = y)  /   |{y|〈x, y〉 ∈ R, y = y′}|   ),

其中uni_obj(R)返回关系r中唯一的对象集合。这是一个更严格的指标,多数类的基线只获得2.2%的分数。

(Jiang 等。, 2020, p. 427) 方法: 我们尝试了不同的提示生成和选择/组合方法,并将其与Petroni等人(2019)中使用的人工设计的提示进行比较。如上所述,Majority指的是预测每个关系的多数对象Man是Petroni等人(2019)的基线,只使用手动设计的提示语进行检索。Mine(§3.1)使用通过中间词和依存路径从维基百科挖掘出来的提示,Mine+Man将其与人工提示相结合。Mine+Para(§3.2)为每个关系转写后排名最高的挖掘出来的提示,而Man+Para则使用人工提示。

这些提示是通过平均TopK最高等级提示的对数概率(§4.2)或优化后的权重(§4.3;Opti.)进行组合。Oracle代表生成的提示语的性能上限,如果任何一个提示语允许LM成功地预测该对象,则判断该事实为正确

Mine 是使用中间词和依存路径从wiki百科中挖掘出来的提示。 Man  人工设计的提示

(Jiang 等。, 2020, p. 427) 实现细节: 在所有的实验中,我们使用T=40个最频繁的提示语,这些提示语是通过挖掘或回译产生的,而回译中的候选者数量被设定为B=7。我们删除了只包含停顿词/标点符号或长于10个单词的提示语,以减少噪音。我们使用在WMT'19(Ng等人,2019)上预训练的英德神经机器翻译模型进行回译,因为英德是资源最丰富的语言对之一。在优化集成参数时,我们使用Adam优化函数(Kingma和Ba,2015)的默认参数和批大小32。

(Jiang 等。, 2020, p. 428) 评价结果: 表2和表3分别报告了不同方法的微观和宏观平均精度。 单一提示实验

当只使用一个提示时(在两个表中的第一个Top1列),所提出的提示生成方法中最好的方法在BERT-base上将微观平均准确率从31.1%提高到34.1%,在BERT-large上从32.3%提高到39.4%。这表明手动创建的提示是一个有点弱的下限;还有其他的提示可以进一步提高从LM查询知识的能力。表4显示了一些挖掘出来的提示语,与人工提示语相比,这些提示语带来了很大的性能提升。对于宗教关系,"皈依y的x "比人工定义的提示 "x隶属于y的宗教 "提高了60.0%,对于关系子类,"x是y的一种类型 "比 "x是y的子类 "提高了22.7%的准确性。可以看出,使用挖掘出来的提示语的最大收益似乎发生在人工定义的提示语在语法上更复杂的情况下(例如前者),或者使用比挖掘出来的提示语更不常见的措辞时(例如后者)。 提示组合 

接下来,我们转向使用多个提示语来查询LM的实验。将第1列中的单一提示结果与下面三列中的组合结果进行比较,我们可以看到,组合多个提示几乎总是能带来更好的性能。在不同的提示生成方法中,Top3和Top5中使用的简单平均值优于Top1。优化后的合集在BERT-base和BERT-large上进一步将微观平均准确率分别提高到38.9%和43.7%,比基于等级的合集要好得多。这两组结果表明,不同的提示确实可以以不同的方式查询LM,而且基于优化的方法能够找到有效地将不同的提示结合在一起的权重。

我们在表5中列出了学习到的前3名提示的权重,以及与只使用前1名提示相比的准确率提升。权重往往集中在一个特定的提示上,而其他的提示则作为补充。我们还在图2中描述了基于等级的合集方法的性能与提示语数量的关系。对于挖掘出来的提示语,前2名或前3名通常能给我们最好的结果,而对于转述的提示语,前5名是最好的。纳入更多的提示语并不总是能提高准确率,这一发现与基于优化的方法所学到的权重迅速下降的情况相一致。Oracle和Opti.之间的差距表明,使用更好的合集方法仍有改进的空间。

挖掘与转述

对于基于等级的合集(Top1, 3, 5),通过意译产生的提示语通常比挖掘的提示语表现更好,而对于基于优化的合集(Opti.),挖掘的提示语表现更好。我们推测,这是因为与意译相比,挖掘出来的提示语表现出更多的变化,而适当的加权是最重要的。这种变化的差异可以从每一类提示语之间的平均编辑距离中观察到,挖掘出来的提示语和意译出来的提示语的编辑距离分别为3.27和2.73。然而,与仅仅使用一个提示语相比,集合释义所带来的改进仍然是显著的(Top1 vs. Opti.),在BERT-base上将微观平均准确率从32.7%提高到36.2%,在BERTlarge上从37.8%提高到40.1%。这表明,即使对提示语进行小的修改也会导致预测的相对较大的变化。表6展示了对一个词(功能或内容词)的修改导致显著的准确性提高的情况,表明大规模的LM对查询方式的小变化仍然很脆弱。 中间词与基于依赖关系 

我们在表7中比较了只使用中间词提示和将其与基于依赖关系的提示相连接的性能。这些改进证实了我们的直觉,即属于依存关系路径但不在主语和宾语中间的词也是关系的指示。

观与宏观

对比表2和表3,我们可以看到,宏观平均准确率比微观平均准确率低得多,这表明宏观平均准确率是一个更具挑战性的指标,它评估了LM知道多少独特的对象。我们基于优化的方法在BERT基础上将宏观平均精度从22.8%提高到25.7%,在BERT基础上从25.7%提高到30.1%。这再次证实了集合多个提示的有效性,但收益要小一些。值得注意的是,在我们基于优化的方法中,合集权重是在训练集的每个例子上进行优化的,这更有利于优化微观平均的准确性。优化以提高宏观平均的准确性可能是未来工作的一个有趣的方向,这可能会使提示更普遍地适用于不同类型的物体。 不同LMs的性能

在表8中,我们将BERT与ERNIE和KnowBert进行了比较,这两种方法通过明确纳入实体嵌入来增强外部知识。ERNIE即使在手动定义提示的情况下也比BERT高出1分,但我们的提示生成方法进一步强调了这两种方法之间的差异,使用Mine+Man方法的最高准确率数字相差4.2分。这表明,如果对LM进行有效查询,高性能模型之间的差异可能会变得更加明显。KnowBert在LAMA上的表现不如BERT,这与Peters等人(2019)的观察相反。这可能是因为在Peters等人(2019年)中,多标记的主语/对象被用来评估KnowBert,而LAMA只包含单标记的对象。

LAMA-UHN评估 表9中报告了LAMA-UHN基准的性能。尽管与原始LAMA基准测试的表现相比,整体表现大幅下降(表2),但优化后的组合仍能在很大程度上胜过人工提示,表明我们的方法在检索无法根据表面形式推断的知识方面是有效的。

(Jiang 等。, 2020, p. 430) 分析: 接下来,我们进行进一步的分析,以更好地了解哪种类型的提示被证明最适合于促进从LM中检索知识。 通过提示进行预测的连贯性

 我们首先分析在什么条件下,提示会产生不同的预测。我们用下面的公式来定义两个提示语tr,i和tr,j的预测之间的分歧。

Div(tr,i, tr,j ) = ∑〈x,y〉∈R δ(C(x, y, tr,i)  /= C(x, y, tr,j ))   /   |R| ,  (/= 表示不等) 其中C(x, y, tr,i)=1,如果提示tr,i能成功预测y,否则为0,δ(-)为克朗克尔的delta 函数。 对于每个关系,我们将两个提示的编辑距离归一化为[0, 1],并将归一化后的距离分为五个间隔为0.2的箱。我们在图3中为每个仓绘制了一个箱形图,以可视化预测分歧的分布,绿色的三角形代表平均值,箱中的绿色条代表中值。随着编辑距离的变大,分歧也在增加,这证实了我们的直觉,即非常不同的提示往往会产生不同的预测结果。皮尔逊相关系数为0.25,这表明这两个数量之间存在着微弱的相关性。 在Google-RE上的表现   (优化组合的收益较少,原因可能是关系太少,有一关系不常见,难预测)

我们还在表10中报告了优化后的组合在Google-RE子集上的表现。同样,对不同的提示进行组合可以提高BERT-base和BERT-large模型的准确性。与T-REx子集相比,收益略小,这可能是由于只有三个关系,其中一个关系(预测一个人的出生日期)特别难,以至于只有一个提示产生非零的准确性。

(Jiang 等。, 2020, p. 431) 表11:ReVerb中用于识别关系短语的三种基于词性的正则表达式。

det. 是 determiner 的缩写,指词类中的“限定词”,包括冠词 (a/an,the)、指示代词(this/these, that/those)、物主代词 (如 my,his,their )、不定代词(如 any,both,all,some, whose)。特点:从形式上看,大多数属于封闭性词类,并且具有相应的代词。从位置上看,在名词短语中,它们位于形容词之前。从功能上看,它们对其后的名词起限定作用。 从用法上看,在名词短语中,大多数限定词是相互排斥的,而形容词的使用从理论上说是没有数量限制的。

“optimized ensemble” (Jiang 等。, 2020, p. 431) (pdf) 优化集成

(Jiang 等。, 2020, p. 431) 基于POS的分析

接下来,我们试图通过研究成功地从LM中提取知识的提示语的词性(POS)模式,来研究哪些类型的提示语在抽象中往往是有效的。在开放的信息提取系统中(Banko等人,2007),人工定义的模式(如句法约束)经常被用来过滤掉嘈杂的关系短语。例如,ReVerb(Fader等人,2011年)结合了表11中列出的三个句法约束,以提高挖掘出的关系短语的一致性和信息量。为了测试这些模式是否也能表明提示从LM中检索知识的能力,我们用这三种模式将我们的方法产生的提示分为四个群组,其中 "其他 "群组包含不符合任何模式的提示。然后,我们计算每个提示在所提取的提示中的排名,并在图4中用箱形图绘制出排名的分布。我们可以看到,与这些模式相匹配的提示的平均排名要好于 "其他 "组中的提示,这证实了我们的直觉,即好的提示应该符合这些模式。一些表现最好的提示语的POS签名是''x VBD VBN IN y''(例如,'x出生在y')和''x VBZ DT NN IN y''(例如,'x是y的首都')。

(Jiang 等。, 2020, p. 431) 跨模型的一致性 最后,我们有兴趣知道,我们所提取的提示语是针对某个特定语言模型的,还是可以跨语言模型通用。为了做到这一点,我们使用了两种设置。一个是比较BERT-base和BERT-large,相同的模型架构,但规模不同;另一个是比较BERT-base和ERNIE,不同的模型架构,规模相当。在每种情况下,我们比较了基于优化的组合在同一模型上训练时,或在一个模型上训练并在另一个模型上测试时。如表12和13所示,我们发现,一般来说,在跨模型的情况下,性能通常会有一些下降(第三和第五列),但损失往往很小,查询BERT-base时的最高性能实际上是由在BERT-large上优化的权重实现的。值得注意的是,在其他模型上优化集成 (Opti-Ensemble)的最佳准确率为40.1%和42.2%(表12)以及39.5%和40.5%(表13),仍然比手动提示获得的准确率高得多,这表明优化集成提示仍然能在不同的模型上提供大的收益。另一个有趣的观察是,在ERNIE上的性能下降(表13的最后两列)比在BERT-base上使用优化权重的BERT-large(表12的最后两列)更大,表明共享相同结构的模型从相同的提示中受益更多

(Jiang 等。, 2020, p. 432) 线性与对数线性的结合: 如第4.2节所述,我们在主要实验中使用对数线性组合的概率。然而,也可以通过常规的线性插值来计算概率: P (y|x, r) =    K∑i=1  (1/K) PLM(y|x, tr,i)                   (4)

我们在图5(§4.2)中比较了这两种结合来自多个挖掘提示的预测的方式。我们假设对数线性组合优于线性组合,因为对数概率使我们有可能惩罚那些在任何特定提示下非常不可能的对象。

“interpolation” (Jiang 等。, 2020, p. 432) (pdf) 插值   /ɪnˌtɜːrpəˈleɪʃn/

(Jiang 等。, 2020, p. 432) 忽略的设计元素:(试验过但是没有效果的设计) 最后,除了我们在第3节和第4节中提出的主要方法的要素之外,我们还试验了一些额外的方法,这些方法没有被证明是非常有效的,因此在我们的最终设计中被忽略了。我们在下面简要地描述这些方法,并附上粗略的实验结果。

语言模型感知的 提示生成:

我们研究了通过解决一个优化问题来产生提示的方法,该问题使产生与提示有关的真实客体的概率最大化。

t∗r = arg max tr PLM(y|x, tr),

其中PLM(y|x, tr)是用预先训练好的LM进行参数化。换句话说,这种方法直接寻找一个提示,使LM分配给真实客体的概率最高。 tr 就是这个找到的提示,优化目标是 让 PLM 找到真实客体y的概率最高。

在端到端序列生成的背景下(Hoang等人,2017年),以及在对现有输入进行小的改变以进行对抗性攻击的背景下(Ebrahimi等人,2018年;Wallace等人,2019年),都对解决寻找优化某些连续目标的文本序列这一问题进行了研究。然而,我们发现,在我们的初步实验中,由梯度引导的直接优化提示是不稳定的,并且经常产生不自然的英语提示。因此,我们转而(resort to )采用了一种更直接的爬坡方法,从初始提示开始,然后每次遮蔽一个标记,并用以其他标记为条件的最有可能的标记代替它,这受到了非自回归机器翻译中使用的遮蔽预测解码算法的启发(Ghazvininejad等人,2019)。 ( 从初始化的提示中,屏蔽一个词,用其它词为条件预测这个屏蔽掉的词的位置的最可能的词) PLM(wi|tr \ i) =     ( ∑〈x,y〉∈R PLM(wi|x, tr \ i, y)  )      /  |R|

(理论上,这种算法既可以应用于像BERT这样的遮蔽LM,也可以应用于传统的从左到右的LM,因为遮蔽概率可以用传统LM的贝叶斯定理来计算。然而,在实践中,由于词汇量大,只能用波束搜索进行近似,或用更复杂的连续优化算法进行计算(Hoang等人,2017)。)

\i 表示去掉 i 所在位置的词, 其中wi是提示中的第i个符号,tr\i是屏蔽了第i个符号后的提示。我们遵循一个简单的规则,从左到右修改提示语,这样反复进行直到收敛。

我们用这种方法完善了T-REx-train数据集上的所有挖掘的和人工构建的提示,并在表14中显示了它们在T-REx数据集上的表现。经过微调后,Oracle的性能明显提高,而集合方式的性能(包括基于排序的和基于优化的)略有下降。这表明,LM意识到的微调有可能发现更好的提示,但部分细化的提示(refined prompt)可能过度适合于它们被优化的训练集。

(用mask方法去优化挖掘或手工构建的提示信息, refined  prompt 可能更适合导出他们的训练集或模型。)

“we found that directly optimizing prompts guided by gradients was unstable and often yielded prompts in unnatural English in our preliminary experiments.” (Jiang 等。, 2020, p. 433) (pdf)

“conditioned on” (Jiang 等。, 2020, p. 433) (pdf)

(Jiang 等。, 2020, p. 433) 前向和后向概率

s(y|x, r) = T∑i=1 Pθr (tr,i|r) log PLM(y|x, tr,i),            (3)

最后,考虑到类的不平衡和模型过度预测主要客体的倾向,我们研究了一种方法来鼓励模型预测更一致的主体-对象对。受Li等人(2016a)使用的最大互信息目标的启发,我们将每个提示的后向对数概率log PLM(x|y, tr,i)添加到我们方程3中的基于优化的评分函数。由于对象的搜索空间很大,我们转而采用一种近似的方法,在训练和测试时只计算由前向概率给出的最可能的B客体的后向概率。如表15所示,后向概率带来的改进很小,这表明多样性促进的评分函数对于从LM中检索知识可能是不必要的。 (增加因素的多样性在从LM中检索 知识是不必要的)

“a diversity-promoting scoring function” (Jiang 等。, 2020, p. 433) (pdf)

(Jiang 等。, 2020, p. 433) 相关工作: 许多工作都集中在了解神经NLP模型中的内部表征(Belinkov和Glass,2019),或者通过使用外在的探测任务来研究是否可以从这些表征中预测某些语言属性(Shi等人,2016;Linzen等人,2016;Belinkov等人,2017),或者通过对模型的消融来研究行为如何变化(Li等人,2016b;Smith等人,2017)。特别是对于语境化表征,一套广泛的NLP任务被用来分析句法和语义属性,提供证据表明语境化表征在不同层次上编码语言知识(Hewitt和Manning,2019;Tenney等人,2019a;Tenney等人,2019b;Jawahar等人,2019;Goldberg,2019)。

与探测表征本身的分析不同,我们的工作遵循Petroni等人(2019);Porner等人(2019)探测事实性知识。他们使用手动定义的提示,这可能是低估了LMs的真实性能。与这项工作同时,Bouraoui等人(2020年)提出了类似的观点,即使用不同的提示可以帮助更好地从LM中提取关系知识,但他们使用的是为关系提取而明确训练的模型,而我们的方法是在没有任何额外训练的情况下检查LM中包含的知识。

正相反,以前的一些工作整合了外部知识库,使语言生成过程明确地以符号知识为条件(Ahn等人,2016;Yang等人,2017;Logan等人,2019;Hayashi等人,2020)。类似的扩展已经被应用于像BERT这样的预训练LM,其中上下文表示被实体嵌入增强(Zhang等人,2019;Peters等人,2019;P ̈ orner等人,2019)。相比之下,我们关注的是通过对LMs的提示来实现更好的知识检索,而不需要对它们进行修改。

(比如用wikipediavec 与Bert 对齐,产生的E-BERT模型)

“is explicitly conditioned on” (Jiang 等。, 2020, p. 434) (pdf)

(Jiang 等。, 2020, p. 434) 总结:

在本文中,我们研究了用于从语言模型中检索事实知识的提示语的重要性。我们提出了基于挖掘和基于回译的方法,系统地生成不同的提示,以查询特定的关系知识片段。这些提示语结合在一起,将事实性知识的检索准确率提高了8%,比人工设计的提示语要好得多。我们的分析表明,LMs确实比以前的结果所显示的更有知识,但它们对我们如何查询它们也相当敏感。这表明了未来的潜在方向,比如 (1)可以用不同的方式查询但仍能返回类似的结果的更强大的LM, (2)将事实性知识纳入LM的方法,以及( 3)进一步改进查询LM知识的方法的优化。 最后,我们将我们所有的学习到的提示作为LM提示和查询档案(LPAQA)向社区发布,网址是:https://github.com/jzbjyb/LPAQA。

你可能感兴趣的:(论文笔记或翻译,语言模型,人工智能,自然语言处理)