Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt

虽然现有的大部分工作都集中在单语prompt上,但研究了多语言PLM的多语言prompt,尤其是在zero-shot setting下。为了减轻为多种语言设计不同prompt的工作量,我们提出了一种新的模型,该模型对所有语言使用统一的提示,称为UniPrompt。与离散prompt和soft-prompt不同,UniPrompt是基于模型的而与语言无关的。具体来说,UniPrompt由多语言PLM初始化,以生成独立于语言的表示,然后与文本输入融合在推理过程中,可以预先计算prompt,这样就不需要额外的计算成本。为了配合统一prompt,我们提出了一种新的目标标签词初始化方法,以进一步提高模型跨语言的可移植性。大量的实验表明,我们提出的方法在不同语言中的性能明显优于baseline。

UniPrompt基于模型,与语言无关。它由一个以英语prompt为输入的多语言PLM初始化,并通过多语言PLM的可转移性产生与语言无关的representation。在推理过程中,可以预先计算prompt,这样就不会引入额外的计算成本。通过这种方式,我们可以减轻不同语言的prompt engineering的影响,同时保留PLMs的能力。为了更好结合统一提示,我们提出了一种新的标签词初始化方法,而不是使用PLM中的语言模型头。这进一步提高了模型跨语言的可移植性。

1. UniPrompt

对于templete, use two independent encoder towers, template towercontext tower模板塔用于编码prompt的模板,而上下文塔用于原始文本输入。两个塔都由多语言PLM的底层初始化。然后,将模板和上下文的表示连接起来,作为fusion tower的输入。fusion tower由多语言PLM的顶层初始化。研究发现,预训练语言模型的较低层次与语言迁移有关,而较高层次与实际语义有关,因此,它可以摆脱模板对特定的语种的依赖,但也保留了prompt的能力,以激活PLM的潜在知识

由于prompt tower的输出可以在推理之前预先计算,因此该模型不会在推理阶段引入额外的参数或计算成本。对于标签词,我们使用人工标记,因此它与语言无关。与这些工作不同,我们提出了一种新的标签词初始化方法。具体来说,我们最小化了label words和sentence embeddings之间的距离,微调前的句子嵌入。这是通过简单平均sentence embeddings作为同一类别的label words。这样,标签词不仅有一个良好的起点,而且与语言无关。

2. Two-tower Prompt Encoder

跨语言prompt,如果直接使用词汇表中现有的tokens,则会偏向于某些特定的语言,因此在这个任务中设计模板的第一个目标是:模板不能依赖于任何特定的语言,实现这一目标的一个直观想法是使用soft-prompt,这是与特定语言无关的人工标记。然而:i)由于在few-shot场景中数据量很少,因此无法充分训练;ii)未在pretrain阶段出现。因此,可能无法由prompt激活PLMs的潜在知识。鉴于,对于软提示的问题,可以得出设计模板的第二个目标:最小化预训练和提示调整之间的差距。

对于soft-prompt的问题,可以得出设计templete的第二个目标:最小化pre-training 和 prompt-tuning之间的差距

为了实现这些目标,我们现在描述我们对prompt进行建模的方法,称为two-tower prompt encoder。根据之前的工作,PLMs的底层对特定语言标记/语法相关的信息进行编码,而顶层对语义信息进行建模。因此,我们将PLM编码器的底部1-p层建立two independent encoder towers,分别对模板和上下文进行编码。在形式上,我们可以将其定义为

然后,我们concatenate the outputs of the two enocders 作为fusion tower的初始化输入

在multilingual PLM帮助下, the template tower 帮助template在languages上更好的迁移.

3. Initialization of Soft Label Words

对于label words,我们使用真实tokens,由于针对于特定的语言任务,因此采用soft label words,即人工标记,以实现语言独立。为了进一步减少soft label words的预训练和微调之间的差距,提出了一种新的标签词初始化方法

如果将输出投影矩阵视为label words的word embedding,则微调的目标是最小化encoder输出和相应label word embedding的距离。因此,如果label word embeddings已经接近编码器输出,这将是模型的良好起点,尤其是在少数镜头设置中。

基于此,我们建议计算所有训练样本的encoder outputs,根据它们的labels对它们进行分组,然后对每组中的所有编码器输出进行简单平均,以初始化标签词

注意到对于few shot learning,预计算encoder outputs的计算成本很小。这样,在不改变PLM主体的情况下,我们只使输出层适应下游任务。换句话说,这些模型将对下游任务具有良好的优先级,同时保留来自PLM的知识。我们为每个label i构造soft-label Li,并根据label将训练样本分组到Ci中。然后,我们将训练示例与相应的模板连接起来,以计算编码器输出。我们取每组编码器输出中[mask]表示h(c,m)的平均值来初始化label word。label word Li的embedding可以定义为

Avg means average pooling, Ci is the set containing the training cases with label i.

你可能感兴趣的:(Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt)