DIFFERENTIABLE PROMPT MAKES PRE-TRAINED LANGUAGE MODELS BETTER FEW-SHOT LEARNERS
DifferentiAblepRompT(DART),预训练的语言模型+反向传播对提示模板和目标标签进行差异优化可微提示(DART)模型的体系结构与MLM预训练和常规微调进行了比较,其中Ti和Yi是词汇表中未使用的或特殊的标记。我们利用语言模型中的一些参数作为模板和标记标记,并通过反向传播对它们进行优化,而不引入模型之外的其他参数。提出了一种新的可微提示(DART)微调方法。如图所示,关键思想是利