LLM:Prompt-Tuning微调新范式

背景

        Pre-training + Fine-tuning 模式:先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型(Pre-trained Language Model,PLM)(e.g. GPT、EMLO、BERT),然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调(Fine-tuning),以获得适应下游任务的模型。    缺陷:在大多数的下游任务微调时,下游任务的目标与预训练的目标差距过大导致提升效果不明显,微调过程中依赖大量的监督语料等。一般任务在Fine-tuning阶段几乎都涉及在模型头部引入新参数的情况,且都存在小样本场景过拟合的问题。

        Prompt-Tuning微调范式——Prompt-Tuning,其旨在通过添加模板的方法来避免引入额外的参数,从而让语言模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。如GPT-3、PET。

Prompt-Tuning旨在解决传统Fine-tuning的两个痛点:
降低语义差异(Bridge the gap between Pre-training and Fine-tuning):预训练任务主要以Masked Language Modeling(MLM)为主,而下游任务则重新引入新的训练参数,因此两个阶段的目标通常有较大差异。因此需要解决如何缩小Pre-training和Fine-tuning两个阶段目标差距过大的问题;
避免过拟合(Overfitting of the head):由于再Fine-tuning阶段需要新引入额外的参数以适配相

你可能感兴趣的:(LLM,prompt,python,人工智能)