通俗易懂的LLM

目录

  • 前言
  • 一、Tuning
    • 1、Fine-Tuning(微调)
    • 2、Prompt-Tuning(提示微调)
      • 2.1 In-context learning(上下文学习)
      • 2.2 Pattern-Verbalizer-Pair(PVP)
      • 2.3 Prompt-Tuning
      • 2.4 Prompt-Tuning vs Fine-Tuning
    • 3、Instruction-Tuning(指示微调)
      • 3.1、Instruction-Tuning的提出
      • 3.2、Fine-Tuning vs Prompt-Tuning vs Instruction-Tuning
    • 4、Chain-of-Thought(思维链)
      • 4.1、Manual-CoT(人工思维链)
      • 4.2、Zero-shot-CoT(零示例思维链)
      • 4.3、Auto-CoT(自动思维链)
    • 5、Parameter-Efficient Fine-Tuning (PEFT,参数有效性微调)
      • 5.1、PEFT介绍
  • 二、LLM简介
    • 1、GPT系列(OpenAI)
      • 1.1 GPT-1、GPT-2、GPT-3
      • 1.2 InstructGPT
      • 1.3 ChatGPT
      • 1.4 GPT-4
    • 2、其他大模型
  • 三、补充知识
    • 1、LLM为什么都用Decoder only架构?
    • 2、NLP小知识点
    • 3、名词解释
  • 总结

前言

  2022年年底OpenAI发布ChatGPT,将LLM(Large Language Model)带向了一个新的高度,而2023年OpenAI继续放出大招:更强大的GPT-4问世,瞬间引爆了整个互联网圈。在这个大模型时代,作为一名NLPer,持续吸收着层出不穷的新技术,确实有些吃不消。俗话说,好记性不如烂笔头,在此记录下LLM相关技术及进展。顺便说一句,你可以说它不全面,但不能说它不通俗易懂。

一、Tuning

  虽然本篇博客的主要目的是介绍包括GPT系列在内的各种LLM的架构,但是在介绍LLM之前,我们有必要了解下Tuning(微调)的发展历程,它们推动着LLM朝向更智能的方向发展。
  目前学术界一般将NLP任务的发展分为四个阶段,即NLP四范式:

  • 第一范式:基于「传统机器学习模型」的范式,如 tf-idf 特征+朴素贝叶斯等机器算法;
  • 第二范式:基于「深度学习模型」的范式,如word2vec特征+LSTM等深度学习算法,相比于第一范式,模型准确有所提高,特征工程的工作也有所减少;
  • 第三范式:基于「预训练模型+fine-tuning」的范式,如Bert+fine-tuning的NLP任务,相比于第二范式,模型准确度显著提高,模型也随之变得更大,但小数据集就可训练出好模型;
  • 第四范式:基于「预训练模型+Prompt+预测」的范式,如Bert+Prompt的范式相比于第三范式,模型训练所需的训练数据显著减少。

  在整个NLP领域,你会发现整个发展是朝着精度更高、少监督,甚至无监督的方向发展的。下面我们对第三范式、第四范式进行详细介绍。

1、Fine-Tuning(微调)

  Fine-Tuning是一种迁移学习,在自然语言处理(NLP)中,Fine-Tuning是用于将预训练的语言模型适应于特定任务或领域。Fine-Tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它。
  Fine-tuning的概念已经存在很多年,并在各种背景下被使用。Fine-tuning在NLP中最早的已知应用是在神经机器翻译(NMT)的背景下,其中研究人员使用预训练的神经网络来初始化一个更小的网络的权重,然后对其进行了特定的翻译任务的微调。
  经典的fine-tuning方法包括将预训练模型与少量特定任务数据一起继续训练。在这个过程中,预训练模型的权重被更新,以更好地适应任务。所需的fine-tuning量取决于预训练语料库和任务特定语料库之间的相似性。如果两者相似,可能只需要少量的fine-tuning。如果两者不相似,则可能需要更多的fine-tuning。
  Bert模型2018年横空出世之后,将fine-tuning推向了新的高度。不过目前来看,Fine-Tuning逐渐退出了tuning研究的舞台中心:LLM蓬勃发展,Fine-Tuning这种大规模更新参数的范式属实无法站稳脚跟。而更适应于LLM的tuning范式,便是接下来我们要介绍的Prompt-Tuning、Instruction-Tuning等。
  Fine-Tuning这块需要介绍的不多,不过fine-tuning的基座——PLM,比如Bert、Transformer,我们还是有必要了解的,这里给出两篇写的比较全面的博客,供大家参考:This post is all you need(上卷)——层层剥开Transformer、This post is all you need(下卷)——步步走进BERT

2、Prompt-Tuning(提示微调)

  在介绍prompt-tuning之前,我们有必要认识下in-context learning,prompt-tuning和in-context learning是prompt learning的两种模式。In-context learning是指在大规模预训练模型上进行推理时,不需要提前在下游目标任务上进行微调,即不改变预训练模型参数就可实现推理,其认为超大规模的模型只要配合好合适的模板就可以极大化地发挥其推理和理解能力。常用的in-context learning方法有few-shot、one-shot、zero-shot;prompt-tuning是指在下游目标任务上进行推理前,需要对全部或者部分参数进行更新,这里全部/部分的区别就在于预训练模型参数是否改变(其实本质上的prompt-tuning是不更新预训练模型参数的,这里有个特例方法称为Prompt-Oriented Fine-Tuning,其实该方法更适合称为升级版的fine-tuning,后面会详细介绍这个方法)。无论是in-context learning还是prompt-tuning,它们的目标都是将下游任务转换为预训练模型的预训练任务,以此来广泛激发出预训练模型中的知识。总的来说,基于fine-tuning的方法是让预训练模型去迁就下游任务。而基于prompt-tuning的方法可以让下游任务去迁就预训练模型。
  我们先以二分类的情感分析作为例子,描述prompt-tuning的工作原理。给定一个句子[CLS] I like the Disney films very much. [SEP] ,传统的Fine-tuning方法是将其通过Bert获得 [CLS]表征之后再喂入新增加的MLP分类器进行二分类,预测该句子是积极的(positive)还是消极的(negative),因此需要一定量的训练数据来训练。而Prompt-Tuning则执行如下步骤:

  • 构建模板(Template Construction):通过人工定义、自动搜索、文本生成等方法,生成与给定句子相关的一个含有[MASK]标记的模板。例如It was [MASK].,并拼接到原始的文本中,获得Prompt-Tuning的输入:[CLS] I like the Disney films very much. It was [MASK]. [SEP]。将其喂入B模型中,并复用预训练好的MLM分类器(在huggingface中为BertForMaskedLM),即可直接得到[MASK]预测的各个token的概率分布;
  • 标签词映射(Label Word Verbalizer):因为[MASK]部分我们只对部分词感兴趣,因此需要建立一个映射关系。例如如果[MASK]预测的词是“great”,则认为是positive类,如果是“terrible”,则认为是negative类;此时会有读者思考,不同的句子应该有不同的template和label word,没错,因为每个句子可能期望预测出来的label word都不同,因此如何最大化的寻找当前任务更加合适的template和label word是prompt-tuning非常重要的挑战;
  • 训练:根据Verbalizer,则可以获得指定label word的预测概率分布,并采用交叉信息熵进行训练。此时因为只对预训练好的MLM head进行微调,所以避免了过拟合问题。

  基于上述内容,我们对prompt learning有个初步了解,接下来我们详细介绍下两种prompt learning:In-context learning和prompt-tuning。

2.1 In-context learning(上下文学习)

  In-context learning(ICL)又称为上下文学习,最早是在GPT-3《Language Models are Few-Shot Learners》中被提出来的。In-context learning(ICL)的关键思想是从类比中学习。下图给出了一个描述语言模型如何使用ICL进行决策的例子。首先,ICL需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后ICL将查询的问题(即你需要预测标签的input)和一个上下文演示(一些相关的cases)连接在一起,形成带有提示的输入(可称之为prompt),并将其输入到语言模型中进行预测。值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL不需要参数更新,并直接对预先训练好的语言模型进行预测(这是与prompt-tuning不同的地方,ICL不需要在下游任务中prompt-tuning或fine-tuning)。它希望模型能自动学习隐藏在演示中的模式,并据此做出正确的预测。通俗易懂的LLM_第1张图片

  • In-context learning的优势
    • 若干示例组成的演示是用自然语言撰写的,这提供了一个跟LLM交流的可解释性手段,通过这些示例跟模版让语言模型更容易利用到人类的知识;
    • 类似于人类类比学习的决策过程,举一反三;
    • 相比于监督学习,它不需要模型训练,减小了计算模型适配新任务的计算成本,更容易应用到更多真实场景。
  • In-context learning的流程:In-context learning可以分为两部分,分为作用于training跟inference阶段:
    • Training:在推理前,通过持续学习让语言模型的ICL能力得到进一步提升,这个过程称之为model warmup(模型预热),model warmup会优化语言模型对应参数或者新增参数,区别于传统的fine-tuning,fine-tuning旨在提升LLM在特定任务上的表现,而model warmup则是提升模型整体的ICL性能。

      • Supervised in-context training:为了增强ICL的能力,研究人员提出了通过构建in-context训练数据,进而进行一系列有监督in-context微调以及多任务训练。由于预训练目标对于in-context learning并不是最优的,Sewon Min等人提出了一种方法MetaICL《MetaICL: Learning to Learn In Context》,以消除预训练和下游ICL使用之间的差距。预训练LLM在具有演示样例的广泛的任务上进行训练,这提高了其few-shot能力,例如,MetaICL获得的性能与在52个独力数据集上进行有监督微调相当。
          此外,还有一个研究方向,即有监督指令微调,也就是后面要讲到的instruction-tuning。指令微调通过对任务指令进行训练增强了LLM的ICL能力。例如Google提出的FLAN方法《FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS》:通过在由自然语言指令模板构建的60多个NLP数据集上调整137B参数量的LaMDA-PT模型,FLAN方法可以改善zero-shot和few-shot ICL性能(具体可参考Finetuned Language Models are Zero-shot Learners、笔记 - Instruction Tuning 时代的模型)。与MetaICL为每个任务构建若干演示样例相比,指令微调主要考虑对任务的解释,并且易于扩展。
      • Self-supervised in-context training:Supervised Learning指的是有一个model,输入是 x x x,输出是 y y y,要有label(标签)才可以训练Supervised Learning,比如让机器看一篇文章,决定文章是正面的还是负面的,得先找一大堆文章,标注文章是正面的还是负面的,正面负面就是label。Self-Supervised Learning就是机器自己在没有label的情况下,想办法做Supervised Learning。比如把没有标注的语料分成两部分,一部分作为模型的输入,一部分作为模型的输出,模型的输出和label越接近越好,具体参见2022李宏毅机器学习深度学习学习笔记第四周–Self-Supervised Learning。引申到self-supervised in-context training,是根据ICL的格式将原始数据转换成input-output的pair对数据后利用四个自监督目标进行训练,包括掩[MASK]预测,分类任务等。
         

        Supervised in-context training跟self-supervised in-context training旨在通过引入更加接近于in-context learning的训练目标从而缩小预训练跟ICL之间的差距。比起需要示例的in-context learning,只涉及任务描述的instruction tuning更加简单且受欢迎。另外,在model warmup这个阶段,语言模型只需要从少量数据训练就能明显提升ICL能力,不断增加相关数据并不能带来ICL能力的持续提升。从某种角度上看,这些方法通过更加模型参数可以提升ICL能力也表明了原始的LLM具备这种潜力。虽然ICL不要求model warmup,但是一般推荐在推理前增加一个model warmup过程(解释一下:ICL最初的含义指的是大规模语言模型涌现出一种能力:不需要更新模型参数,仅仅修改输入prompt即添加一些例子就可以提升模型的学习能力。ICL相比之前需要对模型在某个特定下游任务进行fine-tuning大大节省了成本。之后ICL问题演变成研究怎么提升模型以具备更好更通用的ICL能力,这里就可以用上之前fine-tuning的方式,即指model warmup阶段对模型更新参数。)。

    • Inference:很多研究表明LLM的ICL性能严重依赖于演示示例的格式,以及示例顺序等等,在使用目前很多LLM模型时我们也会发现,在推理时,同一个问题如果加上不同的示例,可能会得到不同的模型生成结果。

      • Demonstration Selection:对于ICL而言,哪些样本是好的?语言模型的输入长度是有限制的,如何从众多的样本中挑选其中合适的部分作为示例这个过程非常重要。按照选择的方法主要可以分为无监督跟有监督两种。
        • 无监督方法:首先就是根据句向量距离或者互信息等方式选择跟当前输入x最相似的样本作为演示示例,另外还有利用自使用方法去选择最佳的示例排列,有的方法还会考虑到演示示例的泛化能力,尽可能去提高示例的多样性。除了上述这些从人工撰写的样本中选择示例的方式外,还可以利用语言模型自身去生成合适的演示示例。

        • 监督方法:第一种是先利用无监督检索器召回若干相似的样本,再通过监督学习训练的Efficient Prompt Retriever进行打分,从而筛选出最合适的样本。此外还有基于prompt tuning跟强化学习的方式去选择样本。

      • Demonstration Ordering:挑选完演示示例后,如何对其进行排序也非常重要。排序的方法既有不需要训练的,也有根据示例跟当前输入距离远近进行排序的,也可以根据自定义的熵指标进行重排。
      • Demonstration Formatting:如何设计演示示例的格式?最简单的方式就是将示例们的 ( x , y ) (x,y) (x,y)对按照顺序直接拼接到一起。但是对于复杂的推理问题,语言模型很难直接根据 x x x推理出 y y y,这种格式就不适用了。另外,有的研究旨在设计更好的任务指令instruction作为演示内容(即instruction-tuning)。对于这两类场景,除了人工撰写的方式外,还可以利用语言模型自身去生成对应的演示内容。
  • In-context learning的模式:In-context learning包括三种模式,分别称作few-shot、one-shot以及zero-shot,三者的主要区别是prompt中包含的样本示例数量,下面简单介绍下这三种In-context learning模式:
    • Few-Shot:对下游任务,提供多条数据样例,论文中指出一般是10-100条;
    • One-Shot:few-shot的一种特殊情况,对下游任务,只提供一条数据样例;
    • Zero-Shot:是一种极端情况,对下游任务,不提供数据样例,只提供任务描述。

  以上内容对In-context learning做了简单介绍,详细内容大家可参考论文《A Survey on In-context Learning》、A Survey for In-context Learning翻译。对于In-context learning及后面会讲到的instruction-tuning方法来说,如何设计输入的prompt是很重要的一点,有关prompt设计的方法,除了上面讲到的内容,这里还有一篇写的很好的文章供大家参考[译] Prompt Engineering: 循循善诱。

2.2 Pattern-Verbalizer-Pair(PVP)

  不过以GPT-3为首的这类方法有一个明显的缺陷是——其建立在超大规模的预训练语言模型上,此时的模型参数数量通常超过100亿,在真实场景中很难应用,因此众多研究者开始探索GPT-3的这套思路在小规模的语言模型(如Bert)上还是否适用?事实上,这套方法在小规模的语言模型上是可行的,但是需要注意:

  • 模型参数规模小了,prompt直接用在zero-shot上效果会下降(虽然GPT-3在zero-shot上效果也没有很惊艳,这也是后来instruction-tuning出现的原因),因此需要考虑将in-context learning应用在fine-tuning阶段,也就是后面要讲到的prompt-tuning。

  在介绍prompt-tuning之前,我们先介绍下实现prompt-tuning的重要组件——Pattern-Verbalizer-Pair(PVP)。Pattern-Verbalizer-Pair模式来源于大名鼎鼎的PET模型,PET(Pattern-Exploiting Training)出自《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》。这里先简单介绍下论文的核心内容(下面蓝色字体内容可选择性学习,不感兴趣可直接跳到后面的PVP介绍部分):由于在实际任务中,模型往往只会接触到少量的labeled examples(few-shot learning),而直接将监督学习运用到小样本学习会使得模型表现不佳,针对这个问题,论文中提出了Pattern-Exploiting Training (PET),使用natural language patterns将input examples规范为完型填空形式的半监督训练机制。通过这种方法,成功地在few-shot settings上将task descriptions与标准监督学习结合。具体的步骤是:

  • 构建一组pattern,对于每一个pattern, 会使用一个PLM在小样本训练集上进行fine-tuning;
  • 训练后的所有模型的集合会被用来在大规模unlabeled dataset标注soft labels;
  • 在soft labels数据集上训练一个标准分类器。

  另外在该论文中,作者提出,在每一个PLM上只进行一次微调+soft labels生成,通常得到的新的数据集(即用soft labels标记的unlabeled dataset)会有很多错误的数据,因此扩展提出iPET模型(Iterative PET),即添加了迭代过程:首先随机从集成的预训练模型集合中抽取部分预训练模型,在未标注数据集(unlabeled dataset) D \mathcal{D} D 上标注数据,并扩增到初始有标签数据集 T \mathcal{T} T上,其次再根据扩增后的 T \mathcal{T} T分别微调预训练模型。上述过程一直迭代多次:

  • 假设初始化有n个预训练模型 M 0 = M 1 0 , … … , M n 0 \mathcal{M}^{0}=M^{0}_{1},……,M^{0}_{n} M0=M10,……,Mn0。在第 j j j轮迭代,则先随机从上一轮迭代获得的预训练模型集合中抽取 λ ⋅ ( n − 1 ) \lambda \cdot (n-1) λ(n1)个模型,记做 N \mathcal{N} N,其中 λ ∈ ( 0 , 1 ] 是超参数 \lambda\in(0, 1]是超参数 λ(0,1]是超参数
  • 其次使用该预训练集合,生成一个标注数据集:
    T N = { ( x , arg ⁡ max ⁡ l ∈ L s N ( l ∣ x ) ) ∣ x ∈ D }   \mathcal{T}_{\mathcal{N}} =\{(x, \arg\max_{l\in\mathcal{L}}s_{\mathcal{N}}(l|x))|x\in\mathcal{D}\}\ TN={(x,arglLmaxsN(lx))xD} 
    由上式可知,每次从每个类 l l l中挑选得分最高的样本,以避免引入大量的错误标注数据。其中 s N ( l ∣ x ) s_{\mathcal{N}}(l|x) sN(lx)表示每个样本通过预训练模型集合 N \mathcal{N} N推理后的得分(这个得分是 N \mathcal{N} N中每个预训练模型对样本 x x x推理后得分的加权结果,具体可参考原始PET过程);
  • 生成的标注数据集 T N \mathcal{T}_{\mathcal{N}} TN并不是完全用于下个迭代的训练,而是从 T N \mathcal{T}_{\mathcal{N}} TN中抽取一部分数据扩充到原始有标签数据集 T \mathcal{T} T中,扩充规模以固定常数 d ∈ N d \in N dN进行,同时要保持原始数据集中标签的比例不变,即对于每一个标签 l ∈ L l \in \mathcal{L} lL,从 T N \mathcal{T}_{\mathcal{N}} TN中选择 c j ( l ) − c 0 ( l ) c_{j}(l)-c_{0}(l) cj(l)c0(l)个标签为 l l l的样本构成数据集 T N ( l ) \mathcal{T}_{\mathcal{N}}(l) TN(l),其中 c j ( l ) = d ⋅ c j − 1 ( l ) c_{j}(l)=d \cdot c_{j-1}(l) cj(l)=dcj1(l) c j ( l ) c_{j}(l) cj(l)表示第 j j j轮迭代第 i i i个模型所需的标注数据集 T i j \mathcal{T}_{\mathcal{i}}^{j} Tij中标签为 l l l的样本数, c 0 ( l ) c_{0}(l) c0(l)表示初始有标签数据集 T \mathcal{T} T中标签为 l l l的样本数。因此:
    T i j = T ∪ U l ∈ L T N ( l )   \mathcal{T}_{\mathcal{i}}^{j} = \mathcal{T} \cup \textup{U}_{l \in \mathcal{L}}\mathcal{T}_{\mathcal{N}}(l)\ Tij=TUlLTN(l) 
    可以很容易得出该数据集对于标签 l l l包含 c j ( l ) c_{j}(l) cj(l)个样本。需要注意的是,虽然每一个预训练模型对应单独的标注数据集 T i j \mathcal{T}_{\mathcal{i}}^{j} Tij,但显而易见的是,它们之间的区别只是在于Pattern-Verbalizer-Pair(PVP)模板之间的区别,原始文本数据都是相同的。
  • 使用扩增后的标注数据集 T i j \mathcal{T}_{\mathcal{i}}^{j} Tij分别微调预训练模型。上述过程重新进行即可。

  上述内容具体可参考:论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference、论文阅读:PET系列。论文中有关PET及IPET部分的介绍,不是本部分关心的重点,大家选择性学习。下面着重介绍本部分最关心,也是PET最核心的部分Pattern-Verbalizer-Pair(PVP),PET设计了两个很重要的组件:

  • Pattern(Template):记作 T \mathcal{T} T ,即上文提到的Template,其为额外添加的带有[mask]标记的短文本,通常一个样本只有一个Pattern(因为我们希望只有1个让模型预测的[mask]标记)。由于不同的任务、不同的样本可能会有其更加合适的pattern,因此如何构建合适的pattern是Prompt-Tuning的研究点之一;
  • Verbalizer:记作 V \mathcal{V} V,即标签词的映射,对于具体的分类任务,需要选择指定的标签词(label word)。例如情感分析中,我们期望Verbalizer可能是: V ( positive ) = great \mathcal{V}(\text{positive})=\text{great} V(positive)=great V ( negative ) = terrible \mathcal{V}(\text{negative})=\text{terrible} V(negative)=terrible(positive和negative是类标签)。同样,不同的任务有其相应的label word,但需要注意的是,Verbalizer的构建需要取决于对应的Pattern。因此如何构建Verbalizer是另一个研究挑战。
      上述两个组件即为Pattern-Verbalizer-Pair(PVP),一般记作 P = ( T , V ) \mathcal{P}=(\mathcal{T}, \mathcal{V}) P=(T,V),在后续的大多数研究中均采用这种PVP组件。学到这里,我们面临的最大疑问:对于下游任务,如何挑选合适的Pattern和Verbalizer?自2020年底至今,学术界已经涌现出各种方案试图探索如何自动构建PVP。其实也许在大多数人们的印象中,合适的Pattern才是影响下游任务效果的关键,Verbalizer对下游任务的影响并不大,而下面这个实验便很好的证明了Verbalizer的作用:如下图所示,以SST-2为例,相同的模板条件下,不同的label word对应的指标差异很大。通俗易懂的LLM_第2张图片
      构建Verbalizer的方法也有很多,不过这里不进行详细解释,感兴趣的同学可以参考Prompt-Tuning——深度解读一种新的微调范式,里面说明的比较详细。下面我们着重介绍构建Pattern的方法:Prompt-Tuning

2.3 Prompt-Tuning

  通过上个部分的介绍,我们已经了解,prompt-tuning是用来自动构建pattern的方法,接下来我们根据使用场景的不同,分别介绍几种成熟的prompt-tuning方法。

  • Prompt-Oriented Fine-Tuning:这个就是前面提到的需要更新全部参数(包括预训练模型参数)的prompt-tuning方法。Prompt-Oriented Fine-Tuning训练方法的本质,上面已经提到过,其实是将目标任务转换为适应预训练模型的预训练任务,以适应预训练模型的学习体系。例如我们在Bert模型上做情感分类任务,正常的fine-tuning流程,是将训练文本经过bert编码后,生成向量表征,再利用该向量表征,连接全连接层,实现最终的情感类别识别。这种方式存在一个显式的弊端:预训练任务与下游任务存在gap,我们知道Bert的预训练任务包括两个:MLM与NSP(具体可参考BERT预训练的任务MLM和NSP),简单来说,MLM任务是通过分类模型识别被MASK掉的词,类别大小即为整个词表大小;NSP任务是预测两个句子之间的关系;而Prompt-Oriented Fine-Tuning训练方法,是将情感分类任务转换为类似于MLM任务的[MASK]预测任务,具体来说,我们构建如下的prompt文本:prompt = It was [MASK].,将prompt文本与输入text文本text = The film is attractive.进行拼接生成It was [MASK].The film is attractive.,输入至预训练模型中,训练任务目标和MLM任务的目标一致,即识别被[MASK]掉的词。通过这种方式,可以将下游任务转换为和预训练任务较为一致的任务,已有实验证明,Prompt-Oriented Fine-Tuning相对于常规的Fine-Tuning,效果确实会得到提升(Prompt进行情感分类)。
      通过以上描述我们可以知道,Prompt-Oriented Fine-Tuning方法中,预训练模型参数是可变的。其实将Prompt-Oriented Fine-Tuning方法放在Prompt-Tuning这个部分合理也不合理,因为它其实是prompt-tuning+fine-tuning的结合体,将它视为fine-tuning的升级版是最合适的。Prompt-Oriented Fine-Tuning方法在Bert类相对较小的模型上表现较好,但是随着模型越来越大,如果每次针对下游任务,都需要更新预训练模型的参数,资源成本及时间成本都会很高,因此后续陆续提出了不更新预训练模型参数,单纯只针对prompt进行调优的方法,例如Hard PromptSoft Prompt
      这里再给出一些常见下游任务的prompt设计:
    通俗易懂的LLM_第3张图片

  • Hard Prompt & Soft Prompt:承接上文,Hard Prompt和Soft Prompt的提出,是为了解决预训练模型过大,难以针对下游任务进行训练的痛点。目前常见的Hard Prompt和Soft Prompt方法,分为以下五种:

    • 人工构建(Manual Template):最简单的构建模板方法;
    • 启发式法(Heuristic-based Template):通过规则、启发式搜索等方法构建合适的模板;
    • 生成(Generation):根据给定的任务训练数据(通常是小样本场景),生成出合适的模板;
    • 词向量微调(Word Embedding):显式地定义离散字符的模板,但在训练时这些模板字符的词向量参与梯度下降,初始定义的离散字符用于作为向量的初始化;
    • 伪标记(Pseudo Token):不显式地定义离散的模板,而是将模板作为可训练的参数。
  • Hard Prompt:前面三种称为离散的模板构建法(记作Hard Template、Hard Prompt、Discrete Template、Discrete Prompt),其旨在直接与原始文本拼接显式离散的字符,且在训练中始终保持不变。这里的保持不变是指这些离散字符的词向量(Word Embedding)在训练过程中保持固定。通常情况下,离散法不需要引入任何参数。主要适用场景是GPT-3类相对较大的模型,Bert类相对较小的模型也可以用,只是个人觉得Bert等预训练模型,针对下游任务训练的成本并不是很高,完全可以同时微调预训练模型参数。上述三种Hard Prompt方法,实际场景中用的比较少,这里就不一一介绍了,大家有兴趣可以参考Prompt-Tuning——深度解读一种新的微调范式。

  • Soft Prompt:后面两种则被称为连续的模板构建法(记作Soft Template、Soft Prompt、Continuous Template、Continuous Prompt),其旨在让模型在训练过程中根据具体的上下文语义和任务目标对模板参数进行连续可调。反观Hard Prompt方法,不论是启发式方法,还是通过生成的方法,都需要为每一个任务单独设计对应的模板,因为这些模板都是可读的离散的token,这导致很难寻找到最佳的模板。另外,即便是同一个任务,不同的句子也会有其所谓最佳的模板,而且有时候,即便是人类理解的相似的模板,也会对模型预测结果产生很大差异。例如下图,以SNLI推断任务为例,仅仅只是修改了模板,测试结果差异很明显,因此离散的模板存在方差大、不稳定等问题。通俗易懂的LLM_第4张图片
      如何避免这种问题呢,Soft Prompt方法便是来解决这种问题的,其将模板转换为可以进行优化的连续向量,换句话说,我们不需要显式地指定这些模板中各个token具体是什么,而只需要在语义空间中表示一个向量即可,这样,不同的任务、数据可以自适应地在语义空间中寻找若干合适的向量,来代表模板中的每一个词,相较于显式的token,这类token称为伪标记(Pseudo Token)。下面给出基于Soft Prompt的模板定义:

    假设针对分类任务,给定一个输入句子 x x x,连续提示的模板可以定义为:
    T = [ x ] , [ v 1 ] , [ v 2 ] , … , v m ] [ M A S K ]   \mathcal{T} =[x],[v_{1}],[v_{2}],…,v_{m}][MASK]\ T=[x],[v1],[v2]vm][MASK] 其中 [ v 1 ] [v_{1}] [v1]则是伪标记,其仅代表一个抽象的token,并没有实际的含义,本质上是一个向量。

      总结来说:Soft Prompt方法,是将模板变为可训练的参数,不同的样本可以在连续的向量空间中寻找合适的伪标记,同时也增加模型的泛化能力。因此,连续法需要引入少量的参数并在训练时进行参数更新,但预训练模型参数是不变的,变的是prompt token对应的词向量(Word Embedding)表征及其他引入的少量参数。主要适用场景同Hard Prompt一致。目前具有代表性的三种Soft Prompt方法如下,下面我们进行逐一介绍:

    • Parameter-Efficient Prompt Tuning:该方法率先提出了伪标记和连续提示的概念,支持模型能够动态地对模板在语义空间内进行调整。主要针对的是NLU任务,形式化的描述如下:

      给定 n n n个token,记作 x 1 , . . . , x n x_{1}, ..., x_{n} x1,...,xn,通过一个预训练模型对应的embedding table,将 n n n个token表征为向量矩阵 X e ∈ R n × e X_{e} \in R^{n\times e} XeRn×e,其中 e e e是向量的维度(其与预训练模型的配置有关,例如Bert-base是768)。连续模板中的每个伪标记 v i v_{i} vi可以视为参数,也可以视为一个token,因此,可以通过另一个embedding table将 p p p个伪标记token表征为向量矩阵 P e ∈ R p × e P_{e} \in R^{p\times e} PeRp×e 。将文本和prompt进行拼接获得新的输入 [ P e : X e ] ∈ R ( p + n ) × e [P_{e} :X_{e}] \in R^{(p+n) \times e} [Pe:Xe]R(p+n)×e。这个新的输入将会进入T5的encoder-decoder结构来训练和推理。注意,只有prompt对应的向量表征参数 P e P_{e} Pe会随着训练进行更新。

        论文中提到,每个伪标记的初始化可以有下列三种情况,分别是Random Uniform,Sampled Vocab和Class Label。

      • Random Uniform:从均匀分布中随机进行初始化;
      • Sampled Vocab:从T5的语料库中选择最常见的5000个词汇,并从中选择词汇嵌入作为初始化;
      • Class Label:是将下游任务的标签对应的字符串表示的嵌入作为初始化,如果一个类有多个词,取词嵌入的平均表示作为一个prompt。假如标签数目不足,则从Sampled Vocab方案中继续采样补足。
         

        最后发现,非随机初始化方法要显著好于随机初始化,而Class Label效果相对更好,当然,只要模型足够大,哪种初始化方法的差异就比较小了。具体论文参考2021年谷歌发表的《The Power of Scale for Parameter-Efficient Prompt Tuning》。

    • P-Tuning:P-Tuning是另一个具有代表性的连续提示方法,主要针对的是NLU任务,方法图如下所示(图中的 P i P_{i} Pi等价于上文的 v i v_{i} vi,表示伪标记),谷歌于2021年发表。
      P-Tuning方法中的四个技巧点:

      • 考虑到这些伪标记的相互依赖关系:认为 [ P 1 ] [P_{1}] [P1] [ P 2 ] [P_{2}] [P2]是有先后关系的,而transformer无法显式地刻画这层关系,因此引入Prompt Encoder(BiLSTM+MLP);
      • 指定上下文词:如果模板全部是伪标记,在训练时无法很好地控制这些模板朝着与对应句子相似的语义上优化,因此选定部分具有与当前句子语义代表性的一些词作为一些伪标记的初始化(例如上图中“capital”、“Britain”等);
      • 重参数(Reparameterization):具体到代码实现上,P-tuning先通过一个Prompt Encoder表征这些伪标记后,直接将这些新的表征覆盖到对应的embedding table上,换句话说,Prompt Encoder只在训练时候会使用到,而在推理阶段则不再使用,直接使用构建好的embedding table;
      • 混合提示(Hydride Prompt):将连续提示与离散token进行混合,例如 [ x ] [ i t ] [ v 1 ] [ m a s k ] [x][it][v1][mask ] [x][it][v1][mask]
         

        具体可参考:2021年发表的《GPT Understands, Too》、《论文解读:GPT Understands, Too》、《细读经典:P-tuning》

    • PPT(Pre-trained Prompt Tuning):Prompt-Tuning通常适用于低资源场景,但是由于连续的模板是随机初始化的,即其存在新的参数,少量样本可能依然很难确保这些模板被很好地优化。因此简单的方法就是对这些连续的模板进行预训练。PPT旨在通过先让这些连续提示在大量无标注的预训练语料进行预训练,然后将其加载到对应下游任务的PLM上进行训练。具体来说,作者对3种prompt tuning的优化策略在few-shot learning问题上分别进行了效果对比,包括hard prompt和soft prompt结合、label到text映射方法选择以及使用真实单词的embedding进行soft prompt的随机初始化。通过对比实验发现,hard+soft prompt结合的方法可以提升效果,但是仍然比finetune效果差。Label到text的映射方法对于效果影响很大,选择能够表达label对应含义的常用单词会带来最好效果。而使用单词embedding进行soft prompt的初始化在大模型上并没有明显的效果提升。
        基于以上实验结果,作者提出了Pre-trained Pormpt Tuning解决few-shot learning问题,核心思路是对soft prompt进行预训练,得到一个更好的soft prompt初始化表示。对于每种类型的任务,设计一个和其匹配的预训练任务,得到soft prompt embedding的预训练表示。
        论文中以sentence-pair classification、multiple-choice classification、single sentence classification三种任务介绍了如何针对每种下游任务设计预训练任务学习soft prompt embedding。例如对于sentence-pair classification,作者设计了如下预训练任务。将2个句子对拼接在一起,如果两个句子来自同一个文档相邻两句话,则label为yes(完全一致);如果两个句子来自同一个文档但距离较远,则label为maybe;其他句子对label为no,如下图所示(图中的 P P P即连续的提示模板, < x > <x>表示mask token。最上面的任务是预训练任务,下面三个任务为下游任务)。  

        另外论文中还给出了四种微调方案,如下图所示,[a]展示了模型的预训练过程,[b]和[c]展示了两种主流的Fine-Tuning方法(前文已经介绍过),[d]展示了提示学习( Prompt Tuning, PT )方法,具体可参考2022年清华大学发表的《PPT: Pre-trained Prompt Tuning for Few-shot Learning》、小样本学习:Pre-trained Prompt Tuning for Few-shot Learning,Prompt 如何更好地应用于工业界?。通俗易懂的LLM_第5张图片

2.4 Prompt-Tuning vs Fine-Tuning

  至此,我们已经深入了解了fine-tuning和prompt-tuning两种微调方法,也或多或少能观察到二者之间的区别,我们在这里进行下总结。众多周知,prompt-tuning是在fine-tuning后发展起来的,可以说是解决NLP领域各种下游问题更好的一种方式要提出一个好的方式那必然是用来「解决另一种方式存在的缺陷或不足」,那我们就先从预训练模型PLM+fine-tuning范式说起,这个范式常用的结构是Bert+fine-tuning,这种范式若想要预训练模型更好的应用在下游任务,需要利用下游数据对模型参数微调;首先,模型在预训练的时候,采用的训练形式:自回归、自编码,这与下游任务形式存在极大的 gap,不能完全发挥预训练模型本身的能力,必然导致:较多的数据来适应新的任务形式(少样本学习能力差、容易过拟合)。其次,现在的预训练模型参数量越来越大,为了一个特定的任务去fine-tuning一个模型,会占用特别多的训练资源,对一些中小企业或者用户来说并不现实,也会造成资源的一定浪费。
  而prompt-tuning则很好的解决了这些问题,它将所有下游任务统一成预训练任务,以特定的模板,将下游任务的数据转成自然语言形式,充分挖掘预训练模型本身的能力。本质上就是设计一个比较契合上游预训练任务的模板,通过模板的设计来挖掘出上游预训练模型的潜力,让上游的预训练模型在尽量不需要标注数据的情况下比较好的完成下游的任务,即只需要少量数据的 Prompt Tuning,就可以实现很好的效果,具有较强的零样本/少样本学习能力。具体可参考Prompt-Tuning VS Fine-Tuning。

3、Instruction-Tuning(指示微调)

  前文中已经多次提到过instruction-tuning,可以说在大规模语言模型领域,它是目前最火的研究范式,性能超过包括in-context learning在内的prompt learning。

3.1、Instruction-Tuning的提出

  回顾instruction-tuning的发展历程,首先是Google2021年的FLAN模型《FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS》,这篇文章明确提出instruction-tuning(指令微调)的技术,它的本质目的是想将 NLP 任务转换为自然语言指令,再将其投入模型进行训练,通过给模型提供指令和选项的方式,使其能够提升Zero-Shot任务的性能表现。
  Instruction-Tuning提出的动机在于大规模的语言模型如GPT-3可以非常好地学习few-shot,但它在zero-shot上却不那么成功。例如, GPT-3在阅读理解、问题回答和自然语言推理等任务上的表现很一般,作者认为一个潜在的原因是,如果在没有少量示例的zero-shot条件下,模型很难在prompts上表现很好,因为prompts可能和预训练数据的格式相差很大。
  既然如此,那么为什么不直接用自然语言指令做输入呢?通过设计instruction,让大规模语言模型理解指令,进而完成任务目标,而不是直接依据演示实例做文本生成。如下图所示,不管是commonsense reasoning任务还是machine translation任务,都可以变为instruction的形式,然后利用大模型进行学习。在这种方式下,当一个unseen task进入时,通过理解其自然语言语义可以轻松实现zero-shot的扩展,如natural language inference任务。

通俗易懂的LLM_第6张图片
  接下来,我们介绍下FLAN的具体训练流程。
  具体来说,作者提出的Finetuned Language Net(FLAN)模型将62个NLP任务分为12个簇,同一个簇内是相同的任务类型,如下图所示。

  对于每个task,将为其手动构建10个独特template,作为以自然语言描述该任务的instructions。为了增加多样性,对于每个数据集,还包括最多三个“turned the task around/变更任务”的模板(例如,对于情感分类,要求其生成电影评论的模板)。所有数据集的混合将用于后续预训练语言模型做instruction-tuning,其中每个数据集的template都是随机选取的。如下图所示,Premise、Hypothesis、Options会被填充到不同的template中作为训练数据。

  最后基于LaMDA-PT模型进行微调。LaMDA-PT是一个包含137B参数的自回归语言模型,这个模型在web文档(包括代码)、对话数据和维基百科上进行了预训练,同时有大约10%的数据是非英语数据。然后FLAN混合了所有构造的数据集在128核的TPUv3芯片上微调了60个小时。
  至此,我们详细介绍了包括FLAN在内的instruction-tuning方法,总结来说,instruction-tuning也是in-context-learning的一种,只是instruction-tuning是将大模型在多种任务上进行微调,提升大模型的自然语言理解能力,最终实现在新任务上的zero-shot。目前另外一个采用了instruction-tuning技术的大规模语言模型是instructGPT,后面我们会详细介绍instructGPT的具体实现方式。

3.2、Fine-Tuning vs Prompt-Tuning vs Instruction-Tuning

  • Fine-Tuning:先在大规模语料上进行预训练,然后再在某个下游任务上进行微调,如Bert+Fine-Tuning;

  • Prompt-Tuning:先选择某个通用的大规模预训练模型,然后为具体的任务生成一个prompt模板以适应大模型进行微调,如GPT-3+Prompt-Tuning;

  • Instruction-Tuning:仍然在预训练语言模型的基础上,先在多个已知任务上进行指令微调,然后在某个新任务上进行zero-shot,如GPT-3+Instruction-Tuning;

  • Prompt-Tuning vs Instruction-Tuning:Prompt和instruction都是指导语言模型生成输出的文本片段,但它们有着不同的含义和用途。

    • Prompt通常是一种短文本字符串,用于指导语言模型生成响应。Prompt提供上下文和任务相关信息,以帮助模型更好地理解要求,并生成正确的输出。例如,在问答任务中,prompt可能包含问题或话题的描述,以帮助模型生成正确的答案。Prompt通常是人类设计的,以帮助模型更好地理解特定任务或领域;
    • Instruction通常是一种更详细的文本,用于指导模型执行特定操作或完成任务。Instruction可以是计算机程序或脚本,也可以是人类编写的指导性文本。Instruction的目的是告诉模型如何处理数据或执行某个操作,而不是简单地提供上下文或任务相关信息。
       

      因此,Prompt和instruction都是用于指导模型生成输出的文本,但它们的目的和使用方式是不同的。Prompt更多地用于帮助模型理解任务和上下文,而Instruction则更多地用于指导模型执行具体操作或完成任务。
    通俗易懂的LLM_第7张图片

      对于prompt-tuning和instruction-tuning还有一个不同点,就是prompt在没精调的模型上也能有一定效果(模型不经过prompt-tuning,直接针对下游任务进行推理),而instruction-tuning则必须对模型精调,让模型知道这种指令模式。但是,prompt也有精调,经过prompt-tuning之后,模型也就学习到了这个prompt模式,精调之后跟instruction-tuning有什么区别呢?这就是instruction-tuning巧妙的地方了,prompt-tuning都是针对一个任务的,比如做个情感分析任务的prompt-tuning,精调完的模型只能用于情感分析任务,而经过instruction-tuning多任务精调后,可以用于其他任务的zero-shot。
      这里聊一聊自己的见解,两者的对比主要是基于大模型。Prompt是通过对任务进行一定的描述,或者给一些示例(ICL),来完成既定任务目标,但是如果不给模型示例(zero-shot),prompt表现的很一般,这怎么办呢?能不能让大模型理解任务是做什么的,这样不用示例也能完成任务目标,instruction就是来做这个任务的,它为了让模型具备理解任务的能力,采用大量的指令数据,对模型进行微调,即instruction-tuning。因此,instruction和prompt的不同之处在于:instruction是在prompt的基础上,进一步挖掘模型理解任务的能力。(仅供参考)

4、Chain-of-Thought(思维链)

  随着LLM的越来越大,以及tuning技术的快速发展,LLM在包括情感分析在内的传统自然语言任务上表现越来越好,但是单纯的扩大LLM模型的参数量无法让模型在算术推理/常识推理/符号推理等推理任务上取得理想的效果。 如何提升LLM在这些推理任务上性能呢?在此前关于LLM的推理任务中,有两种方法:

  • 针对下游任务对模型进行微调;
  • 为模型提供少量的输入输出样例进行学习。

但是这两种方法都有着局限性,前者微调计算成本太高,后者采用传统的输入输出样例在推理任务上效果很差,而且不会随着语言模型规模的增加而有实质性的改善。此时,Chain-of-Thought应运而生。下面我们根据三篇比较有代表性的论文,详细介绍CoT的发展历程。

4.1、Manual-CoT(人工思维链)

  Manual-CoT是Chain-of-Thought技术的开山之作,由Google在2022年初提出《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》。其旨在进一步提高超大规模模型在一些复杂任务上的推理能力。其认为现有的超大规模语言模型可能存在下面潜在的问题:

  • 增大模型参数规模对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果并未证明有效;
  • 期望探索如何对大模型进行推理的简单方法。

  针对这些问题,作者提出了chain of thought (CoT)这种方法来利用大语言模型求解推理任务。
  下面这个例子可以很好的说明思维链到底在做什么。左图是传统的one-shot prompting,就是拼接一个例子在query的前面。右图则是CoT的改进,就是将example中的Answer部分的一系列的推理步骤(人工构建)写出来后,再给出最终答案。逻辑就是希望模型学会一步一步的输出推理步骤,然后给出结果。
通俗易懂的LLM_第8张图片
  论文中首先在算数推理(arithmetic reasoning)领域做了实验,使用了5个数学算术推理数据集:GSM8K / SVAMP / ASDiv / AQuA / MAWPS,具体的实验过程这里不再赘述,感兴趣的同学可以直接参考论文,这里直接给出实验结论(如下图):
通俗易懂的LLM_第9张图片

  • CoT对小模型作用不大:模型参数至少达到10B才有效果,达到100B效果才明显。并且作者发现,在较小规模的模型中产生了流畅但不符合逻辑的 CoT,导致了比 Standard prompt 更低的表现;
  • CoT对复杂的问题的性能增益更大:例如,对于GSM8K(baseline 性能最低的数据集),最大的GPT (175B GPT)和PaLM (540B PaLM)模型的性能提高了一倍以上。而对于SingleOp(MAWPS中最简单的子集,只需要一个步骤就可以解决),性能的提高要么是负数,要么是非常小;
  • CoT超越SOTA:在175B的GPT和540B的PaLM模型下,CoT在部分数据集上超越了之前的SOTA(之前的SOTA 采用的是在特定任务下对模型进行微调的模式)。

  除此之外,论文中为了证明CoT的有效性,相继做了消融实验(Ablation Study)、鲁棒性实验( Robustness of Chain of Thought)、常识推理(Commonsense Reasoning)实验、符号推理(Symbolic Reasoning)实验,下面分别做以简单介绍:

  • 消融实验:我们知道,消融实验是通过研究移除某个组件之后的性能,证明该组件的有效性。论文中通过引入CoT的三个变种,证明CoT的有效性,结果如下图所示:
    通俗易懂的LLM_第10张图片

    • Equation only:把CoT中的文字去掉,只保留公式部分。结论:效果对于原始prompt略有提升,对简单任务提升较多,但和CoT没法比,特别是对于复杂任务,几乎没有提升。
    • Variable compute only:把CoT中的token全换成点(…)。 这是为了验证额外的计算量是否是影响模型性能的因素。结论:全换成点(…)后效果和原始prompt没什么区别,这说明计算量用的多了对结果影响很小(几乎没有影响),也说明了人工构建的CoT(token sequence)对结果影响很大。
    • Chain of thought after answer:把思维链放到生成结果之后。 这样做的原因是:猜测CoT奏效的原因可能仅仅是这些CoT简单的让模型更好的访问了预训练期间获得的相关知识,而与推理没啥太大关系。结论:CoT放到生成的答案之后的效果和benchmark没太大区别,说明CoT的顺序逻辑推理还是起到了很大作用的(不仅仅是激活知识),换句话说,模型确实是依赖于生成的思维链一步一步得到的最终结果。
  • 鲁棒性实验:论文中通过annotators(标注者),exemplars(样例选择)和models(模型)三个方面对CoT进行了鲁棒性分析。如下图所示,总体结论是思维链普遍有效,但是不同的CoT构建方式/exemplars的选择/exemplars的数量/exemplars的顺序,在一定程度上影响着CoT的效果。通俗易懂的LLM_第11张图片

    • 不同人构建CoT:尽管每个人构建的CoT都不相同,但都对模型性能产生了正面的影响,说明CoT确实有效。但是另一方面,不同人给出的不同的CoT对最终结果的影响程度还是有很大不同的,说明如何更好的构建CoT是一个研究方向;
    • Exemplars样本的选择:不同的选择都会有提升,但是差异明显。特别是,在一个数据集上选择的exemplars可以用在其他数据集上,比如论文中的实验设置,对于同一种类型的问题,如算术推理,尽管在多个不同的数据集进行实验,但使用的是8个相同的exemplars,结果没有特别大的差异,说明exemplars不需要满足和test set有相同的分布;
    • Exemplars样本的顺序:整体影响不大,除了coin flip task,可能的原因是:同一个类别的多个exemplars连续输入模型使其输出产生了偏差(bias),例如把4个负样本放到4个正样本的后面输入到模型中,可能导致模型更加倾向于输出负label;
    • Exemplars样本的数量:对于标准prompt,增加exemplars的数量对最终结果的影响不大。对于CoT,增加exemplars对模型有影响(在某些数据集上),同时也不是越大越好;
    • 不同LLM上的效果: 对于一个LLM效果好的CoT exemplars set换到其他LLM上效果不一定好,也就是说CoT对模型的提升是无法在不同的LLM上传递的,这是一个局限。
       

      关于鲁棒性实验,论文中最后指出:Prompt Engineering仍然很重要,不同的prompt(CoT)的设计/数量/顺序都会对模型产生不同的影响,且方差还是很大的。 因此未来的一个方向可能是探索一种能够获取稳健CoT(Prompts)的范式。 或许可以用一个LLM自动生成CoT用于Prompting,后面我们将介绍这种技术:Auto-CoT。

  • 常识推理实验 & 符号推理实验:此处我们不做过多介绍,这里给出三种推理模式的exemplars示例(绿色:算数推理,橙色:常识推理,蓝色:符号推理),供大家参考:
    通俗易懂的LLM_第12张图片

  这篇CoT开山之作首次提出思维链(CoT)的概念,思维链简单的说就是一系列中间推理步骤。这篇论文最大的贡献就是发现了在LLM生成推理任务的结果之前,先生成思维链,会使模型的推理性能有大幅度的提升,特别是在复杂的推理任务上,但是有个前提就是LLM的规模要大于10B,否则CoT没用甚至起副作用。CoT的一大好处是无需微调模型参数,仅仅是改变输入就可以改进模型的性能。随着LLM越来越大,高校和小企业可能无法承担训练LLM的成本,因此无法参与其中进行科研与实践,但CoT这个研究方向仍然可以做。对于CoT的更多细节,大家可参考《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》及思维链(Chain-of-Thought, CoT)的开山之作

4.2、Zero-shot-CoT(零示例思维链)

  2022年6月东京大学和谷歌共同发表了一篇论文《Large Language Models are Zero-Shot Reasoners》,这是一篇关于预训练大型语言模型(Pretrained Large Language Models, LLMs)推理能力的探究论文。目前,LLMs被广泛运用在很多NLP任务上。同时,在提供了特定任务的示例之后,LLMs是一个非常优秀的学习者。随着思考链的提示方式(chain of thought prompting, CoT)被提出,对LLMs推理能力的探究上升到一个新的高度,这种提示方式可以引导模型通过示例中一步一步的推理方式,去解决复杂的多步推理,在数学推理(arithmetic reasoning)和符号推理(symbolic reasoning)中取得了SOTA的成果。作者在研究中发现,对拥有175B参数的GPT-3,通过简单的添加”Let’s think step by step“,可以提升模型的zero-shot能力。Zero-shot-CoT的具体格式如下图所示,论文中的具体细节这里不做过多赘述,感兴趣的同学可详读论文内容。需要注意一点的是,同等条件下,Zero-shot-CoT的性能是不及Manual-CoT的。
通俗易懂的LLM_第13张图片

4.3、Auto-CoT(自动思维链)

  前文已经提到过,传统CoT的一个未来研究方向:可以用一个LLM自动生成CoT用于Prompting,李沐老师团队在2022年10月发表的论文《AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS》证明了这一技术方向的有效性,称为Auto-CoT
  目前较为流行的CoT方法有两种,一种是Manual-CoT,一种是Zero-shot-CoT,两种方式的输入格式如下图所示。前文我们提到过,Manual-CoT的性能是要优于Zero-shot-CoT的,关键原因在于Manual-CoT包含一些人工设计的问题推理步骤答案,但是这部分要花费一定的人工成本,而Auto-CoT则解决了这一痛点,具体做法是:

  • 通过多样性选取有代表性的问题;
  • 对于每一个采样的问题拼接上“Let’s think step by step”(类似于 Zero-shot-CoT )输入到语言模型,让语言模型生成中间推理步骤和答案,然后把这些所有采样的问题以及语言模型生成的中间推理步骤和答案全部拼接在一起,构成少样本学习的样例,最后再拼接上需要求解的问题一起输入到语言模型中进行续写,最终模型续写出了中间的推理步骤以及答案。

  总体来说,Auto-CoT是Manual-CoT和Zero-shot-CoT的结合体,如下图所示。实验证明,在十个数据集上Auto-CoT是可以匹配甚至超越Manual-CoT的性能,也就说明自动构造的CoT的问题中间推理步骤答案样例比人工设计的还要好,而且还节省了人工成本。
  至此,我们详细介绍了三种CoT技术:Manual-CoT、Zero-shot-CoT以及Auto-CoT,有关CoT的技术还有很多,需要我们慢慢学习,后续持续更新。

5、Parameter-Efficient Fine-Tuning (PEFT,参数有效性微调)

  通过前文的介绍,我们可以把Tuning分为两类:

  • 全参数微调:训练过程中更新包括模型在内的所有参数,例如Fine-Tuning、Prompt-Orient Fine-Tuning等;
  • 部分参数微调:训练过程中只更新部分模型参数,或者固定模型参数,只更新少量额外添加的参数,如Parameter-Efficient Prompt Tuning、P-Tuning等。

  我们知道,部分参数微调模式的提出,一方面是由于资源限制,无法更新整体大模型参数,另一方面,要保证在资源有限的条件下,能够尽可能的提升大模型在下游任务上的效果。目前,针对部分参数微调的研究,正处于蓬勃发展阶段,这个研究领域有个统一的名称:Parameter-Efficient Fine-Tuning (PEFT),即参数有效性微调,PEFT方法仅微调少量或额外的模型参数,固定大部分预训练参数,大大降低了计算和存储成本,同时最先进的 PEFT 技术也能实现了与全量微调相当的性能。前文提到的Prompt-Tuning,包括p-tuning等,都可以视为PEFT的一种。总体来说,参数有效性微调可分为三个类别:

  • Prompt-Tuning:在模型的输入或隐层添加个额外可训练的前缀 tokens(这些前缀是连续的伪tokens,不对应真实的tokens),只训练这些前缀参数,包括prefix-tuning、parameter-efficient prompt tuning、p-tuning等;
  • Adapter-Tuning:将较小的神经网络层或模块插入预训练模型的每一层,这些新插入的神经模块称为adapter(适配器),下游任务微调时也只训练这些适配器参数;
  • LoRA:通过学习小参数的低秩矩阵来近似模型权重矩阵的参数更新,训练时只优化低秩矩阵参数。

  接下来,我们对其中流行的PEFT算法进行详细介绍。

5.1、PEFT介绍

  • Prefix-Tuning:Prefix-Tuning也是一种prompt-tuning,是最早提出soft-prompt的论文之一《Prefix-Tuning: Optimizing Continuous Prompts for Generation》,斯坦福大学于2021年发表。Prefix-Tuning在模型输入前添加一个连续的且任务特定的向量序列(continuous task-specific vectors),称之为前缀(prefix)。前缀同样是一系列“虚拟 tokens”,即没有真实语义。与更新所有 PLM 参数的全量微调不同,Prefix-Tuning固定PLM的所有参数,只更新优化特定任务的prefix。Prefix-Tuning与传统Fine-tuning的对比图如下所示:
    通俗易懂的LLM_第14张图片
      如下图所示,prefix-tuning有两种模式,一种是自回归模型(例如GPT-2),在输入前添加一个前缀得到 [ P R E F I X ; x ; y ] [PREFIX;x;y] [PREFIX;x;y];另一种是encoder-decoder模型(例如Bart),在编码器和解码器前加前缀得到 [ P R E F I X ; x ; P R E F I X ′ ; y ] [PREFIX;x;PREFIX^{'};y] [PREFIX;x;PREFIX;y]。接下来我们以GPT-2的自回归语言模型为例,介绍下prefix-tuning的流程。
      首先,对于传统的GPT-2模型来说,将输入 x x x和输出 y y y拼接为 z = [ x ; y ] z=[x;y] z=[x;y],其中 X i d x X_{idx} Xidx Y i d x Y_{idx} Yidx分别为输入和输出序列的索引, h i ∈ R d h_{i} \in R_{d} hiRd是每个时间步 i i i下的激活向量(隐藏层向量), h i = [ h i 1 ; … … ; h i n ] h_{i}=[h_{i}^{1}; ……;h_{i}^{n}] hi=[hi1;……;hin]表示在当前时间步的所有激活层的拼接, h i j h_{i}^{j} hij是时间步 i i i的第 j j j层激活层。自回归模型通过如下公式计算 h i h_{i} hi,其中 ϕ \phi ϕ是模型参数:
    h i = L M ϕ ( z i , h < i )   h_{i} =LM_{\phi}(z_{i},h_{hi=LMϕ(zi,h<i) 
    h i h_{i} hi的最后一层,用来计算下一个token的概率分布:
    p ϕ ( z i + 1 ∣ h ≤ i ) = s o f t m a x ( W ϕ h i n )   p_{\phi}(z_{i+1}|h_{≤i}) =softmax(W_{\phi}h_{i}^{n})\ pϕ(zi+1hi)=softmax(Wϕhin) 
    其中 W ϕ W_{\phi} Wϕ是将 h i n h_{i}^{n} hin根据词表大小进行映射。
      在采用prefix-tuning技术后,则在输入前添加前缀,即将prefix和输入以及输出进行拼接得到 z = [ P R E F I X ; x ; y ] z=[PREFIX;x;y] z=[PREFIX;x;y] P i d x P_{idx} Pidx为前缀序列的索引, ∣ P i d x ∣ |P_{idx}| Pidx为前缀序列的长度,这里需要注意的是,prefix-tuning是在模型的每一层都添加prefix(注意不是只有输入层,中间层也会添加prefix,目的增加可训练参数)。前缀序列索引对应着由 θ \theta θ参数化的向量矩阵 P θ P_{\theta} Pθ,维度为 ∣ P i d x ∣ × d i m ( h i ) |P_{idx}|\times dim(h_{i}) Pidx×dim(hi)。隐层表示的计算如下式所示,若索引为前缀索引 P i d x P_{idx} Pidx,直接从 P θ P_{\theta} Pθ复制对应的向量作为 h i h_{i} hi(在模型每一层都添加前缀向量);否则直接通过LM计算得到,同时,经过LM计算的 h i h_{i} hi也依赖于其左侧的前缀参数 P θ P_{\theta} Pθ,即通过前缀来影响后续的序列激活向量值(隐层向量值)。
    h i = { P θ [ i , : ] if    i ∈ P i d x L M ϕ ( z i , h < i ) otherwise h_{i}= \begin{cases} P_{\theta}[i,:]& \text{if} \ \ \ i\in P_{idx}\\ LM_{\phi}(z_{i},h_{hi={Pθ[i,:]LMϕ(zi,h<i)if   iPidxotherwise
      在训练时,Prefix-Tuning的优化目标与正常微调相同,但只需要更新前缀向量的参数。在论文中,作者发现直接更新前缀向量的参数会导致训练的不稳定与结果的略微下降,因此采用了重参数化的方法,通过一个更小的矩阵 P θ ′ P_{\theta}^{'} Pθ和一个大型前馈神经网络 MLP θ \text{MLP}_{\theta} MLPθ P θ P_{\theta} Pθ进行重参数化: P θ [ i , : ] = MLP θ ( P θ ′ [ i , : ] ) P_{\theta}[i,:]=\text{MLP}_{\theta}(P_{\theta}^{'}[i,:]) Pθ[i,:]=MLPθ(Pθ[i,:]),可训练参数包括 P θ ′ P_{\theta}^{'} Pθ MLP θ \text{MLP}_{\theta} MLPθ的参数,其中, P θ P_{\theta} Pθ P θ ′ P_{\theta}^{'} Pθ有相同的行维度(也就是相同的prefix length), 但不同的列维度。在训练时,LM 的参数 ϕ \phi ϕ被固定,只有前缀参数 P θ ′ P_{\theta}^{'} Pθ MLP θ \text{MLP}_{\theta} MLPθ的参数为可训练的参数。训练完成后, P θ ′ P_{\theta}^{'} Pθ MLP θ \text{MLP}_{\theta} MLPθ的参数被丢掉,只有前缀参数 P θ P_{\theta} Pθ被保存。
    通俗易懂的LLM_第15张图片
      上述内容详细介绍了prefix-tuning的主要训练流程,下面我们给出论文中通过实验得出的三个主要结论:

    • 方法有效性:作者采用了Table-To-Text与Summarization作为实验任务,在Table-To-Text任务上,Prefix-Tuning在优化相同参数的情况下结果大幅优于Adapter,并与全参数微调几乎相同。而在Summarization任务上,Prefix-Tuning方法在使用2%参数与0.1%参数时略微差于全参数微调,但仍优于Adapter微调;
    • Full vs Embedding-only:Embedding-only方法只在embedding层添加前缀向量并优化,而Full代表的prefix-tuning不仅在embedding层添加前缀参数,还在模型所有层添加前缀并优化。实验得到一个不同方法的表达能力增强链条:discrete prompting < embedding-only < prefix-tuning。同时,Prefix-Tuning可以直接修改模型更深层的表示,避免了跨越网络深度的长计算路径问题;
    • Prefix-Tuning vs Infix-Tuning:通过将可训练的参数放置在 x x x y y y的中间来研究可训练参数位置对性能的影响,即 [ x ; I n f i x ; y ] [x;Infix;y] [x;Infix;y],这种方式成为infix-tuning。实验表明prefix-tuning性能好于 infix-tuning,因为prefix能够同时影响 x x x y y y的隐层向量,而infix只能够影响 y y y的隐层向量。
       

      我们回顾下前文提到的parameter-efficient prompt tuning(下面简称为prompt tuning),其论文中有提到,它可以看作是prefix-tuning的简化版。总结下两者的不同点:

    • 参数更新策略不同:prompt tuning只对输入层(Embedding)进行微调,而prefix-tuning是对每一层全部进行微调。因此parameter-efficient prompt tuning的微调参数量级要更小(如下图),且不需要修改原始模型结构;
    • 参数生成方式不同:prompt tuning与prefix-tuning及p-tuning不同的是,没有采用任何的prompt映射层(即prefix-tuning中的重参数化层与p-tuning中的prompt encoder),而是直接对prompt token对应的embedding进行了训练;
    • 面向任务不同:prompt tuning、p-tuning以及后面要介绍的p-tuning v2都是面向的NLU任务进行效果优化及评测的,而prefix-tuning针对的则是NLG任务。

通俗易懂的LLM_第16张图片

  • P-Tuning v2:P-Tuning v2是2022年发表的一篇论文《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》,总结来说是在prefix-tuning和p-tuning的基础上进行的优化。下面我们简单介绍下p-tuning v2方法。
    • P-Tuning v2针对prefix-tuning、p-tuning解决的问题

      • prefix-tuning是针对于生成任务而言的,不能处理困难的序列标注任务、抽取式问答等,缺乏普遍性;
      • 当模型规模较小,特别是小于100亿个参数时,它们仍然不如fine-tuning。
    • P-Tuning v2的优点

      • P-Tuning v2在不同的模型规模(从300M到100B的参数)和各种困难的NLU任务(如问答和序列标注)上的表现与fine-tuning相匹配;
      • 与fine-tuning相比,P-tuning v2每个任务的可训练参数为0.1%到3%,这大大降低了训练时间的内存消耗和每个任务的存储成本。
    • P-Tuning v2的核心点

      • NLU任务优化:主要针对NLU任务进行微调,提升p-tuning v2在NLU任务上的效果;
      • 深度提示优化:参考prefix-tuning,不同层中的提示作为前缀token加入到输入序列中,并独立于其他层间(而不是由之前的transformer层计算),如下图所示。通过这种方式,一方面,p-tuning v2有更多的可优化的特定任务参数(从0.01%到0.1%-3%),以保证对特定任务有更多的参数容量,但仍然比进行完整的fine-tuning任务参数量小得多;另一方面,添加到更深层的提示,可以对输出预测产生更直接的影响。
        通俗易懂的LLM_第17张图片
    • P-Tuning v2的其他优化及实施点

      • 重参数化:以前的方法利用重参数化功能来提高训练速度、鲁棒性和性能(例如,MLP的Prefix-Tuning和LSTM的P-Tuning)。然而,对于NLU任务,论文中表明这种技术的好处取决于任务和数据集。对于一些数据集(如RTE和CoNLL04),MLP的重新参数化带来了比嵌入更稳定的改善;对于其他的数据集,重参数化可能没有显示出任何效果(如BoolQ),有时甚至更糟(如CoNLL12)。需根据不同情况去决定是否使用;
      • 提示长度:提示长度在提示优化方法的超参数搜索中起着核心作用。论文中表明不同的理解任务通常用不同的提示长度来实现其最佳性能,比如一些简单的task倾向比较短的prompt(less than 20),而一些比较难的序列标注任务,长度需求比较大;
      • 多任务学习:多任务学习对p-tuning v2方法来说是可选的,但可能是有帮助的。在对特定任务进行微调之前,用共享的prompts去进行多任务预训练,可以让prompts有比较好的初始化;
      • 分类方式选择:对标签分类任务,用原始的CLS+linear head模式替换prompt-tuning范式中使用的Verbalizer+LM head模式,不过效果并不明显,如下图。通俗易懂的LLM_第18张图片
  • Adapter-Tuning:《Parameter-Efficient Transfer Learning for NLP》这项2019年的工作第一次提出了Adapter方法。与prefix tuning和prompt tuning这类在输入前可训练添加prompt embedding参数来以少量参数适配下游任务,Adapter-Tuning 则是在预训练模型内部的网络层之间添加新的网络层或模块来适配下游任务。假设预训练模型函数表示为 ϕ w ( x ) \phi_{w}(x) ϕw(x),对于Adapter-Tuning,添加适配器之后模型函数更新为: ϕ w , w 0 ( x ) \phi_{w,w_{0}}(x) ϕw,w0(x) w w w是预训练模型的参数, w 0 w_{0} w0是新添加的适配器的参数,在训练过程中, w w w被固定,只有 w 0 w_{0} w0被更新。 ∣ w 0 ∣ ≪ ∣ w ∣ |w_{0}|\ll|w| w0w,这使得不同下游任务只需要添加少量可训练的参数即可,节省计算和存储开销,同时共享大规模预训练模型。在对预训练模型进行微调时,我们可以冻结在保留原模型参数的情况下对已有结构添加一些额外参数,对该部分参数进行训练从而达到微调的效果。
      论文中采用Bert作为实验模型,Adapter模块被添加到每个transformer层两次。适配器是一个 bottleneck(瓶颈)结构的模块,由一个两层的前馈神经网络(由向下投影矩阵、非线性函数和向上投影矩阵构成)和一个输入输出之间的残差连接组成。其总体结构如下(跟论文中的结构有些出入,目前没有理解论文中的结构是怎么构建出来的,个人觉得下图更准确的刻画了adapter的结构,有不同见解可在评论区沟通):通俗易懂的LLM_第19张图片
      Adapter结构有两个特点:较少的参数、在初始化时与原结构相似的输出。在实际微调时,由于采用了down-project与up-project的架构,在进行微调时,Adapter会先将特征输入通过down-project映射到较低维度,再通过up-project映射回高维度,从而减少参数量。Adapter-Tuning只需要训练原模型0.5%-8%的参数量,若对于不同的下游任务进行微调,只需要对不同的任务保留少量Adapter结构的参数即可。由于Adapter中存在残差连接结构,采用合适的小参数去初始化Adapter就可以使其几乎保持原有的输出,使得模型在添加额外结构的情况下仍然能在训练的初始阶段表现良好。在GLUE测试集上,Adapter用了更少量的参数达到了与传统fine-tuning方法接近的效果。
  • LoRA:LoRA是又一种PEFT方法,微软于2022年发表《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》。我们依照下图以及论文,简单介绍下LoRA的实现原理。通俗易懂的LLM_第20张图片
      LoRA原理其实并不复杂。简单理解一下,就是在模型的Linear层的旁边,增加一个“旁支”,这个“旁支”的作用,就是代替原有的参数矩阵 W W W进行训练。结合上图,我们来直观地理解一下这个过程,输入 x ∈ R d x\in R^{d} xRd,举个例子,在普通的transformer模型中,这个 x x x可能是embedding的输出,也有可能是上一层transformer layer的输出,而 d d d一般就是768或者1024。按照原本的路线,它应该只走左边的部分,也就是原有的模型部分。
      而在LORA的策略下,增加了右侧的“旁支”,也就是先用一个Linear层 A A A,将数据从 d d d维降到 r r r,这个 r r r也就是LoRA的秩,是LoRA中最重要的一个超参数。一般会远远小于 d d d,尤其是对于现在的大模型, d d d已经不止是768或者1024,例如LLaMA-7B,每一层transformer有32个head,这样一来 d d d就达到了4096。接着再用第二个Linear层 B B B,将数据从 r r r变回 d d d维。最后再将左右两部分的结果相加融合,就得到了输出的hidden_state。
      对于左右两个部分,右侧看起来像是左侧原有矩阵 W W W的分解,将参数量从 d × d d\times d d×d变成了 d × r + d × r d\times r +d\times r d×r+d×r,在 r ≪ d r\ll d rd的情况下,参数量就大大地降低了。熟悉各类预训练模型的同学可能会发现,这个思想其实与Albert的思想有异曲同工之处,在Albert中,作者通过两个策略降低了训练的参数量,其一是Embedding矩阵分解,其二是跨层参数共享。在Albert中,作者考虑到词表的维度很大,所以将Embedding矩阵分解成两个相对较小的矩阵,用来模拟Embedding矩阵的效果,这样一来需要训练的参数量就减少了很多。
      LoRA也是类似的思想,并且它不再局限于Embedding层,而是所有出现大矩阵的地方,理论上都可以用到这样的分解。但是与Albert不同的是,Albert直接用两个小矩阵替换了原来的大矩阵,而LoRA保留了原来的矩阵 W W W,但是不让 W W W参与训练(fine-tuning是更新权重矩阵 W W W,LoRA中的 W = W 0 + B A W=W_{0}+BA W=W0+BA,但是 W W W不参与更新,只更新 A A A B B B),所以需要计算梯度的部分就只剩下旁支的 A A A B B B两个小矩阵。
      从论文中的公式来看,在加入LoRA之前,模型训练的优化表示为:
    m a x Φ ∑ ( x , y ∈ Z ) ∑ t = 1 ∣ y ∣ l o g ( P Φ ( y t ∣ x , y < t ) ) max_{\Phi} \sum_{(x,y \in Z)}\sum_{t=1}^{|y|}log(P_{\Phi}(y_{t}|x,y_{maxΦ(x,yZ)t=1ylog(PΦ(ytx,y<t))
    其中,模型的参数用 Φ \Phi Φ表示。
      而加入了LoRA之后,模型的优化表示为:
    m a x Θ ∑ ( x , y ∈ Z ) ∑ t = 1 ∣ y ∣ l o g ( P Φ 0 + Δ Φ ( Θ ) ( y t ∣ x , y < t ) ) max_{\Theta} \sum_{(x,y \in Z)}\sum_{t=1}^{|y|}log(P_{\Phi_{0}+\Delta\Phi(\Theta)}(y_{t}|x,y_{maxΘ(x,yZ)t=1ylog(PΦ0+ΔΦ(Θ)(ytx,y<t))
    其中,模型原有的参数是 Φ 0 \Phi_{0} Φ0,LoRA新增的参数是 Δ Φ ( Θ ) \Delta\Phi(\Theta) ΔΦ(Θ)
      从第二个式子可以看到,尽管参数看起来增加了 Δ Φ ( Θ ) \Delta\Phi(\Theta) ΔΦ(Θ),但是从前面的max的目标来看,需要优化的参数只有 Θ \Theta Θ,而根 ∣ Θ ∣ ≪ ∣ Φ 0 ∣ |\Theta|\ll |\Phi_{0}| ∣Θ∣Φ0,这就使得训练过程中,梯度计算量少了很多,所以就在低资源的情况下,我们可以只消耗 Θ \Theta Θ这部分的资源,这样一来就可以在单卡低显存的情况下训练大模型了。下面介绍下LoRA架构的优点:
    • 全量微调的一般化:LoRA 不要求权重矩阵的累积梯度更新在适配过程中具有满秩。当对所有权重矩阵应用 LoRA 并训练所有偏差时,将 LoRA 的秩 r r r设置为预训练权重矩阵的秩,就能大致恢复了全量微调的表现力。也就是说,随着增加可训练参数的数量,训练 LoRA 大致收敛于训练原始模型;
    • 没有额外的推理延时:在生产部署时,可以明确地计算和存储 W = W 0 + B A W=W_{0}+BA W=W0+BA,并正常执行推理。当需要切换到另一个下游任务时,可以通过减去 B A BA BA来恢复 W 0 W_{0} W0,然后增加一个不同的 B ′ A ′ B^{'}A^{'} BA,这是一个只需要很少内存开销的快速运算。最重要的是,与fine-tuning的模型相比,LoRA 推理过程中没有引入任何额外的延迟(将 B A BA BA加到原参数 W 0 W_{0} W0上后,计算量是一致的)。
    • 减少内存和存储资源消耗:对于用Adam训练的大型Transformer,若 r ≪ d m o d e l r\ll d_{model} rdmodel,LoRA 减少2/3的VRAM用量(训练模型时,模型参数往往都会存储在显存VRAM中),因为不需要存储已固定的预训练参数的优化器状态,可以用更少的GPU进行大模型训练。在175B的GPT-3上,训练期间的VRAM消耗从1.2TB减少到350GB。在且只有query和value矩阵被调整的情况下,checkpoint的大小大约减少了10000倍(从350GB到35MB)。另一个好处是,可以在部署时以更低的成本切换任务,只需更换 LoRA 的权重,而不是所有的参数。可以创建许多定制的模型,这些模型可以在将预训练的权重存储在VRAM中的机器上进行实时切换。在175B的GPT-3上训练时,与完全微调相比,速度提高了25%,因为我们不需要为绝大多数的参数计算梯度。
  • AdaLoRA:AdaLoRA是发表于2023年3月《ADAPTIVE BUDGET ALLOCATION FOR PARAMETEREFFICIENT FINE-TUNING》,论文并未仔细阅读,简单来说,论文中发现对不通类型权重矩阵或者不同层的权重矩阵应用LoRA方法,产生的效果是不同的,如下图所示。通俗易懂的LLM_第21张图片
      在参数预算有限的情况下(例如限定模型可微调参数的数量),如何智能的选取更重要的参数进行更新,显得尤为重要。论文中提出的解决办法,是先对LoRA对应的权重矩阵进行SVD分解,即:
    W = W 0 + Δ = W 0 + B A = W 0 + P Λ Q   W=W_{0}+\Delta=W_{0}+BA=W_{0}+P\Lambda Q\ W=W0+Δ=W0+BA=W0+PΛQ 
    其中: Δ \Delta Δ称为增量矩阵, W ∈ R d 1 × d 2 W\in R^{d1 \times d2} WRd1×d2 P ∈ R d 1 × r P\in R^{d1 \times r} PRd1×r P ∈ R r × d 2 P\in R^{r \times d2} PRr×d2 Λ ∈ R r × r \Lambda\in R^{r \times r} ΛRr×r r ≪ m i n ( d 1 , d 2 ) r\ll min(d1,d2) rmin(d1,d2)。再根据重要性指标动态地调整每个增量矩阵中奇异值的大小。这样可以使得在微调过程中只更新那些对模型性能贡献较大或必要的参数,从而提高了模型性能和参数效率。具体可参考论文简介ADAPTIVE BUDGET ALLOCATION FOR PARAMETER- EFFICIENT FINE-TUNING 。
  • BitFit:BitFit(Bias-term Fine-tuning)发表于2022年BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models的思想更简单,其不需要对预训练模型做任何改动,只需要指定神经网络中的偏置(Bias)为可训练参数即可,BitFit的参数量只有不到2%,但是实验效果可以接近全量参数。

二、LLM简介

  通过前文对Tuning技术的介绍,我们能够了解到,Tuning技术依赖于LLM的发展,同时也在推动着LLM的发展。通常,LLM指的是包含数百亿(或更多)参数的语言模型,这些模型在大量的文本数据上训练。接下来我们介绍几个耳熟能详的大语言模型,其他LLM的相关内容可参考LLMSurvey、Open LLM Leaderboard
、开源大语言模型(LLM)汇总(持续更新中)

1、GPT系列(OpenAI)

1.1 GPT-1、GPT-2、GPT-3

  2017年,Google推出Transformer,利用Attention完全替代过往深度学习中的Recurrence和Convolutions结构,直白地展现出了“大一统模型”的野心,"xxx is ALL you need"也成了一个玩不烂的梗。
  2018年6月,OpenAI推出基于Transformer Decoder改造的第一代GPT(Generative Pre-Training),有效证明了在NLP领域上使用预训练+微调方式的有效性。紧随其后,同年10月Google推出基于Transformer Encoder部分的Bert,在同样参数大小的前提下,其效果领跑于GPT-1,一时成为NLP领域的领头羊。
  不甘示弱的OpenAI在4个月后,推出更大的模型GPT-2(GPT-1: 110M,Bert: 340M,GPT-2: 1.5B),同时,OpenAI也知道,光靠增加模型大小和训练数据集来获得一个和Bert差不多效果的模型,其实是没有技术含量的。于是,在GPT-2里,OpenAI引入zero-shot并证明了其有效性。
  此后,OpenAI在LLM上义无反顾地走了下去,在2020年6月推出巨人GPT-3,参数量高达175B,各类实验效果达到顶峰,据说一次训练费用为1200w美元,“贵”也成了普通工业界踏足GPT系列的壁垒之一。
  在正式介绍GPT系列模型之前,我们先介绍下语言模型的概念,语言模型是GPT系列模型的基座。什么是语言模型?简单来说,就是看一个句子是人话的可能性。专业一点来说,给定一个句子,其字符是 W = ( w 1 , w 2 , ⋯   , w L ) W=(w_{1},w_{2},\cdots,w_{L}) W=(w1,w2,,wL),那么,从语言模型来看,这个句子是人话的可能性就是:
P ( W ) = P ( w 1 , w 2 , ⋯   , w L ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) ⋯ P ( w L ∣ w 1 , w 2 , ⋯   , w L − 1 ) \begin{aligned} P(W)&=P(w_{1},w_{2},\cdots,w_{L})\\ &=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1},w_{2})\cdots P(w_{L}|w_{1},w_{2},\cdots,w_{L-1})\\ \end{aligned} P(W)=P(w1,w2,,wL)=P(w1)P(w2w1)P(w3w1,w2)P(wLw1,w2,,wL1)
但是, L L L太长就会很稀疏,直接算这个概率不好计算,我们就可以用近似计算:
P ( W ) = P ( w 1 , w 2 , ⋯   , w L ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) ⋯ P ( w L ∣ w 1 , w 2 , ⋯   , w L − 1 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) ⋯ P ( w L ∣ w L − N , ⋯   , w L − 1 ) \begin{aligned} P(W)&=P(w_{1},w_{2},\cdots,w_{L})\\ &=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1},w_{2})\cdots P(w_{L}|w_{1},w_{2},\cdots,w_{L-1})\\ &=P(w_{1})P(w_{2}|w_{1})\cdots P(w_{L}|w_{L-N},\cdots,w_{L-1}) \end{aligned} P(W)=P(w1,w2,,wL)=P(w1)P(w2w1)P(w3w1,w2)P(wLw1,w2,,wL1)=P(w1)P(w2w1)P(wLwLN,,wL1)
这就是常说的N-gram统计语言模型,N通常是2,3,4。特别的,当N=1时,语言模型就退化为各个字符出现的概率之积。当N=4时语言模型就比较大了,实际应用中一般最大也就是4了。根据条件概率 P ( w L ∣ w L − N , ⋯   , w L − 1 ) P(w_{L}|w_{L-N},\cdots,w_{L-1}) P(wLwLN,,wL1),我们就能知道给定前N个字,下一个字是什么字的概率了。语言模型的评价指标可以采用PPL(困惑度,Perplexity,语言模型)。
  接下来,我们分别介绍GPT-1、GPT-2、GPT-3的模型原理及预训练方法等相关知识。

  • GPT-1:GPT-1是OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想:通过二段式的训练,第一个阶段是利用语言模型进行预训练(无监督形式),第二阶段通过fine-tuning的模式解决下游任务(监督模式下)。GPT-1可以很好地完成若干下游任务,包括文本分类、自然语言推理、问答、语义相似度等。在多个下游任务中,微调后的GPT-1性能均超过了当时针对特定任务训练的SOTA模型。

    • 自然语言推理(Natural Language Inference 或者 Textual Entailment):判断两个句子是包含关系(entailment),矛盾关系(contradiction),或者中立关系(neutral);

    • 问答和常识推理(Question answering and commonsense reasoning):类似于多选题,输入一个文章,一个问题以及若干个候选答案,输出为每个答案的预测概率;

    • 语义相似度(Semantic Similarity):判断两个句子是否语义上是相关的;

    • 分类(Classification):判断输入文本是指定的哪个类别。
       
      下面具体介绍下GPT-1的模型结构及训练流程。

    • 模型结构:GPT-1基础架构是基于Transformer的Decoder部分,只是删除了Encoder-Decoder Attention层,只保留了Masked Multi-Head Attention层和Feed Forward层了。Transformer结构提出之始便用于机器翻译任务,机器翻译是一个序列到序列的任务,因此Transformer设计了Encoder用于提取源端语言的语义特征,而用Decoder提取目标端语言的语义特征,并生成相对应的译文。GPT-1目标是服务于单序列文本的生成式任务,所以含弃了关于Encoder部分,包括Decoder的Encoder-Decoder Attention层。整体是12层的Transformer-Decoder变体,如下图所示:通俗易懂的LLM_第22张图片
      除此之外,GPT-1还将Atention 的维数扩大到768(原来为512),将attention的头数增加到12个(原来为8个),将Feed Forward层的隐层维数增加到3072(原来为2048),总参数达到110M。GPT-1还优化了学习率预热算法,使用更大的BPE码表(词表大小为40478,478个 base characters + 40000个结合的字符),激活函数ReLU改为对梯度更新更友好的高斯误差线性单元GeLU,将正余弦构造的位置编码改为了带学习的位置编码。

    • 模型训练:上文已经提到,GPT-1模型训练整体上分为两步:1)在大规模无标注文本数据上学习到一个高容量的语言模型;2)在标注数据上进行微调。其中第二步是针对具体的下游任务来进行训练的。

      • 无监督预训练:总体训练任务目标是根据已知的词预测未知的词。在这里设定一定的窗口大小,即根据有限的词预测下一个词:给定一个语料的句子序列 U = { u 1 , ⋯   , u n } \mathcal{U}=\{u_{1},\cdots,u_{n}\} U={u1,,un},已知前 k k k个词预测当前词 u i u_{i} ui,用一个标准的语言模型目标去极大化这个似然函数:
        L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , ⋯   , u i − 1 ; Θ )   L_{1}(\mathcal{U})=\sum_{i} logP(u_{i}|u_{i-k},\cdots, u_{i-1};\Theta)\ L1(U)=ilogP(uiuik,,ui1;Θ) 
        其中: k k k是滑动窗口大小, Θ \Theta Θ是要优化的参数。 P ( u ) P(u) P(u)的计算方法是:
        h 0 = U W e + W p h i = t r a n s f o r m e r _ b l o c k ( h i − 1 ) , ∀ i ∈ [ 1 , n ] P ( u ) = s o f t m a x ( h n W e T ) \begin{aligned} h_{0}&=UW_{e}+W_{p}\\ h_{i}&=transformer\_block(h_{i-1}),\forall i\in[1,n]\\ P(u)&=softmax(h_{n}W_{e}^{T}) \end{aligned} h0hiP(u)=UWe+Wp=transformer_block(hi1)i[1,n]=softmax(hnWeT)
        其中: W e W_{e} We是词向量矩阵(token embedding matrix), W p W_{p} Wp是位置向量矩阵(position embedding matrix), U = u − k , ⋯   , u − 1 ) U=u_{-k},\cdots,u_{-1}) U=uk,,u1)是tokens的上下文向量(源代码中, u i u_{i} ui都是one-hot编码向量,相当于做一个查询操作, U U U存储索引, W e W_{e} We存储着词向量值), n n n是Decoder层的数量。
          上面是论文中的描述,我们举一个简单的例子,来说明GPT-1实际上是如何进行无监督预训练的。例如输入文本是:【今天很开心】,这段文本经过切词转换为一个个token后,输入GPT-1的transformer-decoder结构,在最后一层,会输出每个token对应的表征向量,即上文的 h n ∈ R m × d h_{n}\in R^{m\times d} hnRm×d,其中 m m m是token数量,这个例子中就是5, d d d是模型维度,GPT-1中就是768;接下来, h n h_{n} hn再经过一个全连接层,生成 z n ∈ R m × v z_{n}\in R^{m\times v} znRm×v,其中 v v v是词表的大小;最后, z n z_{n} zn会经过softmax操作,然后选取它每一行中数值最大的索引到词表中搜索对应的token,搜索到的token怎么用呢?我们的目标是下一个词的预测,输入是【今天很开心】,输出也是5个token,因为输入的第一个token是【今】,因此我们希望输出的第一个token是【天】,输入的第二个token是【天】,则希望输出的第二个token是【很】,依此类推,直到最后一个输入token【心】,不过因为它没有下一个词,所以在预训练过程中,不在我们的损失计算范围内。所以,我们会更新模型参数,尽可能的让最终的输出token的前四个字是【天很开心】,这就是预训练任务的整体流程。回过头来,我们也理解了为什么预训练叫做无监督训练,就是因为我们其实没有标注样本,而是拿下一个词当做标签进行模型训练,这种方式也被称作自监督训练。

      • 监督训练:当得到无监督的预训练模型之后,我们将它的值直接应用到有监督任务中。对于一个有标签的数据集 C \mathcal{C} C,每个实例有 m m m个输入token: { x 1 , ⋯   , x m } \{x^{1},\cdots,x^{m}\} {x1,,xm},它对应的标签是 y y y。首先将这些token输入到训练好的预训练模型中,获取最后一个transformer decoder的输出,得到最终的特征向量 h l m h_{l}^{m} hlm。然后再通过一个全连接层得到预测结果 y y y
        P ( y ∣ x 1 , ⋯   , x m ) = s o f t m a x ( h l m W y )   P(y|x^{1},\cdots,x^{m})=softmax(h_{l}^{m}W_{y})\ P(yx1,,xm)=softmax(hlmWy) 
        其中 W y W_{y} Wy为全连接层的参数。有监督的目标则是最大化下式的值:
        L 2 ( C ) = ∑ x , y P ( y ∣ x 1 , ⋯   , x m )   L_{2}(\mathcal{C})=\sum_{x,y}P(y|x^{1},\cdots,x^{m})\ L2(C)=x,yP(yx1,,xm) 
        注意:这里的 h l m h^m_l hlm是每一个词对应的Decoder输出拼接起来的, h l m = { h l < 1 > , ⋯   , h l < m > } h^m_l=\{h^{<1>}_l,\cdots,h^{}_l\} hlm={hl<1>,,hl<m>} , h l < i > ,h^{}_l ,hl<i>对应 x i x^{i} xi的嵌入表示。
         
        GPT-1的实验中发现,加入语言模型学习目标作为辅助任务,也就是损失函数中加入能带来两点好处:1)提升监督模型的泛化能力;2)加快收敛;因此,最终的优化目标如下( λ \lambda λ一般取0.5):
        L 3 ( C ) = L 2 ( C ) + λ L 1 ( C )   L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda L_{1}(\mathcal{C})\ L3(C)=L2(C)+λL1(C) 

      • 下游任务:GPT-1论文中给出了四个下游适配任务,分别是文本分类、自然语言推理、问答、语义相似度,同时给出了针对这四个任务,如何进行针对性的微调。这四个任务虽然本质上都是属于自然语言理解的文本分类任务,但是GPT-1的结构是很适配做自然语言生成任务的。下面我们介绍下GPT-1如何在上述四个任务上进行微调,如下图所示。

        • 分类任务:将起始和终止token加入到原始序列两端,输入transformer中得到特征向量,最后经过一个全连接得到预测的概率分布;
        • 自然语言推理:将前提(premise)和假设(hypothesis)通过分隔符(Delimiter)隔开,两端加上起始和终止token。再依次通过transformer和全连接得到预测结果;
        • 语义相似度:输入的两个句子,正向和反向各拼接一次(由于相似性质是对称的,为了消除顺序的影响),然后分别输入给transformer,得到的特征向量拼接后再送给全连接得到预测结果;
        • 问答和常识推理:将个选项的问题抽象化为个二分类问题,即每个选项分别和内容进行拼接,然后各送入transformer和全连接中,最后选择置信度最高的作为预测结果。

          这里我们同样通过一个文本分类的例子,来介绍下GPT-1在下游任务上是如何微调的。例如下游任务是情感文本分类任务,包括喜、怒、哀、惧、其他五个类别,其中一个样本是【今天很开心】,真实标签是【喜】。通过前面的介绍,我们知道GPT-1在下游任务进行微调时,损失函数包含两部分,一部分是与预训练保持一致的下一个词预测损失,这部分就不介绍了。另一部分是分类损失,对于分类任务来说,我们最终也会获取到GPT-1最后一层的向量表征 h l ∈ R m × d h_{l}\in R^{m\times d} hlRm×d,其中 m m m是token数量,这个例子中就是5, d d d是模型维度,GPT-1中就是768, l l l是模型层数;接下来, h l h_{l} hl的最后一行再经过一个全连接层(注意,预训练任务是 h l h_{l} hl整体都要经过全连接层,我们这里只需用到最后一个token,即图片中的Extract对应的向量表征),生成 z l ∈ R c z_{l}\in R^{c} zlRc,其中 c c c是类别数目;最后, z l z_{l} zl会经过softmax操作,获取【今天很开心】这段文本对应的每一个类别的概率值,我们的期望是【喜】的概率值要尽可能的大,也就是 z l z_{l} zl的第一个元素的值要尽可能大,这也就是我们的优化目标。

    • GPT-1特点

      • 优点:特征抽取器使用了强大的Transformer,能够捕捉到更长的记忆信息,且较传统的RNN更易于并行化;transformer的并行化可以参考浅析Transformer训练时并行问题;
      • 缺点:GPT-1最大的问题就是传统的语言模型是单向的。
    • GPT-1与ELMo,Bert的区别

      • GPT-1与ELMo的区别
        • 模型架构不同:ELMo是浅层的双向RNN;GPT-1是多层的Transformer decoder;
        • 针对下游任务的处理不同:ELMo将词嵌入添加到特定任务中,作为附加功能;GPT则针对所有任务微调相同的基本模型。
      • GPT-1与Bert的区别
        • 预训练:GPT-1预训练的方式和传统的语言模型一样,通过上文,预测下一个单词;Bert会同时利用上下文的信息;
        • 模型效果:GPT-1因为采用了传统语言模型所以更加适合用于自然语言生成类的任务 (NLG),因为这些任务通常是根据当前信息生成下一刻的信息。而Bert更适合用于自然语言理解任务 (NLU)。当然这是之前的说法,现在chatgpt出来以后哪个更适合NLU任务还真不一定。GPT-1的模型参数为L=12,H=768,A=12,这个设置和后来Bert-Base一模一样,但后者的效果要好上很多。原因之一是,GPT-1采用Mask-Attention结构,对模型和训练数据的要求会更高,因为模型能读到的信息只有上文。而采用普通Attention的Bert在训练阶段就能同时读到上下文。这个性质决定了GPT模型越来越大的趋势。但是,长远来看,Masked-Attention是push模型更好理解文字的重要手段,毕竟在现实中,我们更希望培养模型知上文补下文,而不是单纯地做完形填空。
        • 模型结构: GPT-1采用了Transformer的Decoder,而Bert采用了Transformer的Encoder。
    • GPT-1的数据集:GPT-1使用了BooksCorpus数据集,这个数据集包含7000本没有发布的书籍。作者选这个数据集的原因有二:1)数据集拥有更长的上下文依赖关系,使得模型能学得更长期的依赖关系;2)这些书籍因为没有发布,所以很难在下游数据集上见到,更能验证模型的泛化能力。

  • GPT-2:我们知道,GPT-1和Bert的训练都是分两步走:pre-training + supervised fine-tuning。这套方法的缺点:

    • 虽然借助预训练这一步提升性能,但是本质上还是需要有监督的 fine-tuning 才能使得模型执行下游任务;
    • 需要在下游任务上面有标注的数据。当我们只有很少量的可用数据 (即zero-shot的情况下) 时就很难有很好的效果。
       

      另外,在Bert模型提出之后,Encoder vs Decoder,Bert vs GPT-1,两两之间的比较就开始了,但是此时GPT-1仍处在劣势。Bert提出之后,除了生成任务外,NLP任务的范式基本就是Bert的预训练+fine-tuning了。OpenAI放弃了吗?并没有!我们知道,基于Decoder的模型,模型和数据量越大,效果越好。但OpenAI如果只做到这一点,从技术上来说又太逊色了,性价比也不高。因此,OpenAI从训练数据上进行改进,引入了zero-shot这一创新点,GPT-2就诞生了《Language Models are Unsupervised Multitask Learners》。
      论文中认为现在的训练方式训练出来的模型只能算是一个小任务上的专家系统,而且还都不够鲁棒。造成这个问题的原因是模型都是在单一领域内的单一任务上进行训练的,缺乏泛化性。跟人一样,见识和知识太少时,就很难对事情有全面的了解。要解决这个问题,一个可行的思路是多任务学习,而且是大量不同领域的不同任务。但是,这样的多任务学习是有监督的训练,需要大量的数据,这个就比较难实现了。
      GPT-2在GPT-1的基础上,提出了新的发展思路来解决这个问题。简单来说,GPT-2的思路就是充分相信语言模型,不再对下游任务进行fine-tuning或者增加任务头了,就用预训练的语言模型来解决所有任务,直接做zero-shot的任务。具体来说,就是上高质量的大数据,堆叠更多的参数,不同任务改造成生成任务。
      GPT-2本质上还是一个语言模型,但是不一样的是,它证明了语言模型可以在 zero-shot 的情况下执行下游任务,也就是说,GPT-2在做下游任务的时候可以无需任何标注的信息,也无需任何参数或架构的修改。后来的GPT-3也是沿用了这个思路,这个时候,已经可以看出一些ChatGPT的影子了。

    • 模型结构:GPT-2的模型在GPT-1的基础上做了一些改进,如下:

      • 结构变化:对于每个sub-block:第一个layer norm层移到sub-block的输入部分,也就是attention之前,第二个layer norm层移到feed forward之前;对于整体模型架构,在最后一个sub-block后再加一个layer norm层;
      • 权重变化:采用一种改进的初始化方法,该方法考虑了残差路径与模型深度的累积。在初始化时将residual layers的权重按 N \sqrt{N} N 的因子进行缩放,其中 N N N是residual layers的数量;
        • 备注:这个改动其实没太看懂,residual layers就是一个相加操作,怎么会有参数呢?查阅了很多资料,源码也看了GPT-2,没看到权重缩放的流程。在此给一个本人的见解:根据这个操作的目的可知,是为了防止随着模型深度的累积,残差越加越大,因此认为这里的缩放指的是每次进行残差操作之前(即将输入和输出进行相加之前),先将输入进行缩放,缩放因子跟当前是整体结构的第几层有关,层数越大,累积的越大,所以应该缩放的越多。比如现在是整体结构的第五层,那么缩放因子 N N N就是5。上述内容只是本人的一个想法,如有大神更了解其中的原理,欢迎交流指正。);
      • 词表变化:词表大小设置为50257;
      • 输入变化:无监督预训练可看到的上下文的context由512扩展为1024;
      • 批次变化:训练时,Batch Size大小从64调整为512。
        通俗易懂的LLM_第23张图片

        论文给了不同层数的模型,最大的模型称为GPT-2模型,参数有1.5B;最小的即是GPT-1,对标Bert-base;倒数第二小的对标Bert-large。不同模型大小如下:通俗易懂的LLM_第24张图片

    • 模型训练:GPT-2只有预训练过程。

      • 无监督训练:GPT-2的训练方式和GPT-1的训练方式相比,两者都是有预训练过程的,不过GPT-2只有预训练过程,在下游任务中,不采用fine-tuning方法,而是采用论文中提到的zero-shot方法。GPT-2采用这种模式,归因于GPT-2提出的核心思想:当一个语言模型的容量足够大数据量足够丰富时,它就足以覆盖所有的有监督任务,也就是说所有的有监督学习都是无监督语言模型的一个子集,仅仅靠训练语言模型便可以完成其他有监督学习的任务。
      • 下游任务:GPT-2如何让模型做下游任务呢?首先前文提到,GPT-2在大规模无监督训练过程学习到了任务相关的信息。作者是这么认为的:比如下游任务是英文翻译法文,那么如果模型在无监督预训练的过程中看过相关的文字 (例如"Mentez mentez, il en restera toujours quelque chose," which translates as, "Lie lie and something will always remain."这句话是训练的语料),那么模型就能够学会 (translate to french, english text, french text) 这样的下游任务。也就是说,原则上,通过大量的语料训练,语言建模能够学习到一系列下游任务,而不需要明确的监督信息。为什么可以这么讲呢?因为作者认为:下游任务 (有监督训练) 可以视为预训练过程 (无监督训练) 的一个子集。无监督目标的全局最优解也是有监督训练的全局最优解。当预训练规模足够大时,把无监督的任务训练好了,有监督的下游任务即不再需要额外训练,就是所谓的zero-shot。所以下面的问题就变成了:在实践中,我们如何能够优化无监督预训练过程以达到收敛。初步实验证实,足够大的语言模型能够在无监督的预训练过程之后做下游任务,但学习速度比显式监督方法慢得多。那么最后一个问题就是具体怎么去做下游任务呢?以英文翻译法文为例,我们需要在下游任务时预先告诉模型 “translate English to French”,即给模型一个提示 (Prompt)。
    • GPT-2的数据集:许多之前的工作是在单个文本域上训练语言模型,例如新闻文章,维基百科或小说等等。GPT-2则是希望使得训练数据集的领域和上下文更多一点。在网站上爬取文本是一个方案,比如说Common Crawl网站。虽然这些网站手机的数据集在量级上很大,但它们存在严重的数据质量问题,这上面的内容有很多是信噪比很低的,难以理解的内容。为了解决数据集质量的问题,GPT-2只爬取人类过滤之后的网页。但是,手动过滤的网络爬取很昂贵,所以GPT-2从社交媒体平台Reddit 上抓取了至少收到了3个karma的链接。karma可以被认为是一种启发式指标,用于判断其他用户是否认为该链接有趣、有教育意义或只是有趣。得到的这个数据集称之为WebText,是一个包含了4500万个链接的文本数据集。经过重复数据删除和一些基于启发式的清理后,它包含略多于800万个文档,总文本容量为40GB。作者从WebText中删除了所有维基百科文档,因为它可能涉及到 test evaluation tasks。目前全量的数据是没有开放下载的,可通过GPT-2训练数据集下载部分训练数据。

    • GPT-2特点

      • 优点:GPT-2相对GPT-1模型的亮点是支持zero-shot的设置,同时在zero-shot的多任务学习场景中展示出不错的性能。GPT-2首先构造了一个新的数据集:WebText,它是一个有百万级别文本的数据集。GPT-2自己是一个有着1.5B参数量的模型;GPT-2提出了新的NLP范式,强调通过更多的高质量训练数据训练高容量语言模型从而无监督完成下游多任务。尝试以一种通用的语言模型的方法,去解决现有的大部分NLP任务;
      • 缺点:GPT-2在模型本身上没啥大的变化和创新。
  • GPT-3:GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。但是很多实验也表明,GPT-2的无监督学习的能力还有很大的提升空间,甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot的任务上的表现不错,但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,基于这个思想,诞生了我们下面要介绍的GPT-3《Language Models are Few-Shot Learners》。
      GPT-2在GPT-1的基础上往前走了一大步:完全抛弃了微调,并采用了zero-shot的方式。Zero-shot的方式被GPT-2认证可行后,OpenAI就不得不开始考虑模型是否能真正做到强大了,毕竟现在只是和Bert持平而已。这一刻OpenAI开始悟过来,既然LLM要一路走到底,既然模型变大避免不了,那不如来得更彻底一些。GPT-3沿用了去除fine-tuning,只做通用语言模型的思路,同时技术上小做替换(sparse Transformer);对于下游任务,在不做微调的前提下采用了few-shot的方式(毕竟完全不给模型任何显性提示,效果确实没达到预期)。最终生成了一个大小高达175B的大模型,当然效果也是一骑绝尘的。

    • 模型结构:GPT-3的模型与GPT-2的模型基本一致,主要改进只有一点:

      • Sparse Attention:在模型结构中的注意力层,GPT-3采用Sparse Transformer中的Sparse Attention方案,sparse attention与传统self-attention(称为 dense attention)的区别在于:

        • dense attention:每个 token 之间两两计算 attention,复杂度 O ( n 2 ) O(n^{2}) O(n2)
        • sparse attention:每个token只与其他token的一个子集计算attention,复杂度 O ( n ∗ l o g n ) O(n*logn) O(nlogn)
           

        具体来说,sparse attention除了相对距离不超过 k k k以及相对距离为 k , 2 k , 3 k , ⋯ k,2k,3k,\cdots k2k3k的token,其他所有token的注意力都设为0,如下图所示:通俗易懂的LLM_第25张图片
        我们来具体观察一下,实际上图中的第二行就是涉及到的attention的token内容,可以看出首先关注了附近四个token,其次是 2 k , 3 k 2k,3k 2k,3k距离的token,那么为什么这么做呢?使用 sparse attention 的好处主要有以下两点:

        • 减少注意力层的计算复杂度,节约显存和耗时,从而能够处理更长的输入序列;
        • 具有“局部紧密相关和远程稀疏相关”的特性,对于距离较近的上下文关注更多,对于距离较远的上下文关注较少。
           
          关于Sparse Transformer的详细介绍可以参见OpenAI于2019年发表的论文《Generating Long Sequences with Sparse Transformers》。
           

        论文中供训练了8个不通规模的模型,最大的一个称作为GPT-3:通俗易懂的LLM_第26张图片

    • 模型训练:GPT-3也只有预训练过程。

      • 无监督训练:GPT-3仍采用GPT-2提出的仅做预训练、不做微调的思路。GPT-3采用了in-context learning。借用meta-learning(元学习)的思想,在pre-training期间让模型学习广泛的技能和模式识别能力,而在推理期间利用这些技能和能力迅速适配到期望的任务上。在之前的章节中,我们已经介绍过in-context learning,下面简单介绍下GPT-3中的in-context learning。
          In-context learning是这篇论文中介绍的一个重要概念,要理解in-context learning,我们需要先理解meta-learning(元学习)。对于一个少样本的任务来说,模型的初始化值非常重要,从一个好的初始化值作为起点,模型能够尽快收敛,使得到的结果非常快的逼近全局最优解。元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果。
          这里的介绍使用的是MAML(Model-Agnostic Meta-Learning)算法,正常的监督学习是将一个批次的数据打包成一个batch进行学习。但是元学习是将一个个任务打包成batch,每个batch分为支持集(support set)和质询集(query set),类似于学习任务中的训练集和测试集。
          对一个网络模型 f f f,其参数表示为 θ \theta θ,它的初始化值被叫做meta-initialization。MAML的目标则是学习一组meta-initialization,能够快速应用到其它任务中。MAML的迭代涉及两次参数更新,分别是内循环(inner loop)和外循环(outer loop)。内循环是根据任务标签快速的对具体的任务进行学习和适应,而外学习则是对meta-initialization进行更新。直观的理解,我用一组meta-initialization去学习多个任务,如果每个任务都学得比较好,则说明这组meta-initialization是一个不错的初始化值,否则我们就去对这组值进行更新。
          GPT-3中介绍的in-context learning则是元学习的内循环,基于语言模型的SGD则是外循环,如下图所示。
        通俗易懂的LLM_第27张图片

      • 下游任务:在训练阶段,预训练通用的语言模型,使模型能够具备识别不同NLP任务的能力,此时模型具备了一定的ICL能力。而在推理阶段,依赖于模型的ICL能力,针对各NLP任务,向模型中输入特定上下文,上下文包括任务描述、若干个任务样本和任务提示,模型根据上下文进行推理给出任务输出。根据上下文包含的任务样本数量可进一步将上下文学习分为Zero-Shot(无任务样本)、One-Shot(仅一个任务样本)和Few-Shot(多个任务样本)三类。

        • Fine-Tunning(FT):FT利用成千上万的下游任务标注数据来更新预训练模型中的权重以获得强大的性能。但是,该方法不仅导致每个新的下游任务都需要大量的标注语料,还导致模型在样本外预测的能力很弱。虽然GPT-3从理论上支持FT,但论文中没这么做;
        • Few-Shot(FS):模型在推理阶段可以得到少量的下游任务示例作为限制条件,但是不允许更新预训练模型中的权重。FS过程的示例可以看下图中整理的案例。FS的主要优点是并不需要大量的下游任务数据,同时也防止了模型在fine-tuning阶段的过拟合。FS的主要缺点是不仅与fine-tuning的SOTA模型性能差距较大且仍需要少量的下游任务数据;
        • One-Shot(1S):模型在推理阶段仅得到1个下游任务示例。把1S独立于Few-Shot和Zero-Shot讨论是因为这种方式与人类沟通的方式最相似;
        • Zero-Shot(0S):模型在推理阶段仅得到一段以自然语言描述的下游任务说明。0S的优点是提供了最大程度的方便性、尽可能大的鲁棒性并尽可能避免了伪相关性。0S的方式是非常具有挑战的,即使是人类有时候也难以仅依赖任务描述而没有示例的情况下理解一个任务。但毫无疑问,0S设置下的性能是最与人类的水平具有可比性的。
          通俗易懂的LLM_第28张图片
    • GPT-3的数据集:GPT-3的训练数据包括低质量的Common Crawl,高质量的WebText2、Books1、Books2和Wikipedia。GPT-3根据数据集的不同质量赋予了不同的权值,权值越高的在训练的时候越容易抽样到(见下图)。为了清理脏数据,OpenAI做了以下的数据处理:

      • 使用高质量数据作为正例,训练LR分类算法,对 CommonCrawl 的所有文档做初步过滤;
      • 利用公开的算法做文档去重,减少冗余数据;
      • 加入已知的高质量数据集;

      最终处理完成后使用的数据规模约570G。
      通俗易懂的LLM_第29张图片
      如上图所示,在实际实验过程中,对不同数据集按照一定的比例进行采样,这个比例不是按照原始数据量多少来划分的,不然这里基本采样到的就都是Common Crawl的数据了,可以看到这里Common Crawl的数据量比其他几个多很多。进行采样的原因主要考虑到,就算做了一些数据清洗还是觉得Common Crawl的数据质量不如其他几个。最终采样的时候,虽然Common Crawl的数据量是其他几个数据集的上百倍,但是实际占比是60%,有40%的数据是能够保证质量的。

    • GPT-3的特点

      • 优点:GPT-3的强大之处在于它的泛化能力。不需要微调,只需要在输入序列里用自然语言表述任务要求,就可以让模型执行不同的子任务。GPT-3在部分任务上达到或超过了SOTA,并且验证了模型规模越大、任务效果越好,且大部分情况下,GPT-3的Few-Shot优于One-Shot和Zero-Shot。通俗易懂的LLM_第30张图片

      • 缺点

        • 生成的内容存在重复或不合理的句子、段落,缺乏常识,在一些任务上表现一般,甚至和随机判断差不多;
        • 模型结构使用的Transformer解码器是一个单向自回归语言模型,所以在一些需要双向理解的NLP任务(比如文本蕴含)上表现不佳;
        • 语言模型底层原理还是根据前序词元预测下一个词元,没有考虑不同词元的权重;
        • 模型规模太大,计算资源成本较高,后续的一个方向是针对特定任务对模型进行知识蒸馏;
        • 和其他深度学习模型一样,模型的可解释性不强;
        • 此外,作者还展望了一下GPT-3可能带来的社会影响。比如它可能被拿来生成假新闻、垃圾邮件,以及论文造假。由于GPT-3 的训练数据来自网络,其中包含了一些性别、宗教、种族歧视的信息,导致GPT-3生成的文本也有同样的问题。

1.2 InstructGPT

  GPT-3虽然在各大NLP任务以及文本生成的能力上令人惊艳,但是他仍然还是会生成一些带有偏见的,不真实的,有害的造成负面社会影响的信息,而且很多时候,他并不按人类喜欢的表达方式去说话。在这个背景下,OpenAI提出了一个概念“Alignment”,意思是模型输出与人类真实意图对齐,符合人类偏好。因此,为了让模型输出与用户意图更加对齐,就有了InstructGPT这个工作《Training language models to follow instructionswith human feedback》。InstructGPT提出了一个理想化语言模型的三大目标:helpful(能帮助用户解决问题)、honest(不能捏造事实,不能误导用户)、harmless(不能对用户或环境造成物理、精神、社会层面的伤害)。
  为了实现上述的目标,论文提出了一种基于人类反馈来微调语言模型的方法,使其能够更好地遵循用户的指示,并在各种任务上表现出更高的质量和可信度。基本流程分为以下三个步骤:

  • 步骤一:从OpenAI API中获取用户提交的指令prompt(后面提到的指令prompt都可理解为问题)和标注人员编写的指令prompt中收集了一个数据集,从收集到的指令prompt数据集中取出一些指令prompt,然后让标注人员标注对应的答案,再用这些数据微调GPT-3得到SFT模型;
  • 步骤二:输入指令prompt,让模型输出几个答案,然后让标注人员对答案进行排序,用这些排序数据训练一个奖励模型RM,能够对答案进行打分,打分的大小顺序满足训练使用的这些答案的顺序;
  • 步骤三:再输入一些指令prompt让STF去生成一些答案,把答案放到RM里面去打分,然后用PPO算法去优化STF的参数使得它生成更高的分数,最后得到InstrctGPT。

  最终得到的InstrctGPT相较于GPT-3:

  • 可以更好地理解用户指示中隐含或显式地表达出来的目标、约束和偏好,并生成更符合用户期望和需求的输出;
  • 可以更有效地利用提示中提供的信息或结构,并在需要时进行合理推断或创造。
  • 可以更稳定地保持输出质量,并减少错误或失败率;

  下面详细介绍下InstructGPT数据集构建以及训练流程。

  • InstructGPT数据集构建:InstructGPT数据集构建可以分为三个阶段。第一个阶段是为了构建初始的指令prompt数据集,具体做法是让标注人员构建下面三种prompt:

    • Plain:只要求标注人员构建出一个任意的任务(也就是指令promot),并保证任务有足够的多样性;
    • Few-shot:要求标注人员构建出一个指令prompt,并给出多个符合该指令的query/response组合;
    • User-based:基于用户期望OpenAI API俱备的能力所提出的一些用例,要求标注人员构建出与这些用例相关的指令prompt。
       

      基于上面三种指令prompt,OpenAI团队训练了初始版本的InstructGPT模型,然后将这个InstructGPT模型放到Playground(Playground可理解为测试API,非生产API)里供用户使用,这就引申至InstructGPT数据集构建的第二个阶段:用户在使用过程中,会继续问一些问题,OpenAI团队将这些问题收集回来,并进行过滤等操作,具体来说,将每个用户ID的对应的指令prompt数量限制为200个,同时过滤掉个人信息,并根据用户ID拆分训练、验证和测试集(同一个用户问题会比较类似,不适合同时出现在训练集和验证集中)。可以看出,第一阶段和第二阶段是一个循环过程:先拿部分数据训练模型,然后通过模型获取新数据,再用新数据继续优化模型,这种思路也很适合我们以后的模型训练过程。
      至此,通过上述两阶段的处理,OpenAI团队已经获取了一定量的指令prompt(包括标注人员构建的prompt以及从用户侧收集的prompt),接下来即是针对不同训练任务构建不同的数据集,也就是第三阶段。基于第二阶段获取的指令prompt,构建三个数据集,分别用于后续的三个训练任务SFT、RM、PPO。

    • SFT Dataset:标注人员根据指令prompt构造答案,将prompt和答案拼在一起,形成一段对话(prompt,answer),用于训练SFT模型。此部分数据量大约13k,包括人工标记prompt+用户收集prompt
    • RM Dataset:先将prompt输入SFT模型,标注人员再对SFT模型输出的答案进行排序,然后用这些排序数据(prompt,Rank)训练一个奖励模型RM,能够对答案进行打分。此部分数据量大约33k,包括人工标记prompt+用户收集prompt
    • RL Dataset:此部分数据集不需要标注,只需要从指令prompt数据集里面获取部分指令prompt,然后使用SFT和RM模型分别得到answer和RM给出的分数,构成三元组(prompt,answer,RM给出的分数),用于进一步采用PPO算法微调SFT模型。此部分数据量大约31k,只包括用户收集prompt
      通俗易懂的LLM_第31张图片

      SFT Dataset和RM Dataset都需要人工标注,区别在于前者的生成式的标注要比后者的判别式的标注贵很多,同样的标注时间和成本,联合前者和后者得到的数据要比只用前者得到的数据多很多,在这上面训练出来的模型性能可能会好一些。

  • InstructGPT训练流程:上文已经介绍,关于InstructGPT的训练流程,论文中分为了三个步骤:有监督微调,奖励模型训练,强化学习训练,如下图所示。实际上可以把它拆分成两种技术方案,一个是有监督微调(SFT),一个是基于人类反馈的强化学习(RLHF),下面我们简单介绍这两种技术方案。

    • 有监督微调(SFT): 以GPT-3模型为底座,在标注好的第一个数据集(问题+答案)上进行训练。具体来说,迭代轮数使用16个epoch,学习率使用余弦衰减,模型残差连接dropout率为0.2。由于只有13000个数据,1个epoch就过拟合,不过论文中证明了这个模型过拟合也没什么关系,甚至训练更多的epoch对后续是有帮助的,最终训练了16个epoch。
    • 基于人类反馈的强化学习(RLHF):此部分包含两个阶段,第一个阶段是RM模型训练,第二阶段是利用PPO算法继续微调SFT模型,两阶段相结合,即是RLHF过程。
      • 奖励模型(RM):模型结构是把SFT模型最后的unembedding层去掉,即最后一层不用softmax,改成一个线性层,这样训练好的RM模型就可以做到输入问题+答案,输出一个标量的分数。RM模型使用6B,而不是175B,主要原因是:

        • 节省计算,更便宜;
        • 大模型175B-RM不稳定(大模型的通病,模型参数很多,很难收敛),因此不太适合在RL期间用作值函数。
           

        前文已经介绍,RM数据集在标注阶段,标注人员被要求对每一个prompt下的不同回答进行排序。如下图,某个prompt下有A、B、C三个回答,标注人员认为A>B>C。在训练阶段,假设一个prompt下有K个回答,则两两回答一组,组成一条训练数据,例如(prompt, A, B),则一共有 C k 2 C_{k}^{2} Ck2条训练数据。这些训练数据将组成一个batch,通过构造并最小化Pairwise Ranking Loss的方法,来训练奖励模型,整体过程如下:先以RM Dataset中的指令prompt作为输入,通过第一阶段微调好的SFT模型,生成K个不同的回答,形成,….数据。然后,标注人员根据相关性、信息性和有害信息等标准,对K个结果进行排序,生成排序结果数据。接下来,使用这个排序结果数据进行pair-wise learning to rank模式进行训练,训练RM模型。RM模型接受一个输入,给出评价回答质量高低的奖励分数score。对于一对训练数据,假设人工排序中answer1排在answer2前面,那么loss函数则鼓励RM模型对的打分要比的打分要高。通俗易懂的LLM_第32张图片
        接下来我们根据模型的损失函数Pairwise Ranking Loss,详细了解下RM模型的训练过程。Pairwise Ranking Loss表达式如下所示:
        l o s s ( θ ) = − 1 C k 2 E ( x , y w , y l ) ∼ D [ l o g ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ]   loss(\theta)=-\frac{1}{C_{k}^{2}}E_{(x,y_{w},y_{l})\sim D}[log(\sigma(r_{\theta}(x,y_{w})-r_{\theta}(x,y_{l})))]\ loss(θ)=Ck21E(x,yw,yl)D[log(σ(rθ(x,yw)rθ(x,yl)))] 
        其中,

        • x x x表示某个prompt;
        • y w y_{w} yw y l y_{l} yl分别表示该prompt下的任意一对回答,并且假设标注中 y w y_{w} yw的排序是高于 y l y_{l} yl的;
        • D D D表示该prompt下人类标注排序的所有两两回答组合;
        • r θ r_{\theta} rθ表示奖励模型;
        • σ \sigma σ表示 s i g m o i d sigmoid sigmoid函数。
           

        也可以参考下图(有个小错误,就是 s i g m o i d sigmoid sigmoid函数是将值映射至 ( 0 , 1 ) (0,1) (01),而不是 ( − 1 , 1 ) (-1,1) (11),不过无伤大雅)。
        通俗易懂的LLM_第33张图片
         
        论文中期望当回答 y y y的排序相对较高时, r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)的得分也能越高。为了不让K的个数影响训练模型,论文中在前面乘上 1 C k 2 \frac{1}{C_{k}^{2}} Ck21,将loss平均到每一个答案组合上。除此之前,还有几点需要我们注意:

        • K值的选择:论文中采用了K=9,而不是更小的值,比如4。原因在于:
          • 进行标注的时候,需要花很多时间去理解问题,但答案和答案比较相近,对9个答案做排序相较于对4个答案做排序多花的时间不到一倍。同时K=9生成的问答对是K=4的6倍( C 9 2 {C_{9}^{2}} C92=36, C 4 2 {C_{4}^{2}} C42=6),非常划算;
          • K=9时,每次计算RM模型的loss时需要都有36项 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)要计算,这个计算比较贵,但可以通过重复利用之前算过的值,使得只要计算9次就行,也就是说将9个答案对应的 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)计算出来之后,后面计算损失时,两两组合就可以了,这样就可以省下很多时间。
        • 训练数据输入模式选择:论文中将 ( x , y w , y l ) ∼ D (x,y_{w},y_{l})\sim D (x,yw,yl)D当成一个batch同时送入模型,而不是将单条 ( x , y w , y l ) (x,y_{w},y_{l}) (x,yw,yl)数据分别送入模型,原因在于:
          • 为了避免过拟合。对于某一对 ( x , y w , y l ) (x,y_{w},y_{l}) (x,yw,yl)中的一个样本 ( x , y ) (x,y) (x,y),用batch方式时,它只参与一次梯度计算;用单条方式时,它需要参与K-1次梯度计算。模型超过一个epoch后会过拟合,在一个epoch中反复使用数据更会过拟合了;
          • 为了提升计算效率。在模型forward的过程中,最耗时的步骤是计算 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)。用batch方式时,该计算只需执行K次(因为模型参数没有更新,相同的(x, y)可以重复使用);采用单条方式时,需要计算K(K-1)次(因为一条计算更新一次模型,模型参数更新,相同的(x,y)需要重新计算 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y))。因此,K越大时,采用batch的方式越划算,它在保证相对排序信息丰富的同时,又节省了计算效率。
        • 训练epoch选择:模型训练超过一个epoch后会过拟合,故只训练一个epoch。
      • 强化学习模型(RL):这个阶段先将RL模型的权重初始化为SFT模型的权重,然后通过改良后的PPO算法(PPO-ptx算法)继续对RL模型进行优化,最终得到InstructGPT。强化学习的大致流程可以总结为:模型在做出行动后,需要人来对模型进行反馈,然后模型做出对应的更新。具体来说,论文中训练RM就是为了学习人来对模型进行反馈,SFT模型在拿到prompt并生成对应的答案后,由RM进行打分,再根据这个打分去更新模型,然后用更新的模型生成新的答案,并进行下一步学习,这就是强化学习的过程。强化学习的目标函数 o b j e c t i v e ( ϕ ) objective(\phi) objective(ϕ)如下所示,RL模型最终的训练目标是让 o b j e c t i v e ( ϕ ) objective(\phi) objective(ϕ)越大越好。
        o b j e c t i v e ( ϕ ) = E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β l o g ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] + γ E x ∼ D p r e t r a i n [ l o g ( π ϕ R L ( x ) ) ] \begin{aligned} objective(\phi)=&E_{(x,y)\sim D_{\pi_{\phi}^{RL}}}[r_{\theta}(x,y)-\beta log(\pi_{\phi}^{RL}(y|x)/\pi^{SFT}(y|x))]+\\ &\gamma E_{x\sim D_{pretrain}}[log(\pi_{\phi}^{RL}(x))] \end{aligned} objective(ϕ)=E(x,y)DπϕRL[rθ(x,y)βlog(πϕRL(yx)/πSFT(yx))]+γExDpretrain[log(πϕRL(x))]
        其中:

        • π S F T \pi^{SFT} πSFT:即第一阶段,经过supervised fine-tuning的GPT-3模型,也就是SFT模型;
        • π ϕ R L \pi_{\phi}^{RL} πϕRL:强化学习中,模型称做policy, π ϕ R L \pi_{\phi}^{RL} πϕRL就是需要学习的模型,即最终的模型。初始时: π ϕ R L \pi_{\phi}^{RL} πϕRL= π S F T \pi^{SFT} πSFT
        • r θ r_{\theta} rθ:即第二阶段训练的RM模型。
           

        整体的目标是最大化上述的目标函数,现在分别介绍下目标函数的每一项,也可以参考下面的图片:

        • ( x , y ) ∼ D π ϕ R L (x,y)\sim D_{\pi_{\phi}^{RL}} (x,y)DπϕRL x x x是第RL Dataset数据集中的问题(指令prompt), y y y x x x通过 π ϕ R L \pi_{\phi}^{RL} πϕRL模型得到的答案;
        • r θ ( x , y ) r_{\theta}(x,y) rθ(x,y):对问题 x x x+答案 y y y,输入RM模型进行打分,目标是希望这个分数越高越好;
        • π ϕ R L ( y ∣ x ) \pi_{\phi}^{RL}(y|x) πϕRL(yx):问题 x x x通过 π ϕ R L \pi_{\phi}^{RL} πϕRL得到答案 y y y的概率,具体来说 π ( y ∣ x ) \pi(y|x) π(yx)是把模型输出 y y y的每一个token对应的softmax概率相乘得到的结果,下同;
        • π S F T ( y ∣ x ) \pi^{SFT}(y|x) πSFT(yx):问题 x x x通过 π S F T \pi^{SFT} πSFT得到答案 y y y的概率;
        • l o g ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) log(\pi_{\phi}^{RL}(y|x)/\pi^{SFT}(y|x)) log(πϕRL(yx)/πSFT(yx)):KL散度,取值范围>=0,用于比较两个模型的输出分布是否相似,KL值越大,分布越不相似,分布相同时KL=0。在本阶段,论文中希望强化学习后得到的模型,在能够理解人类意图的基础上,又不要和最原始的模型输出相差太远(在每次更新参数后, π ϕ R L \pi_{\phi}^{RL} πϕRL会发生变化, x x x通过 π ϕ R L \pi_{\phi}^{RL} πϕRL生成的 y y y也会发生变化,而 r θ r_{\theta} rθ打分模型是根据 π S F T \pi^{SFT} πSFT模型的数据训练而来,如果 π ϕ R L \pi_{\phi}^{RL} πϕRL π S F T \pi^{SFT} πSFT差的太多,则会导致 r θ r_{\theta} rθ的分数输出不准确。因此需要通过KL散度来计算 π ϕ R L \pi_{\phi}^{RL} πϕRL生成的答案分布和 π S F T \pi^{SFT} πSFT生成的答案分布之间的距离,使得两个模型之间不要差的太远。)。参数 β \beta β则表示对这种偏差的容忍程度。偏离越远,就要从奖励模型的基础上得到越多的惩罚;
        • x ∼ D p r e t r a i n x\sim D_{pretrain} xDpretrain x x x是来自GPT-3预训练模型的数据;
        • l o g ( π ϕ R L ( x ) ) log(\pi_{\phi}^{RL}(x)) log(πϕRL(x)):表示将来自初始GPT-3中的数据送入当前强化模型下,同样,论文中希望在训练得到新模型之后,不能降低在原始任务上的能力,即不能太偏离原始任务,保证新模型的泛化性。 γ \gamma γ则是对这种偏离的惩罚程度。
          通俗易懂的LLM_第34张图片
           

          最后再给出对目标函数的理解,优化目标是使得上述目标函数越大越好,通过上述介绍,我们知道, o b j e c t i v e ( ϕ ) objective(\phi) objective(ϕ)可分成三个部分,RM打分部分+KL散度部分+GPT-3预训练部分:

        • 将RL Dataset数据集中的问题 x x x,通过 π ϕ R L \pi_{\phi}^{RL} πϕRL模型得到答案 y y y
        • 把一对 ( x , y ) (x,y) (x,y)送进RM模型进行打分,得到 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y),即第一部分打分部分,这个分数越高就代表模型生成的答案越好;
        • 在每次更新参数后, π ϕ R L \pi_{\phi}^{RL} πϕRL会发生变化, x x x通过 π ϕ R L \pi_{\phi}^{RL} πϕRL生成的 y y y也会发生变化,而 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)打分模型是根据 π S F T \pi^{SFT} πSFT模型的数据训练而来,如果 π ϕ R L \pi_{\phi}^{RL} πϕRL π S F T \pi^{SFT} πSFT差的太多,则会导致 r θ ( x , y ) r_{\theta}(x,y) rθ(x,y)的分数估算不准确。因此需要通过KL散度来计算 π ϕ R L \pi_{\phi}^{RL} πϕRL生成的答案分布和 π S F T \pi^{SFT} πSFT生成的答案分布之间的距离,使得两个模型之间不要差的太远。我们希望两个模型的差距越小越好,即KL散度越小越好,前面需要加一个负号,使得 o b j e c t i v e ( ϕ ) objective(\phi) objective(ϕ)越大越好。这个就是KL散度部分;
        • 如果没有第三部分,那么模型最终可能只对这一个任务能够做好,在别的任务上会发生性能下降。所以第三部分就把原始的GPT-3目标函数加了上去,使得前面两个部分在新的数据集上做拟合,同时保证原始的数据也不要丢,这个就是第三部分GPT-3预训练部分;
        • γ \gamma γ=0时,这个模型叫做PPO,当 γ \gamma γ不为0时,这个模型叫做PPO-ptx。InstructGPT更偏向于使用PPO-ptx;
        • 最终优化后的 π ϕ R L \pi_{\phi}^{RL} πϕRL模型就是InstructGPT的模型。
           

      回顾下InstructGPT的训练流程,共包含两次对模型的微调:GPT-3模型 ⇒ \Rightarrow SFT模型 ⇒ \Rightarrow RL模型,其实这里始终都是同一个模型,只是不同过程中名称不一样。除此之外,在SFT模型 ⇒ \Rightarrow RL模型阶段,还会依赖于另一个在SFT模型基础上训练的RM模型。InstructGPT训练SFT、RM、RL三个模型的原因为:

    • 需要SFT模型的原因:GPT-3模型不一定能够保证根据人的指示、有帮助的、安全的生成答案,需要人工标注数据进行微调;
    • 需要RM模型的原因:标注排序的判别式标注,成本远远低于生成答案的生成式标注;
    • 需要RL模型的原因:让模型借助强化学习的能力,更好的理解人类的意图。
       

      最后,我们展示下论文中提到的InstructGPT性能对比结果,可以发现,参数量为13B的InstructGPT模型,性能都要远远好于参数量为175B的GPT-3模型:通俗易懂的LLM_第35张图片

1.3 ChatGPT

  InstructGPT是在GPT-3的基础上通过SFT+RLHF两个阶段训练完成;ChatGPT则是在GPT-3.5的基础上通过SFT+RLHF两个阶段训练完成,显著提升了模型的对话能力。SF和RLHF两个阶段,在InstructGPT章节中我们已经做了详细介绍,这里不做过多赘述。关于GPT-3和GPT-3.5,它们其实是两个模型系列,分别称为GPT-3系列和GPT-3.5系列,下面我们参考综述拆解追溯 GPT-3.5 各项能力的起源,简单展示下OpenAI团队所构建的GPT-3系列和GPT-3.5系列是如何进化的。
通俗易懂的LLM_第36张图片

1.4 GPT-4

2022年3月,OpenAI团队又放大招,发布了更强的LLM:GPT-4。虽然无从得知GPT-4的训练细节,但是可以肯定的是,GPT-4采用了更大的模型结构,增加了更多的训练数据。我们可以通过官方博客GPT-4了解下GPT-4的强大能力。目前GPT-4的主要能力点如下:

  • GPT-4是多模态大模型,可支持图片或文本输入,输出是文本;
  • GPT-4的输入可接受8192个token。另存在变体模型,可接受输入32768个token;
  • GPT-4相较于ChatGPT,具有更广泛的应用,除了聊天机器人之外,还包括文本生成、摘要、翻译、问答系统等多个领域。而ChatGPT主要针对聊天机器人领域,为用户提供日常对话、问题解答、信息查询等服务。

2、其他大模型

  毫不夸张的说,尽管需要耗费巨大的资源,但是目前国内外各大公司都在或多或少的参与着LLM的军备竞赛,这在一定程度上促进着NLP技术的发展。归因于此,目前已经有一系列LLM陆陆续续问世了。我们无法对这些LLM进行一一介绍,这里挑选一些我们在其基础上做过微调或有使用经验的模型,对它们进行简单介绍。

大模型 团队 发布时间 模型规模 是否开源 资源链接
ChatGLM-6B 清华大学 2023 6B 已开源,不可商用 ChatGLM-6B
LLAMA-7B Facebook 2023 7B 已开源,不可商用 LLaMA
baichuan-7B 百川智能 2023 7B 已开源,可商用 baichuan-7B
文心一言 百度 2023 千亿 未开源,不可商用 暂无

三、补充知识

1、LLM为什么都用Decoder only架构?

  LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,一方面,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力;另一方面,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。具体参考LLM为什么都用Decoder only架构?

2、NLP小知识点

  • Bert;自编码模型,适用于NLU(预训练任务主要挖掘句子之间的上下文关系),有关Bert的理论知识,可参考—步步走进BERT;
  • GPT;自回归模型,适用于NLG(预训练任务主要用于生成下文),有关GPT系列的理论知识,可参考本文的GPT系列章节;
  • 对比学习:自监督学习(Self-supervised learning)可以避免对数据集进行大量的标签标注。把自己定义的伪标签当作训练的信号,然后把学习到的表示(representation)用作下游任务里。最近,对比学习被当作自监督学习中一个非常重要的一部分,被广泛运用在计算机视觉、自然语言处理等领域。它的目标是:将一个样本的不同的、增强过的新样本们在嵌入空间中尽可能地近,然后让不同的样本之间尽可能地远。SimCSE《SimCSE: Simple Contrastive Learning of Sentence Embeddings》是基于对比学习的表示学习方法,即采用对比学习的方法,获取更好的文本表征。SimCSE细节可参考论文精读-SimCSE。

3、名词解释

  • LLM:Large Language Model,大型语言模型。
  • PLM:Pretrain Language Model,预训练语言模型。
  • RL:Reinforcement Learning,强化学习。
  • SFT:Supervised Fine-Tuning,有监督微调。
  • ICL:In-Context Learning,上下文学习。
  • Fine-Tuning :微调。
  • Prompt-Tuning:提示微调。
  • Instruction-Tuning:指示/指令微调。
  • NLU:Natural Language Understanding,自然语言理解。
  • NLG:Natural Language Generation,自然语言生成。
  • CoT:Chain-of-Thought,思维链。
  • OOV:out of vocabulary,超出词表外的词。
  • shifted right:指的是Transformer Decoder结构中,decoder在之前时刻的一些输出,作为此时的输入,一个一个往右移。
  • 重参数化:常规思想:对于网络层需要的参数是 Φ \Phi Φ,训练出来的参数就是 Φ \Phi Φ。重参数化方法:训练时用的是另一套不同于 Φ \Phi Φ的参数,训练完后等价转换为 Φ \Phi Φ用于推理。
  • PPL:困惑度(Perplexity),用于评价语言模型的好坏。
  • FCNN:Fully connected neural network,全连接神经网络。
  • FNN:Feedforward neural network,前馈神经网络。
  • DNN:Deep neural network,深度神经网络。
  • MLP:Multi-layer perceptron neural networks,多层感知机。
  • RM:Reward Model,奖励模型。
  • PPO,Proximal Policy Optimization,近端策略优化,简单来说,就是对目标函数通过随机梯度下降进行优化。
  • Emergent Ability:很多能力小模型没有,只有当模型大到一定的量级之后才会出现。这样的能力称为涌现能力。

总结

  了解LLM,看这一篇就够了!!!

你可能感兴趣的:(人工智能,深度学习,自然语言处理)