本文为作者内部分享文档,由于不涉敏可以公开,分享本身是课程形式,有什么疑问欢迎在评论区留言。
人工智能发展到现在,在2个重要领域取得了重大突破,有望达到人类水平:
AIGC
自然语言处理在大语言模型(Large Language Model, LLM)被提出之后,再次取得重大突破:
注:
接下来我们来从0到1了解一下大语言模型背后的基础知识。
通过本节课程,希望大家能够了解:
根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。
语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。
一说统计语言模型 Statistic Language Model
概率语言模型是一个基于概率的判别式模型,它的输入是一句话即多个单词组成的顺序序列,输出是这句话的概率,即这些单词的联合概率(joint probability)。
compute the probability of a sentence or sequence of words
概率语言模型是一个针对语言进行数学建模的概率模型,它衡量了一句话,也即是多个单词的组成的顺序序列,在语料库(corpus)中实际存在的概率,如果语料库无限大,那么这个概率扩展到这句话实际在自然语言中存在的概率。
注:也可以理解为是也可以理解为它是真实正确的一句话的概率。
I like eating apples. ✅
I prefer coke to soda. ✅
Enjoy basketball playing I. ❌
以上面3个句子为例,前2句是真实句子,在日常生活中可能会被用到,第3句则不是。
假定一个自然语言句子 W W W由 l l l个单词组成,记为 w 1 , w 2 , . . . , w l w_1,w_2,...,w_l w1,w2,...,wl,那么:
P ( W ) = P ( w 1 , w 2 , . . . w l ) = p ( w 1 ) p ( w 2 ∣ w 1 ) p ( w 3 ∣ ( w 1 , w 2 ) ) . . . p ( w l ∣ w 1 , w 2 , . . . , w l − 1 ) P(W) = P(w_1,w_2,...w_l)=p(w_1)p(w_2|w_1)p(w_3|(w_1,w_2))...p(w_l|w_1,w_2,...,w_{l-1}) P(W)=P(w1,w2,...wl)=p(w1)p(w2∣w1)p(w3∣(w1,w2))...p(wl∣w1,w2,...,wl−1)
条件概率公式:
P ( B ∣ A ) = P ( A B ) / P ( A ) P(B|A) = P(AB)/P(A) P(B∣A)=P(AB)/P(A)
P ( A B ) = P ( A ) ∗ P ( B ∣ A ) P(AB) = P(A)*P(B|A) P(AB)=P(A)∗P(B∣A)
P ( A B C ) = P ( A ) ∗ P ( B ∣ A ) ∗ ∣ P ( C ∣ A B ) P(ABC) = P(A)*P(B|A)*|P(C|AB) P(ABC)=P(A)∗P(B∣A)∗∣P(C∣AB)
这么计算概率有个问题: 0 < p ( w i ) < 1 0 0<p(wi)<1
引入马尔科夫假设(Markov Assumption),即下一个词的出现仅依赖于它前面的 n − 1 n-1 n−1个词,我们得到:
p ( w i ∣ w 1 , w 2 , . . . w i − 1 ) = p ( w i ∣ w i − n , . . . w i − 1 ) p(w_i|w_1,w_2,...w_{i-1})=p(w_i|w_{i-n},...w_{i-1}) p(wi∣w1,w2,...wi−1)=p(wi∣wi−n,...wi−1)
马尔科夫性质:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。
这里引入马尔科夫假设,认为按从左到右读到的一句话有时间先后的概念,后面的单词仅依赖于它前面的n-1个单词。
n = n= n=表示下一个词的出现不依赖它前面的0个单词,即每个单词条件独立,称为unigram model
P ( w 1 , w 2 , . . . , w l ) = ∏ i = 1 l P ( w i ) P(w_1,w_2,...,w_l)=\prod_{i=1}^{l}P(w_i) P(w1,w2,...,wl)=i=1∏lP(wi)
# English
Questions make difference.
Questions make reality.
Questions begin a quest.
# 中文
我吃苹果。
我吃香蕉。
我喝可乐。
提问:
给定单词“我”,下一个单词是吃的概率是多少?下一个单字是喝的概率是多少?“我吃苹果”整句话的概率是多少?
n = 2 n=2 n=2表示下一个词的出现只依赖它前面的1个词,称为bigram model
P ( w 1 , w 2 , . . . , w l ) = ∏ i = 1 l P ( w i ∣ w i − 1 ) P(w_1,w_2,...,w_l )=\prod_{i=1}^{l}P(w_i|w_{i-1}) P(w1,w2,...,wl)=i=1∏lP(wi∣wi−1)
n = 3 n=3 n=3表示下一个词的出现只依赖它前面的2个词,称为trigram model(常用)
P ( w 1 , w 2 , . . . , w l ) = ∏ i = 1 l P ( w i ∣ w i − 2 w i − 1 ) P(w_1,w_2,...,w_l )=\prod_{i=1}^{l}P(w_i|w_{i-2}w_{i-1}) P(w1,w2,...,wl)=i=1∏lP(wi∣wi−2wi−1)
以此类推,我们的得到了给定 n n n词,输出下一个词概率的语言模型:
P ( W ) = ∏ i = 1 l p ( w i ∣ w i − n + 1 i − 1 ) P(W)=\prod_{i=1}^{l}p(w_i|w_{i-n+1}^{i-1}) P(W)=i=1∏lp(wi∣wi−n+1i−1),其中 w i j w_i^j wij表示单词序列 w i , w 2 , . . . , w j w_i,w_2,...,w_j wi,w2,...,wj
构建语言模型可以使用最大似然估计(Maximum Likelihood Estimate)生成每一个条件概率,以unigram为例即:
p ( w i ∣ w i − 1 ) = c o u n t ( w i − 1 , w i ) / c o u n t ( w i − 1 ) p(w_i|w_{i-1})=count(w_{i-1},w_i)/count(w_{i-1}) p(wi∣wi−1)=count(wi−1,wi)/count(wi−1)
计算概率语言模型公式的每一个组成元素,再将所有组成元素连乘,即得整个句子的概率。
提问(非常重要):
给定 n n n个词,为语料库里面的所有单词依次计算概率,选概率最大的那个单词,作为n+1个单词输出,想想我们在做什么?
给定n+1个单词,求第n+2个单词,…,我们在做文本生成,这就是语言模型最朴素的原理。
这种用法下,我们将n-gram模型作为生成式模型使用。
N-gram语言模型实际效果并不好,能解决的实际问题非常有限,因而自然语言处理在概率语言模型阶段没有产生太大影响力。
随着深度学习的出现和崛起,我们有了一个强有力的工具:人工神经网络。
神经网络语言模型即使用神经网络来进行语言建模,我们将给定的n个单词作为输入,预测第n+1个单词作为输出,那么可以使用监督学习的方式通过标记数据集让神经网络学习到输入和输出之间的映射关系。
NNLM, Neural Network Language Model
A Neural Probabilistic Language Model (2000, 2003)
使用一个简单的神经网络来替代概率模型,模型的训练目标定义为给定 n n n个单词作为上下文,预测下一个单词是上下文中的第 i i i个单词,输入层 C C C表示一个共享的矩阵参数,随机初始化, C i C_i Ci表示语料库中第 i i i个单词的特征向量。
提问(非常重要):
输入层的矩阵 C C C是什么?
答案:词向量
Efficient Estimation of Word Representations in Vector Space(2013)
训练神经网络语言模型过程中,将神经网络的权重值作为词向量来使用
项目 | Value |
---|---|
CBOW (Continuous Bag-of-Words Model) | Skip-gram |
CBOW 的基本思想为以上下文作为输入,预测中间词。具体而言,设定一个上下文范围 N,输入为中间词的前 N 个单词和后 N 个单词,输出为中间词的概率分布,训练目标是真实中间词的概率最大(即argmax),也即1次分类过程。 | Skip-gram基本思想为以中间单词作为输入,预测上下文。具体而言,设定一个上下文范围 N,输入为中间词,输出为前 N 个单词和后 N 个单词的概率分布,训练目标是2N次概率输出,每次使得真实上下文词的概率最大(即2N次argmax),也即2N次分类过程。训练过程的参数规模非常巨大,有Hierarchical Softmax、Negative Sampling等方式降低计算复杂度,这里不再展开。 |
上个小节介绍的NNLM和Word2Vec是一个DNN架构的神经网络语言模型,随着神经网络架构的演进,神经网络语言模型的架构也在不断演进:
PaLM、LLaMA、GPT 3.5、GPT 4
大规模语言模型(Large Language Model, LLM),即参数规模非常大的神经网络语言模型,由神经网络语言模型随网络架构经长时间发展迭代而来,特点是参数规模达到一定量级(千万~亿)之后,出现了涌现能力,使得模型在各项NLP任务中取得重大突破,接近人类水平。
涌现能力一句话介绍就是模型参数达到一定量级(亿),能力突飞猛进,更多详情,可以参见:
LLM的涌现能力和Scaling
Emergent Abilities of Large Language Models
Scaling Laws for Neural Language Models
nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
预训练模型
NLP范式:Pre-training + fintuning 即预训练 + 下游任务精调
Pre-training + instruction fintuning + RLHF 即 预训练+指令精调+RLHF
下一节的GPT训练流程部分有详细描述
PaLM: https://arxiv.org/pdf/2204.02311
LLaMA: https://arxiv.org/pdf/2302.13971
清华提出了ChatGLM系列,并开源了其中的ChatGLM-6B和ChatGLM2-6B,在C-Eval上测试是目前最好的中文大模型:
https://cevalbenchmark.com/static/leaderboard.html
如果我们单看GPT的话
GPT-1: Improving Language Understanding by Generative Pre-Training
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-3: Language Models are Few-Shot Learners
图源:State of GPT - Microsoft Build
笔者翻译上图如下:
阶段 | 子阶段 | 目标 | 备注 |
---|---|---|---|
Pre-Training | -------- | 语言建模 | |
Instruction Finetuning | --------- | 让模型能够理解自然语言指令 | |
RLHF | Reward Modeling | 奖励建模,用来代替人工打分,降低标注成本 | 奖励模型是用来建模强化学习的一个组件 |
RLHF | Reinforcement Learning | 强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本 |
强化学习建模过程如下:
注:
3. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
图源:cs224n-2023-lecture11-prompting-rlhf.pdf