大模型理论基础初步学习笔记——第一章 引言

大模型理论基础初步学习笔记——第一章 引言

    • 1.1什么是语言模型
      • 1.1.1.联合分布表示:
      • 1.1.2.自回归语言模型 (Autoregressive language models):
      • 1.1.3.温度参数:
      • 1.1.4.退火条件概率分布:
      • 1.1.*名词讲解:
    • 1.2大模型相关历史回顾
      • 1.2.1.信息理论和熵:
      • 1.2.2.N-gram模型:
      • 1.2.3.神经语言模型:
      • 1.2.4.RNNs和LSTMs:
      • 1.2.5.Transformers:
      • 1.2.6.GPT-3:
    • 1.3课程意义
      • 1.3.1.尺寸的增加:
      • 1.3.2.能力的变化:
      • 1.3.3.上下文学习:
      • 1.3.4.现实世界中的应用:
      • 1.3.5.风险:
    • 1.4课程架构
      • 1.4.1.大型语言模型的行为:
      • 1.4.2.大型语言模型的数据背后:
      • 1.4.3.构建大型语言模型:
      • 1.4.4.超越大型语言模型:
    • 参考:

本文GitHub地址https://github.com/panda-like-bamboo/Study-CS324

1.1什么是语言模型

语言模型(LM)是对令牌序列的概率分布,通过对词汇表的令牌序列分配概率来衡量序列的“好”的程度。这概率分布反映了语言模型对不同序列的语法和语义准确性的估计。
不仅限于概率评估,还可以用于生成任务。

1.1.1.联合分布表示:

当给定序列 ( x 1 : L ) (x_{1:L}) (x1:L)时,其联合分布 ( p ( x 1 : L ) ) (p(x_{1:L})) (p(x1:L)) 可以使用概率的链式法则表示为各个时刻条件概率的乘积:

[ p ( x 1 : L ) = ∏ i = 1 L p ( x i ∣ x 1 : i − 1 ) ] [ p(x_{1:L}) = \prod_{i=1}^{L} p(x_i \mid x_{1:i-1}) ] [p(x1:L)=i=1Lp(xix1:i1)]

其中, ( p ( x i ∣ x 1 : i − 1 ) ) (p(x_i \mid x_{1:i-1})) (p(xix1:i1)) 表示在给定序列 ( x 1 : i − 1 ) (x_{1:i-1}) (x1:i1)时生成令牌 ( x i ) (x_i) (xi) 的条件概率。

1.1.2.自回归语言模型 (Autoregressive language models):

考虑自回归语言模型 p p p,它在生成整个序列 ( x 1 : L ) (x_{1:L}) (x1:L) 时,每一步都依赖于之前生成的令牌。这允许使用条件概率分布 p ( x i ∣ x 1 : i − 1 ) p(x_i \mid x_{1:i-1}) p(xix1:i1) 有效计算每个时刻的概率。
其特点是在生成序列时采用自回归的策略。这意味着模型按顺序生成序列中的每个令牌,每生成一个令牌后,该令牌会作为输入用于生成下一个令牌。

使用概率的链式法则表示序列的联合分布以及如何通过自回归语言模型生成序列。

1.1.3.温度参数:

引入温度参数 T T T,该参数用于控制生成中的随机性。具体而言:
o当 T = 0 T=0 T=0 时,选择每个位置上最可能的令牌,生成是确定性的。
o当 T = 1 T=1 T=1 时,从原始语言模型的正常分布中采样。
o当 T = ∞ T=∞ T= 时,从整个词汇表上的均匀分布中采样。

1.1.4.退火条件概率分布:

通过对原始条件概率分布应用温度参数并重新标准化,得到了退火条件概率分布。这允许在生成中调整随机性,即在保留原始概率分布结构的同时引入一定程度的随机性。

1.1.*名词讲解:

令牌:在自然语言处理(Natural Language Processing,NLP)和语言模型中,令牌(Token)通常是指文本数据的基本单位,它可以是一个单词、一个子词(subword)或一个字符,具体取决于文本处理的粒度。令牌化是将文本拆分成这些基本单位的过程。

1.2大模型相关历史回顾

从信息理论的基础、熵的概念开始,到n-gram模型的引入,再到神经语言模型的出现。展示了语言模型领域从最初的概率统计方法到引入神经网络的进展,以及近年来大型神经语言模型的崛起。

1.2.1.信息理论和熵:

信息熵(Entropy)是用于度量概率分布的不确定性或混乱程度的概念。在语言模型中,熵越小,文本的结构性越强,编码的长度越短。
熵的计算公式为:

1.2.2.N-gram模型:

N-gram模型是一种语言模型,其中预测下一个词的概率仅依赖于前面的 n−1 个词,而不是整个历史。
例如,trigram(3-gram)模型的预测公式为
N-gram模型使用统计上的方法,通过大量文本数据中的频次计算概率。

1.2.3.神经语言模型:

神经语言模型引入了神经网络,使得条件分布的建模可以依赖于更长的上下文,但训练成本较高。
初始的神经语言模型在计算上较为昂贵,训练数据相对较小。

1.2.4.RNNs和LSTMs:

为了更好地建模长距离依赖关系,引入了循环神经网络(RNNs)和长短期记忆(LSTMs)架构。

1.2.5.Transformers:

Transformers是一种较新的神经网络架构,对于固定上下文长度 n(例如,n-gram模型)的建模,但在训练上更为有效。

1.2.6.GPT-3:

使用Transformer架构的大型语言模型,具有非常大的上下文长度n,在大量数据上进行训练。

1.3课程意义

模型尺寸的增加和相应的能力变化导致的。

1.3.1.尺寸的增加:

"大型"语言模型指的是参数规模庞大的模型。随着深度学习的兴起和GPU等硬件的进步,语言模型的规模在过去几年中大幅增加。从2018年到2021年,模型的大小增加了数千倍,从ELMo的9400万参数到GPT-3的1750亿参数。

1.3.2.能力的变化:

随着规模的增加,语言模型的能力也发生了变化。以GPT-3为例,它不仅仅是作为较大系统的组成部分,而且具备了作为独立系统的能力。这种能力主要表现在条件生成上,模型能够通过简单的提示执行各种任务,如问答、类比和生成文章标题。

1.3.3.上下文学习:

GPT-3的上下文学习能力,即通过提示的例子来改进任务的执行。与监督学习不同,语言模型可以通过示例学习,而无需明确的输入-输出对。

1.3.4.现实世界中的应用:

大型语言模型在研究领域和工业界都有广泛应用。它们已经改变了自然语言处理(NLP)社区,并在实际生产中使用,如Google搜索、Facebook内容审核、Microsoft的Azure OpenAI服务等。

1.3.5.风险:

尽管大型语言模型具有强大的能力,但也伴随着一些风险。这些风险包括模型的可靠性、社会偏见、有害性、虚假信息、安全性、法律考虑、成本和环境影响等。这些问题需要在使用这些模型时认真考虑和处理。

1.4课程架构

1.4.1.大型语言模型的行为:

我们从外层开始,这里我们只能通过黑匣子API访问模型(就像我们迄今为止所做的)。我们的目标是理解这些被称为大型语言模型的对象的行为,就像我们是研究生物体的生物学家一样。在这个层面上,许多关于能力和危害的问题可以得到回答。

1.4.2.大型语言模型的数据背后:

然后我们深入研究用于训练大型语言模型的数据,并解决诸如安全性、隐私和法律考虑等问题。即使我们无法完全访问模型,但可以访问训练数据,这为我们提供了有关模型的重要信息。

1.4.3.构建大型语言模型:

然后我们进入洋葱的核心,研究如何构建大型语言模型(模型架构、训练算法等)。

1.4.4.超越大型语言模型:

最后,我们以超越语言模型的视角结束引言。语言模型只是对令牌序列的分布。这些令牌可以表示自然语言、编程语言或音频或视觉词典中的元素。语言模型也属于更一般的基础模型类别,这些模型与语言模型具有许多相似的属性。

参考:

[1]datawhale讲义: https://github.com/datawhalechina/so-large-lm
[2]CS324: https://stanford-cs324.github.io/winter2022/lectures/

你可能感兴趣的:(学习,笔记)