【CS324】Large Language Models(持续更新)

note

文章目录

  • note
  • 一、引言
  • 二、大模型的能力
    • 1. 从语言模型到任务模型
    • 2. 任务评估
  • 三、大模型的有害性(上)
  • 四、大模型的有害性(下)
  • 五、大模型的数据
  • Reference

一、引言

  • 语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。
    • 熵用于度量概率分布: H ( p ) = ∑ x p ( x ) log ⁡ 1 p ( x ) . H(p) = \sum_x p(x) \log \frac{1}{p(x)}. H(p)=xp(x)logp(x)1.
    • 熵实际上是一个衡量将样本 x ∼ p x∼p xp 编码(即压缩)成比特串所需要的预期比特数的度量。举例来说,“the mouse ate the cheese” 可能会被编码成 “0001110101”。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观地理解, log ⁡ 1 p ( x ) \log \frac{1}{p(x)} logp(x)1 可以视为用于表示出现概率为 p ( x ) p(x) p(x)的元素 x x x的编码的长度。
    • 交叉熵H(p,q)上界是熵H§: H ( p , q ) = ∑ x p ( x ) log ⁡ 1 q ( x ) . H(p,q) = \sum_x p(x) \log \frac{1}{q(x)}. H(p,q)=xp(x)logq(x)1.,所以可以通过构建一个只有来自真实数据分布 p p p的样本的(语言)模型 q q q来估计 H ( p , q ) H(p,q) H(p,q)
  • N-gram模型在计算上极其高效,但在统计上效率低下。
  • 神经语言模型在统计上是高效的,但在计算上是低效的。
  • 大模型的参数发展:随着深度学习在2010年代的兴起和主要硬件的进步(例如GPU),神经语言模型的规模已经大幅增加。以下表格显示,在过去4年中,模型的大小增加了5000倍。
Model Organization Date Size (# params)
ELMo AI2 Feb 2018 94,000,000
GPT OpenAI Jun 2018 110,000,000
BERT Google Oct 2018 340,000,000
XLM Facebook Jan 2019 655,000,000
GPT-2 OpenAI Mar 2019 1,500,000,000
RoBERTa Facebook Jul 2019 355,000,000
Megatron-LM NVIDIA Sep 2019 8,300,000,000
T5 Google Oct 2019 11,000,000,000
Turing-NLG Microsoft Feb 2020 17,000,000,000
GPT-3 OpenAI May 2020 175,000,000,000
Megatron-Turing NLG Microsoft, NVIDIA Oct 2021 530,000,000,000
Gopher DeepMind Dec 2021 280,000,000,000

二、大模型的能力

1. 从语言模型到任务模型

  • 创建一个新模型并利用语言模型作为特征(探针法)
  • 模型微调

2. 任务评估

  • Language modeling
    • 困惑度:每个标记(token)的平均"分支因子(branching factor)“。这里的"分支因子”,可以理解为在每个特定的词或标记出现后,语言模型预测下一个可能出现的词或标记的平均数量。因此,它实际上是度量模型预测的多样性和不确定性的一种方式。
    • 两类错误:
      • 召回错误
      • 精确度错误
  • Question answering:问答
  • Translation:翻译
  • Arithmetic:抽象推理,如做数学题
  • News article generation:给定标题,生成文章
  • Novel tasks:给定自定义词语,生成使用该词的句子

相关benchmark:

  • SWORDS:词汇替换,目标是在句子的上下文中预测同义词。
  • Massive Multitask Language Understanding:包括数学,美国历史,计算机科学等57个多选问题。
  • TruthfulQA:人类由于误解而错误回答的问答数据集。

三、大模型的有害性(上)

  • 性能差异:自动语音识别(ASR)系统在黑人说话者的识别性能要差于白人说话者(Koenecke等人,2020)
  • 社会偏见:性别歧视等

四、大模型的有害性(下)

五、大模型的数据

Reference

[1] 斯坦福大学CS324课程:https://stanford-cs324.github.io/winter2022/lectures/introduction/#a-brief-history
[2] CS224N lecture notes on language models
[3] Language Models are Few-Shot Learners. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, J. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, T. Henighan, R. Child, A. Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. NeurIPS 2020.

你可能感兴趣的:(LLM大模型,#,自然语言处理,深度学习,自然语言处理,大模型,深度学习)