datawhale 第二章-大模型的能力

一、 概述

GPT-3 作为一个语言模型,被训练来预测下一个词。并未明确针对特定任务进行训练。

  • 在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;
  • 在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后
二、语言模型的适应性:从语言模型到任务模型的转化

将要给语言模型往特定任务模型转换的过程中,需要以下两个输入:

  • 任务描述:即解释一下你这个任务是要干嘛的
  • 训练实例:也就是通常说的带标签的数据对(比如:情感分析类的 输入:我真的很生气  输出:生气)类似

主要有两种方式来进行这种适应训练:

  • 有监督学习(SFT):通用语言模型作为底座,利用带标签的数据训练一个新模型。
  • 提示(上下文)学习(in-context learning):根据对任务的描述建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果
    零样本学习(Zero-shot):即提供的上下文信息中没有样例,模型基于对任务的理解输出结果
    单样本学习(One-shot):上下文信息中提供1个样例,
    少样本学习(Few-shot):上下文信息中提供多个样例,一般5个把。多了上下文会很大。
2.1 Language Modeling

语言模型其实就是一个概率模型,一句话可以表示为为每个token的条件概率的乘积

评价一个语言模型好坏指标:困惑度(Perplexity)

其中, X=x1,x2,...,xn 是测试集中的词序列, N 是测试集中的总词数。
如果一个语言模型好,那么它生成的这段句子的困惑的应该很小。

开源数据集评测结果
数据集名称 数据集简介 任务类型 效果评估
Penn Tree Bank
华尔街日报文章 文本生成 datawhale 第二章-大模型的能力_第1张图片
LAMBADA 预测句子的最后一个词 文本生成 datawhale 第二章-大模型的能力_第2张图片
HellaSwag 从一系列选择中选出最适合完成句子的选项.
最自然的做法是用语言模型为每个候选答案打分
文本生成 datawhale 第二章-大模型的能力_第3张图片SOTA结果是在该数据集的训练集中微调得到的结果,因此GPT-3在完全不在该数据集训练的情况下获得了接近的结果是很令人惊喜的。
TriviaQA 给定一问题后生成答案,原始数据集是由业余爱好者收集的, 问答(QA)

datawhale 第二章-大模型的能力_第4张图片

增加模型大小和增加in-context training实例都有助于提高性能

WebQuestions 和TriviaQA类似是问答任务 数据集从Google搜索查询中收集, 问答(QA) datawhale 第二章-大模型的能力_第5张图片
NaturalQuestions 回答问题 从Google搜索查询中收集的数据集(区别在于答案的长度较长) 问答(QA) datawhale 第二章-大模型的能力_第6张图片
WMT’14/16 翻译任务是将源语言(例如,德语)中的句子翻译成目标语言(例如,英语)中的句子 翻译 datawhale 第二章-大模型的能力_第7张图片即使没有监督训练数据,GPT-3也能达到全监督系统的最新技术水平
Arithmetic 做算术题(2-5位数的加法,减法,乘法) 推理
newser.com 给定标题和副标题,生成新闻文章 文本生成
三、总结:
  • GPT-3可以在某一些任务上面表现得极好或者非常普通。
  • 增加模型的大小和示例的数量都有助于提高性能。

你可能感兴趣的:(大模型,人工智能,大模型)