name_en: PaLM: Scaling Language Modeling with Pathways
name_ch: PaLM:使用Pathways的扩展语言建模
paper_addr: http://arxiv.org/abs/2204.02311
doi: 10.48550/arXiv.2204.02311
date_read: 2023-03-17
date_publish: 2022-10-05
tags: [‘深度学习’,‘自然语言处理’]
author: Aakanksha Chowdhery
citation: 524
论文主要介绍了Google的超大模型PaLM,它在多数任务上都超过了SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而PathWay技术是其大规模训练的基础。
和其它模型相比,PaLM更关注逻辑推理相关的任务,这也为后面的PaLM-E机器人行为规划奠定了基础。
文中提出了 Pathways Language Model (PaLM),使用6144 个TPU v4芯片训练,模型540 B参数,780 B高质量token,密集激活,Transformer 语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways是Jeff Dean与2021年提出的一种谷歌通用AI架构,可高效利用硬件)。
一般大模型的优势主要来自以下:
(1) 缩放模型的深度和宽度;
(2) 增加训练模型的token数量;
(3) 对来自更多不同来源的更干净的数据集进行训练;
(4) 通过稀疏激活模块在不增加计算成本的情况下增加模型容量。
本文的主要工作包括:
PaLM与GPT-3模型一样,只使用Decoder结构。优化技术如下:
780 B 高质量的 token 。数据基于训练 LaMDA和GLaM的数据,除了自然语言,还包含多种编程语言的源代码。根据文件之间的 Levenshtein 距离删除重复项。
使用 PathWay 方法训练模型,在两个TPU v4 Pods上训练,在每个Pod中包含由3072个TPU v4芯片链接的768个主机。允许在不使用任何pipeline并行的情况下高效的在6144个芯片上训练。
pipeline方式有更多的相互等待时间,而pathway复杂度更高。每个TPU v4 Pod都包含模型参数的完全拷贝。
详见:Pathway原理。
相比之前模型,PaLM在由于对模型、编译器和并行策略进行了多项优化,实现了非常高的 MFU,对应的硬件FLOPs利用率也更高。
此节介绍了权重初始值,优化器,超参数,损失函数,序列长度,Batch大小,Dropout比例等细节。
论文在:英文NLP任务,BIG_bench,推理,代码任务,翻译,多语言生成方面对PaLM进行了评测。
PaLM在1-shot设置下,在29个任务中的24取得了SOTA;在few-shot设置下,在29个任务中的28个取得了SOTA。分为自然语言理解和自然语言推理,平均分如下:
MMLU评测结果如下:
BIG-bench包括 150 多个任务,涵盖各种语言建模任务,包括逻辑推理、翻译、问答、数学等。除了模型之间的对比,还对比了人类的平均水平和最佳水平。
PaLM 540B 5-shot 在 58 项常见任务中的 44 项上优于之前的 SOTA,
需要注意的是其中有一些推理相关的项目,效果如图-5所示:
可以看到,有几项接近了人类的最佳水平,也可以看到,当模型从62B变为540B时,模型效果有了跨越式的提升。
另外,PaLM540B在多数评测中高于人类的平均水平,有35%低于人类平均。
推理任务分为两类:
还进行了其它的推理评测,结果是推理链提示和大模型都明显提升了模型的推理能力。
代码任务一般包括:根据文本描述写代码,把一种语言的代码翻译成另一种,以及代码修复。训练和精调时都包含一些代码数据,使得模型具有编码能力。PaLM 540B 有一定的代码能力,PaLM-Coder则是在代码上微调的模型。微调能够显著的改善PaLM在代码任务上的效果。
评测主要关注三类问题:
实验分别测试了1-shot和Finetuning的结果,第一组评测是将数据转换成文本,第二组评测以总结文本为主,可以看到,PaLM在1-shot中表现优于其它模型,PaLM模型越大,提升效果越明显;finetuning使各模型效果都有提升。
可以看到PaLM精调后效果有明显提升,效果不如T5,可能是由于mT5 和 ByT5 接受的非英语文本训练分别是 PaLM 的 6 倍和 1.5 倍。
随着给模型提供更多示例,性能会提高。
7,8略
使用思维链提示调优模型,提高多步推理任务中的预测准确性,可以用于模型解释。
解释包含以下场景:
此部分列举了解释的两种场景:解释笑话,逻辑推理。对于每项任务,都编写了 2-shot 示例来演示所需的输出样式,作为例子提示模型。具体见图-19。
输入:我打算在 4 月 6 日飞去探望我的家人。我妈妈说:“太好了,那天晚上你继父的诗歌朗诵会!”所以现在我要在 4 月 7 日飞来。
模型输出:这个笑话是说话者的母亲试图让他们去他们继父的诗歌朗诵会,但说话者不想去,所以他们将航班改到诗歌朗读后的第二天。
输入:迈克尔在法国那个非常有名的博物馆里看它最著名的画作。然而,创作这幅画的艺术家恰恰让迈克尔想起了他小时候最喜欢的卡通人物。卡通人物平时手里拿的东西是哪个国家的?
模型输出:卢浮宫最著名的画作是蒙娜丽莎。制作蒙娜丽莎的艺术家是达芬奇。 Leonardo da Vinci 也是卡通忍者神龟中主角的名字。列奥纳多·达·芬奇来自意大利。列奥纳多·达·芬奇平时手里拿着的东西是武士刀。武士刀的原产国是日本。答案是“日本”。
https://zhuanlan.zhihu.com/p/602060627