说明:本文为CCF主办的SPP第54期直播的现场笔记,CCF会员可登录CCF数字图书馆查看回放。本期直播主讲人为中国人民大学高瓴人工智能学院教授赵鑫,主要内容来自其课题组发表的预印版论文《A Survey of Large Language Models》。
特点:丰富的背景知识、长文档理解与生成能力、长程对话的语义一致性、复杂任务推理能力、与人类价值观对齐的能力、自然语言指令遵循能力
可视为人工智能历史上最为强悍的“信息助手”。
Github Copilot推广得不错。
技术发展带来产业形态的巨大变革,人工智能行业出现“代际差”现象。(OpenAI大幅领先)
ChatGPT的核心是大规模预训练语言模型。
Transformer架构使得并行训练深层次架构的神经网络成为可能,奠定了大模型的根基。目前很难出现颠覆性的架构。
(1)尺寸大非常关键
一元线性回归y=wx+b:只有一个自变量(特征x的维度为1,因此w的维度也是1)
多元线性回归y=WX+B:有多个自变量(特征X的维度大于1,因此W的维度也大于1)
大模型能够“吃掉”更多的数据。数据数量、数据质量决定了模型的能力,同样意味着大算力需求。
(2)存在工程技术壁垒
大模型训练、使用不仅仅是“炼丹”,系统级工程技术非常重要。
(0)现象:当大语言模型(LLM)的PLM参数量和预训练数据量达到一定规模时(如10B),其会涌现出某些特定的、小模型不具备的能力。如上下文学习、逐步推理等。该能力目前无法通过计算机科学解释。
(1)定义:小模型中不存在,只出现在大模型中的能力。
(2)特征:当模型规模到达某一程度,模型表现显著增长。
(3)可能的原理
①很多任务需要更强的模型能力:一般来说,参数越多意味着更强的拟合能力(多跳推理)
②度量指标存在问题:度量指标不够平滑,导致涌现实际上是能力差距的“假”反应
③知识表示的密集程度:解决问题需要的知识密集程度要达到一定程度才可以
(4)数据来源
①大模型数据分布:网页是非常重要的数据源,还有代码、图书、新闻、论文等。LLaMA的数据配比是一个很好的参考。
②预训练数据清洗
(5)数据数量
预训练数据数量与模型参数间的关系:Chinchilla发现在给定计算资源的情况下,模型参数量和预训练语料数应该等比例缩放。
GPT系列模型是成体系推进的。
关键因素:研究视野、技术人员、基础设施、工程实践、数据积累、算法设计
因此,训练达到ChatGPT水平的大模型还需要一段时间努力。
(1)GPT-1:预训练Decoder-only Transformer架构(2018.06)
(2)GPT-2:用预训练语言模型执行无监督任务(2019)
多任务学习
①公式表示:Pr(output|input,task)
②痛点:数据形式、任务目标难以统一
③重要思想:全部以自然语言表达(All in natural language),这样任务解决转化为单词预测。如机器翻译:Pr(welcome to BJ|北京欢迎你,汉英翻译)
(3)GPT-3:大语言模型做小样本学习器(2020)
(4)Codex:大语言模型做代码数据预训练(2021)
(5)WebGPT:通过Web浏览器使用大语言模型
(6)InstructGPT:大语言模型与人类对齐(2022.1)
(7)ChatGPT:将大语言模型适配于对话任务(2022.11)
(8)GPT-4:针对GPT-3.5模型的强化(2023.3)
(1)指令微调:增强语言模型执行任务指令的能力,提升任务泛化能力
(2)对齐微调:使语言模型与人类价值观靠近,规避大模型的使用风险
目的:对齐真实场景下的人类需求
指令输入:API收集+人工标注
指令输出:根据指令标注相关回复
人工标注成本较高,可利用LLM自动化构建。可以借助其他任务的例子,做ICL。
底层理论、幻象、评测方法、知识更新、推理、结构化生成、领域适配、轻量化部署
国内对标GPT的产品很多。