复旦大学邱锡鹏教授:深度剖析ChatGPT类大语言模型的关键技术

ChatGPT 自问世以来,便展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT 月活跃用户就达一亿,是史上用户增速最快的消费应用。对于学术界、工业界、或是其他相关应用来说都是一个非常大的机会和挑战。

事实上,ChatGPT 的成功并不是偶然结果,其背后多有哪些创新之处,本文整理于由中国人工智能学会主办的「ChatGPT 及大模型专题研讨会」上复旦大学邱锡鹏教授带来的《对话式大型语言模型》的分享,他从大规模预训练语言模型带来的变化、ChatGPT 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识。

复旦大学邱锡鹏教授:深度剖析ChatGPT类大语言模型的关键技术_第1张图片

邱锡鹏,复旦大学计算机学院教授,MOSS 系统负责人

为什么是大语言模型?

随着算力的不断提升,语言模型已经从最初基于概率预测的模型发展到基于 Transformer 架构的预训练语言模型,并逐步走向大模型的时代。为什么要突出大语言模型或是在前面加个“Large”?更重要的是它的涌现能力。

当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”(如理解人类指令等)。

复旦大学邱锡鹏教授:深度剖析ChatGPT类大语言模型的关键技术_第2张图片

上图是多个 NLP 任务随着模型规模扩大的性能变化曲线,可以看到,前期性能和模型规模大致呈线性关系,当模型规模大到一定程度时,任务性能有了明显的突变。

因此,通常以百亿/千亿级参数量作为 LLM 研究的分水岭。除此之外,大规模语言模型基座的可扩展性很强,其能够很容易和外部世界打通,源源不断地接受外部世界的知识更新,进而实现反复自我迭代。因此,大规模语言模型也被看作是实现通用人工智能的希望。

ChatGPT的三个关键技术

======================

目前,很多公司和组织都在跟风 ChatGPT,推出类似的聊天机器人产品。这主要是因为 ChatGPT 的成功,给人们带来了信心,证明了聊天机器人技术的可行性和潜力,让人们看到了聊天机器人在未来的巨大市场和应用前景。

ChatGPT 的三个关键技术为:情景学习、思维链、自然指令学习,接下来将详细介绍一下这三个技术。

  • 情景学习(In-Context Learning)<

你可能感兴趣的:(chatgpt,语言模型,人工智能,大模型,大语言模型,自然语言处理,AI大模型)