用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节

大家好,今天的文章分享三个方面的内容:

  • 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。

  • 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

  • 3、大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长,喜欢可以收藏、点赞、关注。

目录

      • 用通俗易懂的方式讲解系列
      • 技术交流
      • 0. 大纲
      • 1. 大语言模型的细节
        • 1.0 transformer 与 LLM
        • 1.1 模型结构
        • 1.2 训练目标
        • 1.3 tokenizer
        • 1.4 位置编码
        • 1.5 层归一化
        • 1.6 激活函数
        • 1.7 Multi-query Attention 与 Grouped-query Attention
        • 1.8 并行 transformer block
        • 1.9 总结-训练稳定性
      • 2. LLM 的分布式预训练
        • 2.0 点对点通信与集体通信
        • 2.1 数据并行
        • 2.2 张量并行
        • 2.3 流水线并行
        • 2.4 3D 并行
        • 2.5 混合精度训练
        • 2.6 激活重计算
        • 2.7 ZeRO,零冗余优化器
        • 2.8 CPU-offload,ZeRO-offload
        • 2.9 Flash Attention
        • 2.10 vLLM: Paged Attention
      • 3. LLM 的参数高效微调
        • 3.0 为什么进行参数高效微调?
        • 3.1 prompt tuning
        • 3.2 prefix tuning
        • 3.3 adapter
        • 3.4 LLaMA adapter
        • 3.5 LoRA
        • 3.6 实验比较

用通俗易懂的方式讲解系列

  • 用通俗易懂的方式讲解:不用再找了,这是大模型最全的面试题库
  • 用通俗易懂的方式讲解:这是我见过的最适合大模型小白的 PyTorch 中文课程
  • 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain
  • 用通俗易懂的方式讲解:基于 LangChain + ChatGLM搭建知识本地库
  • 用通俗易懂的方式讲解:基于大模型的知识问答系统全面总结
  • 用通俗易懂的方式讲解:ChatGLM3 基础模型多轮对话微调)
  • 用通俗易懂的方式讲解:最火的大模型训练框架 DeepSpeed 详解来了
  • 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理
  • 用通俗易懂的方式讲解:Stable Diffusion 微调及推理优化实践指南
  • 用通俗易懂的方式讲解:大模型训练过程概述
  • 用通俗易懂的方式讲解:专补大模型短板的RAG
  • 用通俗易懂的方式讲解:大模型LLM Agent在 Text2SQL 应用上的实践
  • 用通俗易懂的方式讲解:大模型 LLM RAG在 Text2SQL 上的应用实践

技术交流

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群,大模型学习资料、数据代码、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2060,备注:技术交流

0. 大纲

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第1张图片

1. 大语言模型的细节

1.0 transformer 与 LLM

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第2张图片

1.1 模型结构

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第3张图片

1.2 训练目标

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第4张图片

1.3 tokenizer

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第5张图片

1.4 位置编码

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第6张图片

1.5 层归一化

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第7张图片

1.6 激活函数

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第8张图片

1.7 Multi-query Attention 与 Grouped-query Attention

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第9张图片

1.8 并行 transformer block

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第10张图片

1.9 总结-训练稳定性

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第11张图片

2. LLM 的分布式预训练

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第12张图片

2.0 点对点通信与集体通信

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第13张图片

2.1 数据并行

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第14张图片

2.2 张量并行

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第15张图片

2.3 流水线并行

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第16张图片

2.4 3D 并行

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第17张图片

2.5 混合精度训练

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第18张图片

2.6 激活重计算

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第19张图片

2.7 ZeRO,零冗余优化器

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第20张图片

2.8 CPU-offload,ZeRO-offload

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第21张图片

2.9 Flash Attention

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第22张图片

2.10 vLLM: Paged Attention

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第23张图片

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第24张图片

3.1 prompt tuning

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第25张图片

3.2 prefix tuning

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第26张图片

3.3 adapter

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第27张图片

3.4 LLaMA adapter

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第28张图片

3.5 LoRA

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第29张图片

3.6 实验比较

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第30张图片

4. 参考文献

用通俗易懂的方式讲解:一文讲透主流大语言模型的技术原理细节_第31张图片

你可能感兴趣的:(大模型,自然语言,CV,语言模型,人工智能,自然语言处理,Langchain,大模型,大语言模型)