DeepSeek-V3:最强开源MoE模型的技术解析与使用指南

DeepSeek-V3:最强开源MoE模型的技术解析与使用指南_第1张图片

目录

引言

模型概览

架构创新:负载均衡策略与训练目标

预训练:追求极致的训练效率

后训练:从DeepSeek-R1进行知识蒸馏

模型下载

评估结果

基础模型

标准基准测试

上下文窗口

聊天模型

标准基准测试(大于67B的模型)

开放式生成评估

如何使用

在线聊天与API平台

本地运行指南

模型权重转换

推理示例

使用DeepSeek-Infer Demo

使用SGLang

使用LMDeploy

许可证

引用

联系我们


1. 引言

我们隆重推出 DeepSeek-V3,这是一款强大的混合专家模型(Mixture-of-Experts, MoE),总参数量达到6710亿,每个token激活的参数量为370亿。DeepSeek-V3 在 DeepSeek-V2 的基础上,进一步优化了推理效率和训练成本,采用了 多头潜在注意力机制(Multi-head Latent Attention, MLA) 和 DeepSeekMoE 架构。此外,DeepSeek-V3 还引入了无辅助损失的负载均衡策略,并设定了多token预测的训练目标,以进一步提升性能。

DeepSeek-V3 在14.8万亿的高质量多样化token上进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3 不仅超越了其他开源模型,还达到了与领先闭源模型相媲美的性能。尽管性能卓越,DeepSeek-V3 的完整训练仅需278.8万H800 GPU小时,且训练过程极其稳定,未出现任何不可恢复的损失波动或回滚。

DeepSeek-V3:最强开源MoE模型的技术解析与使用指南_第2张图片

2. 模型概览

架构创新:负载均衡策略与训练目标

  • 在 DeepSeek-V2 的高效架构基础上,我们首次引入了 无辅助损失的负载均衡策略,最大限度地减少了因负载均衡带来的性能下降。

  • 我们研究了 多token预测(Multi-Token Prediction, MTP) 目标,并证明其对模型性能的提升有显著帮助。该目标还可用于推理加速的推测解码。

预训练:追求极致的训练效率

  • 我们设计了 FP8混合精度训练框架,并首次验证了FP8训练在超大规模模型上的可行性和有效性。

  • 通过算法、框架和硬件的协同设计,我们克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算与通信的完全重叠,显著提升了训练效率,降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。

  • 仅以266.4万H800 GPU小时的低成本,我们完成了DeepSeek-V3在14.8万亿token上的预训练,生成了目前最强的开源基础模型。预训练后的训练阶段仅需10万GPU小时。

后训练:从DeepSeek-R1进行知识蒸馏

  • 我们引入了一种创新方法,从长链思维(Chain-of-Thought, CoT)模型(特别是DeepSeek R1系列模型)中蒸馏推理能力到标准LLM(如DeepSeek-V3)中。我们的管道巧妙地将R1的验证和反思模式融入DeepSeek-V3,显著提升了其推理性能,同时控制了输出风格和长度。

3. 模型下载

模型 总参数量 激活参数量 上下文长度 下载链接
DeepSeek-V3-Base 6710亿 370亿 128K Hugging Face
DeepSeek-V3 6710亿 370亿 128K Hugging Face

注意:Hugging Face上的DeepSeek-V3模型总大小为6850亿,其中包括6710亿的主模型权重和140亿的多token预测(MTP)模块权重。

4. 评估结果

基础模型

标准基准测试

以下是DeepSeek-V3与其他模型的基准测试对比:

基准测试(指标) # Shots DeepSeek-V2 Qwen2.5 72B LLaMA3.1 405B DeepSeek-V3
架构 - MoE Dense Dense MoE
激活参数量 - 210亿 720亿 4050亿 370亿
总参数量 - 2360亿 720亿 4050亿 6710亿
英语 Pile-test (BPB) - 0.606 0.638 0.542 0.548
BBH (EM) 3-shot 78.8 79.8 82.9 87.5
MMLU (Acc.) 5-shot 78.4 85.0 84.4 87.1
MMLU-Redux (Acc.) 5-shot 75.6 83.2 81.3 86.2
MMLU-Pro (Acc.) 5-shot 51.4 58.3 52.8 64.4
DROP (F1) 3-shot 80.4 80.6 86.0 89.0
ARC-Easy (Acc.) 25-shot 97.6 98.4 98.4 98.9
ARC-Challenge (Acc.) 25-shot 92.2 94.5 95.3 95.3
HellaSwag (Acc.) 10-shot 87.1 84.8 89.2 88.9
PIQA (Acc.) 0-shot 83.9 82.6 85.9 84.7
WinoGrande (Acc.) 5-shot 86.3 82.3 85.2 84.9
RACE-Middle (Acc.) 5-shot

你可能感兴趣的:(deepseek,开源,deepseek)