目录
引言
模型概览
架构创新:负载均衡策略与训练目标
预训练:追求极致的训练效率
后训练:从DeepSeek-R1进行知识蒸馏
模型下载
评估结果
基础模型
标准基准测试
上下文窗口
聊天模型
标准基准测试(大于67B的模型)
开放式生成评估
如何使用
在线聊天与API平台
本地运行指南
模型权重转换
推理示例
使用DeepSeek-Infer Demo
使用SGLang
使用LMDeploy
许可证
引用
联系我们
我们隆重推出 DeepSeek-V3,这是一款强大的混合专家模型(Mixture-of-Experts, MoE),总参数量达到6710亿,每个token激活的参数量为370亿。DeepSeek-V3 在 DeepSeek-V2 的基础上,进一步优化了推理效率和训练成本,采用了 多头潜在注意力机制(Multi-head Latent Attention, MLA) 和 DeepSeekMoE 架构。此外,DeepSeek-V3 还引入了无辅助损失的负载均衡策略,并设定了多token预测的训练目标,以进一步提升性能。
DeepSeek-V3 在14.8万亿的高质量多样化token上进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3 不仅超越了其他开源模型,还达到了与领先闭源模型相媲美的性能。尽管性能卓越,DeepSeek-V3 的完整训练仅需278.8万H800 GPU小时,且训练过程极其稳定,未出现任何不可恢复的损失波动或回滚。
在 DeepSeek-V2 的高效架构基础上,我们首次引入了 无辅助损失的负载均衡策略,最大限度地减少了因负载均衡带来的性能下降。
我们研究了 多token预测(Multi-Token Prediction, MTP) 目标,并证明其对模型性能的提升有显著帮助。该目标还可用于推理加速的推测解码。
我们设计了 FP8混合精度训练框架,并首次验证了FP8训练在超大规模模型上的可行性和有效性。
通过算法、框架和硬件的协同设计,我们克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算与通信的完全重叠,显著提升了训练效率,降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。
仅以266.4万H800 GPU小时的低成本,我们完成了DeepSeek-V3在14.8万亿token上的预训练,生成了目前最强的开源基础模型。预训练后的训练阶段仅需10万GPU小时。
我们引入了一种创新方法,从长链思维(Chain-of-Thought, CoT)模型(特别是DeepSeek R1系列模型)中蒸馏推理能力到标准LLM(如DeepSeek-V3)中。我们的管道巧妙地将R1的验证和反思模式融入DeepSeek-V3,显著提升了其推理性能,同时控制了输出风格和长度。
模型 | 总参数量 | 激活参数量 | 上下文长度 | 下载链接 |
---|---|---|---|---|
DeepSeek-V3-Base | 6710亿 | 370亿 | 128K | Hugging Face |
DeepSeek-V3 | 6710亿 | 370亿 | 128K | Hugging Face |
注意:Hugging Face上的DeepSeek-V3模型总大小为6850亿,其中包括6710亿的主模型权重和140亿的多token预测(MTP)模块权重。
以下是DeepSeek-V3与其他模型的基准测试对比:
基准测试(指标) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |
---|---|---|---|---|---|---|
架构 | - | MoE | Dense | Dense | MoE | |
激活参数量 | - | 210亿 | 720亿 | 4050亿 | 370亿 | |
总参数量 | - | 2360亿 | 720亿 | 4050亿 | 6710亿 | |
英语 | Pile-test (BPB) | - | 0.606 | 0.638 | 0.542 | 0.548 |
BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | 87.5 | |
MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | 87.1 | |
MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | 86.2 | |
MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | 64.4 | |
DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | 89.0 | |
ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | 98.9 | |
ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | 95.3 | 95.3 | |
HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | 89.2 | 88.9 | |
PIQA (Acc.) | 0-shot | 83.9 | 82.6 | 85.9 | 84.7 | |
WinoGrande (Acc.) | 5-shot | 86.3 | 82.3 | 85.2 | 84.9 | |
RACE-Middle (Acc.) | 5-shot |