DeepSeek核心技术 MoE(混合专家模型)

下图说明了DeepSeek-V3的基本架构。在DeepSeek-V2的基础上,采用MLA(多头潜在注意力)DeepSeekMoE进行高效的推理和经济的训练。

DeepSeek核心技术 MoE(混合专家模型)_第1张图片

你可能感兴趣的:(ai)