(4-4)DeepSeek底层架构技术:混合专家架构技术

2.4  混合专家架构技术

DeepSeek引入了混合专家架构(Mixture-of-Experts,MoE),将模型划分为多个专家子模型,每个子模型专注于处理不同的任务或领域。MoE架构通过动态任务分配和稀疏激活机制,减少了不必要的计算量,提升了模型的效率和灵活性。例如,DeepSeek-V3拥有6710亿参数,但每个输入token仅激活370亿参数。

2.4.1  混合专家架构介绍

混合专家架构(Mixture-of-Experts,MoE)是一种用于提升模型性能和效率的架构,广泛应用于深度学习领域,尤其是在自然语言处理(NLP)和计算机视觉(CV)中。MoE的核心思想是将多个专家模型(Experts)组合在一起,通过一个门控

你可能感兴趣的:(训练,RAG,多模态),架构,transformer,深度学习,大模型,人工智能,DeepSeek)