Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (MoE) 语言模型,旨在以更少的参数和计算量实现更高的准确率
主要创新点:注意力路由器(AttentionRouter):提出了一种新的路由器网络,考虑了专家之间的相关性,从而提高了模型的准确率。高效计算:使用MoE架构,40B总参数中仅有3.7B激活参数,训练计算消耗仅为同规模密集模型的9.25%,推理成本与3.7B参数的密集模型相当。性能优异:在代码生成、数学解题、科学知识和推理等多个领域展现出与Llama3-70B等大型模型相当甚至更优的性能。模型结构