MOE介绍 混合专家模型

  • GShard arxiv链接

GShard

模型架构图:
MOE介绍 混合专家模型_第1张图片

参考GShard论文笔记(1)-MoE结构可知,MOE具备以下几种特点:

  1. 改造了原本的FFN层,变成Gate+n个FFN层。
  2. n个FFN层的训练数据集不同。
  3. 推理时会计算token与每个FFN的匹配程度,并k个被最匹配的FFN的输出对作加权平均。
    https://github.com/laekov/fastmoe

另外:

  • Gate只是一个维度是[dim, num_experts]的二维矩阵,用来计算每个token与每个expert的相关性。
  • 每个FFN的结构相同。比如可以是[in_dim, hidden_dim, in_dim]形式的两层FFN。

也推荐阅读DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models的"2. Preliminaries: Mixture-of-Experts for Transformers"部分,该论文对MOE的讲解也很清晰。

你可能感兴趣的:(人工智能)