【论文笔记】Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

作者介绍了一种新型的层,即稀疏门控专家混合物(MoE)。该层由许多专家子网络(此工作中为前馈网络)和决定使用哪个专家的参数化门控网络组成。使用这种方法,作者可以训练具有数百亿个参数的网络,同时保持计算成本不变。该体系结构在语言建模(10亿个单词基准)和机器翻译(WMT EN-> FR,EN-DE)任务上达到了最先进的结果。

### 关键点

-MoE层:由n个专家网络E_i组成。使用门控网络G(x)选择输出,该层的输出由y = sum(G(x)_i * E_i(x))给出。
-G(x)是稀疏的,例如一个softmax,后跟一个top-k遮罩,但可能更复杂。
-确保专家的利用(即勘探)是一项挑战。增加了额外的损失期限以鼓励这种情况。
-缩小批次的问题:由于每个示例都选择了专家,因此每个专家可能会收到比原始批次大小小得多的批次。作者提出了几种批处理组合策略来解决此问题。
-十亿字语言建模:具有34B参数的29.9困惑,在128 k40s上的15h训练时间。每个专家都是一个512维线性前馈网络。
-NMT EN-FR:40.56 BLEU,参数8.7B。每个专家都是具有ReLU激活功能的2层网络,

###注意

  • 这项工作使人想起了公路网,但又增加了一些限制,使门稀疏以节省计算量。
  • 令我惊讶的是,作者没有为每个专家网络使用不同的体系结构进行评估。那将是我想到的第一个用例。他们在论文中提到了这种可能性,但是我很乐意看到为此做实验。
  • 我们使用了Adam优化器(Kingma&Ba,2015)。学习率是在前200个训练步骤中线性增加,在接下来的200个步骤中保持恒定,然后减少然后与步数的平方根成反比。
    -嗯…

你可能感兴趣的:(【论文笔记】Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer)