夕小瑶

十分钟读完「超越GPT-3.5和LLama2的Mixtral 8x7B」论文

超越GPT-3.5和LLama2！专家混合模型Mixtral 8x7B颠覆性表现震撼全球

引言：Mixtral 8x7B模型及其在多个基准测试中的表现

在当今人工智能领域，语言模型的发展正以惊人的速度推进着自然语言处理技术的边界。最近，一个名为Mixtral 8x7B的模型引起了广泛关注，它是一种基于稀疏混合专家（Sparse Mixture of Experts, SMoE）的语言模型，以其在多个基准测试中的卓越表现而著称。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

1. Mixtral 8x7B模型概述

Mixtral 8x7B模型采用了与Mistral 7B相同的架构，但每一层由8个前馈块（即专家）组成。在处理每个令牌时，路由器网络会选择两个专家来处理当前状态，并结合它们的输出。尽管每个令牌只接触到两个专家，但在每个时间步，所选的专家可能会有所不同。这意味着，尽管每个令牌在推理过程中只使用了13B的活跃参数，但它实际上可以访问到47B的参数。

2. 训练和性能

Mixtral 8x7B在32k令牌的上下文大小下进行了训练，并且在所有评估的基准测试中均优于或匹配了Llama 2 70B和GPT-3.5的性能。特别是在数学、代码生成和多语言基准测试中，Mixtral的表现远远超过了Llama 2 70B。此外，还提供了经过微调以遵循指令的模型——Mixtral 8x7B – Instruct，它在人类基准测试中超越了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B – 聊天模型。

3. 开放许可和效率

值得一提的是，Mixtral 8x7B及其指令版本都在Apache 2.0许可下发布，这为学术和商业用途提供了广泛的可访问性和潜在的多样化应用。Mixtral模型在低批量大小下允许更快的推理速度，并且在大批量大小下提供更高的吞吐量。这是因为它每个令牌只使用了一部分参数，从而在保持模型参数数量的同时控制了成本和延迟。

4. 结构化行为和专家选择

在对模型的分析中，我们注意到路由器在选择专家时展现出一定的结构化行为。例如，在处理Python代码时，诸如‘self’这样的单词经常被路由到同一个专家，尽管它们涉及多个令牌。这种现象在模型的输入和输出层尤为明显，因为在这些层中，隐藏状态与输入和输出嵌入高度相关。

总的来说，Mixtral 8x7B模型不仅在技术上展现了创新，而且在多个基准测试中证明了其卓越的性能，特别是在处理需要长期记忆和多语言理解的任务时。通过这种稀疏混合专家的方法，Mixtral 8x7B在提高效率的同时，也为未来的研究和应用开辟了新的可能性。

论文标题、机构、论文链接

1. 论文标题: Mixtral of Experts

2. 机构: 作者团队包括 Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed。

3. 论文链接: Mixtral of Experts

模型概览：Mixtral 8x7B的架构和特点

1. 专家混合体系结构的设计

Mixtral 8x7B模型采用了Sparse Mixture of Experts (SMoE)的设计，这是一种将多个专家网络（feedforward blocks）结合在一起的架构。与Mistral 7B架构相同，Mixtral的每一层由8个专家网络组成。对于每个输入的token，路由网络（router network）在每一层选择两个专家来处理当前的状态，并将它们的输出结合起来。尽管每个token只看到两个专家，但在每个时间步，选定的专家可以不同。因此，每个token可以访问到47B个参数，但在推理过程中只使用了13B个活跃参数。

Mixtral 8x7B在训练时使用了32k token的上下文大小，并且在所有评估的基准测试中，它的表现要么超过要么匹配Llama 2 70B和GPT-3.5。特别是在数学、代码生成和多语言基准测试中，Mixtral的表现远远超过了Llama 2 70B。此外，还提供了经过指令微调的模型Mixtral 8x7B – Instruct，该模型在人类评估基准测试中超过了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B – chat模型。基础模型和指令微调模型都在Apache 2.0许可下发布，以便学术和商业用途免费使用，确保了广泛的可访问性和多样化的应用潜力。

2. 参数使用效率与推理速度

Mixtral 8x7B作为一个稀疏混合专家模型，它在每个token上只使用13B个活跃参数，这使得模型在小批量大小下具有更快的推理速度，在大批量大小下具有更高的吞吐量。由于模型每个token只使用了参数的一小部分，因此能够控制成本和延迟，同时增加模型的参数数量。

在单个GPU上，MoE层可以通过高性能的专用内核高效运行。例如，Megablocks将MoE层的前馈网络（FFN）操作视为大型稀疏矩阵乘法，显著提高了执行速度，并自然处理了不同专家被分配不同数量token的情况。此外，MoE层可以通过标准的模型并行技术和一种称为专家并行（EP）的特殊分区策略分布到多个GPU上。在MoE层的执行过程中，打算由特定专家处理的token被路由到相应的GPU进行处理，然后专家的输出返回到原始token的位置。需要注意的是，EP在负载平衡方面引入了挑战，因为必须均匀地分配工作量到各个GPU，以防止单个GPU过载或遇到计算瓶颈。

Mixtral模型的内存成本与其稀疏参数计数（47B）成正比，这仍然小于Llama 2 70B。在设备利用率方面，SMoE层由于路由机制和在每个设备上运行多个专家时增加的内存负载而引入了额外的开销。它们更适合于批处理工作负载，其中可以达到良好的算术强度。

多语言和长文本处理：Mixtral的优势

1. 多语言基准测试中的表现

Mixtral 8x7B模型在多语言处理方面展现出了显著的优势。在预训练阶段，Mixtral的数据中大幅提高了多语言数据的比例，这使得模型在保持英语高准确率的同时，也能在多语言基准测试中表现出色。特别是在法语、德语、西班牙语和意大利语的测试中，Mixtral显著超越了Llama 2 70B模型。根据表4的数据，Mixtral在这些语言的测试中的表现分别达到了42.9%、65.4%、49.0%和39.3%，而Llama 2 70B的表现则分别为33B、58.2%、77.4%和70.9%。这一结果证明了Mixtral在处理多语言任务时的强大能力。

2. 长文本处理能力分析

Mixtral在长文本处理方面同样展现出了卓越的能力。该模型能够成功地从其32k token的上下文窗口中检索信息，无论信息序列的长度和信息在序列中的位置如何。在进行长范围性能评估时，Mixtral在passkey检索任务上实现了100%的检索准确率，这一任务是为了衡量模型在长提示下检索随机插入的passkey的能力。此外，根据图4（右）所示，Mixtral在proof-pile数据集的子集上的困惑度随着上下文长度的增加而单调递减，这进一步证明了Mixtral在处理长文本时的有效性。

总的来说，Mixtral模型在多语言和长文本处理方面的表现都非常出色。它不仅在多语言基准测试中大幅超越了其他模型，而且在长文本检索任务上也展现了100%的准确率，这使得Mixtral成为了处理复杂语言任务的强大工具。

偏见基准测试：评估Mixtral的社会偏见

1. BBQ和BOLD测试结果

在评估Mixtral模型的社会偏见方面，我们参考了Bias Benchmark for QA (BBQ)和Bias in Open-Ended Language Generation Dataset (BOLD)两个基准测试。BBQ是一组针对九个社会相关类别（包括年龄、残疾状况、性别认同、国籍、外貌、种族/民族、宗教、社会经济地位和性取向）的手工编写的问题集，旨在检测社会偏见。而BOLD则是一个大规模的数据集，包含了23,679个英文文本生成提示，用于跨五个领域的偏见基准测试。

我们使用自己的评估框架对Llama 2和Mixtral进行了BBQ和BOLD的基准测试，并报告了结果。与Llama 2相比，Mixtral在BBQ基准测试中表现出更少的偏见（56.0%对比51.5%）。在BOLD测试中，一个更高的平均情感得分意味着更积极的情感，而一个更低的标准差则表明该组内的偏见更少。总体而言，Mixtral显示出比Llama 2更积极的情感，而各组内的方差相似。

2. Mixtral – Instruct的训练方法

Mixtral – Instruct是通过监督式微调（Supervised Fine-Tuning, SFT）在一个指令数据集上进行训练，随后通过直接偏好优化（Direct Preference Optimization, DPO）[25]在一个成对反馈数据集上进行优化。Mixtral – Instruct在MT-Bench [33]上达到了8.30的得分，截至2023年12月，它是最好的开放权重模型。独立的人类评估由LMSys进行，结果显示Mixtral – Instruct超越了GPT-3.5-Turbo、Gemini Pro、Claude-2.1和Llama 2 70B聊天模型。

通过这种训练方法，Mixtral – Instruct不仅在人类评估基准上表现出色，还在偏见基准测试中展现了减少偏见的能力，这表明了其在处理指令和优化社会偏见方面的有效性。

路由分析：专家选择的模式和影响

在深入探讨Mixtral 8x7B模型的路由机制之前，我们首先了解其基本构成。Mixtral模型是一个稀疏混合专家系统（Sparse Mixture of Experts, SMoE），它在每一层由8个前馈块（即专家）组成。对于每个令牌，路由网络在每一层选择两个专家来处理当前状态，并结合它们的输出。尽管每个令牌只看到两个专家，但在每个时间步，选定的专家可以不同。因此，每个令牌可以访问47B参数，但在推理过程中只使用13B活跃参数。

1. 专家的分布和选择

在Mixtral模型中，专家的选择并非随机，而是显示出一定的结构化模式。例如，在处理Python代码时，诸如‘self’这样的词经常被路由到同一个专家，尽管它们涉及多个令牌。在数学和英语文本中也观察到类似的现象。此外，缩进令牌在代码中总是被分配给相同的专家，尤其是在隐藏状态与模型的输入和输出更相关的第一层和最后一层。

2. 位置局部性

在The Pile数据集中，我们观察到连续令牌经常被分配给相同的专家。这种位置局部性在高层更为明显，意味着连续的令牌分配给相同专家的比例显著高于随机分配。这种局部性对于优化模型的快速训练和推理有重要的影响。例如，高局部性的情况可能会导致在执行专家并行时某些专家过度订阅。相反，这种局部性可以被用于缓存，正如在某些研究中所做的那样。

3. 专家选择的影响

专家的选择对模型的性能有着直接的影响。在数学、编码生成和多语言基准测试中，Mixtral模型大大超过了Llama 2 70B模型。这表明某些专家可能在特定领域（例如数学、生物学、哲学等）中专门化。在DM Mathematics数据集中，专家分布的边缘差异可能是数据集合成性质和对自然语言谱的有限覆盖的结果，特别是在第一层和最后一层，隐藏状态与输入和输出嵌入高度相关。

综上所述，路由网络在专家选择上展现出一定的模式和结构化行为，这些选择模式对模型的性能和优化策略产生了显著的影响。通过对这些模式的分析，我们可以更好地理解和优化稀疏混合专家模型的行为。

结论：Mixtral 8x7B的贡献与未来应用

在本文中，我们介绍了Mixtral 8x7B，这是一个稀疏混合专家模型（Sparse Mixture of Experts, SMoE），它在开源模型中达到了前所未有的性能水平。Mixtral 8x7B Instruct在人类评估基准测试中超越了Claude-2.1、Gemini Pro和GPT-3.5 Turbo。由于在每个时间步骤中仅使用两个专家，Mixtral每个令牌只使用13B活跃参数，而在性能上却超越了使用70B参数的前最佳模型（Llama 2 70B）。我们将训练好的和微调后的模型在Apache 2.0许可下公开发布。通过分享我们的模型，我们的目标是促进新技术和应用的发展，这些技术和应用可以惠及广泛的行业和领域。

1. 性能与效率的结合

Mixtral 8x7B通过其独特的架构，在保持低批量大小时加快了推理速度，并在大批量大小时提高了吞吐量。它在多个基准测试中的表现不仅匹敌，甚至超越了Llama 2 70B和GPT-3.5，尤其是在数学、代码生成和多语言任务上。这一卓越的性能得益于其能够在推理过程中仅使用一小部分参数（13B活跃参数），而总参数量达到47B。

2. 多语言和长范围性能

Mixtral 8x7B在预训练期间显著增加了多语言数据的比例，使其在多语言基准测试中的表现显著优于Llama 2 70B，同时保持了对英语的高准确率。此外，Mixtral在长范围性能测试中表现出色，能够无论上下文长度或信息在序列中的位置如何，都能成功检索信息。

3. 减少偏见和平衡情感

Mixtral 8x7B – Instruct在偏见基准测试中表现出较少的偏见，并在情感分析中展现出更平衡的情感概况。这表明，通过监督式微调和直接偏好优化，可以在保持模型性能的同时减少其潜在的社会偏见。

4. 开放许可和社区贡献

我们在Apache 2.0许可下发布了Mixtral 8x7B和Mixtral 8x7B – Instruct，以便学术界和商业界免费使用，确保了广泛的可访问性和潜在的多样化应用。此外，我们还向vLLM项目提交了更改，这使得社区能够在完全开源的堆栈上运行Mixtral，进一步促进了模型的广泛应用和创新。

5. 未来应用的潜力

Mixtral 8x7B的发布为各种行业和领域的研究人员和开发者提供了强大的工具，使他们能够开发出新的应用程序和服务。无论是在自然语言处理、机器翻译、内容生成还是复杂的问题解决任务中，Mixtral 8x7B都有望推动技术的边界。随着社区的进一步探索和创新，我们期待看到Mixtral 8x7B在未来的应用中发挥其巨大的潜力。