Mixture

Deepseek-R1大模型微调实战技术深度解析

一、Deepseek-R1架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构，通过MoE（Mixture-of-Experts）与MLA

大势下的牛马·2025-03-16 00:14

(4-4)DeepSeek底层架构技术：混合专家架构技术

2.4混合专家架构技术DeepSeek引入了混合专家架构（Mixture-of-Experts，MoE），将模型划分为多个专家子模型，每个子模型专注于处理不同的任务或领域。

码农三叔·2025-03-15 01:10

DeepSeek大模型如何提升论文与代码效率

内容概要DeepSeek大模型作为人工智能领域的前沿成果，通过670亿参数的混合专家架构（Mixture-of-Experts,MoE），在多模态任务处理与专业场景应用中展现了显著优势。

智能计算研究中心·2025-03-07 21:55

MOE（Mixture of Experts，混合专家）

目录MOE（MixtureofExperts，混合专家）一、MOE架构的核心概念二、MOE架构的工作原理三、MOE架构的优势四、MOE架构的举例五、MOE架构的应用场景MOE（MixtureofExperts

ZhangJiQun&MXP·2025-03-07 15:47

MoE-FFD：Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

来源：2024arXiv（submittedTDSC，CCF-A）作者：ChenqiKong1,AnweiLuo2,PeijunBao1,YiYu1,HaoliangLi3,ZengweiZheng4,ShiqiWang3andAlexC.Kot1单位：1新加坡南洋理工大学;2中山大学;3香港城市大学;4浙江大学;Paper：https://arxiv.org/pdf/2404.08452Code

Sherry Wangs·2025-03-07 15:44

大模型入门

24k小善·2025-03-06 17:05

图解MOE大模型的7个核心问题并探讨DeepSeekMoE的专家机制创新

原文地址:https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts

AI仙人掌·2025-03-06 12:51

深度学习突破：LLaMA-MoE模型的高效训练策略

为了解决这一问题，Mixture-of-Expert（MoE）模型架构应运而生，而LLaMA-MoE正是这一架构下的重要代表。

人工智能大模型讲师培训咨询叶梓·2025-03-06 01:44

X-LoRA：高效微调 LoRA 系列，实现不同领域知识专家混合模型

文献卡X-LoRA:MixtureofLow-RankAdapterExperts,aFlexibleFrameworkforLargeLanguageModelswithApplicationsinProteinMechanicsandMolecularDesign

yumuing blog·2025-03-05 22:22

探索未来智能：Lucidrains的Mixture of Experts框架详解

探索未来智能：Lucidrains的MixtureofExperts框架详解mixture-of-expertsAPytorchimplementationofSparsely-GatedMixtureofExperts

咎旗盼Jewel·2025-03-01 20:53

单卡挑战千亿模型！深度求索MoE架构实战指南：从理论到开源工具全解析

**混合专家模型（MixtureofExperts,MoE）**通过稀疏激活机制，成为突破单卡训练瓶颈的关键技术。

小诸葛IT课堂·2025-03-01 11:27

DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库

采用Mixture-of-Experts（MoE）架构的大型语言模型在没有相应计算量增加的情况下显著提升了模型容量。然而，这种方法也引入了一些挑战，尤其是在GPU之间的通信方面。

强哥之神·2025-03-01 01:37

DeepSeek智能引擎：高效重塑创作与开发

内容概要DeepSeek智能引擎通过创新的混合专家架构（MixtureofExperts），在670亿参数规模下实现了多模态智能处理能力的突破性进展。

智能计算研究中心·2025-02-28 02:44

DeepEP：开源通信库的高效专家并行计算解决方案

摘要DeepEP是一个专为Mixture-of-Experts（MoE）和专家并行计算设计的开源通信库。它提供高效的all-to-all通信模式，支持GPU之间的高吞吐量和低延迟数据交换。

耶耶Norsea·2025-02-27 16:41

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

DeepEP概述功能与作用DeepEP是一个专门针对Mixture-of-Experts(

东方佑·2025-02-26 18:29

DeepSeek技术演进史：从MoE到当前架构

本文将结合清华大学104页的《DeepSeek：从入门到精通》，详细探讨DeepSeek从最初的MixtureofExperts（MoE）模型到当前架构的技术演进过程。

FinkGO小码·2025-02-25 17:04

DeepSeek高能AI：低成本高效应用突破

内容概要DeepSeek高能AI系统通过混合专家架构（Mixture-of-Experts）实现了技术范式的突破，其670亿参数的模型规模在保证计算效率的同时，构建了多模态处理能力的技术护城河。

智能计算研究中心·2025-02-25 03:25

将混合专家（Mixture of Experts, MoE）路由机制引入时序预测方向的思路的拆解和优化建议

看前必读：本笔记主要是由idea给到deepseek进行的总结，示例代码已经调试成功，其中也提到了多种优化建议，觉得有提升或者可以讲好故事都可以在评论区或飞书讨论！飞书链接：Docshttps://h1sy0ntasum.feishu.cn/wiki/R39Mw1DQSiBUaNksgpocz22hnHd?from=from_copylink现有方法与MoE的对比分析传统分解方法（如季节-趋势分解

放空儿·2025-02-23 22:00

第一篇：从技术架构视角解析DeepSeek的AI底层逻辑

1.模块化架构：MoE模型的场景适应性突破DeepSeek采用混合专家模型（MixtureofExperts）的变体设计，在千亿参数规模下实现动态任务分配。通过引入「稀疏激活

python算法(魔法师版)·2025-02-22 00:18

高斯混合模型（GMM）与K均值算法（K-means）算法的异同

高斯混合模型（GaussianMixtureModel,GMM）和K均值（K-Means）算法都是常用于聚类分析的无监督学习方法，虽然它们的目标都是将数据分成若干个类别或簇，但在实现方法、假设和适用场景上有所不同

路野yue·2025-02-21 15:32

DeepSeek接入大数据能做什么

大模型技术的公司，在大数据领域可以通过以下方式切入，结合其核心能力提供创新解决方案：一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的MoE（MixtureofExperts

PersistDZ·2025-02-19 22:59

（1-2）DeepSeek概述：DeepSeek的架构概览

采用了混合专家（Mixture-of-Experts,MoE）架构，通过稀疏激活提升模型效率。此外，DeepSeek引入了动态路由网络，智能地调配计算资源，以高效处理长文本和复杂逻辑任务。

码农三叔·2025-02-19 15:59

DeepSeek 混合专家（MoE）架构技术原理剖析

一、MoE架构概述（一）基本概念混合专家（MixtureofExperts，MoE）架构，简单来说，就像是一个专家团队。在这个团队里，每个专家都是一个小型神经网络，各自擅长处理特定

计算机学长·2025-02-17 13:15

超火的Deepseek的MOE架构是什么?

DeepSeek的MOE（MixtureofExperts，混合专家）架构是一种基于专家模型（MixtureofExperts）的深度学习框架，旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能

魔王阿卡纳兹·2025-02-15 07:51

DeepSeek-V2 论文解读：混合专家架构的新突破

论文链接：DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力

进一步有进一步的欢喜·2025-02-13 09:49

DeepSeek-V3：模型与权重全面解析

DeepSeek-V3是一款开创性的混合专家（Mixture-of-Experts,MoE）语言模型，以其创新的架构设计、高效的训练方法和卓越的性能，成为开源大语言模型领域的标杆。

步子哥·2025-02-12 11:13

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

一、模型定位与技术背景DeepSeek-MoE-16b是深度求索（DeepSeek）研发的混合专家模型（MixtureofExperts,MoE），参数规模160亿，旨在通过稀疏化计算架构解决传统稠密模型

热爱分享的博士僧·2025-02-11 18:36

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

DeepSeek-V3模型简介DeepSeek-V3是DeepSeek发布的MoE（Mixture-of-Experts）大语言模型，总参数量为6710亿，每个token激活的参数量为370亿。

·2025-02-11 11:44

DeepSeek模型全解析：赋能人工智能新纪元

以下是对DeepSeek模型的详尽剖析：一、模型概览DeepSeek，源自一家中国AI初创公司，其最新版本DeepSeek-V3是一款基于先进的Mixture-of-Experts（MoE）架构的语言模型

云梦优选·2025-02-08 23:01

DeepSeek MoE 项目教程

DeepSeekMoE项目教程DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE1、项目介绍DeepSeekMoE是一个基于Mixture-of-Experts

姬牧格Ivy·2025-02-08 10:59

深度搜索MoE：利用大规模预训练模型提升信息检索效能

DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于Transformer架构的、大规模多专家模型（MixtureofExperts

杭律沛Meris·2025-02-07 15:20

MOE-conformer 流式多语种语音识别

MOE(MixtureofExperts)：MOE是一种通过专家混合来实现深度学习模型的方法，主要有以下特点：MOE由多个专家(Excpert)组成，每个专家是一个独立的神经网络(可以是MLP、CNN、

深度学习-视听觉·2025-02-07 14:16

MiniMax：人工智能领域的创新先锋

作为一家成立于2021年12月的通用人工智能科技公司，MiniMax专注于开发多模态、万亿参数的MoE（MixtureofExperts）大模型，并基于此推出了多种原生应用，如海螺AI、星野等。

程序猿000001号·2025-02-04 14:14

微软推出GRIN-MoE：开创专家路由新范式

微软最近推出的GRIN-MoE（Gradient-InformedMixture-of-Experts）模型，以其独特的架构和显著的性能表现，正引领着AI技术的前沿，特别是在编码和数学任务上展现出强大的能力

OpenCSG·2025-02-04 01:25

Mixture of Experts（MoE）学习笔记

1学习动机第一次了解到MoE（Mixtureofexperts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模型以MoE架构（8*220B）组合成一个万亿参数级别的模型

南七小僧·2025-02-03 12:44

什么是MOE架构？哪些大模型使用了MOE？

混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？

明哲AI·2025-02-03 06:18

什么是MoE？

一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。

CM莫问·2025-02-03 05:14

DeepSeek-V2：强大、经济、高效的专家混合语言模型

经济、高效的专家混合语言模型DeepSeek-V2项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-V2项目介绍DeepSeek-V2是一款强大的专家混合（Mixture-of-Experts

乌芬维Maisie·2025-02-03 01:12

【人工智能时代】-Deepseek用到的技术架构

以下是DeepSeek技术架构的详细介绍：1.混合专家架构（MoE）DeepSeek-V3采用了混合专家（Mixture-of-Experts,MoE）架构，这种架构通过将模型分解为多个“专家”网络来处理不同的输入特征

xiaoli8748_软件开发·2025-02-01 16:07

DeepSeek：LLM在MoE训练中的无损平衡

标题：AUXILIARY-LOSS-FREELOADBALANCINGSTRAT-EGYFORMIXTURE-OF-EXPERTS来源：arXiv,2408.15664摘要对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或计算开销增加

大模型任我行·2025-01-30 16:24

DeepSeek 模型：架构创新与实际应用详解

汪子熙·2025-01-29 23:52

探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎

探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎项目地址:https://gitcode.com/gh_mirrors/mo/MoA在当前人工智能的浪潮中，

潘俭渝Erik·2025-01-28 04:49

高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”

高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”1.引言高斯混合模型（GaussianMixtureModel,GMM）是一种基于概率密度的生成式模型。

ningaiiii·2025-01-23 15:45

DeepSeek-V2

DeepSeek-V2是由幻方量化旗下的AI公司DeepSeek发布的第二代MoE（Mixture-of-Experts）大模型，具有显著的性能和成本优势。

百态老人·2025-01-22 14:55

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74823683·2025-01-21 20:08

使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体

1.简介论文简介:论文提出了一种称为混合智能体(Mixture-of-Agents,MoA)的方法,利用多个大语言模型(LLM)的集体智慧来提高自然语言理解和生成任务的性能。

fc&&fl·2025-01-20 14:56

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

XianxinMao·2025-01-18 05:21

mixture_of_depths

mixture_of_depths是一种用于处理不同深度模型组合的技术或机制，通常用于模型的加载和推理过程中。它涉及将模型的不同层次或深度进行组合或切换，以提高模型的灵活性和性能。

道真人·2024-09-12 15:58

paddle nlp 3.0 全面拥抱开源大模型

upgradepaddlenlp==3.0.0b0阿里云通义千问（Qwen2）系列大模型介绍阿里云通义千问（Qwen2）是阿里云推出的一系列先进的大型语言模型，涵盖了从轻量级到超大规模的各种模型，包括混合专家模型（Mixture-of-Experts

路人与大师·2024-08-24 04:40

高斯混合模型聚类（GMM）matlab实现

GaussianMixtureModel，就是假设数据服从MixtureGaussianDistribution，换句话说，数据可以看作是从数个GaussianDistribution中生成出来的。

唐维康·2024-02-19 21:08

推荐频道

Mixture

Deepseek-R1大模型微调实战技术深度解析

(4-4)DeepSeek底层架构技术：混合专家架构技术

DeepSeek大模型如何提升论文与代码效率

MOE（Mixture of Experts，混合专家）

MoE-FFD：Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

大模型入门

图解MOE大模型的7个核心问题并探讨DeepSeekMoE的专家机制创新

深度学习突破：LLaMA-MoE模型的高效训练策略

X-LoRA：高效微调 LoRA 系列，实现不同领域知识专家混合模型

探索未来智能：Lucidrains的Mixture of Experts框架详解

单卡挑战千亿模型！深度求索MoE架构实战指南：从理论到开源工具全解析

DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库

DeepSeek智能引擎：高效重塑创作与开发

DeepEP：开源通信库的高效专家并行计算解决方案

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

DeepSeek技术演进史：从MoE到当前架构

DeepSeek高能AI：低成本高效应用突破

将混合专家（Mixture of Experts, MoE）路由机制引入时序预测方向的思路的拆解和优化建议

第一篇：从技术架构视角解析DeepSeek的AI底层逻辑

高斯混合模型（GMM）与K均值算法（K-means）算法的异同

DeepSeek接入大数据能做什么

（1-2）DeepSeek概述：DeepSeek的架构概览

DeepSeek 混合专家（MoE）架构技术原理剖析

超火的Deepseek的MOE架构是什么?

DeepSeek-V2 论文解读：混合专家架构的新突破

DeepSeek-V3：模型与权重全面解析

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

DeepSeek模型全解析：赋能人工智能新纪元

DeepSeek MoE 项目教程

深度搜索MoE：利用大规模预训练模型提升信息检索效能

MOE-conformer 流式多语种语音识别

MiniMax：人工智能领域的创新先锋

微软推出GRIN-MoE：开创专家路由新范式

Mixture of Experts（MoE）学习笔记

什么是MOE架构？哪些大模型使用了MOE？

什么是MoE？

DeepSeek-V2：强大、经济、高效的专家混合语言模型

【人工智能时代】-Deepseek用到的技术架构

DeepSeek：LLM在MoE训练中的无损平衡

DeepSeek 模型：架构创新与实际应用详解

探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎

高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”

DeepSeek-V2

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

mixture_of_depths

paddle nlp 3.0 全面拥抱开源大模型

高斯混合模型聚类（GMM）matlab实现