MIXTURE

高斯混合模型（Gaussian Mixture Model, GMM）

高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。

不想秃头的程序·2025-06-28 16:01

【AI论文】MiniMax-M1：利用Lightning注意力机制高效扩展测试时计算

MiniMax-M1采用了混合专家（Mixture-of-Experts，MoE）架构，并结合了闪电注意力（LightningAttention）机制。

东临碣石82·2025-06-22 22:44

DeepEP开源MoE模型分布式通信库

该库以Apache2.0许可证发布，代码完全开放，是全球首个专注于优化MoE（Mixture-of-Experts）模型分布式通信的高性能库。

老兵发新帖·2025-06-22 14:18

Llama 4模型卡片及提示词模板

Llama4模型卡片及提示词模板Llama4模型卡及提示格式介绍Llama4模型概述Llama4是一系列预训练和指令微调的混合专家（Mixture-of-Experts,MoE）大语言模型，包含两种规模

大模型与Agent智能体·2025-06-21 23:44

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

在机器学习和深度学习的领域中，**MoE（MixtureofExperts）架构和MLA（Multi-LevelArchitecture）**的工程化实现已成为极具前景和挑战的技术路线。

威哥说编程·2025-06-18 02:08

深度解析DeepSeek中的MoE混合专家模式：原理、实现与应用

混合专家（MixtureofExperts,MoE）正是将这种“分诊-协作”机制引入AI模型的核心技术。

来自于狂人·2025-06-17 22:14

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

这款全新的Mixture-of-Experts(MoE)架构的大型语言模型，凭借其创新的训练优化技术，特别是Muon优化器的使用，成功突破了训练效率的极限，展现出强大的性能表现。

OpenCSG·2025-06-17 13:07

高斯混合模型（Gaussian Mixture Model, GMM）

高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据分布是由多个高斯分布（正态分布）的加权组合构成的。

爱看烟花的码农·2025-06-17 09:16

DeepSeek-V3与DeepSeek-R1架构原理及应用对比分析

架构原理对比DeepSeek-V3的混合专家架构(MoE)DeepSeek-V3采用了**混合专家模型(Mixture-

前端菜鸡日常·2025-06-04 03:47

《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》论文阅读

论文原文链接：https://arxiv.org/pdf/2412.10302?本文在DeepSeek-VL以及DeepSeek-V2的基础上来写的，可以先回顾一下这两篇论文的内容：《DeepSeek-VL:TowardsReal-WorldVision-LanguageUnderstanding》阅读解析-CSDN博客《DeepSeek-V2:AStrong,Economical,andEffi

来杯芊芊马卡龙·2025-06-01 08:48

【代码解析】用PyTorch实现混合专家（MoE）语言模型

在深度学习和自然语言处理领域，混合专家（MixtureofExperts,MoE）模型因其卓越的性能和可扩展性而受到广泛关注。

Kaydeon·2025-06-01 01:05

DeepSeek技术解析：MoE架构实现与代码实战

https://github.com/ccy-233/coder2retireDeepSeek技术解析：MoE架构实现与代码实战作为中国AI领域的创新代表，DeepSeek在混合专家模型（MixtureofExperts

2501_91133329·2025-05-29 19:54

DeepSeek-V2：高效MoE与MLA创新架构

详细分析：核心观点：DeepSeek-V2通过创新的Mixture-of-Experts(MoE)架构和Multi-headLatentAttention(MLA)机制，显著提升了模型性能并降低了训练和推理成本

weixin_57060548·2025-05-22 12:40

【论文速读】MOD，《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

论文链接：https://arxiv.org/html/2404.02258v1最近看到有招聘要求中提到熟悉MoE、MoD。MoE前面学习过，赶紧学习一下MoD！Transformer模型在前向传播中对每个token均匀分配计算资源，这在处理不同的语言建模问题时并不高效，因为并非所有token和序列都需要相同的计算量来进行准确预测。MoD模型旨在解决这一问题，通过动态分配计算资源，以更高效地使用计

bylander·2025-05-21 09:37

MoE开山之作（1991年）——Adaptive Mixtures of Local Experts

长久以来，训练单个多层网络来执行不同子任务常常会产生严重的干扰效应，导致学习缓慢和泛化能力差。如果我们事先知道训练集可以自然地分成对应不同子任务的子集，那么可以通过构建由多个“专家”网络和一个决定训练数据使用哪个“专家”网络的MoE模型，来减少干扰。这类系统的一个核心思想是，门控网络将训练数据分配给一个或几个专家，如果输出不正确，权重变化仅限于这些专家（和门控网络）。然而，现有的这类系统通常使用一

胖头鱼爱算法·2025-05-17 19:29

【大模型】MoE论文简单解读

MoE（MixtureofExperts）是一种模块化的神经网络架构，通过将多个专家网络（Experts）组合起来，由一个门控网络（Gate）动态决定每次输入激活哪些专家，从而实现模型容量与计算效率的平衡

油泼辣子多加·2025-05-17 14:54

0基础小白入门必看：AI大模型基本概念与工具梳理

MoE（MixtureofExperts)，混合专家模型（一种模型架构，通过多个“专家”网络并行处理输入数据，然后通过门控机制选择最合适的专家输出结果。MoE模型特别适合于处理大规模数据，在计算效

AI小白熊·2025-05-13 04:15

[论文笔记] 超详细解读DeepSeek v3全论文技术报告

DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理

心心喵·2025-05-11 13:02

深入理解与实现GM-PHD滤波算法：C++应用指南

高斯混合概率假设密度（GaussianMixtureProbabilityHypothesisDensity,GM-PHD）滤波器作为一种有效的多目标跟踪算法，因其能够在处理杂波和新生目标时表现出色而广受关注

快撑死的鱼·2025-05-05 00:44

《向量数据库指南》——稀疏激活：解锁大数据处理新纪元

今天，让我们聚焦于MoE（MixtureofExperts，混合专家）模型中的一个关键特性——稀疏激活，这一源自条件计算的创新概念，正悄然改

大禹智库·2025-05-04 02:24

Loss-Free Balancing MoE论文解读：无损负载均衡的突破

Loss-FreeBalancingMoE论文解读：无损负载均衡的突破《AUXILIARY-LOSS-FREELOADBALANCINGSTRATEGYFORMIXTURE-OF-EXPERTS》是一篇由

阿正的梦工坊·2025-05-03 18:31

SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记

另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的

catbird233·2025-05-03 13:22

DeepSeek多语言AI模型：高效低成本重塑创作

内容概要随着人工智能技术向垂直领域加速渗透，DeepSeek多语言AI模型通过创新的混合专家架构（MixtureofExperts），在670亿参数规模下实现了多模态能力的深度整合。

智能计算研究中心·2025-05-03 10:36

DeepSeek-V3 技术解析：DeepSeek 如何优化 MoE？

引言近年来，深度学习模型规模急剧扩大，专家混合模型（Mixture-of-Experts,MoE）凭借其高参数稀疏激活和高效计算优势，逐渐成为学术界与工业界关注的热点。

荣华富贵8·2025-05-03 06:05

DeepSeek Coder：面向编程的代码专用模型

架构与规模DeepSeekCoder系列基于DeepSeekV2的Transformer骨干结构，集成了混合专家（MoE,Mixture-of-Experts）技术，以在参数规模和算力资源之间实现高效平衡

Chaos_Wang_·2025-05-02 22:12

【AI热点】meta新发布llama4深度洞察（快速认知）

一、Llama 4家族整体概览家族成员Llama 4Scout总参数量约109 B（1090亿），活跃参数量17 B（170亿），拥有16个专家（MixtureofExperts,MoE）。

碣石潇湘无限路·2025-05-01 04:05

Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

MoE机制简介Mixture-of-Experts（MoE，混合专家）是一种“分而治之”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。

Chaos_Wang_·2025-04-30 23:05

MoE架构解析：如何用“分治”思想打造高效大模型？

这就是MoE（MixtureofExperts，混合专家）架构诞生的意义所在。一、MoE的核心思想：让专业的人做专业的事想象一家医院急诊科：当患者进入时，分诊台会根据症状快速

路人与大师·2025-04-27 18:23

Visium HD 空间转录组分析探索之--细胞类型注释（RCTD解卷积）

这里我们使用文章中提到的，基于单细胞数据进行解卷积注释，文章中用到的方法是RCTD(Robustdecompositionofcelltypemixturesinspa

生信大杂烩·2025-04-25 05:38

【架构解析】深入浅析DeepSeek-V3的技术架构_deepseek 参数

运行这个DeepSeek-V3需要的显存资源，我先去找更大的GPUVM去了…一、DeepSeek-V3的架构详解1.模型总体概述DeepSeek-V3是一款采用Mixture-of-Experts（MoE

程序员一粟·2025-04-15 21:06

【论文阅读】Adaptive Mixtures of Local Experts

MoE可以理解成一种集成算法。其思想是训练多个神经网络(也就是多个专家，每一个专家是一个神经网络)。每个专家被指定应用于数据集的不同部分。这就是说，数据集可能有着多个不同的来源(意思是说数据集中的数据的产生方式不同)。不同来源提供的数据差距较大（但真实），因此我们为每一个来源的数据一个指定的神经网络来处理，而且模型还有一个managingneuralnet用来判断一个输入应该交给哪一个神经网络来处

CC‘s World·2025-04-15 19:53

MoE经典论文简述

1.开创工作1.1Adaptivemixturesoflocalexperts,NeuralComputation’1991论文：Adaptivemixturesoflocalexperts这是大多数MoE

comli_cn·2025-04-15 19:52

（15-1）DeepSeek混合专家模型初探：项目介绍+功能模块

混合专家模型（Mixture-of-Experts，缩写为MoE）是由DeepSeek-AI开发的一种创新的语言模型，旨在实现专家的终极专业化。

码农三叔·2025-04-12 07:49

大模型架构演进：从Transformer到Mixture of Experts（MoE）

1.Transformer架构基础1.1Transformer架构原理Transformer架构是大模型发展的重要基石，其核心原理基于自注意力机制（Self-AttentionMechanism）。在传统的循环神经网络（RNN）架构中，信息的传递是按顺序进行的，这使得模型在处理长序列数据时效率低下且难以捕捉长距离依赖关系。而Transformer架构通过自注意力机制，能够让模型在处理序列数据时，同

学习ing1·2025-04-10 23:13

DeepSeek大模型驱动多场景智能创作突破

内容概要人工智能技术正以混合专家架构（MixtureofExperts,MoE）为核心实现突破性进展。

智能计算研究中心·2025-04-09 15:41

大模型架构与训练方向

一、核心知识领域‌模型架构设计‌掌握Transformer、MoE（Mixture-of-Experts）、RetNet等主流架构的原理与实现细节，需深入理解注意力机制、位置编码、稀疏激活等技术‌13。

凌云C·2025-04-04 15:44

深度学习中的MoE与Transformer：应用、发展历史及对比

两种备受关注的架构是MixtureofExperts(MoE)和Transformer。这篇博客将详细介绍这两种架构的应用、发展历史，并通过表格进行对比。

可乐泡枸杞··2025-04-04 07:20

组基轨迹建模 GBTM的介绍与实现（Stata 或 R）

基本介绍组基轨迹建模（Group-BasedTrajectoryModeling，GBTM）（旧名称：Semiparametricmixturemodel）历史：由DANIELS.NAGIN提出，发表文献

探路者Myra·2025-04-02 02:58

DeepSeek大模型：全能解析与高效实践

内容概要DeepSeek大模型作为人工智能领域的前沿成果，以混合专家架构（MixtureofExperts）为核心技术框架，依托670亿参数的复杂网络设计，实现了多模态任务的深度融合。

智能计算研究中心·2025-04-01 13:20

【大模型篇】阿里云 Qwen2.5-Max：超大规模 MoE 模型架构和性能评估

一、引言Qwen2.5-Max是阿里云通义千问团队研发的超大规模Mixture-of-Expert（MoE）模型，旨在通过超大规模的数据和模型规模扩展来提升模型的智能水平。

大F的智能小课·2025-03-30 03:05

在光速的边缘：MiniMax-01的算法实现与细节解析

本文将深入探讨MiniMax-01系列模型的核心算法实现，尤其是其高效的“闪电注意力”（LightningAttention）机制及其与专家混合（MixtureofExperts,MoE）架构的结合。

步子哥·2025-03-26 02:23

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74825656·2025-03-24 11:01

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts

Coderabo·2025-03-22 04:41

DeepSeek混合专家架构赋能智能创作

内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。

智能计算研究中心·2025-03-21 00:38

DeepSeek 发布开源第二弹！让MoE架构效率提升的神助攻【DeepEP】

一、功能解析DeepEP旨在为MoE（MixtureofExperts）及其专家并行（Expert-Parallel）场景提供高效的通信库，核心功能包括：分发（Dispatch）：

碣石潇湘无限路·2025-03-16 17:51

Deepseek-R1大模型微调实战技术深度解析

一、Deepseek-R1架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构，通过MoE（Mixture-of-Experts）与MLA

大势下的牛马·2025-03-16 00:14

(4-4)DeepSeek底层架构技术：混合专家架构技术

2.4混合专家架构技术DeepSeek引入了混合专家架构（Mixture-of-Experts，MoE），将模型划分为多个专家子模型，每个子模型专注于处理不同的任务或领域。

码农三叔·2025-03-15 01:10

DeepSeek大模型如何提升论文与代码效率

内容概要DeepSeek大模型作为人工智能领域的前沿成果，通过670亿参数的混合专家架构（Mixture-of-Experts,MoE），在多模态任务处理与专业场景应用中展现了显著优势。

智能计算研究中心·2025-03-07 21:55

MOE（Mixture of Experts，混合专家）

目录MOE（MixtureofExperts，混合专家）一、MOE架构的核心概念二、MOE架构的工作原理三、MOE架构的优势四、MOE架构的举例五、MOE架构的应用场景MOE（MixtureofExperts

ZhangJiQun&MXP·2025-03-07 15:47

MoE-FFD：Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

来源：2024arXiv（submittedTDSC，CCF-A）作者：ChenqiKong1,AnweiLuo2,PeijunBao1,YiYu1,HaoliangLi3,ZengweiZheng4,ShiqiWang3andAlexC.Kot1单位：1新加坡南洋理工大学;2中山大学;3香港城市大学;4浙江大学;Paper：https://arxiv.org/pdf/2404.08452Code

Sherry Wangs·2025-03-07 15:44

推荐频道

MIXTURE

高斯混合模型（Gaussian Mixture Model, GMM）

【AI论文】MiniMax-M1：利用Lightning注意力机制高效扩展测试时计算

DeepEP开源MoE模型分布式通信库

Llama 4模型卡片及提示词模板

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

深度解析DeepSeek中的MoE混合专家模式：原理、实现与应用

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

高斯混合模型（Gaussian Mixture Model, GMM）

DeepSeek-V3与DeepSeek-R1架构原理及应用对比分析

《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》论文阅读

【代码解析】用PyTorch实现混合专家（MoE）语言模型

DeepSeek技术解析：MoE架构实现与代码实战

DeepSeek-V2：高效MoE与MLA创新架构

【论文速读】MOD，《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

MoE开山之作（1991年）——Adaptive Mixtures of Local Experts

【大模型】MoE论文简单解读

0基础小白入门必看：AI大模型基本概念与工具梳理

[论文笔记] 超详细解读DeepSeek v3全论文技术报告

深入理解与实现GM-PHD滤波算法：C++应用指南

《向量数据库指南》——稀疏激活：解锁大数据处理新纪元

Loss-Free Balancing MoE论文解读：无损负载均衡的突破

SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记

DeepSeek多语言AI模型：高效低成本重塑创作

DeepSeek-V3 技术解析：DeepSeek 如何优化 MoE？

DeepSeek Coder：面向编程的代码专用模型

【AI热点】meta新发布llama4深度洞察（快速认知）

Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

MoE架构解析：如何用“分治”思想打造高效大模型？

Visium HD 空间转录组分析探索之--细胞类型注释（RCTD解卷积）

【架构解析】深入浅析DeepSeek-V3的技术架构_deepseek 参数

【论文阅读】Adaptive Mixtures of Local Experts

MoE经典论文简述

（15-1）DeepSeek混合专家模型初探：项目介绍+功能模块

大模型架构演进：从Transformer到Mixture of Experts（MoE）

DeepSeek大模型驱动多场景智能创作突破

大模型架构与训练方向

深度学习中的MoE与Transformer：应用、发展历史及对比

组基轨迹建模 GBTM的介绍与实现（Stata 或 R）

DeepSeek大模型：全能解析与高效实践

【大模型篇】阿里云 Qwen2.5-Max：超大规模 MoE 模型架构和性能评估

在光速的边缘：MiniMax-01的算法实现与细节解析

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek混合专家架构赋能智能创作

DeepSeek 发布开源第二弹！让MoE架构效率提升的神助攻【DeepEP】

Deepseek-R1大模型微调实战技术深度解析

(4-4)DeepSeek底层架构技术：混合专家架构技术

DeepSeek大模型如何提升论文与代码效率

MOE（Mixture of Experts，混合专家）

MoE-FFD：Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection