MOE 第5页

论deepseek软件底层原理

DeepSeek软件底层原理剖析一、核心架构基石（一）混合专家架构（MoE）架构本质：MoE架构模拟人类专家协作模式，构建一个专家集合。每个专家模块专门负责特定类型或领域知识的处理。

星糖曙光·2025-02-17 13:49

DeepSeek 混合专家（MoE）架构技术原理剖析

DeepSeek混合专家（MoE）架构技术原理剖析在人工智能快速发展的当下，大规模语言模型不断突破创新，DeepSeek混合专家（MoE）架构脱颖而出，成为业内关注焦点。

计算机学长·2025-02-17 13:15

AI大模型的技术突破与传媒行业变革

这一突破的核心在于三大技术创新：MoE架构升级：通过部署256个细粒度专家网络，减少知识冗余，提升模型效率；MLA注意力机制：动态压缩推理过程中的缓存需求，降低GPU内存

AIQL·2025-02-17 07:52

Deepseek详细的自我介绍

研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块

welcome_123_·2025-02-16 16:06

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

deepseek与gpt，核心原理对比

一、模型架构DeepSeek混合专家（MoE）框架：DeepSeek采用了混合专家框架，其内部包含多个“专家”子模块，每个子模块专注于不同的任务或数据领域。

test猿·2025-02-16 04:30

开源大模型性能追平闭源模型技术路径分析

（预测实现时间：2025Q2）开源模型进化路径MoE架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析（2024Q3）1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理

Mr' 郑·2025-02-15 20:05

超火的Deepseek的MOE架构是什么?

DeepSeek的MOE（MixtureofExperts，混合专家）架构是一种基于专家模型（MixtureofExperts）的深度学习框架，旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能

魔王阿卡纳兹·2025-02-15 07:51

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型1.背景介绍在人工智能领域，语言模型和视觉模型的结合已经成为一个重要的研究方向。

AI天才研究院·2025-02-14 12:52

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

在MoE中，每个专家可能是一个这样的并行层，然后通过门控机制将输入路由到不同的专家。接下来，我需要思考ColumnParallelLinear的具体实现。

DukeYong·2025-02-13 18:00

100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？

目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准MOE架构2.1基本概念3.稀疏MOE架构3.1实现原理4.共享专家稀疏MOE架构4.1核心设计5.架构对比5.1主要特点对比

AI量金术师·2025-02-13 18:00

大模型笔记：pytorch实现MOE

0导入库importtorchimporttorch.nnasnnimporttorch.nn.functionalasF1专家模型#一个简单的专家模型，可以是任何神经网络架构classExpert(nn.Module):def__init__(self,input_size,output_size):super(Expert,self).__init__()self.fc=nn.Linear(i

UQI-LIUWJ·2025-02-12 23:37

最通俗易懂的方式，由浅入深地讲讲DeepSeek（深度求索）

它最核心的产品是大语言模型（你可以理解为"超级聊天机器人"），比如DeepSeek-R1、DeepSeek-MoE等。

Jing_saveSlave·2025-02-12 19:07

DeepSeek-V3：模型与权重全面解析

DeepSeek-V3是一款开创性的混合专家（Mixture-of-Experts,MoE）语言模型，以其创新的架构设计、高效的训练方法和卓越的性能，成为开源大语言模型领域的标杆。

步子哥·2025-02-12 11:13

DeepSeek V3 两周使用总结

官方宣称：（1）基于自研的MoE模型和671B参数，在14.8Ttoken上进行了预训练；（2）多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405

AI生成曾小健·2025-02-12 11:12

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

一、模型定位与技术背景DeepSeek-MoE-16b是深度求索（DeepSeek）研发的混合专家模型（MixtureofExperts,MoE），参数规模160亿，旨在通过稀疏化计算架构解决传统稠密模型

热爱分享的博士僧·2025-02-11 18:36

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

DeepSeek-V3模型简介DeepSeek-V3是DeepSeek发布的MoE（Mixture-of-Experts）大语言模型，总参数量为6710亿，每个token激活的参数量为370亿。

·2025-02-11 11:44

DeepSeek-v3笔记(1)

v3链接直接从第二章Architecture开始2.1BasicArchitecture基本方法就是v2的那一套，仍然是moe架构，采用MLA降显存，常驻专家和路由专家的混合使用。

蒸土豆的技术细节·2025-02-11 09:06

【AI学习】DeepSeek为什么强？

MoE、MLA这些？或许有一点

bylander·2025-02-11 03:17

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

的答案DeepSeek与ChatGPT作为当前两大主流AI模型，在架构设计、性能表现、应用场景等方面存在显著差异，以下从多个维度进行对比分析：一、架构与训练效率架构设计DeepSeek：采用混合专家（MoE

笑傲江湖2023·2025-02-10 12:45

MoE揭秘

众所周不知，2025年春节爆火的DeepSeek用了MoE架构，本人才疏学浅，想从技术角度深入讲解MoE（混合专家系统）的各个方面，包括数据准备、训练、部署、调用时的专家调度、缓存机制等，同时扩展一些相关的技术细节和实际工程中的挑战与解决方案

9命怪猫·2025-02-09 23:21

DeepSeek：全栈开发者视角下的AI革命者

目录DeepSeek：全栈开发者视角下的AI革命者前言一、DeepSeek的诞生与定位二、DeepSeek技术架构的颠覆性突破1、解构算力霸权：从MoE架构到内存革命2、多模态扩展的技术纵深3、算法范式的升维重构

北海屿鹿·2025-02-09 13:44

混合专家模型 (MoE) 最全详细图解

随着Mixtral8x7B(announcement,modelcard)的推出，一种称为混合专家模型(MixedExpertModels，简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨MoEs的核心组件、训练方法，以及在推理过程中需要考量的各种因素简短总结混合专家模型(MoEs):与稠密模型相比，预训练速度更快与具有相同参数数量的模型相比

DFCED·2025-02-09 10:23

DeepSeek-V3 技术报告（核心技术，接近5万字）

摘要我们介绍了一个强大的混合专家（MoE）语言模型DeepSeek-V3，它具有总计671亿个参数和每个令牌激活的37亿个。

zhangjiaofa·2025-02-09 10:21

DeepSeek模型全解析：赋能人工智能新纪元

以下是对DeepSeek模型的详尽剖析：一、模型概览DeepSeek，源自一家中国AI初创公司，其最新版本DeepSeek-V3是一款基于先进的Mixture-of-Experts（MoE）架构的语言模型

云梦优选·2025-02-08 23:01

DeepSeek MoE 项目教程

DeepSeekMoE项目教程DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE1、项目介绍DeepSeekMoE是一个基于Mixture-of-Experts

姬牧格Ivy·2025-02-08 10:59

大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南

一、DeepSeekAPI概览DeepSeekAPI基于先进的MoE模型，支持对话生成和补全，适用于聊天机器人、虚拟助手等应用场景。

西琴小竹·2025-02-08 06:50

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

在DeepSeek官网上看到，DeepSeek-V3、V2.5版本都用了MoE架构。但像Qwen、LLama模型，用的却是Dense架构，也就是传统的Transformer架构。

大模型_学习路线·2025-02-08 04:39

深度搜索MoE：利用大规模预训练模型提升信息检索效能

深度搜索MoE：利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE

杭律沛Meris·2025-02-07 15:20

MOE-conformer 流式多语种语音识别

MOE(MixtureofExperts)：MOE是一种通过专家混合来实现深度学习模型的方法，主要有以下特点：MOE由多个专家(Excpert)组成，每个专家是一个独立的神经网络(可以是MLP、CNN、

深度学习-视听觉·2025-02-07 14:16

大语言模型原理基础与前沿高效的MoE架构

大语言模型原理基础与前沿高效的MoE架构关键词：大语言模型，MoE架构，参数高效微调，分布式训练，模型压缩，推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大语言模型（LargeLanguageModels

AI架构设计之禅·2025-02-07 13:39

大模型生态开源工具整理

主要功能多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-

miracletiger·2025-02-07 08:35

DeepSeek R1和V3区别

DeepSeekR1和V3是深度求索（DeepSeek）推出的两款大模型，尽管基于相似的技术框架（如混合专家架构MoE），但在设计目标、训练方法、性能表现和应用场景上存在显著差异。

@Rocky·2025-02-06 23:02

大模型Dense、MoE 与 Hybrid-MoE 架构的比较

在大模型架构设计中，Dense（全连接）、MoE（混合专家）和Hybrid-MoE（混合式MoE）是三种主流的参数组织方式，它们在模型容量、计算效率和应用场景上存在显著差异。

灵机️·2025-02-06 14:00

昆仑万维官宣开源2000亿稀疏大模型Skywork-MoE

6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。

TMT星球·2025-02-05 16:50

MiniMax：人工智能领域的创新先锋

作为一家成立于2021年12月的通用人工智能科技公司，MiniMax专注于开发多模态、万亿参数的MoE（MixtureofExperts）大模型，并基于此推出了多种原生应用，如海螺AI、星野等。

程序猿000001号·2025-02-04 14:14

Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (MoE) 语言模型，旨在以更少的参数和计算量实现更高的准确率

高效计算：使用MoE架构，40B总参数中仅有3.7B激活参数，训练计算消耗仅为同规模密集模型的9.25%，推理成本与3.7B参数的密集模型相当。

东方佑·2025-02-04 06:01

MOE模型入门

一、目录定义：MOE架构代表类型如何解决expert平衡的？而不是集中到某一专家。如何训练、微调MOE模型？

云帆@·2025-02-04 01:29

微软推出GRIN-MoE：开创专家路由新范式

微软最近推出的GRIN-MoE（Gradient-InformedMixture-of-Experts）模型，以其独特的架构和显著的性能表现，正引领着AI技术的前沿，特别是在编码和数学任务上展现出强大的能力

OpenCSG·2025-02-04 01:25

Qwen2.5-Max

Qwen2.5-Max是阿里巴巴于2024年1月29日发布的一款旗舰级人工智能模型，基于混合专家（MoE）架构开发，拥有超过20万亿tokens的超大规模预训练数据。

百态老人·2025-02-03 20:18

将专家混合推向极限：参数效率极高的 MoE 指令调节

将专家混合推向极限：参数效率极高的MoE指令调节[email protected]=AhmetÜstünaffiliation

AI生成曾小健·2025-02-03 12:44

Mixture of Experts（MoE）学习笔记

1学习动机第一次了解到MoE（Mixtureofexperts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模型以MoE架构（8*220B）组合成一个万亿参数级别的模型

南七小僧·2025-02-03 12:44

什么是MOE架构？哪些大模型使用了MOE？

混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？

明哲AI·2025-02-03 06:18

谷歌Gemini1.5火速上线：MoE架构，100万上下文

谷歌Gemini1.5火速上线：MoE架构，100万上下文机器之心2024-02-1608:53北京机器之心报道机器之心编辑部今天，谷歌宣布推出Gemini1.5。

AI生成曾小健·2025-02-03 06:18

什么是MoE？

一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。

CM莫问·2025-02-03 05:14

DeepSeek-V2：强大、经济、高效的专家混合语言模型

DeepSeek-V2项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-V2项目介绍DeepSeek-V2是一款强大的专家混合（Mixture-of-Experts,MoE

乌芬维Maisie·2025-02-03 01:12

DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别

DeepSeek-V3：是混合专家（MoE）语言模型，采用Transformer架构。DeepSeek-VL：整体上是decoder-o

fpga和matlab·2025-02-03 01:12

国产大模型 DeepSeek，能跟 ChatGPT 一战，还不用梯子，确定不试试？

集成显卡·2025-02-02 21:38

【人工智能时代】-Deepseek用到的技术架构

以下是DeepSeek技术架构的详细介绍：1.混合专家架构（MoE）DeepSeek-V3采用了混合专家（Mixture-of-Experts,MoE）架构，这种架构通过将模型分解为多个“专家”网络来处理不同的输入特征

xiaoli8748_软件开发·2025-02-01 16:07

DeepSeek-V3 技术报告

1概述本文介绍了DeepSeek-V3，一个强大的混合专家（MoE）语言模型，总参数量为6710亿，每个token激活的参数量为370亿。

mingo_敏·2025-01-31 20:01

推荐频道

MOE