E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MOE
论deepseek软件底层原理
DeepSeek软件底层原理剖析一、核心架构基石(一)混合专家架构(
MoE
)架构本质:
MoE
架构模拟人类专家协作模式,构建一个专家集合。每个专家模块专门负责特定类型或领域知识的处理。
星糖曙光
·
2025-02-17 13:49
磨刀不误砍柴工(工具重要性)
AI作画
经验分享
人工智能
笔记
DeepSeek 混合专家(
MoE
)架构技术原理剖析
DeepSeek混合专家(
MoE
)架构技术原理剖析在人工智能快速发展的当下,大规模语言模型不断突破创新,DeepSeek混合专家(
MoE
)架构脱颖而出,成为业内关注焦点。
计算机学长
·
2025-02-17 13:15
通用大语言模型
人工智能
架构
AI大模型的技术突破与传媒行业变革
这一突破的核心在于三大技术创新:
MoE
架构升级:通过部署256个细粒度专家网络,减少知识冗余,提升模型效率;MLA注意力机制:动态压缩推理过程中的缓存需求,降低GPU内存
AIQL
·
2025-02-17 07:52
行业分析
人工智能
传媒
Deepseek详细的自我介绍
研发理念聚焦三个核心:-**高效性**:通过模型架构创新(如
MoE
)实现“小参数量,大性能”。-**可控性**:内置可解释性模块
welcome_123_
·
2025-02-16 16:06
人工智能
(15-3)DeepSeek混合专家模型初探:模型微调
3.4模型微调在本项目中,微调脚本文件finetune.py提供了一套全面的工具,用于对DeepSeek-
MoE
预训练语言模型进行微调。
码农三叔
·
2025-02-16 16:35
训练
RAG
多模态)
人工智能
Deekseep
深度学习
大模型
transformer
deepseek与gpt,核心原理对比
一、模型架构DeepSeek混合专家(
MoE
)框架:DeepSeek采用了混合专家框架,其内部包含多个“专家”子模块,每个子模块专注于不同的任务或数据领域。
test猿
·
2025-02-16 04:30
gpt
开源大模型性能追平闭源模型技术路径分析
(预测实现时间:2025Q2)开源模型进化路径
MoE
架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析(2024Q3)1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理
Mr' 郑
·
2025-02-15 20:05
开源
超火的Deepseek的
MOE
架构是什么?
DeepSeek的
MOE
(MixtureofExperts,混合专家)架构是一种基于专家模型(MixtureofExperts)的深度学习框架,旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能
魔王阿卡纳兹
·
2025-02-15 07:51
大模型知识札记
架构
DeepSeek
MoE
大模型
大语言模型原理基础与前沿 通过稀疏
MoE
扩展视觉语言模型
大语言模型原理基础与前沿通过稀疏
MoE
扩展视觉语言模型1.背景介绍在人工智能领域,语言模型和视觉模型的结合已经成为一个重要的研究方向。
AI天才研究院
·
2025-02-14 12:52
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
Deepseek的
MOE
架构中ColumnParallelLinear()是怎么实现的
在
MoE
中,每个专家可能是一个这样的并行层,然后通过门控机制将输入路由到不同的专家。接下来,我需要思考ColumnParallelLinear的具体实现。
DukeYong
·
2025-02-13 18:00
架构
100.10 AI量化面试题:AI大模型中的
MOE
架构主要类型,和DeepSeek使用了哪一种类型?
目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准
MOE
架构2.1基本概念3.稀疏
MOE
架构3.1实现原理4.共享专家稀疏
MOE
架构4.1核心设计5.架构对比5.1主要特点对比
AI量金术师
·
2025-02-13 18:00
金融资产组合模型进化论
人工智能
架构
金融
lstm
python
机器学习
大模型笔记:pytorch实现
MOE
0导入库importtorchimporttorch.nnasnnimporttorch.nn.functionalasF1专家模型#一个简单的专家模型,可以是任何神经网络架构classExpert(nn.Module):def__init__(self,input_size,output_size):super(Expert,self).__init__()self.fc=nn.Linear(i
UQI-LIUWJ
·
2025-02-12 23:37
pytorch学习
笔记
pytorch
人工智能
最通俗易懂的方式,由浅入深地讲讲DeepSeek(深度求索)
它最核心的产品是大语言模型(你可以理解为"超级聊天机器人"),比如DeepSeek-R1、DeepSeek-
MoE
等。
Jing_saveSlave
·
2025-02-12 19:07
AI
ai
chatgpt
AI编程
DeepSeek-V3:模型与权重全面解析
DeepSeek-V3是一款开创性的混合专家(Mixture-of-Experts,
MoE
)语言模型,以其创新的架构设计、高效的训练方法和卓越的性能,成为开源大语言模型领域的标杆。
步子哥
·
2025-02-12 11:13
AGI通用人工智能
人工智能
DeepSeek V3 两周使用总结
官方宣称:(1)基于自研的
MoE
模型和671B参数,在14.8Ttoken上进行了预训练;(2)多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405
AI生成曾小健
·
2025-02-12 11:12
LLM大语言模型
Deepseek原理与使用
人工智能
DeepSeek-
MoE
-16b:高效稀疏架构引领大模型降本增效革命
一、模型定位与技术背景DeepSeek-
MoE
-16b是深度求索(DeepSeek)研发的混合专家模型(MixtureofExperts,
MoE
),参数规模160亿,旨在通过稀疏化计算架构解决传统稠密模型
热爱分享的博士僧
·
2025-02-11 18:36
架构
云上一键部署 DeepSeek-V3 模型,阿里云PAI Model Gallery 最佳实践
DeepSeek-V3模型简介DeepSeek-V3是DeepSeek发布的
MoE
(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个token激活的参数量为370亿。
·
2025-02-11 11:44
DeepSeek-v3笔记(1)
v3链接直接从第二章Architecture开始2.1BasicArchitecture基本方法就是v2的那一套,仍然是
moe
架构,采用MLA降显存,常驻专家和路由专家的混合使用。
蒸土豆的技术细节
·
2025-02-11 09:06
笔记
【AI学习】DeepSeek为什么强?
MoE
、MLA这些?或许有一点
bylander
·
2025-02-11 03:17
AI学习
人工智能
学习
gpt
DeepSeek和ChatGPT的优劣或者区别(答案来DeepSeek和ChatGPT)
的答案DeepSeek与ChatGPT作为当前两大主流AI模型,在架构设计、性能表现、应用场景等方面存在显著差异,以下从多个维度进行对比分析:一、架构与训练效率架构设计DeepSeek:采用混合专家(
MoE
笑傲江湖2023
·
2025-02-10 12:45
chatgpt
人工智能
MoE
揭秘
众所周不知,2025年春节爆火的DeepSeek用了
MoE
架构,本人才疏学浅,想从技术角度深入讲解
MoE
(混合专家系统)的各个方面,包括数据准备、训练、部署、调用时的专家调度、缓存机制等,同时扩展一些相关的技术细节和实际工程中的挑战与解决方案
9命怪猫
·
2025-02-09 23:21
软件架构
AI
人工智能
ai
DeepSeek:全栈开发者视角下的AI革命者
目录DeepSeek:全栈开发者视角下的AI革命者前言一、DeepSeek的诞生与定位二、DeepSeek技术架构的颠覆性突破1、解构算力霸权:从
MoE
架构到内存革命2、多模态扩展的技术纵深3、算法范式的升维重构
北海屿鹿
·
2025-02-09 13:44
人工智能
机器学习
语言模型
人工智能
混合专家模型 (
MoE
) 最全详细图解
随着Mixtral8x7B(announcement,modelcard)的推出,一种称为混合专家模型(MixedExpertModels,简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨MoEs的核心组件、训练方法,以及在推理过程中需要考量的各种因素简短总结混合专家模型(MoEs):与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比
DFCED
·
2025-02-09 10:23
人工智能算法前沿
AIGC算法学术工业技术前沿
混合专家网络
MOE
DeepSeek
人工智能
深度学习
大模型
DeepSeek-V3 技术报告 (核心技术,接近5万字)
摘要我们介绍了一个强大的混合专家(
MoE
)语言模型DeepSeek-V3,它具有总计671亿个参数和每个令牌激活的37亿个。
zhangjiaofa
·
2025-02-09 10:21
DeepSeek
R1&
AI人工智能大模型
DeepSeek
V3
DeepSeek模型全解析:赋能人工智能新纪元
以下是对DeepSeek模型的详尽剖析:一、模型概览DeepSeek,源自一家中国AI初创公司,其最新版本DeepSeek-V3是一款基于先进的Mixture-of-Experts(
MoE
)架构的语言模型
云梦优选
·
2025-02-08 23:01
算法
python
计算机
人工智能
大数据
DeepSeek
MoE
项目教程
DeepSeekMoE项目教程DeepSeek-
MoE
项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-
MoE
1、项目介绍DeepSeekMoE是一个基于Mixture-of-Experts
姬牧格Ivy
·
2025-02-08 10:59
大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南
一、DeepSeekAPI概览DeepSeekAPI基于先进的
MoE
模型,支持对话生成和补全,适用于聊天机器人、虚拟助手等应用场景。
西琴小竹
·
2025-02-08 06:50
DeepSeek为什么采用与主流大模型不一样的
MoE
架构?一文搞懂什么是
MoE
模型
在DeepSeek官网上看到,DeepSeek-V3、V2.5版本都用了
MoE
架构。但像Qwen、LLama模型,用的却是Dense架构,也就是传统的Transformer架构。
大模型_学习路线
·
2025-02-08 04:39
架构
人工智能
AI大模型
大模型
自然语言处理
LLM
DeepSeek
深度搜索
MoE
:利用大规模预训练模型提升信息检索效能
深度搜索
MoE
:利用大规模预训练模型提升信息检索效能DeepSeek-
MoE
项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-
MoE
项目简介DeepSeek-
MoE
杭律沛Meris
·
2025-02-07 15:20
MOE
-conformer 流式多语种语音识别
MOE
(MixtureofExperts):
MOE
是一种通过专家混合来实现深度学习模型的方法,主要有以下特点:
MOE
由多个专家(Excpert)组成,每个专家是一个独立的神经网络(可以是MLP、CNN、
深度学习-视听觉
·
2025-02-07 14:16
语音识别
人工智能
大语言模型原理基础与前沿 高效的
MoE
架构
大语言模型原理基础与前沿高效的
MoE
架构关键词:大语言模型,
MoE
架构,参数高效微调,分布式训练,模型压缩,推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展,大语言模型(LargeLanguageModels
AI架构设计之禅
·
2025-02-07 13:39
DeepSeek
R1
&
大数据AI人工智能
Python入门实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
大模型生态开源工具整理
主要功能多种模型:LLaMA、LLaVA、Mistral、Mixtral-
MoE
、Qwen、Qwen2-
miracletiger
·
2025-02-07 08:35
开源
DeepSeek R1和V3区别
DeepSeekR1和V3是深度求索(DeepSeek)推出的两款大模型,尽管基于相似的技术框架(如混合专家架构
MoE
),但在设计目标、训练方法、性能表现和应用场景上存在显著差异。
@Rocky
·
2025-02-06 23:02
大模型
语言模型
大模型Dense、
MoE
与 Hybrid-
MoE
架构的比较
在大模型架构设计中,Dense(全连接)、
MoE
(混合专家)和Hybrid-
MoE
(混合式
MoE
)是三种主流的参数组织方式,它们在模型容量、计算效率和应用场景上存在显著差异。
灵机️
·
2025-02-06 14:00
人工智能
深度学习
架构
人工智能
昆仑万维官宣开源2000亿稀疏大模型Skywork-
MoE
6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-
MoE
,性能强劲,同时推理成本更低。
TMT星球
·
2025-02-05 16:50
人工智能
人工智能
MiniMax:人工智能领域的创新先锋
作为一家成立于2021年12月的通用人工智能科技公司,MiniMax专注于开发多模态、万亿参数的
MoE
(MixtureofExperts)大模型,并基于此推出了多种原生应用,如海螺AI、星野等。
程序猿000001号
·
2025-02-04 14:14
人工智能
Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (
MoE
) 语言模型,旨在以更少的参数和计算量实现更高的准确率
高效计算:使用
MoE
架构,40B总参数中仅有3.7B激活参数,训练计算消耗仅为同规模密集模型的9.25%,推理成本与3.7B参数的密集模型相当。
东方佑
·
2025-02-04 06:01
量子变法
架构
语言模型
人工智能
MOE
模型入门
一、目录定义:
MOE
架构代表类型如何解决expert平衡的?而不是集中到某一专家。如何训练、微调
MOE
模型?
云帆@
·
2025-02-04 01:29
AI
人工智能
微软推出GRIN-
MoE
:开创专家路由新范式
微软最近推出的GRIN-
MoE
(Gradient-InformedMixture-of-Experts)模型,以其独特的架构和显著的性能表现,正引领着AI技术的前沿,特别是在编码和数学任务上展现出强大的能力
OpenCSG
·
2025-02-04 01:25
microsoft
Qwen2.5-Max
Qwen2.5-Max是阿里巴巴于2024年1月29日发布的一款旗舰级人工智能模型,基于混合专家(
MoE
)架构开发,拥有超过20万亿tokens的超大规模预训练数据。
百态老人
·
2025-02-03 20:18
笔记
大数据
人工智能
将专家混合推向极限:参数效率极高的
MoE
指令调节
将专家混合推向极限:参数效率极高的
MoE
指令调节
[email protected]
=AhmetÜstünaffiliation
AI生成曾小健
·
2025-02-03 12:44
#
混合专家模型MOE
人工智能
大语言模型
Mixture of Experts(
MoE
)学习笔记
1学习动机第一次了解到
MoE
(Mixtureofexperts),是在GPT-4模型架构泄漏事件,听说GPT-4的架构是8个GPT-3级别大小的模型以
MoE
架构(8*220B)组合成一个万亿参数级别的模型
南七小僧
·
2025-02-03 12:44
人工智能
网站开发
医疗器械研发
学习
笔记
人工智能
MoE
大模型
什么是
MOE
架构?哪些大模型使用了
MOE
?
混合专家模型(MixtureofExperts,简称
MoE
)作为一种创新的架构设计,为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型?
明哲AI
·
2025-02-03 06:18
AIGC
架构
人工智能
大模型
MOE
谷歌Gemini1.5火速上线:
MoE
架构,100万上下文
谷歌Gemini1.5火速上线:
MoE
架构,100万上下文机器之心2024-02-1608:53北京机器之心报道机器之心编辑部今天,谷歌宣布推出Gemini1.5。
AI生成曾小健
·
2025-02-03 06:18
#
混合专家模型MOE
LLM大语言模型
人工智能
深度学习
pytorch
机器学习
python
什么是
MoE
?
一、概念
MoE
(MixtureofExperts)是一种深度学习架构,它结合了多个专家模型(Experts)和一个门控机制(GatingMechanism)来处理不同的输入数据或任务。
CM莫问
·
2025-02-03 05:14
深度学习
人工智能算法常见概念
人工智能
算法
python
深度学习
MoE
混合专家模型
机器学习
DeepSeek-V2:强大、经济、高效的专家混合语言模型
DeepSeek-V2项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-V2项目介绍DeepSeek-V2是一款强大的专家混合(Mixture-of-Experts,
MoE
乌芬维Maisie
·
2025-02-03 01:12
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
DeepSeek-V3:是混合专家(
MoE
)语言模型,采用Transformer架构。DeepSeek-VL:整体上是decoder-o
fpga和matlab
·
2025-02-03 01:12
前言技术汇集
#
人工智能
大模型
DeepSeek
国产大模型 DeepSeek,能跟 ChatGPT 一战,还不用梯子,确定不试试?
深度求索公司最新推出的自研
MoE
模型DeepSeek-V3,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude
集成显卡
·
2025-02-02 21:38
AI/人工智能
chatgpt
【人工智能时代】-Deepseek用到的技术架构
以下是DeepSeek技术架构的详细介绍:1.混合专家架构(
MoE
)DeepSeek-V3采用了混合专家(Mixture-of-Experts,
MoE
)架构,这种架构通过将模型分解为多个“专家”网络来处理不同的输入特征
xiaoli8748_软件开发
·
2025-02-01 16:07
人工智能
DeepSeek-V3 技术报告
1概述本文介绍了DeepSeek-V3,一个强大的混合专家(
MoE
)语言模型,总参数量为6710亿,每个token激活的参数量为370亿。
mingo_敏
·
2025-01-31 20:01
LLM
深度学习
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他