MOE 第6页

DeepSeek：LLM在MoE训练中的无损平衡

标题：AUXILIARY-LOSS-FREELOADBALANCINGSTRAT-EGYFORMIXTURE-OF-EXPERTS来源：arXiv,2408.15664摘要对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或计算开销增加

大模型任我行·2025-01-30 16:24

《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙

在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。

大禹智库·2025-01-30 07:13

【深度分析】Deepseek为什么会这么爆火？

效率革命的背后暗藏致命悖论：MoE架构创造的11倍训练效率奇迹，是否

精通代码大仙·2025-01-30 06:35

如何评价deepseek上线的deepseek-V3模型？怎么使用？

DeepSeek-V3模型是深度求索公司最新推出的自研MoE（混合专家）模型，具有6710亿参数，激活参数为370亿，经过14.8万亿token的预训练。

百态老人·2025-01-30 01:36

DeepSeek 模型：架构创新与实际应用详解

汪子熙·2025-01-29 23:52

AI语言模型竞争加剧：新秀崛起格局生变

MoE架构在计算效率和性能

XianxinMao·2025-01-27 14:11

【AI工具】夸克AI试用：分析DeepSeek-V3技术报告

下面是分析的具体内容》AI文件总结DeepSeek-V3技术报告分析报告引言DeepSeek-V3是一个拥有6710亿参数的专家混合（MoE）语言模型，每次生

bylander·2025-01-26 17:14

DeepSeek 公开新的模型权重

工作原理混合专家架构（MoE）：DeepSeek-V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama3.1405B，训练时间大幅缩

数据分析能量站·2025-01-24 19:22

DeepSeek-V2

DeepSeek-V2是由幻方量化旗下的AI公司DeepSeek发布的第二代MoE（Mixture-of-Experts）大模型，具有显著的性能和成本优势。

百态老人·2025-01-22 14:55

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform

m0_74823683·2025-01-21 20:08

DeepSeek V3：新一代开源 AI 模型，多语言编程能力卓越

DeepSeekV3的核心亮点DeepSeekV3是一款基于混合专家（MoE）架构的大型语言模型，

that's boy·2025-01-19 10:35

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform

XianxinMao·2025-01-18 05:21

6850亿参数混合专家(MoE)架构开源大模型！Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？真能超越Claude还是言过其实？

本篇笔记所对应的视频：6850亿参数混合专家(MoE)架构开源大模型！DeepseekV3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？

AI超元域·2025-01-17 04:19

Angular.js 应用里如何实现列表应用

angular.module('nameApp',[]);nameApp.controller('NameCtrl',function($scope){$scope.Ionames=['Larry','Curly','Moe

·2025-01-16 22:04

微软开源 Phi-3.5 视觉模型

微软刚刚发布了Phi3.5系列模型，一个小型模型("Mini")、一个混合模型("MoE")和一个视觉模型。

三花AI·2024-09-08 02:19

微软推出Phi-3.5系列AI模型

这一系列包括三款轻量级AI模型：Phi-3.5-MoE、Phi-3.5-vision和Phi-3.5-mini。这些模型基于合成数据和经过过滤的公开网站构建，上下文窗口为128K。

百态老人·2024-09-08 02:19

大模型训练和推理

基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行（2）数据并行4.MoE

李明朔·2024-08-30 01:27

paddle nlp 3.0 全面拥抱开源大模型

阿里云通义千问（Qwen2）系列大模型介绍阿里云通义千问（Qwen2）是阿里云推出的一系列先进的大型语言模型，涵盖了从轻量级到超大规模的各种模型，包括混合专家模型（Mixture-of-Experts,MoE

路人与大师·2024-08-24 04:40

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

吃果冻不吐果冻皮·2024-02-20 21:39

谷歌Gemini1.5火速上线：MoE架构，100万上下文

Gemini1.5建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合(MoE)架构使Gemini1.5的训练和服务更加高效。

人工智能与算法学习·2024-02-20 13:02

考研路在何方6

接上一篇文章，就笔者在海文这几年的一线经历，先给大家分享一下考研中涉及到的“少数民族高层次骨干人才计划”http://www.moe.gov.cn/srcsite/A09/moe_763/201909/

胡萝卜兔兔兔·2024-02-20 06:57

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型

TigerZ*·2024-02-12 06:40

这款对标ChatGPT的国产MoE大模型重磅更新！集AI对话、AI绘画、AI阅读、AI写作于一体！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。昆仑万维在2月6日宣布推出其最新的大语言模型“天工2.0”及其配套的“天工AI

木易AI信息差·2024-02-11 13:49

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

本文是LLM系列文章，针对《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》的翻译。

UnknownBody·2024-02-07 16:53

昆仑万维发布天工 2.0 大语言模型及AI助手App；AI成功破解2000年前碳化古卷轴

AI新闻昆仑万维发布天工2.0大语言模型及AI助手App摘要：昆仑万维近日推出了新版MoE大语言模型“天工2.0”和相应的“天工AI智能助手”App，宣称为国内首个面向C端用户免费的基于MoE架构的千亿级参数大模型应用

go2coding·2024-02-07 12:51

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。为增强LVLMs提供了更高效、更有效的解决方案，而不受传统缩放方法的典型限制。

deephub·2024-02-07 11:01

「天工2.0」MoE大模型发布

北京时间2月6日，昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP，这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。

光锥智能·2024-02-06 18:29

互联网摸鱼日报(2024-02-02)

互联网摸鱼日报(2024-02-02)博客园新闻马斯克：Neuralink已探测到神经信号Linus新年首骂：和谷歌大佬大吵4天，“你的代码就是垃圾”从零手搓MoE大模型，大神级教程来了无人出租车深圳中心区收费载客

每日摸鱼大王·2024-02-03 06:29

卓世科技与北京寿山福海达成战略合作，共创康养行业新篇章

卓世科技致力于构建强大的AI中间层能力，以璇玑玉衡行业模型为基础，借助Agent和MoE融合架构的中间层能力为支撑，为各类企业用户提供标准化一

科技赋能生活·2024-02-02 15:23

Nous Hermes 2：超越Mixtral 8x7B的MOE模型新高度

最近，NousResearch公司发布了其基于Mixtral8x7B开发的新型大模型——NousHermes2，这一模型在多项基准测试中超越了Mixtral8x7BInstruct，标志着MOE（MixtureofExperts

努力犯错·2024-02-01 14:43

Docker Buildx 版本更新引起的镜像血案

❝本文转自NovaKwok的博客，原文：https://nova.moe/docker-attestation/，版权归原作者所有。

米开朗基杨·2024-01-31 16:45

datawhale 大模型学习第八章-分布式训练

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。

fan_fan_feng·2024-01-29 18:25

降本增效及大模型优化调研总结[小工蚁视频调研]

智谱AIGLM4和InternLM2国产大语言模型更新迭代#小工蚁-小工蚁创始人-小工蚁创始人-哔哩哔哩视频(bilibili.com)Glm4可调研国产首个开源MoE大

河南-殷志强·2024-01-27 02:58

MoEs学习

MoE层包含若干“专家”(例如8个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络(FFN)，但它们也可以是更复杂的网络结构，甚至可以是MoE层

银晗·2024-01-25 08:51

MOE介绍混合专家模型

GShardarxiv链接GShard模型架构图：参考GShard论文笔记（1）-MoE结构可知，MOE具备以下几种特点：改造了原本的FFN层，变成Gate+n个FFN层。

duoyasong5907·2024-01-23 22:50

社科大-美国杜兰大学金融管理硕士成为了许多金融从业者追求的目标

社科大-美国杜兰大学金融管理硕士成为了许多金融从业者追求的目标社科大-美国杜兰大学金融管理硕士项目自2012年6月正式获得教育部审批（批准书编号：MOE11US1A20131203N），同时于2016年

Gscass2021·2024-01-23 15:43

AI通用大模型 —— Pathways，MoE, etc.

文章目录Pathways现有AI缺憾PathwaysCanDoMultipleTasksMultipleSensesSparseandEfficientMixtureofExperts（MoE）NeuralComputation

人生简洁之道·2024-01-23 04:29

考研路在何方8

接上一篇文章，就笔者在海文这几年的一线经历，先给大家分享一下考研中涉及到的“退役大学生士兵”专项硕士研究生招生计划http://www.moe.gov.cn/srcsite/A15/moe_778/s3113

胡萝卜兔兔兔·2024-01-23 03:59

大模型的高效训练和部署技术卷出新高度

例如2016年，世界最好的大模型ResNet-50，参数量约为2000万；而到2020年的GPT-3模型，参数量已达到1750亿；到今天，根据OpenAI透露的消息，MOE混合专家系统这种架构的大模型参数量大约

AI知识图谱大本营·2024-01-22 22:20

深圳全职3宝妈的日常一天：1人搞定3娃的超人妈妈

这则视频也不是什么爆炸性的社会新闻事件，只是简单记录了一个日本全职妈妈MOE普普通通的一天。在我们印象当中，日本妈妈无所不能的形象深入人心，家务、育儿、护肤、化妆、料理园艺等...似乎样样都精通。

郭小艳Wendy·2024-01-22 03:56

快速玩转 Mixtral 8x7B MOE大模型！阿里云机器学习 PAI 推出最佳实践

作者：熊兮、贺弘、临在Mixtral8x7B大模型是MixtralAI推出的基于decoder-only架构的稀疏专家混合网络（Mixture-Of-Experts，MOE）开源大语言模型。

阿里云大数据AI技术·2024-01-20 21:04

gitgud.io+Sapphire注册账号教程

（Sapphire的网址是https://accounts.sapphire.moe/）这里面要填邮箱，handel，密码，验证码。主要是这个handel不

chari克里·2024-01-20 21:17

突破界限：首个国产DeepSeek MoE的高效表现

前言在人工智能技术的快速发展过程中，国产首个开源MoE（MixtureofExperts）大模型——DeepSeekMoE的推出，不仅标志着中国在全球AI领域的重大突破，而且在计算效率和模型性能上展现了显著的优势

努力犯错·2024-01-19 23:54

视频播放器-MPC-HC

好多滤镜呀、、、传说的最高画质]MPC-HC+ffdshow+madVRhttps://aoikaze.moe/613

我最有才·2024-01-19 16:00

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

具体来说，它提出了一种名为DeepSeekMoE的新型Mixture-of-Experts（MoE）架构，以实现专家的终极专业化。

步子哥·2024-01-19 11:59

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

文章目录一、前言二、主要内容三、总结CSDN叶庭云：https://yetingyun.blog.csdn.net/一、前言在大语言模型时代，混合专家模型（MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本

叶庭云·2024-01-19 11:48

比亚迪发布璇玑AI大模型；微软推出Copilot Pro；国内首个MoE模型上线

比亚迪发布璇玑AI大模型1月16日，在2024比亚迪梦想日活动上，比亚迪正式发布了整车智能化架构「璇玑」及「璇玑AI大模型」。比亚迪产品规划及汽车新技术研究院院长杨冬生称，「璇玑」是行业首个智电融合的智能化架构，让汽车拥有了智能化的「大脑」和「神经网络」，使其可以像高级智慧生命体一样全面感知、集中思考、精准控制和协同执行。同时，比亚迪「璇玑」AI大模型，也是首次将人工智能应用到车辆全领域。据介绍，

无际Ai·2024-01-18 06:10

揭秘全球首个开源MoE模型：Mixtral-8x7B

MistralAI首个开源MoE大模型Mixtral8x7B，无良媒体宣称，已经达到甚至超越了Llama270B和GPT-3.5的水平。

AI星球·2024-01-17 18:09

阿里云起诉山寨通义千问App一审胜诉；苹果成为2023年智能手机销售冠军；Win 11彻底消灭写字板 | 极客头条

国内大模型打假胜诉第一案：阿里云起诉山寨通义千问App一审胜诉国内首个MoE模型abab6上线华为鸿蒙系统开始全面脱离安卓未适配应用转成虚拟机比亚迪发布璇玑AI大模型网易有道知识库问答引擎QAnyt

极客日报·2024-01-17 09:19

不是 GPT4 用不起，而是本地运行 Mixtral-8x7B 更有性价比

这称为“专家组合”(MixtureofExperts，缩写为MoE)。输入文本根据内容和所需任务会被分派给8个专家模型中的一个。然后，小组中的其他专家模型会评估结果，从而改进未来

xiangzhihong8·2024-01-15 10:04

推荐频道

MOE

DeepSeek：LLM在MoE训练中的无损平衡

《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙

【深度分析】Deepseek为什么会这么爆火？

如何评价deepseek上线的deepseek-V3模型？怎么使用？

DeepSeek 模型：架构创新与实际应用详解

AI语言模型竞争加剧：新秀崛起 格局生变

【AI工具】夸克AI试用：分析DeepSeek-V3技术报告

DeepSeek 公开新的模型权重

DeepSeek-V2

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

DeepSeek V3：新一代开源 AI 模型，多语言编程能力卓越

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

6850亿参数混合专家(MoE)架构开源大模型！Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？真能超越Claude还是言过其实？

Angular.js 应用里如何实现列表应用

微软开源 Phi-3.5 视觉模型

微软推出Phi-3.5系列AI模型

大模型训练和推理

paddle nlp 3.0 全面拥抱开源大模型

大模型量化技术原理-LLM.int8()、GPTQ

谷歌Gemini1.5火速上线：MoE架构，100万上下文

考研路在何方6

VLM 系列——MoE-LLaVa——论文解读

这款对标ChatGPT的国产MoE大模型重磅更新！集AI对话、AI绘画、AI阅读、AI写作于一体！

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

昆仑万维发布天工 2.0 大语言模型及AI助手App；AI成功破解2000年前碳化古卷轴

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

「天工2.0」MoE大模型发布

互联网摸鱼日报(2024-02-02)

卓世科技与北京寿山福海达成战略合作，共创康养行业新篇章

Nous Hermes 2：超越Mixtral 8x7B的MOE模型新高度

Docker Buildx 版本更新引起的镜像血案

datawhale 大模型学习 第八章-分布式训练

降本增效及大模型优化调研总结[小工蚁视频调研]

MoEs学习

MOE介绍 混合专家模型

社科大-美国杜兰大学金融管理硕士成为了许多金融从业者追求的目标

AI通用大模型 —— Pathways，MoE, etc.

考研路在何方8

大模型的高效训练和部署技术卷出新高度

深圳全职3宝妈的日常一天：1人搞定3娃的超人妈妈

快速玩转 Mixtral 8x7B MOE大模型！阿里云机器学习 PAI 推出最佳实践

gitgud.io+Sapphire注册账号教程

突破界限：首个国产DeepSeek MoE的高效表现

视频播放器-MPC-HC

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

比亚迪发布璇玑AI大模型；微软推出Copilot Pro；国内首个MoE模型上线

揭秘全球首个开源MoE模型：Mixtral-8x7B

阿里云起诉山寨通义千问App一审胜诉；苹果成为2023年智能手机销售冠军；Win 11彻底消灭写字板 | 极客头条

不是 GPT4 用不起，而是本地运行 Mixtral-8x7B 更有性价比

AI语言模型竞争加剧：新秀崛起格局生变

datawhale 大模型学习第八章-分布式训练

MOE介绍混合专家模型