E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
DeepSeek-V3
美国AI圈破防了。。。
原创HaFung覺Cha2025年01月25日17:46福建这一个月以来刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震惊、半懵逼的状态...应激来源➡来自中国的开源MoE模型
DeepSeek-V3
强化学习曾小健
·
2025-03-07 13:43
LLM大语言模型
人工智能
【AGI】DeepSeek开源周:The whale is making waves!
思维火花引言一、DeepSeek模型体系的技术演进1.通用语言模型:
DeepSeek-V3
系列2.推理优化模型:DeepSeek-R1系列3.多模态模型:Janus系列二、开源周三大工具库的技术解析1.
LeeZhao@
·
2025-03-07 09:10
AIGC重塑生活神器
agi
开源
人工智能
AIGC
生活
语言模型
智能家居与建筑设计的未来:智能化工具助力创新
最新接入
DeepSeek-V3
模型,点击下载最新版本InsCodeAIIDE智能家居与建筑设计的未来:智能化工具助力创新随着科技的飞速发展,智能家居和建筑设计领域正经历着前所未有的变革。
inscode_013
·
2025-03-06 17:02
数据分析新时代:AI驱动的高效开发与智能决策
最新接入
DeepSeek-V3
模型,点击下载最新版本InsCodeAIIDE数据分析新时代:AI驱动的高效开发与智能决策在当今数字化转型的大潮中,数据分析已经成为企业决策、产品优化和市场洞察的核心驱动力
inscode_017
·
2025-03-06 10:05
自然语言模型(NLP)介绍
二、核心技术解析1.DeepSeek模型架构混合专家模型(MoE):
DeepSeek-V3
采用Mo
Liudef06
·
2025-03-06 04:11
Stable
Diffusion
自然语言处理
人工智能
一文看懂 DeepSeek 版本全解析
目录一、DeepSeek:AI领域的闪耀新星二、各版本深度剖析(一)DeepSeek-V1:初露锋芒(二)DeepSeek-V2系列:性能进阶(三)DeepSeek-V2.5系列:能力提升(四)
DeepSeek-V3
奔跑吧邓邓子
·
2025-03-05 13:03
项目实战
人工智能
deepseek
版本
大模型训练内存预估计算方法
方法论大模型在训练过程中,需要预估需要多少显存进行参数的存储,需要进行预估.来方便GPU的购买.举例以
DeepSeek-V3
模型为例,总共有671B个参数.B=Billion(十亿),因此,671B模型指拥有
junjunzai123
·
2025-03-05 13:29
人工智能
深度学习
机器学习
DeepSeek 各版本的区别
DeepSeek各版本的区别主要体现在参数规模、架构设计、性能表现、硬件需求以及适用场景等方面,具体对比如下:一、参数规模与模型架构基础版(
DeepSeek-V3
)参数规模:6710亿参数(671B),
dushky
·
2025-03-05 12:25
ai
语言模型
AI编程
DeepSeek-OpenSourceWeek-第六天-Inference System Overview
开源周的第6天,DeepSeek对
DeepSeek-V3
/R1推理系统进行了深入概述。本文将深入探讨该系统的设计原则、优化策略以及性能统计数据,重点突出在吞吐量和延迟优化方面取得的显著进展。
数据分析能量站
·
2025-03-04 01:57
机器学习
人工智能
超越GPT-4o!开源大模型DeepSeek满血版部署实战指南
春节期间,这款国产大模型在技术社区持续刷屏,其爆火背后隐藏着三大核心优势:性能碾压级表现在数学、代码等复杂推理场景中,
DeepSeek-v3
已实现对GPT-4o的全面超越,而
剑圣土豆
·
2025-03-03 07:34
大模型部署
开源
自然语言处理
人工智能
Deepseek相关梳理
12月26日,
DeepSeek-V3
首个版本上线并开源。2025年1月20日,正式发
stars and seas
·
2025-03-02 11:50
人工智能
科技快讯 | DeepSeek宣布开源DeepGEMM;多个团队开发AI论文反识别技术;OpenAI GPT 4.5现身Android测试版,即将发布
DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,如
DeepSeek-V3
中所提出。它支持普通和混合专家(MoE)分组的GEMM。
最新科技快讯
·
2025-03-01 23:18
科技
DeepSeek突袭公布成本利润率:545%
就在刚刚,DeepSeek官方亲自揭秘了
DeepSeek-V3
/R1推理系统。
·
2025-03-01 18:29
量子位
DeepSeek服务繁忙的一种方案-硅基流动免费增送2000 万 Tokens
DeePseek服务繁忙的一种解决方法:硅基流动模型广场,还有SiliconCloud首发上线基于华为云昇腾云服务的
DeepSeek-V3
,DeepSeek-R1支持API调用邀请链接:https://
PeterClerk
·
2025-03-01 05:02
AIGC
DeepSeek
硅基流动
邀请
大模型研究:DeepSeek三个版本(初级中级高级)资源要求说明
以下是DeepSeek-LLM7BChat、
DeepSeek-V3
、DeepSeek-LLM6.7B三个版本模型所需硬件资源的介绍:DeepSeek-LLM6.7B最小最基础版本1.内存(RAM)非量化运行时
程序猿学长
·
2025-03-01 01:08
大模型
人工智能
语言模型
谈谈
DeepSeek-v3
在算力约束下的出色工作
谈谈
DeepSeek-v3
在算力约束下的出色工作原创渣Bzartbot2024年12月28日22:52上海寒冷的周末,加完班挤点时间读个论文吧.
Deepseek-v3
仅用了2048块H800GPU就超越了
强化学习曾小健
·
2025-02-28 22:19
Deepseek原理与使用
人工智能
DeepSeek-V3
:最强开源MoE模型的技术解析与使用指南
目录引言模型概览架构创新:负载均衡策略与训练目标预训练:追求极致的训练效率后训练:从DeepSeek-R1进行知识蒸馏模型下载评估结果基础模型标准基准测试上下文窗口聊天模型标准基准测试(大于67B的模型)开放式生成评估如何使用在线聊天与API平台本地运行指南模型权重转换推理示例使用DeepSeek-InferDemo使用SGLang使用LMDeploy许可证引用联系我们1.引言我们隆重推出Deep
认识祂
·
2025-02-26 19:10
deepseek
开源
deepseek
DeepSeek开源的意义
DeepSeek最新发布的大模型
DeepSeek-V3
在全球AI界引起了广泛关注。该模型不仅在性能上达到了世界顶尖水平,而且通过技术创新大幅度缩减了以往大模型所需的庞大算力,从而显著降低了成本。
智合同(小智)
·
2025-02-26 19:32
AI技术
大模型
deepseek
AI大模型
智合同
开源软件
技术发展与创新
人工智能
deepseek
改变市场格局
使用django调用deepseek api,搭建ai网站
2.技术与模型
DeepSeek-V3
:这是DeepSeek开发的一个大型语言模型,具有超过600B的参数,在多项性能指标上与国际顶尖模
陈王卜
·
2025-02-26 03:42
人工智能
探秘
DeepSeek-V3
:低成本训练铸就的 AI 大模型传奇
在人工智能大模型的激烈竞争赛道上,
DeepSeek-V3
宛如一匹黑马,凭借其卓越的性能和令人惊叹的低训练成本,迅速吸引了全球AI领域的目光。
道亦无名
·
2025-02-23 15:34
人工智能
DeepSeek核心技术 MoE(混合专家模型)
下图说明了
DeepSeek-V3
的基本架构。在DeepSeek-V2的基础上,采用MLA(多头潜在注意力)和DeepSeekMoE进行高效的推理和经济的训练。
baiyi666_888
·
2025-02-23 01:22
ai
用deepseek学大模型08-用deepseek解读deepseek
以下是对其核心原理、公式推导及模块分析的详细解析:深入浅析
DeepSeek-V3
的技术架构1.核心架构概览DeepSeekR1的架构基于改进的Transformer,主要模块包括:稀疏多头自注意力(SparseMulti-HeadSelf-Attention
wyg_031113
·
2025-02-22 01:26
人工智能
深度学习
云上玩转DeepSeek系列之三:PAI-RAG集成联网搜索,构建企业级智能助手
月以来,阿里云人工智能平台PAI持续推出围绕DeepSeek系列模型的最佳实践,包含快速部署、应用搭建、蒸馏、微调等各个环节,让企业和个人开发者可以在云上高效、灵活地部署和探索DeepSeek-R1、
DeepSeek-V3
阿里云大数据AI技术
·
2025-02-21 14:52
deepseek
PAI
阿里云
人工智能
RAG
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和
Deepseek-V3
简介KTransformers是一个灵活的、以Python为中心的框架,旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性,用户可通过单行代码注入优化模块,获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI,甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
仙人掌_lz
·
2025-02-20 21:21
人工智能
人工智能
AI
部署
自然语言处理
马斯克的Grok-3:技术突破与行业冲击的深度解析
这一规模远超行业平均水平,例如中国团队
DeepSeek-V3
的算力消耗仅为Grok-3的1/2634。技术挑战:团队在122天内完成首期10万块GPU部署,克服了散热、电力供应等工程难题1。思维链推理
♢.*
·
2025-02-20 14:15
马斯克
人工智能
大模型
xAI
Grok
3
火山引擎 DataWind ChatBI 适配 DeepSeek-R1 及
DeepSeek-V3
2025年2月,火山引擎智能数据洞察DataWind旗下AI助手ChatBI宣布实现对DeepSeek-R1及
DeepSeek-V3
的适配。
·
2025-02-19 15:30
大数据
AI大模型对决:DeepSeek与Grok 3,谁才是真王者?
在数学任务的AIME'24数学能力测试中,Grok3取得了52分,而
DeepSeek-V3
仅获得39分,Grok3展现出更强的数学推理能力;在GPQA科学知识评估中,Grok3以75分领先于
DeepSeek-V3
广拓科技
·
2025-02-19 12:07
人工智能
DeepSeek-V3
的混合专家(MoE)架构
DeepSeek-V3
的混合专家(MoE)架构具有多方面的创新设计,以下是详细介绍:架构原理模块构成:MoE架构核心是在前馈网络(FFN)中采用专家混合模型。
阿湯哥
·
2025-02-19 11:25
架构
微服务
云原生
智能化工具软件在教育领域的革命性应用:InsCode AI IDE引领编程教育新时代
智能化工具软件在教育领域的革命性应用:InsCodeAIIDE引领编程教育新时代最新接入
DeepSeek-V3
模型,点击下载最新版本InsCodeAIIDE引言随着信息技术的飞速发展,编程技能已经成为现代社会不可或缺的一部分
InsCode AI IDE
·
2025-02-18 18:43
inscode
人工智能
ide
DeepSeek:国产AI的荣耀之光
一、技术突破:创新与高效并存1.混合专家架构(MoE)
DeepSeek-V3
采用了自主研发的混合专家架构(MoE),模型参数高达6710亿,激活参数为370
晚风る
·
2025-02-18 13:22
AI人工智能
人工智能
通俗诠释
DeepSeek-V3
模型的 “671B” ,“37B”与 “128K”,用生活比喻帮你理解模型的秘密!
在
DeepSeek-V3
模型的参数描述中,你可能会看到类似“671B37B128K”这样的标记。这些字母和数字的组合看起来像密码,但其实它们揭示了模型的“大脑容量”和“工作方式”。
涛涛讲AI
·
2025-02-17 19:44
大模型
生活
deepseek
人工智能
大模型
python
DeepSeek的崛起之路:从技术突破到行业变革
技术爆发(2024-2025)2024年末:发布
DeepSeek-V3
(671B参数),性能超越多数开源模型,逼近GPT-4等闭源标杆。2025年1月:推出R1系列(660B参数),通过
诚信爱国敬业友善
·
2025-02-17 18:05
心得
人工智能
ai
DeepSeek
deepseek本地部署需要多少显卡资源
华为昇腾环境(MindIE)参考资料:https://modelers.cn/models/MindIE/deepseekv3部署
DeepSeek-V3
、R1模型浮点权重至少需要4台Atlas800IA2
yuanlulu
·
2025-02-15 06:45
LLM
国产算力/昇腾
自然语言处理
deepseek
LLM
大语言模型
昇腾
人工智能
通义灵码全新上线模型选择功能,新增支持
DeepSeek-V3
和 DeepSeek-R1 模型
近期,阿里云百炼平台重磅推出
DeepSeek-V3
、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款模型,进一步丰富其AI模型矩阵。
阿里云云原生
·
2025-02-15 02:34
阿里云
云原生
AI程序员
通义灵码
DeepSeek系列模型大比拼:谁是你的最佳选择?
一、
DeepSeek-V3
(一)模型概述
DeepSeek-V3
是一款大语言模型,旨在为内容创作者、企业客服团队以及需要进行知识库信息检索和问答的用户提供强大易用的文本生成解决方案。(二)
BuluAI
·
2025-02-14 19:10
deepseek
大模型
本地部署
人工智能
OpenAI 神话崩塌!DeepSeek-R1升至全球风格控制类第一,国内开源大模型集体给奥特曼上了一课!...
这是继
DeepSeek-V3
在剔除OpenAIo1等闭源模型排名开源模型类第一后,DeepSe
LinkTime_Cloud
·
2025-02-14 03:31
商汤大装置上架DeepSeek系列模型,限免体验、服务升级!
即日起,企业客户和开发者可在商汤大装置万象平台中,快速部署
DeepSeek-V3
、DeepSeek-R1等模型,可享受3个月内1000万tokens免费使用权益。
·
2025-02-14 01:01
deepseek人工智能
通义灵码全新上线模型选择功能,新增支持
DeepSeek-V3
和 DeepSeek-R1 模型
近期,阿里云百炼平台重磅推出
DeepSeek-V3
、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款模型,进一步丰富其AI模型矩阵。
TONGYI_Lingma
·
2025-02-13 22:54
阿里云
云原生
AI程序员
通义灵码
免费体验!DeepSeek一键部署全攻略
自从深度求索团队开源了DeepSeek-R1和
DeepSeek-V3
,这两款模型迅速成为AI领域的焦点,引发了全球范围的热议!
·
2025-02-13 20:13
deepseek
DeepSeek-V3
:模型与权重全面解析
DeepSeek-V3
是一款开创性的混合专家(Mixture-of-Experts,MoE)语言模型,以其创新的架构设计、高效的训练方法和卓越的性能,成为开源大语言模型领域的标杆。
步子哥
·
2025-02-12 11:13
AGI通用人工智能
人工智能
DeepSeek V3 两周使用总结
DeepSeekV3两周使用总结机器学习AI算法工程2025年01月25日10:10广西向AI转型的程序员都关注公众号机器学习AI算法工程2024年12月26日,杭州深度求索人工智能基础技术研究有限公司发布
DeepSeek-V3
AI生成曾小健
·
2025-02-12 11:12
LLM大语言模型
Deepseek原理与使用
人工智能
云上一键部署
DeepSeek-V3
模型,阿里云PAI Model Gallery 最佳实践
DeepSeek-V3
模型简介
DeepSeek-V3
是DeepSeek发布的MoE(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个token激活的参数量为370亿。
·
2025-02-11 11:44
DeepSeek-V3
/R1上线背后的超低推理成本技术揭秘
2月3日,百度智能云千帆大模型平台正式上线了DeepSeek-R1与
DeepSeek-V3
模型,模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。
·
2025-02-11 11:33
百度算法
DeepSeek-v3
笔记(1)
v3链接直接从第二章Architecture开始2.1BasicArchitecture基本方法就是v2的那一套,仍然是moe架构,采用MLA降显存,常驻专家和路由专家的混合使用。与v2不同的是,这里用了更加强力的路由平衡算法,叫Auxiliary-Loss-FreeLoadBalancing。它主要解决不同routeexpert训练不平衡问题,思路就是谁训得少了就把谁被选中的概率抬高。至于MLA
蒸土豆的技术细节
·
2025-02-11 09:06
笔记
Transformer 的辉煌与大模型方向确立,点燃AGI之火把
DeepSeek-V3
,指明下一个阶段大模型发张方向,破壁:资金壁垒:训练成本降低,适配丰富硬件,总过进一步降低资金需求。
dingcb168
·
2025-02-11 07:47
搜索引擎
自然语言处理
【薅羊毛】硅基流动免费增送2000Mtoken
硅基流动模型广场,还有SiliconCloud首发上线基于华为云昇腾云服务的
DeepSeek-V3
、DeepSeek-R1邀请码:wW2pbcJV邀请链接:https://cloud.siliconflow.cn
Think Spatial 空间思维
·
2025-02-10 12:48
IT
Tool
AIGC
ai
deepseek
硅基流动
薅羊毛
邀请码
解锁DeepSeek大模Q型:超实用提示词技巧大放送
2025年初,DeepSeek相继发布了
DeepSeek-V3
、DeepSeek-R1和多模态模型JanusPro等多款模型,这些模型在性能、成本和应用场景上均展现出显著优势。D
计算机学长
·
2025-02-09 20:04
通用大语言模型
人工智能
DeepSeek-V3
技术报告 (核心技术,接近5万字)
摘要我们介绍了一个强大的混合专家(MoE)语言模型
DeepSeek-V3
,它具有总计671亿个参数和每个令牌激活的37亿个。
zhangjiaofa
·
2025-02-09 10:21
DeepSeek
R1&
AI人工智能大模型
DeepSeek
V3
DeepSeek-V3
Technical Report
DeepSeek-V3
技术报告摘要1引言2架构2.1基本架构2.2多token预测3基础设施3.1计算集群3.2训练框架3.2.1双管和计算通信重叠3.2.2跨节点全对全通信的高效实现3.2.3以最小的开销节省大量内存
UnknownBody
·
2025-02-09 08:35
LLM
Daily
Technical
Report
人工智能
语言模型
自然语言处理
DeepSeek模型全解析:赋能人工智能新纪元
以下是对DeepSeek模型的详尽剖析:一、模型概览DeepSeek,源自一家中国AI初创公司,其最新版本
DeepSeek-V3
是一款基于先进的Mixture-of-Experts(MoE)架构的语言模型
云梦优选
·
2025-02-08 23:01
算法
python
计算机
人工智能
大数据
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他