E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
BERT蒸馏
解剖DeepSeek四把刀,一场深到源码,大到行业,细到人心盛宴
他们公开的是经过
蒸馏
的“成品模型”,而非原始训练框架:就像给你组装好的乐高战舰,却藏起了设计图纸。这种半开放式开源既能吸引开发者构建生态,又
leluckys
·
2025-02-18 19:33
AI大模型
AI编程
DeepSeek对AI发展的范式革新与推动:研究报告
其核心技术突破包括:低算力消耗的模型训练通过
蒸馏
训练策略、动态模型剪枝和稀疏训练,DeepSeek将训练成本降至OpenAI同类模型的1/10,同时保持性能可比甚至超越。
芝士AI吃鱼
·
2025-02-18 05:57
DeepSeek
AI
OpenAI
LLM
DeepSeek R1
蒸馏
版模型部署的实战教程
大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
herosunly
·
2025-02-18 03:09
DeepSeek从入门到精通
deepseek
大模型
人工智能
实战教程
DeepSeek推理模型架构以及DeepSeek爆火的原因
在训练过程中,DeepSeek广泛应用
蒸馏
技术,通过生成高质量数据和将大型模型的推理能力迁移至小型模型,大幅提升训练效率与模型性能。Deep
微学AI
·
2025-02-18 03:06
架构
LLM
deepseek
书籍-《掌握Transformer:从
BERT
到大模型和Stable Diffusion(第二版)》
书籍:MasteringTransformers:TheJourneyfrom
BERT
toLargeLanguageModelsandStableDiffusion,2ndEdition作者:SavaşYıldırım
·
2025-02-18 00:36
Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析
一、视听语音增强领域近三年研究进展多模态融合与模型轻量化多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识
蒸馏
技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果
AndrewHZ
·
2025-02-17 20:47
深度学习新浪潮
智能手机
算法
计算机视觉
硬件架构
硬件工程
智能硬件
红 - 黑树和 B+树?
红黑树是一种自平衡二叉查找树,由RudolfBayer发明,在1978年被LeoJ.Guibas和Ro
bert
Sedgewick改称为“红黑树”。
百态老人
·
2025-02-17 16:43
笔记
Lua 5.1 参考手册
Lua5.1参考手册byRo
bert
oIerusalimschy,LuizHenriquedeFigueiredo,WaldemarCeles云风译www.codingnow.comCopyright©
weixin_30822451
·
2025-02-17 14:51
本地搭建deepseek并提供给其它人使用(最全,完整可用)
因为是开源的,我们可以很方便的架设其
蒸馏
模型到自己的主机上。PS:虽然也可以Cpu运行模型,但是如果没有8G以上的显存卡的话,只能搭建7B以下的模型,体验效果并不太好。
唐大帅
·
2025-02-17 12:41
deepseek
deepseek本地化
CAP与BASE:分布式系统设计的灵魂与妥协
2000年,由加州大学伯克利分校的EricBrewer教授在分布式计算原理研讨会(PODC)上提出,因此CAP定理又被称作布鲁尔定理(Brewer’stheorem)2年后,麻省理工学院的SethGil
bert
·
2025-02-17 11:37
后端java分布式
知识图谱大模型系列之 11什么是 Neo4j LLM 知识图谱构建器?
推荐文章《使用ChatGPT从视频脚本创建知识图谱,使用GPT-4作为领域专家来帮助您从视频转录中提取知识(教程含完整源码)》权重2,知识图谱类《赋能知识图谱形成:利用
BERT
opic、DataMapPlo
知识大胖
·
2025-02-17 07:53
NVIDIA
GPU和大语言模型开发教程
知识图谱
neo4j
人工智能
llm
大数据知识图谱之深度学习——基于
BERT
+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_
bert
+lstm
文章目录大数据知识图谱之深度学习——基于
BERT
+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介
2301_76348014
·
2025-02-17 06:49
程序员
深度学习
大数据
知识图谱
深度剖析DeepSeek本地部署:技术、实践与优化策略
OpenAI的GPT系列模型凭借其出色的语言理解与生成能力,在全球范围内掀起了AI应用的热潮;Google的
BERT
模型则在自然语言理解任务中取得
Abossss
·
2025-02-17 05:11
AI
论文
python
ai
人工智能
使用Python实现深度学习模型:知识
蒸馏
与模型压缩
知识
蒸馏
(KnowledgeDistillation)和模型压缩(ModelCompression)是两种有效的技术,可以在保持模型性能的同时减少模型的大小和计算需求。
Echo_Wish
·
2025-02-17 04:34
Python
笔记
从零开始学Python人工智能
Python算法
python
深度学习
开发语言
一、大模型微调的前沿技术与应用
大模型微调的前沿技术与应用随着大规模预训练模型(如GPT、
BERT
、T5等)的广泛应用,大模型微调(Fine-Tuning,FT)成为了提升模型在特定任务中性能的关键技术。
伯牙碎琴
·
2025-02-16 20:31
大模型微调
人工智能
大模型
微调
Deepseek
AI 大模型创业:如何利用市场优势?
大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型,如
BERT
、GPT-3、DALL-E等。
SuperAGI2025
·
2025-02-16 12:37
计算机软件编程原理与应用实践
java
python
javascript
kotlin
golang
架构
人工智能
DeepSeek-R1
蒸馏
Qwen 和 Llama 架构 企业级RAG知识库
“DeepSeek-R1的输出,
蒸馏
了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果,通过知识
蒸馏
技术训练出6个参数规模较小的模型,以下是具体解释:-**知识
蒸馏
技术原理**:知识
蒸馏
是一种模型压缩技术
qq_25467441
·
2025-02-15 20:00
人工智能
机器学习
深度学习
Transformer以及
BERT
阅读参考博文
Transformer以及
BERT
阅读参考博文Transformer学习:已有博主的讲解特别好了:李沐:Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎:Transformer
mumukehao
·
2025-02-15 17:41
文本属性图
文本属性图
AI大模型(如GPT、
BERT
等)可以通过自然语言处理(NLP)和机器学习技术,显著提升测试效率
在软件测试中,AI大模型(如GPT、
BERT
等)可以通过自然语言处理(NLP)和机器学习技术,显著提升测试效率。
小赖同学啊
·
2025-02-15 11:56
python
人工智能
自动化测试(app
pc
API)
人工智能
自然语言处理
gpt
基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态
蒸馏
,详细说明操作步骤.
基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态
蒸馏
,详细说明操作步骤.1.动态
蒸馏
的核心思想动态
蒸馏
的目标是通过教师模型(通常是一个较大的预训练模型)的输出,指导学生模型(较小的模型)
墨者清风
·
2025-02-15 11:54
模型训练
人工智能技术发展
模型动态蒸馏
人工智能
深度学习
语言模型
大语言模型原理基础与前沿 通过稀疏MoE扩展视觉语言模型
大语言模型(LargeLanguageModels,LLMs)如GPT-3、
BERT
等,已经在自然语言处理(NLP)任务中取得了显著的成果。
AI天才研究院
·
2025-02-14 12:52
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
上下文扩展技术-详细解释Longformer和BigBird的主要创新;详细说明
bert
原理,并说一说他的上下文限制是怎么来的
答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型,它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息,并通过全局注意力来捕捉整个文档的广泛背景和联系1.Keyinnovations:滑动窗口注意力Longformer使用滑动窗口方法处理本地上下文信息1.扩张注意力模式扩张注意力模式能够捕捉到远处的上下文信息,这对于处理冗长
AI生成曾小健
·
2025-02-14 12:22
人工智能
AL
BERT
:轻量级的
BERT
,用于语言表征的自监督学习
AL
BERT
:轻量级的
BERT
,用于语言表征的自监督学习阅读时长:19分钟发布时间:2025-02-13近日热文:全网最全的神经网络数学原理(代码和公式)直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎
·
2025-02-14 05:05
人工智能
海云安开发者智能助手(D10)全面接入DeepSeek,赋能开发者安全高效编码新范式
数据显示,通过DeepSeekR1模型的优化与
蒸馏
,D10在代码缺陷检测、组件风险分析、智能编码等核心场景的综合效率提升超20%,运营成本降低35%,为全球开发者提供更精准、更轻量、更敏捷的智能开发安全解决方案
海云安
·
2025-02-14 00:13
人工智能
LLM
海云安
安全
ai
人工智能
【实测】用全志A733平板搭建一个端侧Deepseek算力平台
随着DeepSeek的
蒸馏
技术的横空出世,端侧SoC芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢?
小文哥嵌入式开发
·
2025-02-14 00:07
嵌入式
人工智能
AI编程
解码DeepSeek家族系列:大语言模型赛道上的黑马传奇
DeepSeek自成立之初,便专注于开发先进的大语言模型(LLM)及相关技术,致力于通过数据
蒸馏
技术提取更精炼、有用的数据,以提升模型性能。在发展历程中,DeepSeek
大F的智能小课
·
2025-02-13 22:52
语言模型
人工智能
自然语言处理
普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务
DeepSeek-R1-Distill-Qwen则是通过DeepSeek-R1的输出,基于Qwen大语言模型,经过模型
蒸馏
的小模型,其中32B和70B模型在多项能力上实现了对标OpenAIo
·
2025-02-12 17:52
操作系统人工智能开源
Golang怎么入门
1.Golang简介Go语言诞生于2007年,由Google的Ro
bert
Gr
wwwenhx
·
2025-02-12 17:18
golang
开发语言
后端
DeepSeek-R1
蒸馏
技术:让小模型“继承”大模型的推理超能力
学生通过模仿老师的思路和技巧,最终也能独立解决复杂的题目——这就是“”模型
蒸馏
(Distillation)“”的核心思想。
马拉AI
·
2025-02-12 15:34
人工智能
机器学习
深度学习
【2025版】最新AI大模型NLP全面解析,零基础入门到精通,收藏这篇就够了
AI大模型,作为一类具备庞大参数规模与卓越学习能力的神经网络模型,如
BERT
、GPT等,已在自然语言处理、计算机视觉等多个领域展现出卓越成效,极大地推动了相关领域的技术进步。
程序员二飞
·
2025-02-12 11:15
人工智能
自然语言处理
服务器
学习
知识图谱
Open Li
bert
y使用指南及微服务开发示例(五)
续前篇十九、实现租户行为日志的自动归档目前,我们已经实现日志导出,但日志会无限增长,占用数据库空间。现在,我们要实现:✅定期归档旧日志(每3个月)✅归档数据存储为CSV/Excel✅归档后自动清理旧日志,减少数据库负担方案设计归档策略:1️⃣每3个月归档一次(定时任务执行)2️⃣归档数据存储到/logs/archive/YYYY-MM.csv或/logs/archive/YYYY-MM.xlsx3
自由鬼
·
2025-02-12 09:59
Java程序
开源产品及技术
IT应用探讨
java
Liberty
ibm
微服务
手把手教学,DeepSeek-R1微调全流程拆解
这篇文章,我们将使用其
蒸馏
版本之一引导大家完成DeepSee
AI生成曾小健
·
2025-02-12 05:01
windows
解决:libssl.so.10: cannot open shared object file: No such file or directory
RuntimeError:Failedtoimporttransformers.models.
bert
becauseofthefollowingerror(lookuptoseeitstraceback
铭147
·
2025-02-12 04:25
bert
人工智能
深度学习
模型轻量化
影响神经网络推理速度主要有4个因素:FLOPs、MAC、计算并行度、硬件平台架构与特性(算力、GPU内存带宽)模型压缩工业界主流的模型压缩方法有:知识
蒸馏
(KnowledgeDistillation,KD
莱茶荼菜
·
2025-02-11 22:10
人工智能
学习
【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界,算力与应用将迎来结构性变化报告汇总PDF洞察(附原数据表)
DeepSeek-R1的出现是个大事件,它在技术创新方面,通过独特的强化学习与
蒸馏
技术,在性能上逼近国际领先模型。
·
2025-02-11 21:14
数据挖掘深度学习机器学习算法
预训练语言模型:从
BERT
到GPT,NLP的新纪元
从
BERT
到GPT,这些模型不仅在学术研究中取得了突破性进展,也在工业界得到了广泛应用。本文将深入探讨预训练语言模型的原理、发展历程以及如何在实际项目中应用这些强大的工具。
Evaporator Core
·
2025-02-11 20:23
自然语言处理
人工智能
Python开发经验
自然语言处理
语言模型
bert
【人工智能领域优质书籍】实战AI大模型
书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用,全面覆盖了’Al大模型领域,包括Transformer模型、
BERT
、AL
BERT
、T5、G
秋说
·
2025-02-11 12:01
赠书活动
AI
大模型
deepseek学习笔记
原计划是基于
BERT
或者GPT做一些自然语言处理的应用研究,deepseek出来之后,决定使用deepseek来做,相信能够获得更好的效果。
wsnzou
·
2025-02-11 10:40
学习
笔记
Open Li
bert
y使用指南及开发示例(二)
续上篇七、实现动态权限分配目前,我们的系统基于角色(Role)进行权限控制,但角色权限是固定的。现在,我们要实现:✅用户可动态分配权限(而不是仅靠角色)✅每个用户可以拥有不同的权限集(CRUD操作可灵活授权)✅管理员可管理用户权限方案设计采用基于权限的访问控制(PBAC-Permission-BasedAccessControl)用户→拥有多个权限(READ,CREATE,UPDATE,DELET
自由鬼
·
2025-02-11 09:34
IT应用探讨
Java程序
开源产品及技术
java
开发语言
Liberty
ibm
微服务
Open Li
bert
y使用指南及开发示例(一)
OpenLi
bert
y是一个轻量级、云原生的Java运行时,主要用于运行JakartaEE和MicroProfile应用。它的核心特点是模块化、快速启动和良好的可观测性。
自由鬼
·
2025-02-11 09:34
IT应用探讨
开源产品及技术
Java程序
微服务
java
Liberty
ibm
『大模型笔记』国外大神对DeepSeek R1的科普!
模型
蒸馏
(新的规模定律?)2025年的预测地缘政治:Distealing结论讨论二
AI大模型前沿研究
·
2025-02-11 09:02
大模型笔记
笔记
Deepseek
deepseek
R1
Deepseek
v3
GPT
O1
GPT
O3
详解Redis中lua脚本和事务
—-Al
bert
Einstein引言Lua脚本的原子性和事务的ACID特性想必大家都很熟悉,本篇文章将从性能表现和原理帮助我们快速理解他们基本概念1.RedisLua脚本从2.6版本起,Redis开始支持
优人ovo
·
2025-02-11 08:53
redis
lua
数据库
一文读懂DeepSeek
蒸馏
技术,AI进阶的秘密武器
一文读懂DeepSeek
蒸馏
技术,AI进阶的秘密武器在AI领域蓬勃发展的当下,模型的性能与效率成为了研究者们关注的焦点。DeepSeek作为其中的佼佼者,其
蒸馏
技术为提升模型表现开辟了新路径。
老黄浅谈质量
·
2025-02-11 07:45
人工智能
大数据
【深度学习】常见模型-
BERT
(Bidirectional Encoder Representations from Transformers)(双向编码器表示)
BERT
(BidirectionalEncoderRepresentationsfromTransformers)
BERT
是什么?
IT古董
·
2025-02-11 02:06
深度学习
人工智能
深度学习
bert
人工智能
Go语言入门:从安装到环境配置
这个由Google的三位大神级工程师-Ro
bert
Griesemer、RobPike和KenThompson(对,就是那个写出Unix的大佬)一起搞出来的新语言,简直让人眼前一亮。
·
2025-02-10 23:54
程序员
自动驾驶新风口:DeepSeek-R1 的“车端革命”
DeepSeek-R1模型是一个开源推理模型,可以随意
蒸馏
形成小模型,那么这种模型,对未来任何产业都能够产生很大的影响。那么我们汽车行业的智能驾驶/自动驾驶呢?
大模型入门学习
·
2025-02-10 07:30
自动驾驶
人工智能
机器学习
DeepSeek
大模型
大模型教程
大模型入门
[论文笔记] llama3.2
蒸馏
参考链接:LLaMA3.2技术报告:GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
心心喵
·
2025-02-10 03:24
论文笔记
论文阅读
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读
文章目录前言一、摘要二、引言三、贡献1.贡献后训练:基础模型的大规模强化学习
蒸馏
:较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2
tangjunjun-owen
·
2025-02-09 23:54
paper解读
DeepSeek
R1
DeepSeek
zero
大语言模型
动态词表采样:一种控制模型词表大小的新方法
背景介绍随着深度学习技术的发展,尤其是Transformer架构的成功应用,预训练语言模型如
BERT
、GPT等取得了
东方佑
·
2025-02-09 18:50
量子变法
pandas
python
如何
蒸馏
Deepseek-R1:全面指南
目录引言知识
蒸馏
基础知识
蒸馏
的起源与发展知识
蒸馏
的核心原理深入剖析常见的知识
蒸馏
方法分类详解Deepseek-R1模型概述
zhangjiaofa
·
2025-02-09 11:30
DeepSeek
R1&
AI人工智能大模型
知识蒸馏
Deepseek-R1
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他