E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
DKD蒸馏
【CVPR 2021】Knowledge Review:知识
蒸馏
新解法
【CVPR2021】KnowledgeReview:知识
蒸馏
新解法论文地址:主要问题:主要思路:符号假设:具体实现:实验结果:关注我的公众号:联系作者:论文地址:https://jiaya.me/papers
BIT可达鸭
·
2025-02-20 07:17
深度学习
人工智能
计算机视觉
模型压缩
知识蒸馏
深度学习模型中的知识
蒸馏
是如何工作的?
知识
蒸馏
,作为一种将知识从复杂模型转移到更简单模型的策略,已经成为实现这一目标的有效工具。
c++服务器开发
·
2025-02-20 02:04
深度学习
人工智能
【大模型】量化、剪枝、
蒸馏
大模型的量化、剪枝和
蒸馏
是三种常用的模型优化技术,旨在减少模型的复杂性,降低计算资源消耗,并加速推理过程。
油泼辣子多加
·
2025-02-19 18:02
深度学习
剪枝
人工智能
算法
联想E470 双GPU笔记本部署私有AI模型方案
考虑到电脑的性能限制,打算采用「量化模型+知识
蒸馏
」的低成本部署方案。
月光技术杂谈
·
2025-02-19 02:18
大模型初探
人工智能
ChatGLM3
联想E470
Qwen-7B
Phi-3-mini
解剖DeepSeek四把刀,一场深到源码,大到行业,细到人心盛宴
他们公开的是经过
蒸馏
的“成品模型”,而非原始训练框架:就像给你组装好的乐高战舰,却藏起了设计图纸。这种半开放式开源既能吸引开发者构建生态,又
leluckys
·
2025-02-18 19:33
AI大模型
AI编程
DeepSeek对AI发展的范式革新与推动:研究报告
其核心技术突破包括:低算力消耗的模型训练通过
蒸馏
训练策略、动态模型剪枝和稀疏训练,DeepSeek将训练成本降至OpenAI同类模型的1/10,同时保持性能可比甚至超越。
芝士AI吃鱼
·
2025-02-18 05:57
DeepSeek
AI
OpenAI
LLM
DeepSeek R1
蒸馏
版模型部署的实战教程
大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
herosunly
·
2025-02-18 03:09
DeepSeek从入门到精通
deepseek
大模型
人工智能
实战教程
DeepSeek推理模型架构以及DeepSeek爆火的原因
在训练过程中,DeepSeek广泛应用
蒸馏
技术,通过生成高质量数据和将大型模型的推理能力迁移至小型模型,大幅提升训练效率与模型性能。Deep
微学AI
·
2025-02-18 03:06
架构
LLM
deepseek
Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析
一、视听语音增强领域近三年研究进展多模态融合与模型轻量化多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识
蒸馏
技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果
AndrewHZ
·
2025-02-17 20:47
深度学习新浪潮
智能手机
算法
计算机视觉
硬件架构
硬件工程
智能硬件
本地搭建deepseek并提供给其它人使用(最全,完整可用)
因为是开源的,我们可以很方便的架设其
蒸馏
模型到自己的主机上。PS:虽然也可以Cpu运行模型,但是如果没有8G以上的显存卡的话,只能搭建7B以下的模型,体验效果并不太好。
唐大帅
·
2025-02-17 12:41
deepseek
deepseek本地化
使用Python实现深度学习模型:知识
蒸馏
与模型压缩
知识
蒸馏
(KnowledgeDistillation)和模型压缩(ModelCompression)是两种有效的技术,可以在保持模型性能的同时减少模型的大小和计算需求。
Echo_Wish
·
2025-02-17 04:34
Python
笔记
从零开始学Python人工智能
Python算法
python
深度学习
开发语言
DeepSeek-R1
蒸馏
Qwen 和 Llama 架构 企业级RAG知识库
“DeepSeek-R1的输出,
蒸馏
了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果,通过知识
蒸馏
技术训练出6个参数规模较小的模型,以下是具体解释:-**知识
蒸馏
技术原理**:知识
蒸馏
是一种模型压缩技术
qq_25467441
·
2025-02-15 20:00
人工智能
机器学习
深度学习
基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态
蒸馏
,详细说明操作步骤.
基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态
蒸馏
,详细说明操作步骤.1.动态
蒸馏
的核心思想动态
蒸馏
的目标是通过教师模型(通常是一个较大的预训练模型)的输出,指导学生模型(较小的模型)
墨者清风
·
2025-02-15 11:54
模型训练
人工智能技术发展
模型动态蒸馏
人工智能
深度学习
语言模型
海云安开发者智能助手(D10)全面接入DeepSeek,赋能开发者安全高效编码新范式
数据显示,通过DeepSeekR1模型的优化与
蒸馏
,D10在代码缺陷检测、组件风险分析、智能编码等核心场景的综合效率提升超20%,运营成本降低35%,为全球开发者提供更精准、更轻量、更敏捷的智能开发安全解决方案
海云安
·
2025-02-14 00:13
人工智能
LLM
海云安
安全
ai
人工智能
【实测】用全志A733平板搭建一个端侧Deepseek算力平台
随着DeepSeek的
蒸馏
技术的横空出世,端侧SoC芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢?
小文哥嵌入式开发
·
2025-02-14 00:07
嵌入式
人工智能
AI编程
解码DeepSeek家族系列:大语言模型赛道上的黑马传奇
DeepSeek自成立之初,便专注于开发先进的大语言模型(LLM)及相关技术,致力于通过数据
蒸馏
技术提取更精炼、有用的数据,以提升模型性能。在发展历程中,DeepSeek
大F的智能小课
·
2025-02-13 22:52
语言模型
人工智能
自然语言处理
普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务
DeepSeek-R1-Distill-Qwen则是通过DeepSeek-R1的输出,基于Qwen大语言模型,经过模型
蒸馏
的小模型,其中32B和70B模型在多项能力上实现了对标OpenAIo
·
2025-02-12 17:52
操作系统人工智能开源
DeepSeek-R1
蒸馏
技术:让小模型“继承”大模型的推理超能力
学生通过模仿老师的思路和技巧,最终也能独立解决复杂的题目——这就是“”模型
蒸馏
(Distillation)“”的核心思想。
马拉AI
·
2025-02-12 15:34
人工智能
机器学习
深度学习
手把手教学,DeepSeek-R1微调全流程拆解
这篇文章,我们将使用其
蒸馏
版本之一引导大家完成DeepSee
AI生成曾小健
·
2025-02-12 05:01
windows
模型轻量化
影响神经网络推理速度主要有4个因素:FLOPs、MAC、计算并行度、硬件平台架构与特性(算力、GPU内存带宽)模型压缩工业界主流的模型压缩方法有:知识
蒸馏
(KnowledgeDistillation,KD
莱茶荼菜
·
2025-02-11 22:10
人工智能
学习
【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界,算力与应用将迎来结构性变化报告汇总PDF洞察(附原数据表)
DeepSeek-R1的出现是个大事件,它在技术创新方面,通过独特的强化学习与
蒸馏
技术,在性能上逼近国际领先模型。
·
2025-02-11 21:14
数据挖掘深度学习机器学习算法
『大模型笔记』国外大神对DeepSeek R1的科普!
模型
蒸馏
(新的规模定律?)2025年的预测地缘政治:Distealing结论讨论二
AI大模型前沿研究
·
2025-02-11 09:02
大模型笔记
笔记
Deepseek
deepseek
R1
Deepseek
v3
GPT
O1
GPT
O3
一文读懂DeepSeek
蒸馏
技术,AI进阶的秘密武器
一文读懂DeepSeek
蒸馏
技术,AI进阶的秘密武器在AI领域蓬勃发展的当下,模型的性能与效率成为了研究者们关注的焦点。DeepSeek作为其中的佼佼者,其
蒸馏
技术为提升模型表现开辟了新路径。
老黄浅谈质量
·
2025-02-11 07:45
人工智能
大数据
自动驾驶新风口:DeepSeek-R1 的“车端革命”
DeepSeek-R1模型是一个开源推理模型,可以随意
蒸馏
形成小模型,那么这种模型,对未来任何产业都能够产生很大的影响。那么我们汽车行业的智能驾驶/自动驾驶呢?
大模型入门学习
·
2025-02-10 07:30
自动驾驶
人工智能
机器学习
DeepSeek
大模型
大模型教程
大模型入门
[论文笔记] llama3.2
蒸馏
参考链接:LLaMA3.2技术报告:GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
心心喵
·
2025-02-10 03:24
论文笔记
论文阅读
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读
文章目录前言一、摘要二、引言三、贡献1.贡献后训练:基础模型的大规模强化学习
蒸馏
:较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2
tangjunjun-owen
·
2025-02-09 23:54
paper解读
DeepSeek
R1
DeepSeek
zero
大语言模型
如何
蒸馏
Deepseek-R1:全面指南
目录引言知识
蒸馏
基础知识
蒸馏
的起源与发展知识
蒸馏
的核心原理深入剖析常见的知识
蒸馏
方法分类详解Deepseek-R1模型概述
zhangjiaofa
·
2025-02-09 11:30
DeepSeek
R1&
AI人工智能大模型
知识蒸馏
Deepseek-R1
蒸馏
:让DeepSeek用“移魂大法”增强你的小模型
蒸馏
:让DeepSeek用“移魂大法”增强你的小模型原创格知致能寒武纪人工智能2025年02月06日00:48北京前言在大型语言模型(LLMs)时代,知识
蒸馏
成为一种重要方法,用于将能力强大的、参数规模庞大的
AI生成曾小健
·
2025-02-09 11:58
Deepseek原理与使用
人工智能
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(ReinforcementLearning,RL)(深度解析DeepSeekR1:强化学习与知识
蒸馏
的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
深度解析 DeepSeek 的
蒸馏
技术
DeepSeek
蒸馏
技术概述1.1
蒸馏
技术定义与原理图片模型
蒸馏
(KnowledgeDistillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。
海持Alvin
·
2025-02-08 15:04
AI技术应用
AI技术解决方案与产业研报
deepseek
人工智能
大模型
ai
超火的DeepSeek使用了大模型
蒸馏
技术嘛?
是的,DeepSeek确实使用了大模型
蒸馏
技术。以下是通过互联网公开信息整理的内容:从多个证据中可以确认,DeepSeek在其模型训练和优化过程中采用了
蒸馏
技术。
魔王阿卡纳兹
·
2025-02-08 14:28
IT杂谈
DeepSeek
大模型蒸馏
OpenAI
DeepSeek
蒸馏
模型:轻量化AI的演进与突破
目录引言一、知识
蒸馏
的技术逻辑与DeepSeek的实践1.1知识
蒸馏
的核心思想1.2DeepSeek的
蒸馏
架构设计二、DeepSeek
蒸馏
模型的性能优势2.1效率与成本的革命性提升2.2性能保留的突破2.3
张3蜂
·
2025-02-08 14:56
神经网络
人工智能
开源
人工智能
机器学习
深度学习
【DeepSeek】DeepSeek小模型
蒸馏
与本地部署深度解析DeepSeek小模型
蒸馏
与本地部署深度解析
为了克服这些挑战,DeepSeek引入了知识
蒸馏
技术,通过将大型模型的知识转移到小型模型中,实现了模型的轻量化。本文将深入探讨DeepSeek小模型
蒸馏
的原理,并提供详细的本地部署步
后端研发Marion
·
2025-02-08 14:24
AI大模型技术
机器学习
人工智能
深度学习
deepseek
本地部署
模型
蒸馏
、量化、裁剪的概念和区别
模型压缩概述1.1模型压缩的重要性随着深度学习技术的快速发展,神经网络模型在各种任务中取得了显著的成功。然而,这些模型通常具有大量的参数和复杂的结构,导致模型体积庞大、计算资源消耗高和推理时间长。这些问题限制了深度学习模型在资源受限设备(如移动设备、嵌入式系统)上的应用。模型压缩技术的出现,旨在解决上述问题,通过减少模型的大小和计算复杂度,同时保持或提高模型的性能。模型压缩的重要性主要体现在以下几
我就是全世界
·
2025-02-06 22:24
AI
人工智能
LLM知识
蒸馏
代码讲解及训练实验
LLM知识
蒸馏
代码讲解及训练实验知识
蒸馏
简单讲即使用大规模参数的模型对小规模参数模型进行
蒸馏
,且不是简单的只使用答案,是需要两个模型的logprob进行交互的,故两个模型的vocabsize必须是一样的
淡水,
·
2025-02-06 18:33
深度学习
pytorch
人工智能
nlp
python
知识蒸馏
大语言模型轻量化:知识
蒸馏
的范式迁移与工程实践
大语言模型轻量化:知识
蒸馏
的范式迁移与工程实践嗨,我是LucianaiB!总有人间一两风,填我十万八千梦。路漫漫其修远兮,吾将上下而求索。
LucianaiB
·
2025-02-06 02:04
语言模型
人工智能
自然语言处理
python
DeepSeek R1技术报告关键解析(5/10):知识
蒸馏
:如何让小模型也能具备强推理能力?
1.什么是知识
蒸馏
?知识
蒸馏
(KnowledgeDistillation)是一种让小模型从大模型学习的技术,类似于一位资深老师将自己的知识浓缩后,传授给学生。
董董灿是个攻城狮
·
2025-02-05 19:43
人工智能
计算机视觉
CNN
知识
蒸馏
教程 Knowledge Distillation Tutorial
来自于:KnowledgeDistillationTutorial将大模型
蒸馏
为小模型,可以节省计算资源,加快推理过程,更高效的运行。
Qiming_v
·
2025-02-05 17:03
Distillation
蒸馏
怎么在家用笔记本上轻松部署和使用DeepSeek R1?
那本文将介绍其
蒸馏
版本在普通家用笔记本上的部署和使用,之所以选择
蒸馏
版本,是因为
蒸馏
版本通过模型
蒸馏
技术实现了算力需求的大幅降低。
程序员辣条
·
2025-02-05 10:32
人工智能
LLama
AI产品经理
大模型学习
大模型
DeepSeek
大模型部署
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(一)
DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型,利用
蒸馏
开源技术探险家
·
2025-02-04 05:54
开源模型-实际应用落地
#
人工智能
自然语言处理
语言模型
深度学习
python中keras_Python深度学习——keras(一)
大多数深度学习,都是将若干个简单的层给链接起来,实现渐进式的数据过滤,也就是数据
蒸馏
(过滤到一定程度就等同于
蒸馏
)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist
weixin_39534321
·
2025-02-04 04:48
python中keras
手机上运行AI大模型(Deepseek等)
最近deepseek的大火,让大家掀起新一波的本地部署运行大模型的热潮,特别是deepseek有
蒸馏
的小参数量版本,电脑上就相当方便了,直接ollama+open-webui这种类似的组合就可以轻松地实现
zd200572
·
2025-02-04 02:07
智能手机
人工智能
deepseek
浅谈知识
蒸馏
技术
最近爆火的DeepSeek技术,将知识
蒸馏
技术运用推到我们面前。今天就简单介绍一下知识
蒸馏
技术并附上python示例代码。
eso1983
·
2025-02-04 02:07
机器学习
人工智能
深度学习
大型语言模型(LLM)压缩技术:如何让庞然大物更轻巧?
让我们从几个关键技术开始讲解:剪枝(Pruning)、知识
蒸馏
(KnowledgeDistillation)
空间机器人
·
2025-02-03 12:09
LLM语言模型学习笔记
语言模型
人工智能
自然语言处理
Stable Diffusion创始人:DeepSeek没有抄袭!
EmadMostaque,编译:Datawhale视频中英对照如下:Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.
蒸馏
技术并不是什么新事物
Datawhale
·
2025-02-03 06:51
stable
diffusion
人工智能
课程内容摘要生成:基于知识
蒸馏
与事实增强的深度学习模型实践
文章目录引言一、核心技术:知识
蒸馏
与事实三元组融合二、模型架构设计与优化三、Python实现与关键代码解析四、业务价值与效果分析五、挑战与优化方向引言在教育内容数字化进程中,课程内容摘要生成技术能够从海量教学资源中提炼核心知识点
二进制独立开发
·
2025-02-03 04:04
非纯粹GenAI
GenAI与Python
深度学习
人工智能
自然语言处理
python
语言模型
神经网络
生成对抗网络
什么是“知识
蒸馏
”
为了解决这一问题,知识
蒸馏
技术应运而生,成为模型压缩和性能优化的重要手段。本节将详细介绍知识
蒸馏
的基本概念、工作原理和知识迁移机制。
清风AI
·
2025-02-02 19:55
深度学习
人工智能
神经网络
python
conda
白话DeepSeek-R1论文(三)| DeepSeek-R1
蒸馏
技术:让小模型“继承”大模型的推理超能力
DeepSeek-R1
蒸馏
技术:让小模型“继承”大模型的推理超能力当大模型成为“老师”,小模型也能变“学霸”想象一下,一位经验丰富的数学老师(大模型)将自己解题的思维过程一步步拆解,手把手教给学生(小模型
明哲AI
·
2025-02-02 11:58
AIGC
人工智能
机器学习
深度学习
大模型
Deepseek
算法
蒸馏
[250125] DeepSeek 发布开源大模型 R1,性能比肩 OpenAI o1 | 希捷推出高达 36TB 的硬盘
主要亮点:开源模型,MIT许可证:DeepSeek-R1遵循MITLicense,允许用户自由使用、修改、分发,甚至商用,并允许通过
蒸馏
技术基于R1训练其他模型。
x-cmd
·
2025-02-02 09:13
daily
blog
开源
deepseek
llm
openai
ai
硬件
存储
大模型迎来2025开年大作:deepseek-R1与deepseek-R1-Zero
DeepSeek-R1遵循MITLicense,允许用户通过
蒸馏
技术借助R1训练其他模型。
Funny_AI_LAB
·
2025-02-01 18:02
大模型
人工智能
ai
llama
语言模型
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他