DKD蒸馏第2页

【CVPR 2021】Knowledge Review：知识蒸馏新解法

【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers

BIT可达鸭·2025-02-20 07:17

深度学习模型中的知识蒸馏是如何工作的?

知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。

c++服务器开发·2025-02-20 02:04

【大模型】量化、剪枝、蒸馏

大模型的量化、剪枝和蒸馏是三种常用的模型优化技术，旨在减少模型的复杂性，降低计算资源消耗，并加速推理过程。

油泼辣子多加·2025-02-19 18:02

联想E470 双GPU笔记本部署私有AI模型方案

考虑到电脑的性能限制，打算采用「量化模型+知识蒸馏」的低成本部署方案。

月光技术杂谈·2025-02-19 02:18

解剖DeepSeek四把刀，一场深到源码，大到行业，细到人心盛宴

他们公开的是经过蒸馏的“成品模型”，而非原始训练框架：就像给你组装好的乐高战舰，却藏起了设计图纸。这种半开放式开源既能吸引开发者构建生态，又

leluckys·2025-02-18 19:33

DeepSeek对AI发展的范式革新与推动：研究报告

其核心技术突破包括：低算力消耗的模型训练通过蒸馏训练策略、动态模型剪枝和稀疏训练，DeepSeek将训练成本降至OpenAI同类模型的1/10，同时保持性能可比甚至超越。

芝士AI吃鱼·2025-02-18 05:57

DeepSeek R1蒸馏版模型部署的实战教程

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

herosunly·2025-02-18 03:09

DeepSeek推理模型架构以及DeepSeek爆火的原因

在训练过程中，DeepSeek广泛应用蒸馏技术，通过生成高质量数据和将大型模型的推理能力迁移至小型模型，大幅提升训练效率与模型性能。Deep

微学AI·2025-02-18 03:06

Audio-Visual Speech Enhancement（视听语音增强）领域近三年研究进展与国内团队及手机厂商动态分析

一、视听语音增强领域近三年研究进展多模态融合与模型轻量化多模态特征融合：中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模，结合知识蒸馏技术，在训练阶段利用教师模型传递舌部运动知识，从而在推断时仅依赖唇部视频即可提升语音增强效果

AndrewHZ·2025-02-17 20:47

本地搭建deepseek并提供给其它人使用（最全，完整可用）

因为是开源的，我们可以很方便的架设其蒸馏模型到自己的主机上。PS：虽然也可以Cpu运行模型，但是如果没有8G以上的显存卡的话，只能搭建7B以下的模型，体验效果并不太好。

唐大帅·2025-02-17 12:41

使用Python实现深度学习模型：知识蒸馏与模型压缩

知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。

Echo_Wish·2025-02-17 04:34

DeepSeek-R1 蒸馏 Qwen 和 Llama 架构企业级RAG知识库

“DeepSeek-R1的输出，蒸馏了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果，通过知识蒸馏技术训练出6个参数规模较小的模型，以下是具体解释：-**知识蒸馏技术原理**：知识蒸馏是一种模型压缩技术

qq_25467441·2025-02-15 20:00

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.1.动态蒸馏的核心思想动态蒸馏的目标是通过教师模型（通常是一个较大的预训练模型）的输出，指导学生模型（较小的模型）

墨者清风·2025-02-15 11:54

海云安开发者智能助手（D10）全面接入DeepSeek，赋能开发者安全高效编码新范式

数据显示，通过DeepSeekR1模型的优化与蒸馏，D10在代码缺陷检测、组件风险分析、智能编码等核心场景的综合效率提升超20%，运营成本降低35%，为全球开发者提供更精准、更轻量、更敏捷的智能开发安全解决方案

海云安·2025-02-14 00:13

【实测】用全志A733平板搭建一个端侧Deepseek算力平台

随着DeepSeek的蒸馏技术的横空出世，端侧SoC芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢？

小文哥嵌入式开发·2025-02-14 00:07

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek

大F的智能小课·2025-02-13 22:52

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

DeepSeek-R1-Distill-Qwen则是通过DeepSeek-R1的输出，基于Qwen大语言模型，经过模型蒸馏的小模型，其中32B和70B模型在多项能力上实现了对标OpenAIo

·2025-02-12 17:52

DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力

学生通过模仿老师的思路和技巧，最终也能独立解决复杂的题目——这就是“”模型蒸馏（Distillation）“”的核心思想。

马拉AI·2025-02-12 15:34

手把手教学，DeepSeek-R1微调全流程拆解

这篇文章，我们将使用其蒸馏版本之一引导大家完成DeepSee

AI生成曾小健·2025-02-12 05:01

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）

DeepSeek-R1的出现是个大事件，它在技术创新方面，通过独特的强化学习与蒸馏技术，在性能上逼近国际领先模型。

·2025-02-11 21:14

『大模型笔记』国外大神对DeepSeek R1的科普！

模型蒸馏（新的规模定律？）2025年的预测地缘政治：Distealing结论讨论二

AI大模型前沿研究·2025-02-11 09:02

一文读懂DeepSeek蒸馏技术，AI进阶的秘密武器

一文读懂DeepSeek蒸馏技术，AI进阶的秘密武器在AI领域蓬勃发展的当下，模型的性能与效率成为了研究者们关注的焦点。DeepSeek作为其中的佼佼者，其蒸馏技术为提升模型表现开辟了新路径。

老黄浅谈质量·2025-02-11 07:45

自动驾驶新风口：DeepSeek-R1 的“车端革命”

DeepSeek-R1模型是一个开源推理模型，可以随意蒸馏形成小模型，那么这种模型，对未来任何产业都能够产生很大的影响。那么我们汽车行业的智能驾驶/自动驾驶呢？

大模型入门学习·2025-02-10 07:30

[论文笔记] llama3.2 蒸馏

参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac

心心喵·2025-02-10 03:24

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2

tangjunjun-owen·2025-02-09 23:54

如何蒸馏 Deepseek-R1：全面指南

目录引言知识蒸馏基础知识蒸馏的起源与发展知识蒸馏的核心原理深入剖析常见的知识蒸馏方法分类详解Deepseek-R1模型概述

zhangjiaofa·2025-02-09 11:30

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

蒸馏：让DeepSeek用“移魂大法”增强你的小模型原创格知致能寒武纪人工智能2025年02月06日00:48北京前言在大型语言模型（LLMs）时代，知识蒸馏成为一种重要方法，用于将能力强大的、参数规模庞大的

AI生成曾小健·2025-02-09 11:58

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

本文将深入探讨LLMs的训练过程，特别是强化学习（ReinforcementLearning，RL）（深度解析DeepSeekR1：强化学习与知识蒸馏的协同力量）在这一领域的应用，从TRP

大模型之路·2025-02-08 20:03

深度解析 DeepSeek 的蒸馏技术

DeepSeek蒸馏技术概述1.1蒸馏技术定义与原理图片模型蒸馏（KnowledgeDistillation）是一种将大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模型）的技术。

海持Alvin·2025-02-08 15:04

超火的DeepSeek使用了大模型蒸馏技术嘛?

是的，DeepSeek确实使用了大模型蒸馏技术。以下是通过互联网公开信息整理的内容:从多个证据中可以确认，DeepSeek在其模型训练和优化过程中采用了蒸馏技术。

魔王阿卡纳兹·2025-02-08 14:28

DeepSeek蒸馏模型：轻量化AI的演进与突破

目录引言一、知识蒸馏的技术逻辑与DeepSeek的实践1.1知识蒸馏的核心思想1.2DeepSeek的蒸馏架构设计二、DeepSeek蒸馏模型的性能优势2.1效率与成本的革命性提升2.2性能保留的突破2.3

张3蜂·2025-02-08 14:56

【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析

为了克服这些挑战，DeepSeek引入了知识蒸馏技术，通过将大型模型的知识转移到小型模型中，实现了模型的轻量化。本文将深入探讨DeepSeek小模型蒸馏的原理，并提供详细的本地部署步

后端研发Marion·2025-02-08 14:24

模型蒸馏、量化、裁剪的概念和区别

模型压缩概述1.1模型压缩的重要性随着深度学习技术的快速发展，神经网络模型在各种任务中取得了显著的成功。然而，这些模型通常具有大量的参数和复杂的结构，导致模型体积庞大、计算资源消耗高和推理时间长。这些问题限制了深度学习模型在资源受限设备（如移动设备、嵌入式系统）上的应用。模型压缩技术的出现，旨在解决上述问题，通过减少模型的大小和计算复杂度，同时保持或提高模型的性能。模型压缩的重要性主要体现在以下几

我就是全世界·2025-02-06 22:24

LLM知识蒸馏代码讲解及训练实验

LLM知识蒸馏代码讲解及训练实验知识蒸馏简单讲即使用大规模参数的模型对小规模参数模型进行蒸馏，且不是简单的只使用答案，是需要两个模型的logprob进行交互的，故两个模型的vocabsize必须是一样的

淡水，·2025-02-06 18:33

大语言模型轻量化：知识蒸馏的范式迁移与工程实践

大语言模型轻量化：知识蒸馏的范式迁移与工程实践嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。

LucianaiB·2025-02-06 02:04

DeepSeek R1技术报告关键解析(5/10)：知识蒸馏：如何让小模型也能具备强推理能力？

1.什么是知识蒸馏？知识蒸馏（KnowledgeDistillation）是一种让小模型从大模型学习的技术，类似于一位资深老师将自己的知识浓缩后，传授给学生。

董董灿是个攻城狮·2025-02-05 19:43

知识蒸馏教程 Knowledge Distillation Tutorial

来自于：KnowledgeDistillationTutorial将大模型蒸馏为小模型，可以节省计算资源，加快推理过程，更高效的运行。

Qiming_v·2025-02-05 17:03

怎么在家用笔记本上轻松部署和使用DeepSeek R1?

那本文将介绍其蒸馏版本在普通家用笔记本上的部署和使用，之所以选择蒸馏版本，是因为蒸馏版本通过模型蒸馏技术实现了算力需求的大幅降低。

程序员辣条·2025-02-05 10:32

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）

DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏

开源技术探险家·2025-02-04 05:54

python中keras_Python深度学习——keras（一）

大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist

weixin_39534321·2025-02-04 04:48

手机上运行AI大模型(Deepseek等)

最近deepseek的大火，让大家掀起新一波的本地部署运行大模型的热潮，特别是deepseek有蒸馏的小参数量版本，电脑上就相当方便了，直接ollama+open-webui这种类似的组合就可以轻松地实现

zd200572·2025-02-04 02:07

浅谈知识蒸馏技术

最近爆火的DeepSeek技术，将知识蒸馏技术运用推到我们面前。今天就简单介绍一下知识蒸馏技术并附上python示例代码。

eso1983·2025-02-04 02:07

大型语言模型（LLM）压缩技术：如何让庞然大物更轻巧？

让我们从几个关键技术开始讲解：剪枝（Pruning）、知识蒸馏（KnowledgeDistillation）

空间机器人·2025-02-03 12:09

Stable Diffusion创始人：DeepSeek没有抄袭！

EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物

Datawhale·2025-02-03 06:51

课程内容摘要生成：基于知识蒸馏与事实增强的深度学习模型实践

文章目录引言一、核心技术：知识蒸馏与事实三元组融合二、模型架构设计与优化三、Python实现与关键代码解析四、业务价值与效果分析五、挑战与优化方向引言在教育内容数字化进程中，课程内容摘要生成技术能够从海量教学资源中提炼核心知识点

二进制独立开发·2025-02-03 04:04

什么是“知识蒸馏”

为了解决这一问题，知识蒸馏技术应运而生，成为模型压缩和性能优化的重要手段。本节将详细介绍知识蒸馏的基本概念、工作原理和知识迁移机制。

清风AI·2025-02-02 19:55

白话DeepSeek-R1论文（三）| DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力

DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力当大模型成为“老师”，小模型也能变“学霸”想象一下，一位经验丰富的数学老师（大模型）将自己解题的思维过程一步步拆解，手把手教给学生（小模型

明哲AI·2025-02-02 11:58

[250125] DeepSeek 发布开源大模型 R1，性能比肩 OpenAI o1 | 希捷推出高达 36TB 的硬盘

主要亮点：开源模型，MIT许可证：DeepSeek-R1遵循MITLicense，允许用户自由使用、修改、分发，甚至商用，并允许通过蒸馏技术基于R1训练其他模型。

x-cmd·2025-02-02 09:13

大模型迎来2025开年大作：deepseek-R1与deepseek-R1-Zero

DeepSeek-R1遵循MITLicense，允许用户通过蒸馏技术借助R1训练其他模型。

Funny_AI_LAB·2025-02-01 18:02

推荐频道

DKD蒸馏