DKD蒸馏

本地搭建deepseek并提供给其它人使用（最全，完整可用）

因为是开源的，我们可以很方便的架设其蒸馏模型到自己的主机上。PS：虽然也可以Cpu运行模型，但是如果没有8G以上的显存卡的话，只能搭建7B以下的模型，体验效果并不太好。

唐大帅·2025-02-17 12:41

使用Python实现深度学习模型：知识蒸馏与模型压缩

知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。

Echo_Wish·2025-02-17 04:34

DeepSeek-R1 蒸馏 Qwen 和 Llama 架构企业级RAG知识库

“DeepSeek-R1的输出，蒸馏了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果，通过知识蒸馏技术训练出6个参数规模较小的模型，以下是具体解释：-**知识蒸馏技术原理**：知识蒸馏是一种模型压缩技术

qq_25467441·2025-02-15 20:00

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.1.动态蒸馏的核心思想动态蒸馏的目标是通过教师模型（通常是一个较大的预训练模型）的输出，指导学生模型（较小的模型）

墨者清风·2025-02-15 11:54

海云安开发者智能助手（D10）全面接入DeepSeek，赋能开发者安全高效编码新范式

数据显示，通过DeepSeekR1模型的优化与蒸馏，D10在代码缺陷检测、组件风险分析、智能编码等核心场景的综合效率提升超20%，运营成本降低35%，为全球开发者提供更精准、更轻量、更敏捷的智能开发安全解决方案

海云安·2025-02-14 00:13

【实测】用全志A733平板搭建一个端侧Deepseek算力平台

随着DeepSeek的蒸馏技术的横空出世，端侧SoC芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢？

小文哥嵌入式开发·2025-02-14 00:07

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek

大F的智能小课·2025-02-13 22:52

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

DeepSeek-R1-Distill-Qwen则是通过DeepSeek-R1的输出，基于Qwen大语言模型，经过模型蒸馏的小模型，其中32B和70B模型在多项能力上实现了对标OpenAIo

·2025-02-12 17:52

DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力

学生通过模仿老师的思路和技巧，最终也能独立解决复杂的题目——这就是“”模型蒸馏（Distillation）“”的核心思想。

马拉AI·2025-02-12 15:34

手把手教学，DeepSeek-R1微调全流程拆解

这篇文章，我们将使用其蒸馏版本之一引导大家完成DeepSee

AI生成曾小健·2025-02-12 05:01

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）

DeepSeek-R1的出现是个大事件，它在技术创新方面，通过独特的强化学习与蒸馏技术，在性能上逼近国际领先模型。

·2025-02-11 21:14

『大模型笔记』国外大神对DeepSeek R1的科普！

模型蒸馏（新的规模定律？）2025年的预测地缘政治：Distealing结论讨论二

AI大模型前沿研究·2025-02-11 09:02

一文读懂DeepSeek蒸馏技术，AI进阶的秘密武器

一文读懂DeepSeek蒸馏技术，AI进阶的秘密武器在AI领域蓬勃发展的当下，模型的性能与效率成为了研究者们关注的焦点。DeepSeek作为其中的佼佼者，其蒸馏技术为提升模型表现开辟了新路径。

老黄浅谈质量·2025-02-11 07:45

自动驾驶新风口：DeepSeek-R1 的“车端革命”

DeepSeek-R1模型是一个开源推理模型，可以随意蒸馏形成小模型，那么这种模型，对未来任何产业都能够产生很大的影响。那么我们汽车行业的智能驾驶/自动驾驶呢？

大模型入门学习·2025-02-10 07:30

[论文笔记] llama3.2 蒸馏

参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac

心心喵·2025-02-10 03:24

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2

tangjunjun-owen·2025-02-09 23:54

如何蒸馏 Deepseek-R1：全面指南

目录引言知识蒸馏基础知识蒸馏的起源与发展知识蒸馏的核心原理深入剖析常见的知识蒸馏方法分类详解Deepseek-R1模型概述

zhangjiaofa·2025-02-09 11:30

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

蒸馏：让DeepSeek用“移魂大法”增强你的小模型原创格知致能寒武纪人工智能2025年02月06日00:48北京前言在大型语言模型（LLMs）时代，知识蒸馏成为一种重要方法，用于将能力强大的、参数规模庞大的

AI生成曾小健·2025-02-09 11:58

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

本文将深入探讨LLMs的训练过程，特别是强化学习（ReinforcementLearning，RL）（深度解析DeepSeekR1：强化学习与知识蒸馏的协同力量）在这一领域的应用，从TRP

大模型之路·2025-02-08 20:03

深度解析 DeepSeek 的蒸馏技术

DeepSeek蒸馏技术概述1.1蒸馏技术定义与原理图片模型蒸馏（KnowledgeDistillation）是一种将大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模型）的技术。

海持Alvin·2025-02-08 15:04

超火的DeepSeek使用了大模型蒸馏技术嘛?

是的，DeepSeek确实使用了大模型蒸馏技术。以下是通过互联网公开信息整理的内容:从多个证据中可以确认，DeepSeek在其模型训练和优化过程中采用了蒸馏技术。

魔王阿卡纳兹·2025-02-08 14:28

DeepSeek蒸馏模型：轻量化AI的演进与突破

目录引言一、知识蒸馏的技术逻辑与DeepSeek的实践1.1知识蒸馏的核心思想1.2DeepSeek的蒸馏架构设计二、DeepSeek蒸馏模型的性能优势2.1效率与成本的革命性提升2.2性能保留的突破2.3

张3蜂·2025-02-08 14:56

【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析

为了克服这些挑战，DeepSeek引入了知识蒸馏技术，通过将大型模型的知识转移到小型模型中，实现了模型的轻量化。本文将深入探讨DeepSeek小模型蒸馏的原理，并提供详细的本地部署步

后端研发Marion·2025-02-08 14:24

模型蒸馏、量化、裁剪的概念和区别

模型压缩概述1.1模型压缩的重要性随着深度学习技术的快速发展，神经网络模型在各种任务中取得了显著的成功。然而，这些模型通常具有大量的参数和复杂的结构，导致模型体积庞大、计算资源消耗高和推理时间长。这些问题限制了深度学习模型在资源受限设备（如移动设备、嵌入式系统）上的应用。模型压缩技术的出现，旨在解决上述问题，通过减少模型的大小和计算复杂度，同时保持或提高模型的性能。模型压缩的重要性主要体现在以下几

我就是全世界·2025-02-06 22:24

LLM知识蒸馏代码讲解及训练实验

LLM知识蒸馏代码讲解及训练实验知识蒸馏简单讲即使用大规模参数的模型对小规模参数模型进行蒸馏，且不是简单的只使用答案，是需要两个模型的logprob进行交互的，故两个模型的vocabsize必须是一样的

淡水，·2025-02-06 18:33

大语言模型轻量化：知识蒸馏的范式迁移与工程实践

大语言模型轻量化：知识蒸馏的范式迁移与工程实践嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。

LucianaiB·2025-02-06 02:04

DeepSeek R1技术报告关键解析(5/10)：知识蒸馏：如何让小模型也能具备强推理能力？

1.什么是知识蒸馏？知识蒸馏（KnowledgeDistillation）是一种让小模型从大模型学习的技术，类似于一位资深老师将自己的知识浓缩后，传授给学生。

董董灿是个攻城狮·2025-02-05 19:43

知识蒸馏教程 Knowledge Distillation Tutorial

来自于：KnowledgeDistillationTutorial将大模型蒸馏为小模型，可以节省计算资源，加快推理过程，更高效的运行。

Qiming_v·2025-02-05 17:03

怎么在家用笔记本上轻松部署和使用DeepSeek R1?

那本文将介绍其蒸馏版本在普通家用笔记本上的部署和使用，之所以选择蒸馏版本，是因为蒸馏版本通过模型蒸馏技术实现了算力需求的大幅降低。

程序员辣条·2025-02-05 10:32

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）

DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏

开源技术探险家·2025-02-04 05:54

python中keras_Python深度学习——keras（一）

大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist

weixin_39534321·2025-02-04 04:48

手机上运行AI大模型(Deepseek等)

最近deepseek的大火，让大家掀起新一波的本地部署运行大模型的热潮，特别是deepseek有蒸馏的小参数量版本，电脑上就相当方便了，直接ollama+open-webui这种类似的组合就可以轻松地实现

zd200572·2025-02-04 02:07

浅谈知识蒸馏技术

最近爆火的DeepSeek技术，将知识蒸馏技术运用推到我们面前。今天就简单介绍一下知识蒸馏技术并附上python示例代码。

eso1983·2025-02-04 02:07

大型语言模型（LLM）压缩技术：如何让庞然大物更轻巧？

让我们从几个关键技术开始讲解：剪枝（Pruning）、知识蒸馏（KnowledgeDistillation）

空间机器人·2025-02-03 12:09

Stable Diffusion创始人：DeepSeek没有抄袭！

EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物

Datawhale·2025-02-03 06:51

课程内容摘要生成：基于知识蒸馏与事实增强的深度学习模型实践

文章目录引言一、核心技术：知识蒸馏与事实三元组融合二、模型架构设计与优化三、Python实现与关键代码解析四、业务价值与效果分析五、挑战与优化方向引言在教育内容数字化进程中，课程内容摘要生成技术能够从海量教学资源中提炼核心知识点

二进制独立开发·2025-02-03 04:04

什么是“知识蒸馏”

为了解决这一问题，知识蒸馏技术应运而生，成为模型压缩和性能优化的重要手段。本节将详细介绍知识蒸馏的基本概念、工作原理和知识迁移机制。

清风AI·2025-02-02 19:55

白话DeepSeek-R1论文（三）| DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力

DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力当大模型成为“老师”，小模型也能变“学霸”想象一下，一位经验丰富的数学老师（大模型）将自己解题的思维过程一步步拆解，手把手教给学生（小模型

明哲AI·2025-02-02 11:58

[250125] DeepSeek 发布开源大模型 R1，性能比肩 OpenAI o1 | 希捷推出高达 36TB 的硬盘

主要亮点：开源模型，MIT许可证：DeepSeek-R1遵循MITLicense，允许用户自由使用、修改、分发，甚至商用，并允许通过蒸馏技术基于R1训练其他模型。

x-cmd·2025-02-02 09:13

大模型迎来2025开年大作：deepseek-R1与deepseek-R1-Zero

DeepSeek-R1遵循MITLicense，允许用户通过蒸馏技术借助R1训练其他模型。

Funny_AI_LAB·2025-02-01 18:02

聊聊AI中的“蒸馏”技术

一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。

自由鬼·2025-02-01 09:15

什么是知识蒸馏技术？

知识蒸馏（KnowledgeDistillation）是一种模型压缩和加速技术，旨在将大型模型（通常称为教师模型）所学到的知识迁移到小型模型（通常称为学生模型）中，从而让小型模型在减少计算资源消耗和推理时间的同时

deepdata_cn·2025-02-01 09:41

大模型蒸馏与大模型微调技术有啥差别?

大模型蒸馏与大模型微调是当前人工智能领域中两种重要的技术手段，它们在模型优化、性能提升和资源利用方面各有特点。以下将从定义、技术原理、应用场景及优缺点等方面对这两种技术进行深入对比。

kcarly·2025-02-01 08:37

AI大模型在智能客服系统中的应用

对话生成与上下文管理对话生成上下文管理3.提高客服系统响应精度的策略1.使用专门训练的数据集2.引入实体识别和意图分类3.反馈循环和持续优化4.AI大模型在企业中的优化与调优策略1.模型微调（Fine-tuning）2.模型蒸馏

季风泯灭的季节·2025-02-01 04:33

论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）

IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏

墨绿色的摆渡人·2025-01-31 07:01

我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！

AI生成曾小健·2025-01-31 03:00

火出圈的DeepSeeK R1详解

模型蒸馏支持：允许用户利用模型输出训练

清风AI·2025-01-29 17:58

DeepSeek-R1-Distill-Qwen-1.5B：最佳小型LLM？

但今天我们不是在讨论这两款超级模型，而是讨论DeepSeek-R1的一个蒸馏版本——DeepSeek-R1-Distill-Qwen-1.5B，它可能是今天被低估的版本，虽然只有15亿个参数，但它悄无声息地在一些主要基准上超越了

李孟聊人工智能·2025-01-29 13:53

大模型产品架构全景解读：从应用场景到技术支持的完整路径

大模型不仅可以处理大量数据，进行复杂任务的自动化，还能通过微调、蒸馏等技术在特定场景中表现出色。

健忘的派大星·2025-01-29 02:34

推荐频道