知识蒸馏第2页

神经网络中的蒸馏技术，从Softmax开始说起

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者：SayakPaul编译：ronghuaiyang导读从各个层次给大家讲解模型的知识蒸馏的相关内容，并通过实际的代码给大家进行演示

小白学视觉·2023-11-16 21:14

知识蒸馏（Pytorch入门）

知识蒸馏：Hinton2015年在论文《Distillingtheknowledgeinaneuralnetwork》中首次提出，并应用在分类任务上，大模型称为teacher(教师模型),小模型称为Student

我有明珠一颗·2023-11-16 06:48

@BangBang·2023-11-12 13:39

对知识蒸馏的一些理解

知识蒸馏是一种模型压缩技术，它通过从一个大模型（教师模型）中传输知识到一个小模型（学生模型）中来提高学生模型的性能，知识蒸馏也要用到真实的数据集标签。

重剑DS·2023-11-11 17:38

论文阅读_知识蒸馏_MobileBERT

英文题目：MobileBERT:aCompactTask-AgnosticBERTforResource-LimitedDevices中文题目：MobileBERT：面向资源有限设备的任务无关的压缩模型论文地址：https://arxiv.org/pdf/2004.02984领域：自然语言处理，模型蒸馏发表时间：2020作者：ZhiqingSun，卡内基梅隆大学，谷歌出处：ACL被引量：162代码

xieyan0811·2023-11-06 19:28

【神经网络架构搜索】DNA: Block-wisely Supervised NAS with KD

【GiantPandaCV导语】知识蒸馏结合NAS的一篇工作，提出了DNA，让教师网络来指导超网的学习。这个工作将知识蒸馏非常深入的融合在一起，有很强的创新性，已被CVPR20接收。

pprpp·2023-11-04 07:28

SSD-1B：Segmind的加速稳定扩散模型

SSD-1B模型采用知识蒸馏策略，连续利用多个专家模型（包括SDXL、ZavyChromaXL和JuggernautXL）的教学，结合

新缸中之脑·2023-11-03 10:59

基于生成对抗网络的知识蒸馏数据增强

基于生成对抗网络的知识蒸馏数据增强期刊：计算机工程C时间：2022研究院：武汉工程大学关键词：数据增强；神经网络分类器；工业视觉；生成对抗网络；知识蒸馏方法简介思想来源：仅对原标签做简单的线性变化或直接使用原标签作为新样本标签的方法是无法表示标签中离散信息的

HoraceO·2023-11-03 06:16

基于知识蒸馏的车辆可行驶区域分割算法研究

基于知识蒸馏的车辆可行驶区域分割算法研究期刊：汽车技术时间：2020研究院：同济大学关键词：知识蒸馏可行驶区域图像分割卷积神经网络前言2014年，LongJ[1]等人提出使用全卷积神经网络（FullyConvolutionalNetworks

HoraceO·2023-11-03 06:16

基于知识蒸馏的单幅图像去雾方法

基于知识蒸馏的单幅图像去雾方法期刊：计算机工程C时间：2022研究院：南京邮电大学关键词：图像去雾；生成对抗网络；知识蒸馏；教师网络；学生网络相关工作基于学习的方法通过利用卷积神经网络（CNN）从大量训练数据中提取图像特征

HoraceO·2023-11-03 06:16

基于知识蒸馏的心律失常分类模型

基于知识蒸馏的心律失常分类模型期刊：电子设计工程时间：2022研究院：中国科学院微电子研究所，硕士关键词：心律失常；卷积神经网络；注意力；知识蒸馏ECG心律失常分类ECG心律失常分类模型一般分为3个步骤

HoraceO·2023-11-03 06:16

Incremental Object Detection via Meta-Learning【论文解析】

已经有一些努力来解决这个限制，它们都应用了知识蒸馏的变体来避免灾难性遗忘。然而，我们注意到

黄阳老师·2023-11-02 14:55

YOLOv8改进之C2f模块融合CVPR2023 SCConv

虽然过去用于改善网络效率的各种模型压缩策略和网络设计，包括网络剪枝、权重量化、低秩分解和知识蒸馏等。然而，这些方法都被视为后处理步骤，因此它们的性能通常受到给定初始模型的上限约束。而网络设计另辟

山河亦问安·2023-11-01 13:33

如何用大模型蒸馏一个yolo模型？（一）

YOLO9000:Better,Faster,Stronger"byJosephRedmonandAliFarhadi.这篇论文介绍了YOLOv2模型，并提出了使用知识蒸馏的方法来进一步提升模型的性能。

hi小蜗·2023-10-31 14:19

27.深度学习模型压缩方法-1

量化、低秩分解、迁移学习等方法，而这些方法又可分为前端压缩和后端压缩27.1前端压缩和后端压缩对比对比项目前端压缩后端压缩含义不会改变原始网络结构的压缩技术会大程度上改变原始网络结构的压缩技术主要方法知识蒸馏

大勇任卷舒·2023-10-29 21:57

读书笔记-增量学习-EEIL_End-to-End Incremental Learning

基于Distillation知识蒸馏从旧数据中提取代表性样本、Crossentropy交叉熵学习新数据。题目的End-to-End指的是能同时训练更新Classification分类器和代

谷粤狐·2023-10-29 00:16

大模型知识蒸馏概述

而大模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（KnowledgeDistillation）量化（Quantization）低秩分解（Lo

zenRRan·2023-10-28 00:38

CRD3 小陈读paper

这个比较适合看图Experiments我们在三个知识蒸馏任务中评估我们的对比表示蒸馏(CRD)框架：（a）大型网络的模型压缩到较小的网络；(b)跨模态知识转移；(c)从一组教师到单个学生网络的集成蒸馏。

：）�东东要拼命·2023-10-27 09:08

还是忍不住对对比学习的知识蒸馏动手了（CRD1）小陈读paper

这篇发布在ICLR2020上名副其实的顶刊看这个作者阵容也是十分的给力哈哈哈哈确实很摘要第一句话：通常我们希望将表征知识从一个神经网络转移到另一个神经网络。其实做蒸馏或者看蒸馏领域的确实是这种感悟没毛病的第二三两句：在介绍KD是什么东西第四句话：存在的问题：我们证明了这个目标忽略了教师网络的重要结构知识。第五句话，第六句话：解决方案这激发了另一个目标，在该目标中，我们训练学生在教师数据表示中捕获更

：）�东东要拼命·2023-10-27 09:07

CRD2 值得一读的知识蒸馏与对比学习结合的paper 小陈读paper

一定要读真的是不一样的收获啊不知道屏幕前的各位get到了没有Hintonetal.(2015)introducedtheideaoftemperatureinthesoftmaxoutputstobetterrepresentsmallerprobabilitiesintheoutputofasinglesample.Hinton等人(2015)引入了softmax输出中温度的思想，以更好地表示单

：）�东东要拼命·2023-10-27 09:07

Knowledge Distillation (3) 看样本下菜的FastBERT

更好的阅读体验请跳转至KnowledgeDistillation(3)看样本下菜的FastBERT之前KnowledgeDistillation相关的两篇分别介绍了两种知识蒸馏的方式：模型替换之bert-of-theseus

小蛋子·2023-10-25 17:43

[论文阅读]CWD——基于稠密预测的通道式知识蒸馏

CWD基于稠密预测的通道式知识蒸馏论文网址：CWD论文总结这篇论文「Channel-wiseKnowledgeDistillationforDensePrediction」提出了一种针对密集预测任务的基于通道的知识蒸馏方法

一朵小红花HH·2023-10-24 04:18

知识蒸馏学习

一.知识蒸馏综述1.简介大模型在部署到资源有限的设备上（手机、嵌入式设备等）会遇到体积和速度问题，知识蒸馏作为有代表性的模型压缩和加速的技术之一（其他还有：参数裁剪和共享、低秩分解和Transferredcompactconvolutionalfilters

AKA老实人·2023-10-22 14:15

[2023年综述]将CNN和Transformer优势相结合的混合模型在计算机视觉领域的研究综述

3.1.引言3.2.NLP领域的Transformer3.3.CV领域的VisionTransformer4.结合CNN与Transformer的常见方法4.1.引言4.2.基于架构设计参考4.3.基于知识蒸馏

4miles·2023-10-22 12:06

知识蒸馏论文翻译（7）—— Knowledge Distillation from Internal Representations（内部表征）

知识蒸馏论文翻译（7）——KnowledgeDistillationfromInternalRepresentations（内部表征）文章目录知识蒸馏论文翻译（7）——KnowledgeDistillationfromInternalRepresentations

~拾捌~·2023-10-22 02:13

知识蒸馏论文翻译（9）—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation

知识蒸馏论文翻译（9）——Multi-levelKnowledgeDistillationviaKnowledgeAlignmentandCorrelation基于知识对齐和关联的多层次知识蒸馏文章目录知识蒸馏论文翻译

~拾捌~·2023-10-22 02:13

知识蒸馏论文翻译（6）——FEED: Feature-level Ensemble for Knowledge Distillation

知识蒸馏论文翻译（6）——FEED:Feature-levelEnsembleforKnowledgeDistillationFEED：用于知识提炼的特征级集成文章目录知识蒸馏论文翻译（6）——FEED

~拾捌~·2023-10-22 02:12

知识蒸馏论文翻译（1）——CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION（多教师知识提炼）

知识蒸馏论文翻译（1）——CONFIDENCE-AWAREMULTI-TEACHERKNOWLEDGEDISTILLATION（多教师知识提炼）文章目录知识蒸馏论文翻译（1）——CONFIDENCE-AWAREMULTI-TEACHERKNOWLEDGEDISTILLATION

~拾捌~·2023-10-22 02:42

深度学习加速之剪枝、知识蒸馏

unstructuredpruning1.1.2Localpruning和globalpruning1.2根据BN层scale系数进行的剪枝1.3使用NetworkSlimming对yolov3进行剪枝2.知识蒸馏参考文献

L1_Zhang·2023-10-21 06:06

论文阅读：Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation

为了解决上述问题，我们提出了点到体素知识蒸馏Point-to-VoxelKnowledgeDistillatio

shiyueyueya·2023-10-19 08:57

ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

ReAugKD：预训练语言模型的检索增强知识蒸馏摘要1引言2相关工作3方法4实验结果5结论局限性摘要知识蒸馏（KD）是在低延迟环境中部署大规模预训练语言模型的最有效方法之一，通过将大规模模型中包含的知识转移到较

UnknownBody·2023-10-18 02:11

论文阅读：Knowledge Distillation: A Survey 知识蒸馏综述（2021）

论文阅读：KnowledgeDistillation:ASurvey知识蒸馏综述2021目录摘要IntroductionBackground知识基于响应的知识基于特征的知识基于关系的知识蒸馏模式离线蒸馏在线蒸馏自蒸馏教师

小百花~·2023-10-17 21:42

知识蒸馏（Knowledge Distillation）简述

知识蒸馏（KnowledgeDistillation）简述结论Reference：DistillingtheKnowledgeinaNeuralNetwork知识蒸馏（KnowledgeDistillation

泠山·2023-10-17 16:06

Startdt AI提出：使用生成对抗网络用于One-Stage目标检测的知识蒸馏方法

许多研究者通过知识蒸馏的方法，通过把一个

奇点云·2023-10-17 13:19

浅谈“知识蒸馏”技术在机器学习领域的应用

什么是知识蒸馏技术？知识蒸馏技术首次出现是在Hinton几年前的一篇论文《DistillingtheKnowledgeinaNeuralNetwork》。

Garvin Li·2023-10-16 04:09

深度学习-图像处理

模型训练加速增大学习率，batchsize和学习率同步增大warmup，线性增加学习率2.模型训练调参学习率衰减策略采用cosine函数标签平滑，把原始的one-hot类型标签软化，计算损失时一定程度的减少过拟合知识蒸馏

LeslieJaywei·2023-10-16 01:20

论文浅尝 | 深度神经网络的模型压缩

最近提出的知识蒸馏方法旨在获得小型和快速执行的模型，它已经表明参数量较小的学生网络可以较好的模仿更大的教师网络或网络集群的SoftOutput。在本文中，我们扩展了这一思想

开放知识图谱·2023-10-15 12:37

【论文笔记】CVPR2022：Anomaly Detection via Reverse Distillation From One-Class Embedding

与之前的知识蒸馏模型不同，学生网络不是直接接收原始图像，而是将教师模型的单类嵌入（OneClassEmbedding）作为输入，并旨在恢复教师的多

yjttjyyy·2023-10-15 07:14

读论文：Lightweight Models for Traffic Classification: A Two-Step Distillation Approach

关键词：流量分类、自蒸馏、知识蒸馏、模型压缩、深度学习1、介绍模型压缩技术旨在将大型深度模型压缩成轻量级的小魔仙，以满足资源有限的硬件部署。诸如剪枝、知

不会绑马尾的女孩·2023-10-12 09:37

读书笔记：多Transformer的双向编码器表示法(Bert)-4

BidirectionalEncoderRepresentationsfromTransformers，即Bert；第二部分探索BERT变体从本章开始的诸多内容，以理解为目标，着重关注对音频相关的支持（如果有的话）；BERT变体：ALBERT、RoBERTTa、ELECTRA、SpanBERT、基于知识蒸馏

baby_hua·2023-10-11 23:27

知识蒸馏——教师网络和学生网络选择问题

在进行知识蒸馏（KnowledgeDistillation）时，选择合适的教师网络和学生网络对于任务的成功实现至关重要。

佐咖·2023-10-10 09:17

基于知识蒸馏的夜间低照度图像增强及目标检测

“人工智能技术与咨询”发布摘要为了实现夜间低照度图像的增强，提高目标检测模型在夜间低照度条件下的检测精度并减小模型的计算成本，提出了一种基于知识蒸馏和数据增强的夜间低照度图像增强以及目标检测多任务模型，

龙腾亚太·2023-10-09 05:03

DKD蒸馏复现

知识蒸馏主要分两类：1：基于logits2：基于featurelogits蒸馏主要是在早期，后期效果逐步被基于feature蒸馏超越。

微风❤水墨·2023-10-09 03:21

基于知识蒸馏的两阶段去雨去雪去雾模型学习记录(二）之知识收集阶段

前面学习了模型的构建与训练过程，然而在实验过程中，博主依旧对数据集与模型之间的关系有些疑惑，首先是论文说这是一个混合数据集，但事实上博主在实验时是将三个数据集分开的，那么在数据读取时是如何混合的呢，是每个epoch使用同一个数据集，下一个epoch再换数据集，还是再epoch中随机取数据集中的一部分。此外，教师模型总共有三个，其模型构造是完全相同的，不同之处在于三个教师模型是在不同的数据集训练得到

彭祥.·2023-10-07 04:29

基于知识蒸馏的两阶段去雨去雪去雾模型学习记录(三)之知识测试阶段与评估模块

去雨去雾去雪算法分为两个阶段，分别是知识收集阶段与知识测试阶段，前面我们已经学习了知识收集阶段，了解到知识阶段的特征迁移模块（CKT)与软损失（SCRLoss）,那么在知识收集阶段的主要重点便是HCRLoss(硬损失）,事实上，知识测试阶段要比知识收集阶段简单，因为这个模块只需要训练学生网络即可。模型创新点在进行知识测试阶段的代码学习之前，我们来回顾一下去雨去雪去雾网络的创新点：首先是提出两阶段的

彭祥.·2023-10-07 04:29

【知识蒸馏】Knowledge Review

摘要知识蒸馏通过将知识从教师网络传递到学生网络，但是之前的方法主要关注提出特征变换和实施相同层的特征。知识回顾KnowledgeReview选择研究教师与学生网络之间不同层之间的路径链接。

pprpp·2023-10-06 16:02

知识蒸馏与伪标签_1：开山之作

受干扰学生论文里提到6篇知识蒸馏及伪标签暗知识的论文，除去较早发表的3篇，包括以下3篇：1.Distillingtheknowledgeinaneuralnetwork（2015），神经网络知识蒸馏的开山之作

Valar_Morghulis·2023-10-06 01:28

知识蒸馏简介（Knowledge Distillation）

简介知识蒸馏的背景知识蒸馏的概念由Hinton在DistillingtheKnowledgeinaNeuralNetwork中提出，目的是把一个大模型或者多个模型集成学到的知识迁移到另一个轻量级模型上。

滑稽的猴子·2023-10-04 02:50

神经网络中的知识蒸馏

多分类交叉熵损失函数：每个样本的标签已经给出，模型给出在三种动物上的预测概率。将全部样本都被正确预测的概率求得为0.70.50.1，也称为似然概率。优化的目标就是希望似然概率最大化。如果样本很多，概率不断连乘，就会造成概率越来越小。对其取对数，使其最大化。在实际运用中，损失函数都是求最小化，所以取负号，将最大化变为最小化。教师–学生网络的方法，属于迁移学习的一种。迁移学习也就是将一个模型的性能迁移

the animal·2023-10-01 22:56

【模型压缩】Distiller学习-初认识

Distiller学习-初认识简介IntelAILab的神经网络压缩框架，建立在Pytorch基础上安装压缩方法权重正则化方法权重剪枝方法训练后量化方法训练时量化方法条件计算低质分解方法知识蒸馏方法总体目录核心代码实现所有案例的配置文件举例初始化网络评价网络模型的参数重要性移除不重要的神经元

luzhoushili·2023-10-01 18:43

推荐频道

知识蒸馏

神经网络中的蒸馏技术，从Softmax开始说起

知识蒸馏（Pytorch入门）

知识蒸馏概述及开源项目推荐

对知识蒸馏的一些理解

论文阅读_知识蒸馏_MobileBERT

【神经网络架构搜索】DNA: Block-wisely Supervised NAS with KD

SSD-1B：Segmind的加速稳定扩散模型

基于生成对抗网络的知识蒸馏数据增强

基于知识蒸馏的车辆可行驶区域分割算法研究

基于知识蒸馏的单幅图像去雾方法

基于知识蒸馏的心律失常分类模型

Incremental Object Detection via Meta-Learning【论文解析】

YOLOv8改进之C2f模块融合CVPR2023 SCConv

如何用大模型蒸馏一个yolo模型？（一）

27.深度学习模型压缩方法-1

读书笔记-增量学习-EEIL_End-to-End Incremental Learning

大模型知识蒸馏概述

CRD3 小陈读paper

还是忍不住对对比学习的知识蒸馏动手了（CRD1） 小陈读paper

CRD2 值得一读的知识蒸馏与对比学习结合的paper 小陈读paper

Knowledge Distillation (3) 看样本下菜的FastBERT

[论文阅读]CWD——基于稠密预测的通道式知识蒸馏

知识蒸馏学习

[2023年综述]将CNN和Transformer优势相结合的混合模型在计算机视觉领域的研究综述

知识蒸馏论文翻译（7）—— Knowledge Distillation from Internal Representations（内部表征）

知识蒸馏论文翻译（9）—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation

知识蒸馏论文翻译（6）——FEED: Feature-level Ensemble for Knowledge Distillation

知识蒸馏论文翻译（1）——CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION（多教师知识提炼）

深度学习加速之剪枝、知识蒸馏

论文阅读：Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation

ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

论文阅读：Knowledge Distillation: A Survey 知识蒸馏综述（2021）

知识蒸馏（Knowledge Distillation）简述

Startdt AI提出：使用生成对抗网络用于One-Stage目标检测的知识蒸馏方法

浅谈“知识蒸馏”技术在机器学习领域的应用

深度学习-图像处理

论文浅尝 | 深度神经网络的模型压缩

【论文笔记】CVPR2022：Anomaly Detection via Reverse Distillation From One-Class Embedding

读论文：Lightweight Models for Traffic Classification: A Two-Step Distillation Approach

读书笔记：多Transformer的双向编码器表示法(Bert)-4

知识蒸馏——教师网络和学生网络选择问题

基于知识蒸馏的夜间低照度图像增强及目标检测

DKD蒸馏复现

基于知识蒸馏的两阶段去雨去雪去雾模型学习记录(二）之知识收集阶段

基于知识蒸馏的两阶段去雨去雪去雾模型学习记录(三)之知识测试阶段与评估模块

【知识蒸馏】Knowledge Review

知识蒸馏与伪标签_1：开山之作

知识蒸馏简介（Knowledge Distillation）

神经网络中的知识蒸馏

【模型压缩】Distiller学习-初认识

还是忍不住对对比学习的知识蒸馏动手了（CRD1）小陈读paper