知识蒸馏第12页

深度学习中的3个秘密：集成，知识蒸馏和自蒸馏

点击上方“CVer”，选择加"星标"置顶重磅干货，第一时间送达本文转载自：AI公园作者：ZeyuanAllen-Zhu|编译：ronghuaiyang导读训练好的模型，用自己蒸馏一下，就能提高性能，是不是很神奇，这里面的原理到底是什么呢，这要从模型集成开始说起。在现在的标准技术下，例如过参数化、batch-normalization和添加残差连接，“现代”神经网络训练——至少对于图像分类任务和许多

Amusi（CVer）·2022-10-29 12:43

YOLOv5蒸馏 | 知识蒸馏理论篇 | 1/2

之前在《一文搞懂【知识蒸馏】【KnowledgeDistillation】算法原理》这篇文章中介绍过一些知识蒸馏的原理，这篇博文将会着重介绍目标检测领域的知识蒸馏原理。文章目录1.

迪菲赫尔曼·2022-10-29 12:11

Data-Free Knowledge Distillation for Heterogeneous Federated Learning论文阅读+代码解析

在本文中，我们提出了一个基于无数据的知识蒸馏算法——FEDGEN。具体来说，FEDGEN学习一个仅从用户模型的预测规则派生的生成模型，给定一个目标标签，可以生成与用户预测集合一致的特征表示。该生成器随

编程龙·2022-10-26 19:18

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

因此，本专题采用主流的知识蒸馏的方案来压缩模型，在满足用户预测性能、预测效果的需求同时，不依赖海量未标注数据，提升开发效率。文心提供多种不同大小的

汀、·2022-10-26 09:58

Multiresolution Knowledge Distillation for Anomaly Detection阅读笔记

一.基础介绍1.知识蒸馏简介知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法。

双木什么来着？·2022-10-26 07:57

BERT蒸馏完全指南｜原理/技巧/代码

模型蒸馏原理Hinton在NIPS2014[1]提出了知识蒸馏（Knowle

机智的叉烧·2022-10-26 07:19

一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理

知识蒸馏算法原理精讲文章目录知识蒸馏算法原理精讲1.什么是知识蒸馏？2.轻量化网络的方式有哪些？3.为什么要进行知识蒸馏？

迪菲赫尔曼·2022-10-26 07:46

ResNet-2

之前有个文章说这个,这又来了第二了~~来自卡耐基梅隆大学等单位这个快速知识蒸馏的视觉框架用基本的训练参数配置就可以把ResNet-50在ImageNet-1K从头开始(fromscratch)训练到80.1%

tt姐whaosoft·2022-10-17 12:59

介绍ResNet！计算机视觉算法岗面经：商汤/滴滴/腾讯

项目方面主要是图像识别与模型压缩知识蒸馏，一篇1作论文在投。其他专业排名、获奖情况、文体方面不赘述商汤：二面挂。被告知待综合评定，应该就是委婉地挂了551.

Amusi（CVer）·2022-10-12 07:47

知识蒸馏（尝试在ASR方向下WeNet中实现--代码）

知识蒸馏（尝试在WeNet中实现知识蒸馏）1、知识蒸馏简介1.1、论文1.2、目标蒸馏结构解释2、WeNet中关于知识蒸馏的思考2.1、WeNet结构2.2、CTC端的蒸馏3、WeNet知识蒸馏实验4、

雨雨子speech·2022-09-29 07:17

ViLD（Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation）

基于视觉语言（图像文本）知识蒸馏的目标检测CLIP模型当成teacher模型，去蒸馏自己的模型，从而达到zero-shot。模型具有检测新类别的能力。

山上的小酒馆·2022-09-28 10:41

论文阅读_知识蒸馏_Distilling_BERT

英文题目：DistillingTask-SpecificKnowledgefromBERTintoSimpleNeuralNetworks中文题目：从BERT中蒸馏指定任务知识到简单网络论文地址：https://arxiv.org/pdf/1903.12136.pdf领域：自然语言，深度学习发表时间：2019作者：RaphaelTang,滑铁卢大学被引量：226代码和数据：https://gith

xieyan0811·2022-09-25 01:41

论文阅读_知识蒸馏_MobileBERT

英文题目：MobileBERT:aCompactTask-AgnosticBERTforResource-LimitedDevices中文题目：MobileBERT：面向资源有限设备的任务无关的压缩模型论文地址：https://arxiv.org/pdf/2004.02984领域：自然语言处理，模型蒸馏发表时间：2020作者：ZhiqingSun，卡内基梅隆大学，谷歌出处：ACL被引量：162代码

xieyan0811·2022-09-25 01:41

论文阅读_知识蒸馏_TinyBERT

DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING中文题目：TinyBERT:提炼BERT的自然语言理解能力论文地址：https://arxiv.org/pdf/1909.10351.pdf领域：NLP，知识蒸馏发表时间

xieyan0811·2022-09-25 01:10

2021 ICCV、CVPR 知识蒸馏相关论文

目录2021ICCV2021CVPR2021ICCVPerturbedSelf-Distillation:WeaklySupervisedLarge-ScalePointCloudSemanticSegmentation[pdf][supp][bibtex]DenselyGuidedKnowledgeDistillationUsingMultipleTeacherAssistants[pdf][s

Phoenixtree_DongZhao·2022-09-25 01:46

浙大提出无数据知识蒸馏新方法FastDFKD

来源：机器之心本文共2400字，建议阅读5分钟本文为你介绍知识蒸馏的新方法。

数据派THU·2022-09-25 01:39

知识蒸馏 | (1) 知识蒸馏概述

原文地址这是一篇关于【知识蒸馏】简述的文章，目的是想对知识蒸馏学习的内容和问题进行总结。笔者挑选了部分经典的paper详读，希望对于对KD有需求的同学提供一个概览和帮助。

CoreJT·2022-09-25 01:05

【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization

摘要知识提炼（KD）作为一种强大的正则化策略，通过利用学到的样本级软目标来提高泛化能力，显示了光明的前景。然而，在现有的KD中采用复杂的预训练教师网络或同伴学生的集合，既耗时又耗费计算成本。为了实现更高的蒸馏效率，人们提出了许多自我KD方法。然而，它们要么需要额外的网络结构修改，要么难以并行化。为了应对这些挑战，我们提出了一个高效、可靠的自蒸馏框架，命名为“来自上一次小批量的自蒸馏”（DLB）。具

乱搭巴士·2022-09-25 01:57

【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer

摘要将在相同或类似任务上预训练的教师神经网络的知识转移到学生神经网络中，可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工制作的特征相匹配。我们提出了一个知识转移的信息理论框架，该框架将知识转移表述为教师和学生网络之间相互信息的最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较，结果表明我们的方法一直优于现有的方法。我们通过在CIFA

乱搭巴士·2022-09-25 01:56

【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation

可以参考2021的另一篇解决相似问题的文章（Learning_Student_Networks_in_the_Wild）摘要data-free知识蒸馏（DFKD）由于其仅使用人造合成数据压缩模型的能力，

乱搭巴士·2022-09-25 01:52

知识蒸馏-Yolov3

本人实验：利用上篇的“LearningEfficientConvolutionalNetworksThroughNetworkSlimming论文阅读笔记”方法，成功将算力8.5G的darknet21-yolo模型(9个类别)（map=0.74）裁剪掉到了3.9G（map=0.731），最后利用本文的蒸馏方法（下面代码中的蒸馏方法四），蒸馏之后，小模型（map=0.7413）竟然可以超过大模型，非

AI松子666·2022-09-25 01:55

加速100倍，性能媲美SOTA，浙大知识蒸馏新方法FastDFKD

知识蒸馏（KD）最近成为一种流行的范式，它是一种很典型的模型压缩方法，可以复用如今在线流行的预训练模型。随着自然语言处理模型等进入了预训练模型的时代，模型的规模也在极速增长，

zenRRan·2022-09-25 01:47

加速100倍，性能媲美SOTA，浙大提出无数据知识蒸馏新方法FastDFKD

知识蒸馏（KD）最近成为一种流行的范式，它是一种很典型的模型压缩方法，可以复用如今在线流行的预训练模型。

机器学习社区·2022-09-25 01:08

无数据蒸馏方向文献_1

初认无数据知识蒸馏Large-ScaleGenerativeData-FreeDistillationIntroduction&RelatedWork具体实现知识蒸馏图像生成模型InceptionismlossMomentmatchingloss

ExcitingYi·2022-09-25 00:12

论文阅读_知识蒸馏_Meta-KD

:AMetaKnowledgeDistillationFrameworkforLanguageModelCompressionacrossDomains中文题目：Meta-KD:跨领域语言模型压缩的元知识蒸馏框架论文地址

xieyan0811·2022-09-25 00:09

论文阅读_知识蒸馏_Distilling_BERT

英文题目：DistillingTask-SpecificKnowledgefromBERTintoSimpleNeuralNetworks中文题目：从BERT中蒸馏指定任务知识到简单网络论文地址：https://arxiv.org/pdf/1903.12136.pdf领域：自然语言，深度学习发表时间：2019作者：RaphaelTang,滑铁卢大学被引量：226代码和数据：https://gith

xieyan0811·2022-09-18 00:53

论文阅读_知识蒸馏_TinyBERT

DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING中文题目：TinyBERT:提炼BERT的自然语言理解能力论文地址：https://arxiv.org/pdf/1909.10351.pdf领域：NLP，知识蒸馏发表时间

xieyan0811·2022-09-18 00:23

基于知识蒸馏Knowledge Distillation模型压缩pytorch实现

在弄懂原理基础上，从本篇博客开始，逐步介绍基于知识蒸馏的增量学习、模型压缩的代码实现。毕竟“纸上得来终觉浅，绝知此事要躬行。”。先从最经典的Hilton论文开始，先实现基于知识蒸馏的模型压缩。

azy1988·2022-09-14 07:20

模型压缩之知识蒸馏

1.介绍1.2背景虽然在一般情况下，我们不会去区分训练和部署使用的模型，但是训练和部署之间存在着一定的不一致性:在训练过程中，我们需要使用复杂的模型，大量的计算资源，以便从非常大、高度冗余的数据集中提取出信息。在实验中，效果最好的模型往往规模很大，甚至由多个模型集成得到。而大模型不方便部署到服务中去，常见的瓶颈如下:推断速度慢对部署资源要求高(内存，显存等)在部署时，我们对延迟以及计算资源都有着严

AI算法-图哥·2022-09-14 07:46

深度学习之知识蒸馏(Knowledge Distillation)

本文参考以下链接，如有侵权，联系删除论文参考引言知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法，由于其简单，有效，在工业界被广泛应用。

专注于计算机视觉的AndyJiang·2022-09-14 07:31

模型压缩中知识蒸馏技术原理及其发展现状和展望

知识蒸馏是非常经典的基于迁移学习的模型压缩技术，在学术界的研究非常活跃，工业界也有许多的应用和较大的潜力，本文给大家梳理知识蒸馏的核心技术，发展现状，未来展望以及学习资源推荐。

文文学霸·2022-09-14 07:00

初识知识蒸馏

这里写自定义目录标题知识蒸馏1知识蒸馏的作用2怎么做到？3到底怎么实现？注：知识蒸馏1知识蒸馏的作用知识蒸馏的概念来源于大牛Hinton在2015年的一篇文章，在文中首次提出了知识蒸馏的概念。

Moringstarluc·2022-09-14 07:29

深度学习中的知识蒸馏技术！

本文概览:1.知识蒸馏介绍1.1什么是知识蒸馏？在化学中，蒸馏是一种有效的分离不同沸点组分的方法，大致步骤是先升温使低沸点的组分汽化，然后降温冷凝，达到分离出目标物质的目的。

Datawhale·2022-09-14 07:58

知识蒸馏基本原理

说回到知识蒸馏（knowledgedistillation），其是模型压缩的一种常用的方法，最早得到推广的版本是由Hint

zhiyong_will·2022-09-14 07:25

深度学习——卷积神经网络压缩方法总结（等待补充）

卷积网络压缩方法总结卷积网络的压缩方法一，低秩近似二，剪枝与稀疏约束三，参数量化四，二值化网络五，知识蒸馏六，浅层网络我们知道，在一定程度上，网络越深，参数越多，模型越复杂，其最终效果越好。

小陈phd·2022-09-10 07:40

论文阅读：CVPR2022 Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation

为了解决这个问题，提出了一种新的知识蒸馏方法，称为小波知识蒸馏。小波知识蒸馏不是直接提取生成的教师图像，而是首先通过离散小波变换将

_击空明兮溯流光_·2022-09-04 07:58

模型压缩|深度学习（李宏毅）（十三）

本文主要介绍五种模型压缩的方法：①网络剪枝（NetworkPruning）②知识蒸馏（KnowledgeDistillation）③参数量化（ParameterQuantization）④结构设计（ArchitectureDesign

酷酷的群·2022-09-03 15:59

万字综述 | 一文读懂知识蒸馏

知识蒸馏综述摘要知识蒸馏简介知识Response-BasedKnowledgeFeature-BasedKnowledgeRelation-BasedKnowledge蒸馏离线蒸馏（OfflineDistillation

AI异构·2022-09-03 15:29

深度学习之模型压缩

本文参考以下链接，如有侵权，联系删除参考概述目的：最大程度的减小模型复杂度，减少模型存储需要的空间，也致力于加速模型的训练和推理主要方法前端压缩(可逆)：知识蒸馏：通过采用预先训练好的复杂模型（teachermodel

专注于计算机视觉的AndyJiang·2022-09-03 15:23

【深度学习之模型优化】模型剪枝、模型量化、知识蒸馏概述

【深度学习之模型优化】模型剪枝、模型量化、知识蒸馏概述模型剪枝技术概述1.什

大气层煮月亮·2022-09-03 15:21

数学、机器学习、深度学习目录

对象检测1.数学基础矩阵求导术用狄拉克函数来构造非光滑函数的光滑近似2.深度学习深度学习入门（一）感知机与激活函数损失函数–交叉熵与极大似然估计softmax求导/label_smoothing求导/知识蒸馏求导梯度推导深度学习入门

得克特·2022-09-01 07:19

超越所有MIM模型的BEiT v2来了！微软使用矢量量化视觉Tokenizers的掩码图像建模！

具体来说，作者引入向量量化知识蒸馏来训练tokenizer，它将连续的语义空间离散化为紧凑

·2022-08-29 10:55

CVPR 2022详解｜重新挖掘logit蒸馏的潜力，旷视等开源解耦知识蒸馏DKD

作者丨科技猛兽编辑丨3D视觉开发者社区导读本文提出了一种十分新颖的观点，即：输出知识蒸馏的潜力其实还没有得到完全开发。

奥比中光3D视觉开发者社区·2022-08-27 07:55

知识蒸馏：好老师是耐心且一致的

Knowledgedistillation:Agoodteacherispatientandconsistent9Jun2021CVPR2022Oral作者：LucasBeyer,XiaohuaZhai,AmélieRoyer,LarisaMarkeeva,RohanAnil,AlexanderKolesnikov单位：GoogleResearch,BrainTeam原文：https://arxi

Valar_Morghulis·2022-08-19 16:33

预约直播 | 基于预训练模型的自然语言处理及EasyNLP算法框架

算法框架二、直播时间：2022年08月24日（周三）18：00-18：30三、议题介绍：此次分享将深入介绍预训练语言模型的研究进展以及各种下游自然语言理解的应用；为了解决大模型落地难问题，重点展示多种知识蒸馏

·2022-08-18 10:49

深度学习模型——知识蒸馏

什么是知识蒸馏？近年来，神经模型在几乎所有领域都取得了成功，包括极端复杂的问题。然而，这些模型体积巨大，有数百万(甚至数十亿)个参数，因此不能部署在边缘设备上。

wuguangbin1230·2022-08-13 07:09

深度学习机器学习面试题汇——模型优化，轻量化，模型压缩

为什么用知识蒸馏？知道模型蒸馏吗？谈下原理做过模型优化吗？模型蒸馏和模型裁剪？squeezeNet的FireModule有什么特点？

冰露可乐·2022-08-13 07:07

【模型压缩】（四）——知识蒸馏

一、概述一句话概括：将一个复杂模型的预测能力转移到一个较小的网络上；（复杂模型称为教师模型，较小模型称为学生模型）TeacherandStudent的概念：对大网络学习的知识进行"蒸馏"，并将其转移到小网络上，同时小网络的性能能够接近大网络；蒸馏模型（Student）被训练模仿大网络（Teacher）的输出，而不仅仅是直接在原始数据上训练，通过这种方式让小网络学习到大网络的抽象特征能力和泛化能力；

一个热爱学习的深度渣渣·2022-08-13 07:35

深度学习模型压缩之知识蒸馏

知识蒸馏知识蒸馏蒸馏方式离线蒸馏在线蒸馏自我蒸馏蒸馏算法对抗蒸馏多教师蒸馏跨模态蒸馏图蒸馏无数据蒸馏量化蒸馏深度交互学习（DeepMutalLearning）Demo环境导入相关的包加载mnist数据定义教师模型训练教师模型修改教师模型生成

RyanC3·2022-08-13 07:33

深度学习模型压缩#1-剪枝

模型压缩有剪枝、量化、知识蒸馏等方法。剪枝网络剪枝是模型压缩使用较为普遍的一种方法。主要通过减少网络参数、降低结构复杂度来增强网络泛化性能和避免过拟合，以此得到更轻量、高效的应用模型。

Qinghuan1958·2022-08-13 07:29

推荐频道

知识蒸馏

深度学习中的3个秘密：集成，知识蒸馏和自蒸馏

YOLOv5蒸馏 | 知识蒸馏理论篇 | 1/2

Data-Free Knowledge Distillation for Heterogeneous Federated Learning论文阅读+代码解析

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

Multiresolution Knowledge Distillation for Anomaly Detection阅读笔记

BERT蒸馏完全指南｜原理/技巧/代码

一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理

ResNet-2

介绍ResNet！计算机视觉算法岗面经：商汤/滴滴/腾讯

知识蒸馏（尝试在ASR方向下WeNet中实现--代码）

ViLD（Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation）

论文阅读_知识蒸馏_Distilling_BERT

论文阅读_知识蒸馏_MobileBERT

论文阅读_知识蒸馏_TinyBERT

2021 ICCV、CVPR 知识蒸馏相关论文

浙大提出无数据知识蒸馏新方法FastDFKD

知识蒸馏 | (1) 知识蒸馏概述

【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization

【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer

【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation

知识蒸馏-Yolov3

加速100倍，性能媲美SOTA，浙大知识蒸馏新方法FastDFKD

加速100倍，性能媲美SOTA，浙大提出无数据知识蒸馏新方法FastDFKD

无数据蒸馏方向文献_1

论文阅读_知识蒸馏_Meta-KD

论文阅读_知识蒸馏_Distilling_BERT

论文阅读_知识蒸馏_TinyBERT

基于知识蒸馏Knowledge Distillation模型压缩pytorch实现

模型压缩之知识蒸馏

深度学习之知识蒸馏(Knowledge Distillation)

模型压缩中知识蒸馏技术原理及其发展现状和展望

初识知识蒸馏

深度学习中的知识蒸馏技术！

知识蒸馏基本原理

深度学习——卷积神经网络压缩方法总结（等待补充）

论文阅读：CVPR2022 Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation

模型压缩|深度学习（李宏毅）（十三）

万字综述 | 一文读懂知识蒸馏

深度学习之模型压缩

【深度学习之模型优化】模型剪枝、模型量化、知识蒸馏概述

数学、机器学习、深度学习目录

超越所有MIM模型的BEiT v2来了！微软使用矢量量化视觉Tokenizers的掩码图像建模！

CVPR 2022详解｜重新挖掘logit蒸馏的潜力，旷视等开源解耦知识蒸馏DKD

知识蒸馏：好老师是耐心且一致的

预约直播 | 基于预训练模型的自然语言处理及EasyNLP算法框架

深度学习模型——知识蒸馏

深度学习机器学习面试题汇——模型优化，轻量化，模型压缩

【模型压缩】（四）——知识蒸馏

深度学习 模型压缩之知识蒸馏

深度学习模型压缩#1-剪枝

深度学习模型压缩之知识蒸馏