Distillation 第7页

a gift from knowledge distillation

看完没啥想法-就是改良一下中间层指导的过程，第二部分训练的时候没有用到softtarget。使用gram矩阵表示中间层-也不是一个很新的方法。最近翻译水平越来越垃圾啦==abstract我们介绍啦一个新的技术用来从一个预训练的深度神经网络迁移知识到另一个DNN。考虑到DNN通过一层一层的网络实现从输入空间到输出空间到匹配，我们定义蒸馏的知识以流的形式在层之间传播，这个流是通过计算两层之间的特征的内

江米江米·2020-08-23 04:59

IDN-Fast and Accurate Single Image Super-Resolution via Information Distillation Network信息蒸馏网络

FastandAccurateSingleImageSuper-ResolutionviaInformationDistillationNetworkCVPR2018github(caffe):https://github.com/Zheng222/IDN-Caffe网络结构以特征提取块、多个信息蒸馏块（progressivelydistillresidualinformation）和重建块组成，

俭任G·2020-08-22 04:44

(IDN 轻量化CVPR2018)Fast and Accurate Single Image Super-Resolution via Information Distillation N

文章地址：https://arxiv.org/abs/1909.11856v1作者的项目地址：https://github.com/Zheng222/IDN-Caffe论文作者：ZhengHui西安电子科技大学一：简单介绍文章做的是轻量化图像超分辨率。二、网络结构网络由三个部分构成：1、特征提取模块afeatureextractionblock(FBlock),2、多个堆叠的信息蒸馏块multip

叱咤风云666·2020-08-22 02:27

读论文：Fast and Accurate Single Image Super-Resolution via Information Distillation Network

文章全名：FastandAccurateSingleImageSuper-ResolutionviaInformationDistillationNetwork1网络结构（IDN）三部分：afeatureextractionblock(FBlock)特征提取块,multiplestackedinformationdistillationblocks(DBlocks)信息蒸馏块andareconst

什么都可晶·2020-08-22 00:30

知识蒸馏(Knowledge Distillation) 经典之作

知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法，由于其简单，有效，在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:论文链接arxiv.orgKnowledgeDistillation，简称KD，顾名思义，就是将已经训练好的模型包含的知识(”Knowledge”)，蒸馏("Distill")提取到另一个模型里面去。今天，我们就来简单读一下这篇论文

Terry_dong·2020-08-19 20:12

CVPR2019|Structured Knowledge Distillation for Semantic Segmentation语义分割的结构知识蒸馏

Abstract本文研究了利用大型网络训练小型语义分割网络的知识蒸馏策略。我们从简单的像素式精馏方案开始,该方案应用于图像分类的精馏方案,并分别对每个像素进行知识精馏。我们进一步提出将结构化知识从大型网络提炼成小型网络,其动机是语义分割是一个结构化预测问题。我们研究两种结构化蒸馏方案:(i)对精馏,蒸馏成对的相似性,(ii)整体蒸馏,使用GAN提取整体知识。通过在雪铁龙、坎维德和ADE20K三个场

Woooooooooooooo·2020-08-19 07:23

深度学习论文笔记（rethinking knowledge distillation）——On the Efficacy of Knowledge Distillation

文章目录前言疑问：高准确率的大模型一定就是好teacher吗？问题二问题一可能的解决方案这篇文章非常有意思，本文文字部分较多，主要记录了个人对于文章的一些思考前言《OntheEfficacyofKnowledgeDistillation》于2019年发表在ICCV上。通过实验，作者发现了一个“怪相”，准确率越高的模型并不一定就是好的teacher模型，对于同一个student模型而言，teache

菜到怀疑人生·2020-08-17 22:55

图像语义分割论文解读（一）：Geometry-Aware Distillation for Indoor Semantic Segmentation

Geometry-AwareDistillationforIndoorSemanticSegmentation简述：本文提出在仍利用有用的深度域信息的情况下，通过提取几何感知嵌入来共同推断语义和深度信息，来消除现有方法（都需要精确的深度图作为分割场景的输入）的强约束。此外，提出了一种几何感知的传播框架，并在此基础上加入了多个多级跳变特征融合块，从而提高了语义分割的质量。通过将单个任务预测网络解耦为

Star·端木·2020-08-13 12:52

Knowledge Distillation via Route Constrained Optimization

Motivation已有的KD方法提升性能都是基于一个假设：teacher模型可以提供一种弱监督，且能被一个小student网络学习，但是实际上一个收敛的大网络表示空间很难被student学习，这会导致congruenceloss很高因此本文提出一种策略routeconstrainedoptimization，根据参数空间的route去选择teacher的参数，一步一步的指导student。Met

爆米花好美啊·2020-08-11 04:48

Tutorial: Knowledge Distillation

概述KnowledgeDistillation(KD)一般指利用一个大的teacher网络作为监督，帮助一个小的student网络进行学习，主要用于模型压缩。其方法主要分为两大类OutputDistillationFeatureDistillationOutputDistillationMotivation主要拉近teacher和student最终输出的距离，参考论文：DistillingtheK

爆米花好美啊·2020-08-11 04:48

神经网络模型压缩之Knowledge Distillation

神经网络模型压缩之KnowledgeDistillation1.Background随着深度学习理论的普及和PC计算能力的提高,NeuralNetwork也日益趋于复杂化–越来越深和越来越大,比如VGG系列,深度均在10层以上,残差网络的深度更是从数十到一百以上.复杂的网络模型带来的是超强的规则学习能力,虽然以现在动辄几十或上百多机GPU并行的计算能力而言,这样的巨大模型并不是拦路虎,但是考虑到当

rtygbwwwerr·2020-08-10 00:13

Knowledge Distillation 知识蒸馏详解

文章目录往期文章链接目录ShortcomingofnormalneuralnetworksGeneralizationofInformationKnowledgeDistillationAfewDefinitionsGeneralideaofknowledgedistillationTeacherandStudentTemperature&EntropyTrainingtheDistilModel

Jay_Tang·2020-08-09 17:24

知识蒸馏Knowledge Distillation论文汇总

FITNETS:HINTSFORTHINDEEPNETS论文链接该论文扩展了知识蒸馏的方法，student网络比teacher更深、更“瘦”，不仅使用teacher的输出作为训练student的softtargets，而且使用teacher学到的中间表示(intermediaterepresentations)作为hint，改进学生的训练过程和最终表现。更深的模型泛化性能更好，使这些模型变得更瘦有

GillianZhu·2020-08-07 20:20

基于Knowledge Distillation的增量学习论文学习（之五）——Large Scale Incremental Learning

这是CVPR2019的论文。旨在解决大规模增量学习的问题。显然，作者在论文中主要解决的问题是大规模数据，首先理解下作者说的“大规模”增量学习是多大？从下图作者的实验结果可以看出，作者考量的，是在类别数发生几十甚至上百个的增加时算法的性能，事实上，作者展示的例子也显示，在类别总数100以内时，作者的方法相比原始LwF提升有限，但在类别总数达到上千甚至上万时，作者的方法显著优于现有算法。作者总结增量学

azy1988·2020-08-06 13:41

Knowledge Distillation by On-the-Fly Native Ensemble论文解读

1.网络结构：Gate为全连接网络，用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮？”，感觉很像bagging方法。2.损失函数：训练时softmax都有温度T=3蒸馏，测试时就恢复T=1。最终的Loss第一项代表各个分支的损失，第二项代表最后Teacher的损失，第三项代表各分支和Teacher的KL散度。3.测试情况我的测试结果：测试数据集：c

snp的p·2020-08-06 13:03

Knowledge Distillation

zhangjf26·2020-08-06 13:08

Knowledge Distillation(知识蒸馏)

DoDeepNetsReallyNeedtobeDeep？虽然近年来的趋势如BigGAN，BERT等，动辄上亿参数，几乎就是数据驱动+算力的“暴力”结果。但同时，更加轻量级的升级版模型如ALBERT也能以更少的参数和架构持续刷榜，元学习（metalearning）和零样本学习（Zero-shotlearning），还有只需要个位数层数就能取得优异效果的GCN等，都似乎证明了“大道至简”。深度模型的

上杉翔二·2020-08-06 12:51

【DL】模型蒸馏Distillation

过去一直follow着transformer系列模型的进展，从BERT到GPT2再到XLNet。然而随着模型体积增大，线上性能也越来越差，所以决定开一条新线，开始follow模型压缩之模型蒸馏的故事线。Hinton在NIPS2014[1]提出了知识蒸馏（KnowledgeDistillation）的概念，旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上，方便部署。简

段子手实习生·2020-08-06 12:13

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点

知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法，由于其简单，有效，在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:论文链接chrome-extension://ibllepbpahcoppkjjllbabhnigcbffpi/content/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2

kyle1314608·2020-08-06 12:32

Knowledge Distillation(2)——FitNets: Hints for Thin Deep Nets

概述在Hinton教主挖了KnowledgeDistillation这个坑后，另一个大牛Bengio立马开始follow了，在ICLR2015发表了文章FitNets:HintsforThinDeepNets有一个背景是，可能那时候残差网络还没出来，deeper网络不好优化，所以teacher没那么深，而利用teacher的hint辅助训练student，可以把student网络做的更深：moti

judgechen1997·2020-08-06 12:26

知识蒸馏（Knowledge Distilling）

1.参考资料，一个很好的KD的资料listhttps://github.com/dkozlov/awesome-knowledge-distillation一个中文的相关资料https://www.zhihu.com

ayz30868·2020-08-06 12:27

【阅读笔记】KDGAN: Knowledge Distillation with Generative Adversarial Networks

知识蒸馏(KD)的目标是训练一种轻量级分类器，能够在多标签学习资源受限的情况下提供精确的推理。分类器不是直接使用特征标签对，而是由教师进行训练，即这是一个高能力的模型，它的培训可能需要大量资源。这种方法训练的分类器的精度通常不是理想的，因为很难从教师那里学习到真实的数据分布。另一种方法是在类似于生成对抗性网络(GAN)的二人博弈中，对分类器进行对抗性训练，以保证分类器在博弈均衡状态下学习到真实的数

盏茶y·2020-08-06 12:40

知识蒸馏Knowledge Distillation

知识蒸馏是模型压缩的一个重要方法，本文简要介绍了什么是知识蒸馏。知识蒸馏KnowledgeDistillation1.什么是知识蒸馏我浅谈一些我的看法，详细内容可以参考这篇文章[https://zhuanlan.zhihu.com/p/90049906]简单来说，就是我们一般训练模型时，可能为了有一个好的效果，就会加大网络深度，或者用一些复杂的网络，这样参数量就会好大…那么这么一个模型怎么弄到移动

CloudCver·2020-08-06 12:43

【转】Knowledge-Distillation 知识蒸馏论文集合

AwesomeKnowledge-Distillation博客转自CTOLib码库：https://www.ctolib.com/FLHonker-Awesome-Knowledge-Distillation.htmlAwesomeKnowledge-DistillationDifferentformsofknowledgeKnowledgefromlogitsKnowledgefrominter

Phoenixtree_Zhao·2020-08-06 12:25

文献阅读：Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Under

0.背景机构：微软亚洲研究院NLP组与SDRG（微软雷德蒙德语音对话研究组）作者：XiaodongLiu、PengchengHe发布地方：arxiv面向任务：知识蒸馏论文地址：https://arxiv.org/abs/1904.09482论文代码：https://github.com/namisan/mt-dnn0.摘要尽管集成学习能够提升模型性能，且目前已被广泛地应用在NLU任务中，不过，集成

JasonLiu1919·2020-08-06 12:07

Knowledge Distillation(1)——入门&开山之作

开山之作1.Introduction2.Distillation3.PreliminaryexperimentsonMNIST其他论文研究背景对于机器学习的模型，我们往往在训练和部署时使用着极其相似的模型

judgechen1997·2020-08-06 12:33

深度学习-- > NLP -- > improving multi-task deep neural networks via knowledge distillation for natural

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！本次总结和分享一篇大佬推荐看的论文improvingmulti-taskdeepneuralnetworksviaknowledgedistillationfornaturallanguageunderstanding，论文链接MT-DNN-KD动机和创新点集成学习的方

村头陶员外·2020-08-06 12:57

模型蒸馏开山作：Distilling the Knowledge in a Neural Network

在神经网络中蒸馏知识Abstract1Introduction2Distillation2.1Matchinglogitsisaspecialcaseofdistillation3PreliminaryexperimentsonMNIST5Trainingensemblesofspecialistsonverybigdatasets5.1TheJFTdataset5.2SpecialistMode

三重极简·2020-08-06 12:49

Cross Modal Distillation for Supervision Transfer

Abstract本文关注点是对图片的不同模态，做监督迁移学习。两种不同的模态，一种有大量的标注样本，一种没有。将从标注过样本的模态中学习得到的特征作为监督信号，用于无标注样本模态的特征学习。此方案能够对无标注信息的模态学习到很好的特征，也可以用于只含有少量标注样本的新模态的预训练。文章做了RGB图片（labeled）到depth（unlabeled）和opticalflow（unlabeled）图

弓如霹雳弦惊·2020-08-03 12:22

Knowledge Distillation(5)——Deep Mutual Learning

之前都是对knowledge重新定义，衍生出的knowledgedistillation的变体模型。本篇博客开始，介绍知识蒸馏的第二类方法：改变学习方式，提高studentperfomance。DeepMutualLearningCVPR2018概述MethodModelOptimisationExperiments概述本文核心idea是，没有teacher，一系列student之间相互学习。本质

judgechen1997·2020-08-02 13:36

BERT 瘦身之路：Distillation，Quantization，Pruning

很多外链被微信给吃掉了，点击阅读原文查看。自BERT放出，各家多有改进，融入更多其他方面知识，加入更多训练数据，更复杂训练技巧，花样百出。但鉴于昂贵的训练成本，大多人也就只能看看而已，之后用开源出模型，想着怎么把它用起来。而即使如此，BERT家族庞大体积也让进行实时推理时，需过大空间，同时速度也会比较慢。一般线下玩玩尚好，如若想将它放入线上，作为产品。那么就需要对BERT进行减肥，让它体量变小，速

Congqing He·2020-07-14 11:02

微调预训练模型的新姿势——自集成和自蒸馏

转载来源：https://zhuanlan.zhihu.com/p/133804801论文：ImprovingBERTFine-TuningviaSelf-EnsembleandSelf-Distillation

郝伟老师的技术博客·2020-07-09 17:53

【Distill 系列：三】On the Efficacy of Knowledge Distillation

https://arxiv.org/pdf/1910.01348.pdfteacher不是性能越高越好（这个我实验验证得到的结果一致）teacher训练中earlystop（未尝试），蒸馏中earlystop（我这里不work）有利于提高蒸馏效果Method一个潜意识的猜想：性能越高的teacher的蒸馏效果越好可以看到，随着teacher模型变大，蒸馏的student性能并没有依次提高作者提出了

鹿鹿最可爱·2020-07-07 21:59

（笔记）通过知识蒸馏和量化进行模型压缩MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION

（笔记）ModelCompressionviaDistillationandQuantization（笔记）ModelCompressionviaDistillationandQuantization原文链接：代码：摘要算法一：加入知识蒸馏loss的量化训练算法二：训练量化集p效果原文链接：https://arxiv.org/abs/1802.05668代码：https://github.com/

yingpeng_zhong·2020-07-06 10:35

知识蒸馏（Distillation）

蒸馏神经网络取名为蒸馏（Distill），其实是一个非常形象的过程。我们把数据结构信息和数据本身当作一个混合物，分布信息通过概率分布被分离出来。首先，T值很大，相当于用很高的温度将关键的分布信息从原有的数据中分离，之后在同样的温度下用新模型融合蒸馏出来的数据分布，最后恢复温度，让两者充分融合。这也可以看成Prof.Hinton将这一个迁移学习过程命名为蒸馏的原因。蒸馏神经网络想做的事情，本质上更接

weixin_30539625·2020-07-05 21:59

论文笔记：蒸馏网络（Distilling the Knowledge in Neural Network）

DistillingtheKnowledgeinNeuralNetworkGeoffreyHinton,OriolVinyals,JeffDeanpreprintarXiv:1503.02531,2015NIPS2014DeepLearningWorkshop简单总结主要工作（What）“蒸馏”（distillation

weixin_30274627·2020-07-05 20:44

知识蒸馏（Distillation）简介

1.介绍知识蒸馏最早出自于论文“DistillingtheKnowledgeinaNeuralNetwork”，作者是深度学习泰斗GeofreyHinton，在人工智能方向上，有公认的四大天王，见下图，另外，博主也算是吴恩达的学生，从一个门外汉看他的视频一步一步的走上了算法工程师的岗位，建议有这方面兴趣的人，可以去看他的视频，比培训班的视频不知道要强多少。2.模型结构第一步：训练大模型（teach

时光碎了天·2020-07-05 18:02

AutoML论文笔记（七）Blockwisely Supervised NAS with Knowledge Distillation：基于蒸馏学习的区块自适应NAS算法

文章题目：BlockwiselySupervisedNeuralArchitectureSearchwithKnowledgeDistillation链接：linkhttps://arxiv.org/abs/1911.13053会议期刊：CVPR2020论文阅读笔记，帮助记忆的同时，方便和大家讨论。因能力有限，可能有些地方理解的不到位，如有谬误，请及时指正。论文内容神经网络搜索技术（NAS）的迅速

霸王龙Alvin·2020-07-04 23:14

知识蒸馏（Knowledge Distillation）的Pytorch实现以及分析

知识蒸馏（KnowledgeDistillation）的概念由Hinton大神于2015年在论文《DistillingtheKnowledgeinaNeuralNetwork》中提出，论文见：https://arxiv.org/abs/1503.02531。此方法的主要思想为：通过结构复杂、计算量大但是性能优秀的教师神经网络，对结构相对简单、计算量较小的学生神经网络进行指导，以提升学生神经网络的性

小石学CS·2020-06-26 09:37

知识蒸馏(Knowledge Distillation)、半监督学习(semi-supervised learning)以及弱监督学习(weak-supervised learning)

一.知识蒸馏1.知识蒸馏（1）首先，我先强调一下蒸馏学习其实本质是模型压缩！模型压缩！模型压缩！S模型有的精度高于T模型，有的低于T模型，但是可以很好地压缩网络体积。（2）知识蒸馏是由Hiton的DistillingtheKnowledgeinaNeuralNetwork论文地址提出，并通过引入与教师网络（TeacherNetwork：网络结构复杂，准确率高一般是我们的Best_Model）相关的

761527200·2020-06-25 16:35

【论文笔记】[CVPR_2018_SR]Information Distillation Network

启示：可以将featuremap拆开作为densenet的连接，看看会不会有好结果。一、特点：参数少，时间短，模型小二、结构总体结构核心结构是EnhancementUnitEnhancementUnit将featuremap分成(1/s)和(1-1/s)个，然后一部分继续进入conv，一部分与前一个block的输出concat，直接与这一个block的输出相加，输入下一个block。（其中feat

阮恒·2020-06-25 13:42

【论文阅读】Structured Knowledge Distillation for Semantic Segmentation

概述这篇论文来自CVPR2019Oral。论文的出发点：语义分割的模型往往很难兼顾速度与精度，也因此语义分割的网络分为两类，论文中描述为cumbersomesegmentationnetwork与compactsegmentationnetwork，简单地说一个注重精度，一个注重速度。这篇论文利用知识蒸馏来提高compactsegmentationnetwork的精度。论文的创新点（核心）：知识蒸

钱思惘·2020-06-22 03:40

Iterated Distillation and Amplification

IteratedDistillationandAmplificationThisisaguestpostsummarizingPaulChristiano’sproposedschemefortrainingmachinelearningsystemsthatcanberobustlyalignedtocomplexandfuzzyvalues,whichIcallIteratedDistilla

UniversityAI·2020-03-15 12:16

Knowledge Distillation Summary

最近看了几篇KD方法用于模型压缩的文章，现总结如下：KnowledgeDistillation最先由Hinton提出的，大意是说：小模型在分类的时候，光用训练集里的one-hotlabel不好，因为这种标注把类别间的关系割裂开了。而如果让小模型跟着大模型输出的概率分布去学的话，就相当于给出了类别之间的相似性信息，提供了额外的监督信号，因此学起来更容易。比如说识别手写数字，同时标签为3的图片，可能有

信步闲庭v·2020-02-05 09:22

SAD---Learning Lightweight Lane Detection CNNs by Self Attention Distillation

概括论文地址：https://arxiv.org/pdf/1908.00821.pdf论文代码：[GitHub](https://github.com/cardwing/Codes-for-Lane-Detection)这篇论文用于检测车道线，作者提出SelfAttentionDistillation（SAD）模块，可用于现有任何网络结构，提升检测效果但不增加inferencetime。在模型EN

看_有灰碟·2020-02-02 11:42

Feature Fusion for Online Mutual Knowledge Distillation （CVPR 2019）

一、解决问题如何将特征融合与知识蒸馏结合起来，提高模型性能二、创新点支持多子网络分支的在线互学习子网络可以是相同结构也可以是不同结构应用特征拼接、depthwise+pointwise，将特征融合和知识蒸馏结合起来三、实验方法和理论1.MotivationDML(DeepMutualLearning)算法思想：用两个子网络（可以是不同的网络结构）进行在线互学习，得到比单独训练性能更好的网络损失函数

snail_1·2019-12-15 16:00

31组-MobileNets: Efﬁcient Convolutional Neural Networks for Mobile Vision Applications

目前，构建小型神经网络通常有以下两类方法：压缩预训练的网络：Productquantization,Vectorquantization,Distillation,Hashi

LoneRanger66·2019-11-29 20:02

Feature Fusion for Online Mutual Knowledge Distillation （CVPR 2019）

一、解决问题如何将特征融合与知识蒸馏结合起来，提高模型性能二、创新点支持多子网络分支的在线互学习子网络可以是相同结构也可以是不同结构应用特征拼接、depthwise+pointwise，将特征融合和知识蒸馏结合起来三、实验方法和理论1.MotivationDML(DeepMutualLearning)算法思想：用两个子网络（可以是不同的网络结构）进行在线互学习，得到比单独训练性能更好的网络损失函数

SuperLab·2019-10-31 20:00

CV_Daily Issue 29

CV_DailyIssue29YangXianRethinkingDataAugmentation:Self-SupervisionandSelf-Distillation数据增强技术（例如翻转或裁剪）

bryce1010·2019-10-21 10:36

Faster RCNN的检测蒸馏（分类、回归、Feature-level、Feature-level＋Mask）

featurelevelhttp://papers.nips.cc/paper/6676-learning-efficient-object-detection-models-with-knowledge-distillation

一路狂奔的猪·2019-07-08 11:49

推荐频道

Distillation

a gift from knowledge distillation

IDN-Fast and Accurate Single Image Super-Resolution via Information Distillation Network信息蒸馏网络

(IDN 轻量化CVPR2018)Fast and Accurate Single Image Super-Resolution via Information Distillation N

读论文：Fast and Accurate Single Image Super-Resolution via Information Distillation Network

知识蒸馏(Knowledge Distillation) 经典之作

CVPR2019|Structured Knowledge Distillation for Semantic Segmentation语义分割的结构知识蒸馏

深度学习论文笔记（rethinking knowledge distillation）——On the Efficacy of Knowledge Distillation

图像语义分割论文解读（一）：Geometry-Aware Distillation for Indoor Semantic Segmentation

Knowledge Distillation via Route Constrained Optimization

Tutorial: Knowledge Distillation

神经网络模型压缩之Knowledge Distillation

Knowledge Distillation 知识蒸馏详解

知识蒸馏Knowledge Distillation论文汇总

基于Knowledge Distillation的增量学习论文学习（之五）——Large Scale Incremental Learning

Knowledge Distillation by On-the-Fly Native Ensemble论文解读

Knowledge Distillation

Knowledge Distillation(知识蒸馏)

【DL】模型蒸馏Distillation

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点

Knowledge Distillation(2)——FitNets: Hints for Thin Deep Nets

知识蒸馏（Knowledge Distilling）

【阅读笔记】KDGAN: Knowledge Distillation with Generative Adversarial Networks

知识蒸馏Knowledge Distillation

【转】Knowledge-Distillation 知识蒸馏论文集合

文献阅读：Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Under

Knowledge Distillation(1)——入门&开山之作

深度学习-- > NLP -- > improving multi-task deep neural networks via knowledge distillation for natural

模型蒸馏开山作：Distilling the Knowledge in a Neural Network

Cross Modal Distillation for Supervision Transfer

Knowledge Distillation(5)——Deep Mutual Learning

BERT 瘦身之路：Distillation，Quantization，Pruning

微调预训练模型的新姿势——自集成和自蒸馏

【Distill 系列：三】On the Efficacy of Knowledge Distillation

（笔记）通过知识蒸馏和量化进行模型压缩MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION

知识蒸馏（Distillation）

论文笔记：蒸馏网络（Distilling the Knowledge in Neural Network）

知识蒸馏（Distillation）简介

AutoML论文笔记（七）Blockwisely Supervised NAS with Knowledge Distillation：基于蒸馏学习的区块自适应NAS算法

知识蒸馏（Knowledge Distillation）的Pytorch实现以及分析

知识蒸馏(Knowledge Distillation)、半监督学习(semi-supervised learning)以及弱监督学习(weak-supervised learning)

【论文笔记】[CVPR_2018_SR]Information Distillation Network

【论文阅读】Structured Knowledge Distillation for Semantic Segmentation

Iterated Distillation and Amplification

Knowledge Distillation Summary

SAD---Learning Lightweight Lane Detection CNNs by Self Attention Distillation

Feature Fusion for Online Mutual Knowledge Distillation （CVPR 2019）

31组-MobileNets: Efﬁcient Convolutional Neural Networks for Mobile Vision Applications

Feature Fusion for Online Mutual Knowledge Distillation （CVPR 2019）

CV_Daily Issue 29

Faster RCNN的检测蒸馏（分类、回归、Feature-level、Feature-level＋Mask）