知识蒸馏第4页

知识蒸馏-Distilling the knowledge in a neural network

知识蒸馏-Distillingtheknowledgeinaneuralnetwork作者：支广达1.概念介绍“很多昆虫在幼虫形态的时候是最擅长从环境中吸取能量和养分的，而当他们成长为成虫的时候则需要擅长完全不同能力比如迁移和繁殖

MomodelAI·2023-07-17 06:31

论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

论文笔记--DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter1.文章简介2.文章概括3文章重点技术3.1知识蒸馏3.2DistilBERT4

Isawany·2023-07-16 18:57

CIKM2022|中科院联合腾讯提出基于知识蒸馏的校准转化率预估

CalibratedConversionRatePredictionviaKnowledgeDistillationunderDelayedFeedbackinOnlineAdvertisingYuyaoGuo,HaomingLi,XiangAo,MinLu,DapengLiu,LeiXiao,JieJiang,QingHeChineseAcademyofSciences,Tencenthttps

frank_hetest·2023-06-24 05:30

基于SSD算法的电动车头盔检测【附代码】

完整的项目是基于SSD的改进-->知识蒸馏-->自蒸馏-->剪枝-->trt推理。本想用来发论文的，但可能没那时间和精力了，这里仅选择项目中的一部分内容进行开源。

爱吃肉的鹏·2023-06-23 02:45

【自监督论文阅读 3】DINOv1

hjxu2016·2023-06-22 22:58

Knowledge Distillation of Large Language Models

大模型的知识蒸馏摘要1引言2方法2.1MiniLLM：利用逆向KLD进行知识蒸馏2.2策略梯度优化2.3训练算法3实验3.1实验设置3.2结果3.3分析3.4消融实验4相关工作5结论摘要知识蒸馏（KD）

UnknownBody·2023-06-21 00:43

低延迟流式语音识别技术在人机语音交互场景中的实践

本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

美团技术团队·2023-06-18 21:17

【AIGC】16、Vision-Language 模型在视觉任务中的调研

视觉任务的训练策略2.2VLM基础2.2.1网络结构2.2.2预训练目标函数2.2.3评估和下游任务2.3数据集三、迁移学习3.1使用prompttuning实现迁移学习3.2通过特征适应来进行迁移学习四、VLM的知识蒸馏

呆呆的猫·2023-06-18 12:24

工业检测：基于密集尺度特征融合&像素级不平衡学习框架

作者：计算机视觉研究院编辑：3D视觉开发者社区知识蒸馏已成功应用于图像分类。然而目标检测要复杂得多，大多数知识蒸馏方法都失败了。

奥比中光3D视觉开发者社区·2023-06-17 14:41

深度学习实战——模型推理优化（模型压缩与加速）

starforprojectsthanks）目录系列文章目录一、实验思路综述1.实验工具及内容2.实验数据3.实验目标4.实验步骤二、模型压缩与加速综述1.模型压缩1.1紧凑（轻量化）模型设计1.2低秩近似/分解1.3知识蒸馏

@李忆如·2023-06-17 04:57

知识蒸馏方法的演进历史综述

作者：NishantNikhil编译：ronghuaiyang导读带你了解知识蒸馏的演进历史。历史2012年，AlexNet在ImageNet数据上的表现超过了所有现有模型。神经网络即将被广泛采用。

文文学霸·2023-06-17 03:26

【知识蒸馏】知识蒸馏（Knowledge Distillation）技术详解

因此，涌现出了大量的模型压缩和加速技术，知识蒸馏是其中的代表，可以有效的从大型的教师模型中学习到小型的学生模型。本

姚路遥遥·2023-06-16 21:33

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

因此，本专题采用主流的知识蒸馏的方案来压缩模型，在满足用户预测性能、预测效果的需求同时，不依赖海量未标注数据，提升开发效率。文心提供多种不同大小的

·2023-06-16 14:16

低延迟流式语音识别技术在人机语音交互场景中的实践

本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

·2023-06-16 11:11

知识蒸馏、轻量化模型架构、剪枝…几种深度学习模型压缩方法

工业界的模型压缩方法有：知识蒸馏、轻量化模型架构、剪枝、量化。本文分享自华为云社区《深度学习模型压缩方法综述》，作者：嵌入式视觉。

华为云开发者联盟·2023-06-15 15:40

解读知识蒸馏模型TinyBert

摘要：本篇文章的重点在于改进信息瓶颈的优化机制，并且围绕着高纬空间中互信息难以估计，以及信息瓶颈优化机制中的权衡难题这两个点进行讲解。本文分享自华为云社区《【云驻共创】美文赏析：大佬对变分蒸馏的跨模态行人重识别的工作》，作者：启明。论文讲解：《FarewelltoMutualInformation:VariationalDistillationforCrossModalPersonRe-ident

·2023-06-14 18:08

Hinton：我对“青蛙”创造出“人”这件事的后果很紧张丨全文整理+视频

无论是反向传播、Dropout、知识蒸馏、胶囊网络，

智源社区·2023-06-14 14:22

深度学习模型精度与PyTorch模型量化

深度学习的模型压缩的主流方法有基于量化的方法、模型剪枝和知识蒸馏（teacher-student），模型量化，这是最广泛使用的模型压缩形式。

思考实践·2023-06-14 12:48

自监督表征学习方法——DINO方法

（一种没有标签的知识蒸馏的形式）如上图所示：来自没有监督训练的8×8补丁的视觉变压器的自我注意。我们观察最后一层头部的[CLS]令牌的自我关注。此令

没用的阿鸡·2023-06-11 12:32

视觉大模型DINOv2:自我监督学习的新领域

如果你对自监督学习感兴趣，可能听说过Facebook人工智能的DINO(无标签知识蒸馏)。我们在以前的文章中也介绍过它。

deephub·2023-06-11 12:57

让BERT飞一会

[TOC]1.模型蒸馏1.DistilBERT（2019.10.2）知识蒸馏的基础原理：定义两个网络，teacher网络和student网络，teacher网络是预训练得到的大模型，student模型是想要学习和迁移得到的小模型

ColdCoder·2023-06-10 13:28

yolov5剪枝与知识蒸馏【附代码】

剪枝和知识蒸馏均属于模型轻量化设计，剪枝是将已有网络通过剪枝的手段得到轻量化网络，可分为非结构化剪枝和结构化剪，该技术可以免去人为设计轻量网络，而是通过计算各个权重或者通道的贡献度大小，剪去贡献度小的权重或通道

爱吃肉的鹏·2023-06-09 21:41

Reid strong baseline知识蒸馏【附代码】

本项目是在Reidstrongbaseline基础上进行的更新，实现的知识蒸馏。项目暂未加入目标检测部分，后期会不定时更新，请持续关注。

爱吃肉的鹏·2023-06-08 14:30

【论文】通过基准分析优化联邦人员重新识别的性能

2.1人员重新识别2.2联邦学习3.联邦个人REID基准3.1数据集3.2联合方案3.3模型结构3.4联邦学习算法3.5性能指标3.6参考实现4.1通过相机联合方案4.2按数据集联合方案5.性能优化5.1知识蒸馏

unseven·2023-06-07 18:38

NLP中的知识蒸馏论文 Distilled BiLSTM解读

论文题目：DistillingTask-SpecificKnowledgefromBERTintoSimpleNeuralNetworks论文链接：https://arxiv.org/pdf/1903.12136.pdf摘要在自然语言处理文献中，神经网络变得越来越深入和复杂。这一趋势的苗头就是深度语言表示模型，其中包括BERT、ELMo和GPT。这些模型的出现和演进甚至导致人们相信上一代、较浅的语

致Great·2023-06-07 09:01

CVPR 2023 | DisWOT：给老师找个好学生？KD和NAS的高效组合

©Paperweekly原创·作者|An.单位|中科院自动化所研究方向|计算机视觉、模型压缩动机&背景知识蒸馏（KnowledgeDistillation,KD）可以用大模型指导小模型学习，但大小模型之间的容量差距阻碍了知识的传递

PaperWeekly·2023-04-20 19:55

论文解读 | 解耦知识蒸馏

知识蒸馏是减小这种代价的一个有效方法，它可以把重型模型的知识迁移到轻型模型上，从而提高轻型模型的性能。知识蒸馏的概念最初是Hinton在论文“Distill

Linux基金会AI&Data基金会·2023-04-20 13:42

模型蒸馏与压缩简单介绍

目录一、概述二、DistilBERT模型介绍2.1基本结构2.2知识蒸馏方法一、概述预训练语言模型虽然在众多自然语言任务中取得了很好的效果，但通常这类模型的参数量较大，很难满足实际应用中的时间和空间需求

云隐雾匿·2023-04-20 13:36

paddleocr 模型

要点：教师模型和学生模型：1查看原模型DistillationModel是PaddlePaddle框架中用于知识蒸馏的模型。

处女座_三月·2023-04-19 09:30

知识蒸馏综述: 知识的类型

这篇是知识蒸馏综述的第一篇，主要内容为知识蒸馏中知识的分类，包括基于响应的知识、基于特征的知识和基于关系的知识。知识蒸馏简介定义：知识蒸馏代表将知识从大模型向小模型传输的过程。

pprpp·2023-04-19 01:38

低延迟流式语音识别技术在人机语音交互场景中的实践

本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

·2023-04-19 00:07

知识蒸馏(Knowledge Distillation)

论文：[1503.02531]DistillingtheKnowledgeinaNeuralNetwork(arxiv.org)知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方式，由于其简单

夕阳之后的黑夜·2023-04-18 22:39

模型压缩技术：剪枝、量化和蒸馏

模型压缩大体上可以分为5种：模型剪枝：即移除对结果作用较小的组件模型量化：比如将float32降到int8知识蒸馏：将teacher的能力蒸馏到student上，一般student会比teacher小。

LabVIEW_Python·2023-04-15 23:21

图像任务知识蒸馏调研（知识蒸馏一）

图像任务知识蒸馏调研（知识蒸馏一）图像任务知识蒸馏调研（知识蒸馏一）ImageSuper-ResolutionUsingKnowledgeDistillation(ACCV2018)方法Data-FreeKnowledgeDistillationForImageSuper-Resolution

Man in Himself·2023-04-15 07:36

模型蒸馏技术实践

什么是模型蒸馏Hinton(AI教父)在NIPS2014提出了知识蒸馏（KnowledgeDistillation）的概念，至此开启了该领域的深入研究。我们将模型蒸馏看作是知识蒸馏体系的重要分支。

从416到北京的ZMZ·2023-04-14 03:25

【学习资料】项目经历总结

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言四、centerpointmaskrcnn等的学习四、自我介绍一、岗位信息二、使用步骤项目名称：《基于知识蒸馏的实例分割模型压缩研究与应用

杨立青101·2023-04-13 18:07

Knowledge Distillation (2) 知识迁移

更好的阅读体验请跳转至KnowledgeDistillation(2)知识迁移上篇讨论了bert-of-theseus，算是一个开篇，本文继续讨论关于模型蒸馏（DistillingKnowledge）及关于BERT模型的知识蒸馏

小蛋子·2023-04-13 16:40

知识蒸馏综述:网络结构搜索应用

【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络，而NAS中天然的存在大量的网络，使用KD有助于提升超网整体性能。两者结合出现了许多工作，本文收集了部分代表性工作，并进行总结。

pprpp·2023-04-13 01:59

（1）深入解析图像字幕生成数据集———Coco dataset

之前，我一直从事深度神经网络模型压缩和加速的研究，包括但不限于轻量化网络设计、模型修剪、知识蒸馏和网络量化等。

安静到无声·2023-04-12 04:19

yolov5使用知识蒸馏

DistillingObjectDetectorswithFine-grainedFeatureImitation论文介绍1.创新点2.内容介绍1.Fine-Gained区域提取2.loss损失值二、yolov5添加知识蒸馏

目标检测小白·2023-04-12 03:30

[预训练语言模型专题] MT-DNN(KD) : 预训练、多任务、知识蒸馏的结合

本文为预训练语言模型专题系列第八篇快速传送门1-4：[萌芽时代]、[风起云涌]、[文本分类通用技巧]、[GPT家族]5-7：[BERT来临]、[浅析BERT代码]、[ERNIE合集]感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理，我们将沿此脉络前行，探索预训练语言模型的前沿技术，红框中为已介绍的文章，绿框中为本期介绍的文章，欢迎大家留言讨论交流。Multi-TaskDeepNeuralN

yang191919·2023-04-10 09:04

【论文笔记_剪枝_知识蒸馏_2022】INDISTILL: TRANSFERRING KNOWLEDGE FROM PRUNED INTERMEDIATE LAYERS

摘要在资源有限的硬件上部署深度神经网络，如智能手机和无人机，由于其计算复杂性，构成了巨大的挑战。知识提取方法旨在将知识从大型模型转移到轻量级模型，也分别称为教师和学生，而从中间层提取知识为该任务提供了额外的监督。模型之间的容量差距、破坏其架构一致性的信息编码以及缺乏用于转移多层的适当学习方案限制了现有方法的性能。在本文中，我们提出了一种新的方法，称为InDistill，它可以通过利用通道剪枝的属性

乱搭巴士·2023-04-10 03:41

微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021

智能推荐系统·2023-04-10 03:10

强化学习下的多教师知识蒸馏模型（学习笔记

对知识蒸馏的方法提出了一个新的方向采用多个不同的教师模型同时训练一个学生模型一个很明显的好处就是多个教师model可以减少单个教师模型它的bias但是当我们有多个老师的时候，学生模型是否能够根据自己的能力选择和结合教师模型的特点来选择性的向老师学习

：）�东东要拼命·2023-04-10 03:04

博客6：YOLOv5车牌识别实战教程：性能优化与部署

主要的模型压缩方法有：知识蒸馏：通过使用一个小型网络（学生网络）学习大型网络（教师网络）的知识，从而获得更小但准确率较高的模型。以下是一

SYBH.·2023-04-09 20:40

【自监督学习】概述 | 基于表示学习的知识图谱实体解析方法 | 自监督学习&Vision Transformer&数据增强&知识蒸馏 | 带你搞懂“对比学习”(一)

先来分享一段“有趣”的内容：请不要嫌长，ta其实并不长！（这很实际，这很现实，也很真实，请先慢慢耐心看完！）路的尽头是什么？ta说：考上高中就好了。当你考上了高中，ta说：考上大学就好了。当你考上了大学，ta说：考过四六级就好了。当你考过了四六级，ta说：考上研究生就好了。当你考上了研究生，ta说：找个女朋友就好了。当你找到了女朋友，ta说：

追光者♂·2023-04-07 10:30

ICLR2021清华团队做的知识蒸馏提升detector的点的工作paper 小陈读论文系列

这个作者栏目就是一个词清爽牛逼不需要花里胡哨哈哈无疑是有点tian了哈哈不重要毕竟有机会研读梦中情笑的paper还是很感激的真的很清爽啊很多KD的工作确实在下游任务呢效果不是很好然后就引出了自己的关于提升知识蒸馏在

：）�东东要拼命·2023-04-07 07:58

知识蒸馏论文整理与总结与代码实现

知识蒸馏文章目录知识蒸馏题目题记章节一《论文选读》章节二《自我思考》章节三《bert模型》章节四《知识蒸馏》DistilBERT题目知识蒸馏题记写这篇的目的是为了改进自己的bert训练出来的模型，对于QA

365JHWZGo·2023-04-06 02:31

推荐频道

知识蒸馏

知识蒸馏-Distilling the knowledge in a neural network

论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

CIKM2022|中科院联合腾讯提出基于知识蒸馏的校准转化率预估

基于SSD算法的电动车头盔检测【附代码】

【自监督论文阅读 3】DINOv1

Knowledge Distillation of Large Language Models

低延迟流式语音识别技术在人机语音交互场景中的实践

【AIGC】16、Vision-Language 模型在视觉任务中的调研

工业检测：基于密集尺度特征融合&像素级不平衡学习框架

深度学习实战——模型推理优化（模型压缩与加速）

知识蒸馏方法的演进历史综述

【知识蒸馏】知识蒸馏（Knowledge Distillation）技术详解

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

低延迟流式语音识别技术在人机语音交互场景中的实践

知识蒸馏、轻量化模型架构、剪枝…几种深度学习模型压缩方法

解读知识蒸馏模型TinyBert

Hinton：我对“青蛙”创造出“人”这件事的后果很紧张丨全文整理+视频

深度学习模型精度与PyTorch模型量化

自监督表征学习方法——DINO方法

视觉大模型DINOv2:自我监督学习的新领域

让BERT飞一会

yolov5剪枝与知识蒸馏【附代码】

Reid strong baseline知识蒸馏【附代码】

推荐系统遇上深度学习(九十九)-[华为]多教师网络知识蒸馏来提升点击率预估效果

【论文】通过基准分析优化联邦人员重新识别的性能

NLP中的知识蒸馏论文 Distilled BiLSTM解读

CVPR 2023 | DisWOT：给老师找个好学生？KD和NAS的高效组合

论文解读 | 解耦知识蒸馏

模型蒸馏与压缩简单介绍

paddleocr 模型

知识蒸馏综述: 知识的类型

低延迟流式语音识别技术在人机语音交互场景中的实践

知识蒸馏(Knowledge Distillation)

模型压缩技术：剪枝、量化和蒸馏

图像任务知识蒸馏调研（知识蒸馏一）

模型蒸馏技术实践

【学习资料】项目经历总结

Knowledge Distillation (2) 知识迁移

知识蒸馏综述:网络结构搜索应用

（1）深入解析图像字幕生成数据集———Coco dataset

yolov5使用知识蒸馏

推荐系统论文阅读（二十四)-基于回话推荐的知识蒸馏模型

[预训练语言模型专题] MT-DNN(KD) : 预训练、多任务、知识蒸馏的结合

【论文笔记_剪枝_知识蒸馏_2022】INDISTILL: TRANSFERRING KNOWLEDGE FROM PRUNED INTERMEDIATE LAYERS

微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021

强化学习下的多教师知识蒸馏模型（学习笔记

博客6：YOLOv5车牌识别实战教程：性能优化与部署

【自监督学习】概述 | 基于表示学习的知识图谱实体解析方法 | 自监督学习&Vision Transformer&数据增强&知识蒸馏 | 带你搞懂“对比学习”(一)

ICLR2021清华团队做的知识蒸馏提升detector的点的工作paper 小陈读论文系列

知识蒸馏论文整理与总结与代码实现