知识蒸馏

《BERT基础教程：Transformer大模型实战》读书笔记

johnny233·2024-08-31 19:39

英伟达如何通过剪枝和蒸馏技术让Llama 3.1模型“瘦身“?

英伟达研究团队通过结构化权重剪枝和知识蒸馏技术，成功将Llama3.18B模型压缩为4B参数的小型语言模型，并取得了不俗的效果。让我们一起来深入探讨这项技术的原理和

蒜鸭·2024-08-30 19:28

【机器学习】机器学习与大模型在人工智能领域的融合应用与性能优化新探索

3BERTResNetTransformer机器学习与大模型的融合应用自然语言处理文本生成文本分类机器翻译图像识别自动驾驶医学影像分析语音识别智能助手语音转文字大模型性能优化的新探索模型压缩权重剪枝量化知识蒸馏分布式训练数据并行模型并行异步训练高效推理模型裁剪缓存机制专用硬件未来展望跨领域应用智能化系统人

E绵绵·2024-08-26 06:25

Transformer视频理解学习的笔记

站视频理解沐神系列串讲视频上（24.2.26未看完,明天接着看）这里面更多论文见：https://github.com/mli/paper-reading/B站视频理解沐神系列串讲视频下（明天接着看）上面这张图中的知识蒸馏

LinlyZhai·2024-02-28 14:26

大模型量化技术原理-LLM.int8()、GPTQ

模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（KnowledgeDistillation）量化之前也写过一些文章涉及大模型量化相关的内容。

吃果冻不吐果冻皮·2024-02-20 21:39

知识蒸馏实战代码教学一（原理部分）

一、知识蒸馏的来源知识蒸馏（KnowledgeDistillation）源自于一篇由Hinton等人于2015年提出的论文《DistillingtheKnowledgeinaNeuralNetwork》

业余小程序猿·2024-02-20 08:44

知识蒸馏实战代码教学二（代码实战部分）

一、上章原理回顾具体过程：（1）首先我们要先训练出较大模型既teacher模型。（在图中没有出现）（2）再对teacher模型进行蒸馏，此时我们已经有一个训练好的teacher模型，所以我们能很容易知道teacher模型输入特征x之后，预测出来的结果teacher_preds标签。（3）此时，求到老师预测结果之后，我们需要求解学生在训练过程中的每一次结果student_preds标签。（4）先求h

业余小程序猿·2024-02-20 08:35

——知识蒸馏中即插即用的对抗性调度器以及调整向量Vector

在常规的知识蒸馏中，一般不会考虑知识的难度先后，按照我们人类的思维，肯定是先学习容易的再学习难一点的知识（总不能小学就学高数吧哈哈）。一个模型的理想状态也应该如此。

时光诺言·2024-02-14 01:23

【论文解读】Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

1Introduction1Docre任务比句子级任务更具挑战性：2现有的Docre方法：3现有的Docre方法存在三个局限性2Methodology1使用轴向注意力模块作为特征提取器：2第二，提出适应性焦距损失3第三用知识蒸馏相关知识类别不平衡问题长尾类分布交叉熵损失和二元交叉熵损失二元交叉熵损失定义为知识蒸馏全文翻译

Queen_sy·2024-02-11 14:19

知识蒸馏之Knowledge Distillation: A Survey

InternationalJournalofComputerVision2021JianpingGou1·BaoshengYu1·StephenJ.Maybank2·DachengTao11UBTECHSydneyAICentre,SchoolofComputerScience,FacultyofEngineering,TheUniversityofSydney,Darlington,NSW200

Diros1g·2024-02-07 11:39

知识蒸馏综述---代码整理

1、KD:KnowledgeDistillation链接：https://arxiv.org/pdf/1503.02531.pd3f发表：NIPS14最经典的，也是明确提出知识蒸馏概念的工作，通过使用带温度的

qq_41920323·2024-02-05 01:58

知识蒸馏（paper翻译）

paper：DistillingtheKnowledgeinaNeuralNetwork摘要：提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型，然后对它们的预测进行平均[3]。不幸的是，使用整个模型集合进行预测非常麻烦，并且计算成本可能太高，无法部署到大量用户，尤其是在单个模型是大型神经网络的情况下。Caruana和他的合作者[1]已经证明，可以将集成中的知识压缩

蓝羽飞鸟·2024-01-31 23:18

第二十九周：文献阅读笔记（ResMLP）+ pytorch学习（Resnet代码实现）

ResMLP1.1文献摘要1.2文献引言1.3ResMLP方法1.3.1整体流程1.3.2残差多感知机层1.4实验1.4.1数据集1.4.2超参数设置1.4.3主要结果1.4.4监督设置1.4.5自监督设置1.4.5知识蒸馏设置

@默然·2024-01-30 03:01

vit细粒度图像分类（三）TRS-DeiT 学习笔记

1.摘要细粒度图像分类任务由于自身存在的细微的类间差别和巨大的类内差别使其极具挑战性，为了更好地学习细粒度图像的潜在特征，该算法将知识蒸馏引入到细粒度图像分类任务中，提出基于知识蒸馏与目标区域选取的细粒度图像分类方法

无妄无望·2024-01-27 13:38

【Image captioning】论文阅读七—Efficient Image Captioning for Edge Devices_AAAI2023

EfficientImageCaptioningforEdgeDevices）文章目录1.引言2.相关工作3.方法3.1ModelArchitecture（模型结构）3.2ModelTraining(模型训练)3.3KnowledgeDistillation（知识蒸馏

安静到无声·2024-01-26 11:30

和GPT讨论知识蒸馏的基本概念

User帮我解释一下知识蒸馏、教师学生网络、逆向蒸馏等概念ChatGPT知识蒸馏（KnowledgeDistillation）是一种模型压缩技术。

Mighty_Crane·2024-01-24 10:52

Knowledge Distilling，知识蒸馏

Distillingtheknowledgeinaneuralnetwork1.Motivationknowledge_distilling_title.jpg论文作者比较大名鼎鼎了。Motivation一部分来自模型压缩[2]，一部分源自作者认为大部分机器学习采用ensemble方法或者学习一个很大的模型来取得比较好的结果，但会给实际应用预测带来很大的压力，而且实际上模型之间也是有信息冗余的。希

FeynmanMa·2024-01-18 18:57

AI芯片：神经网络研发加速器、神经网络压缩简化、通用芯片 CPU 加速、专用芯片 GPU 加速

AI芯片：神经网络研发加速器、神经网络压缩简化、通用芯片CPU加速、专用芯片GPU加速神经网络研发加速器神经网络编译器各自实现的神经网络编译器神经网络加速与压缩（算法层面）知识蒸馏低秩分解轻量化网络剪枝量化通用芯片

Debroon·2024-01-12 11:24

《FITNETS: HINTS FOR THIN DEEP NETS》论文整理

Hint-BasedTraining思想1、hint层与guided层：2、核心思想：三、Fitnet训练过程及效果1、FItnet训练过程可以分为三个阶段：2、需要注意的问题：3、具体流程：4、损失函数：（1）预训练阶段：（2）知识蒸馏阶段

LionelZhao·2024-01-11 08:40

YOLO蒸馏原理篇之---MGD、CWD蒸馏

MGD蒸馏论文地址：https://arxiv.org/abs/2205.01529论文翻译：https://mp.weixin.qq.com/s/FSvo3ns2maTpiTTWsE91kQ1.1摘要知识蒸馏已成功应用于各种任务

qq_41920323·2024-01-08 22:35

深度学习模型压缩方法：知识蒸馏方法总结

本文将介绍深度学习模型压缩方法中的知识蒸馏，内容从知识蒸馏简介、知识的种类、蒸馏机制、师生网络结构、蒸馏算法以及蒸馏方法等六部部分展开。

qq_41920323·2024-01-08 22:35

使用知识蒸馏提升模型推理性能

目录知识蒸馏介绍LogitsTemperature理论介绍实验代码实验结果知识蒸馏介绍首先，我们先简单地了解下知识蒸馏概念[2]。

之乎者也··2024-01-07 23:25

深度学习中的知识蒸馏

一.概念知识蒸馏（KnowledgeDistillation）是一种深度学习中的模型压缩技术，旨在通过从一个教师模型（teachermodel）向一个学生模型（studentmodel）传递知识来减小模型的规模

Algorithm_Engineer_·2024-01-06 23:02

【多模态】ALBEF

VisionandLanguageRepresentationLearningwithMomentumDistillation作者：JunnanLi（SalesforceResearch）期刊：NeurIPS2021发布时间与更新时间：2021.07.162021.10.07主题：多模态、预训练、图像、文本、对比学习、知识蒸馏

不牌不改·2024-01-06 23:28

【AI】一文读懂大模型套壳——神仙打架？软饭硬吃？

2.2内核的发展历程和万流归宗2.3套壳不是借壳三、软饭硬吃，套壳真的不行吗四、神仙打架，百姓吃瓜4.1自研的佼佼者4.2模仿也不丢人4.3读书人偷书不算偷模仿学习（ImitationLearning）知识蒸馏

giszz·2024-01-06 04:47

知识蒸馏 Knowledge Distillation（在tinybert的应用）

蒸馏（KnowledgeDistillation）是一种模型压缩技术，通常用于将大型模型的知识转移给小型模型，以便在保持性能的同时减小模型的体积和计算开销。这个过程涉及到使用一个大型、复杂的模型（通常称为教师模型）生成的软标签（概率分布），来训练一个小型模型（通常称为学生模型）。具体而言，对于分类问题，教师模型生成的概率分布可以看作是对每个类别的软标签，而学生模型通过学习这些软标签来进行训练。这种

不当菜鸡的程序媛·2024-01-02 01:04

yolov8知识蒸馏代码详解：支持logit和feature-based蒸馏

文章目录1.知识蒸馏理论2.yolov8蒸馏代码应用2.1环境配置2.2训练模型(1)训练教师模型(2)训练学生模型baseline(3)蒸馏训练3.知识蒸馏代码详解3.1蒸馏参数设置3.2蒸馏损失代码讲解

@BangBang·2024-01-01 23:13

AI的智慧精华：解锁知识蒸馏的秘密

而知识蒸馏就是把一个大的模型，称之为教师模型

散一世繁华，颠半世琉璃·2023-12-31 15:20

Knowledge Distillation from A Stronger Teacher（NeurIPS 2022）论文解读

paper：KnowledgeDistillationfromAStrongerTeacherofficialimplementation：https://github.com/hunto/dist_kd前言知识蒸馏通过将教师的知识传递给学生来增强学生模型的性能

00000cj·2023-12-29 19:05

yolov5知识蒸馏

参考代码：https://github.com/Adlik/yolov5https://cloud.tencent.com/developer/article/2160509yolov5间的模型蒸馏，相同结构的。配置参数parser.add_argument('--t_weights',type=str,default='./weights/yolov5s.pt',help='initialtea

cv-daily·2023-12-27 19:24

Featured Based知识蒸馏(3): Focal and Global Knowledge (FGD)

文章目录1.摘要2.FocalandGlobal蒸馏的原理2.1常规的featurebased蒸馏算法2.2FocalDistillation2.3GlobalDistillation2.4totalloss3.实验论文：https://arxiv.org/pdf/2111.11837.pdf

@BangBang·2023-12-23 19:55

我们谈一下标签正则化（标签平滑、知识蒸馏、知识精炼）

0.引言关于正则化，大家都非常熟悉。深度神经网络由于其强大的特征提取能力，近年来在各种任务中得到了广泛而成功的应用。然而，DNN通常包含数以百万计的可训练参数，这很容易导致过拟合问题。为了解决这个问题，已经开发了许多正则化方法，包括参数正则化（例如dropout）、数据正则化（例如数据增强）和标签正则化（例如标签平滑），以避免过度拟合问题。1.为什么需要标签正则化技术简单说一下传统的one-hot

fond_dependent·2023-12-23 02:50

2023 英特尔On技术创新大会直播 |探索视觉AI的无限可能

释放视觉AI真正潜力二·AI技术突破、视觉Al挑战及前沿研究创新三·全尺度视觉学习全尺度视觉学习示例1.GridConv实现三维人体姿态估计更高准确率2.KW预训练及迁移模型性能3.无数据增强稠密对比知识蒸馏

以山河作礼。·2023-12-22 12:37

知识蒸馏与应用

何为蒸馏想解决的问题现在谁家不整个大模型，条件好了吃喝都不差钱了，大模型一般都效果好但是应用可能麻烦点，费资源，可能下游任务设备一般般，那咋整？那你就用小一点的模型呗，比如resnet152用不了那咱们就用resnet18也行但是现在咱们两边都想要，既要用小的18层的也要让它效果尽可能进阶152的模型参数越大越好？模型参数量越大，效果一定越好吗？不一定，越来越平稳的曲线，有上限；而且参数越大越难收

十有久诚·2023-12-21 16:45

（2021|ICCV，DINO，ViT，自监督学习，知识蒸馏）自监督视觉 Transformer 的新特性

EmergingPropertiesinSelf-SupervisedVisionTransformers公纵号：EDPJ（添加VX：CV_EDPJ或直接进Q交流群：922230617获取资料）目录0.摘要1.简介2.相关工作3.方法3.1.自监督学习与知识蒸馏

EDPJ·2023-12-19 19:51

使用PyTorch进行知识蒸馏的代码示例

使用PyTorch进行知识蒸馏的代码示例deephub随着机器学习模型的复杂性和能力不断增加。

baidu_huihui·2023-12-19 08:35

CNN的五脏六腑

CNN的五脏六腑思路大纲1）手动设计网络结构->NAS搜索；2）固定感受野->引入空间注意力做感受野自动调节；3）效果提升不上去->换个思路做实时分割来对比结果；4）自监督太热门->引入弱监督（GAN,知识蒸馏

FMsunyh·2023-12-16 10:05

[DistilBERT]论文实现：DistilBERT：a distilled version of BERT: smaller, faster, cheaper and lighter

文章目录一、完整代码二、论文解读2.1介绍2.2知识蒸馏2.3三重损失2.4DistilBERT三、整体总结论文：DistilBERT,adistilledversionofBERT:smaller,faster

Bigcrab__·2023-12-15 20:04

联邦边缘学习中的知识蒸馏综述

联邦边缘学习中的知识蒸馏综述移动互联网的快速发展伴随着智能终端海量用户数据的产生。如何在保护数据隐私的前提下,利用它们训练出性能优异的机器学习模型,一直是业界关注的难点。

MCRG·2023-12-15 11:09

知识蒸馏KL-loss解读

文章目录前言一、KLloss原理二、logit蒸馏网络图示三、KL代码四、运行结果显示前言本文简单介绍知识蒸馏教师模型与学生模型使用KLloss方法。

tangjunjun-owen·2023-12-06 18:44

知识蒸馏去雾：Distilling image dehazing with heterogeneous task imitation

知识蒸馏使得利用教师网络训练学生网络成为可能。然而，大多数的知识蒸馏方法都是应用于图像分类、语义分割或者目标检测的，很少有研究将知识蒸馏应用于不同图像恢复任务之间的知识转移。

lishuoshi1996·2023-12-05 19:07

知识蒸馏测试(使用ImageNet中的1000类dog数据，Resnet101和Resnet18分别做教师模型和学生模型)

当教师网络为resnet101,学生网络为resnet18时：使用蒸馏方法训练的resnet18训练准确率都小于单独训练resnet18，使用蒸馏方法反而导致了下降。当hard_loss的alpha为0.7时，下降了1.1当hard_loss的alpha为0.6时，下降了1.7说明当学生网络和教师网络训练准确率相差不多时，要给hard_loss权重大一点。VanillaKD:RevisittheP

computer_vision_chen·2023-12-03 09:11

知识蒸馏（深度学习模型压缩）

模型压缩大体上可以分为5种：模型剪枝：即移除对结果作用较小的组件，如减少head的数量和去除作用较少的层，共享参数等，ALBERT属于这种；量化：比如将float32降到float8；知识蒸馏：将teacher

猿代码_xiao·2023-11-30 21:33

深度学习：什么是知识蒸馏

1概况1.1定义知识蒸馏（KnowledgeDistillation）是一种深度学习技术，旨在将一个复杂模型（通常称为“教师模型”）的知识转移到一个更简单、更小的模型（称为“学生模型”）中。

智慧医疗探索者·2023-11-30 21:29

用了这个方法，两周没变过的模型精度居然提升了（附资源）

作者|DerrickMwiti译者|刘畅编辑|Jane出品|AI科技大本营（ID：rgznai100）【导语】知识蒸馏是一种模型压缩技术，它利用训练好的大网络（教师网络）去教小网络（学生网络）。

AI科技大本营·2023-11-30 19:57

全网最细图解知识蒸馏(涉及知识点：知识蒸馏训练过程，推理过程，蒸馏温度，蒸馏损失函数)

二.为什么要用知识蒸馏把大模型学习到的东西迁移到小模型呢呢？因为大的模型很臃肿，而真正落地的终端算力有限，比如手表，安防终端。所以要把大模型变成小模型，把小模型部署到终端上。

computer_vision_chen·2023-11-30 19:53

知识蒸馏—原理+代码实战(Distillation CNN 和 Progressive Distillation Diffusion)

ProgressiveDistillationDiffusion生成代码实战3.1ProgressiveDistillation原理3.2v-parameterization3.2渐进蒸馏cifar代码实战1.Distillation基本概念知识蒸馏被广泛的用于模型压缩和迁移学习

Yuezero_·2023-11-29 09:58

PP-OCR笔记

目录检测det数据准备数据格式训练模型微调数据选择模型选择前沿算法与模型训练超参选择预测超参选择启动训练断点训练更换Backbone训练添加新算法混合精度训练分布式训练知识蒸馏训练其他训练环境评估、预测导出

贺一诺·2023-11-19 08:36

知识蒸馏：如何用一个神经网络训练另一个神经网络

作者：TivadarDanka编译：ronghuaiyang来源：AI公园导读知识蒸馏的简单介绍，让大家了解知识蒸馏背后的直觉。

Imagination官方博客·2023-11-16 21:16

神经网络 mse一直不变_神经网络中的蒸馏技术，从Softmax开始说起

↑点击蓝字关注极市平台作者丨SayakPaul、ronghuaiyang(译)来源丨AI公园编辑丨极市平台极市导读本文讨论了一种模型优化技术——知识蒸馏。

weixin_39804620·2023-11-16 21:46

推荐频道