weixin_37958272

The State Of Knowledge Distillation For Classification Tasks

我们调查了简单分类任务的各种知识提取（KD）策略，并实现了一组声称具有最新准确性的技术。我们使用标准化的模型架构、固定的计算预算和一致的训练计划进行的实验表明，这些蒸馏结果中的许多很难重现。这在使用某种形式的特征提取的方法中尤其明显。进一步的检查显示出缺乏可概括性，这些技术可能只适用于特定的架构和培训设置。我们观察到，适当调谐的经典蒸馏与数据增强训练方案相结合，比其他技术给出了正交改进。我们验证了这种方法并开源了我们的代码1。

1 Introduction

现代的深层神经网络是资源密集型的，这限制了它们在带宽受限和低功耗环境下的生存能力。目前大多数设备上运行的强大的深度学习模型的大小限制了GPU大小和电池电量有限的边缘设备。因此，近年来，模型压缩（model compression）这门试图在保持精度的同时减小特定网络规模的学科受到了广泛的关注。

模型压缩的一个很有前途的子类是知识蒸馏，它在一个较大的模型（教师）的logits上训练一个资源需求较低的较小的模型（学生）。这些逻辑被认为是教师模式的“黑暗知识”，是学生继续学习的附加信号。这些软目标更容易为学生建模，并已被证明能提高最终学生的准确性。

在这项工作中，我们着手调查丰富的知识提取景观及其在图像分类压缩方面的收获。我们有三个明确的目标

1。实施最先进的分类和验证顶级执行方法。

2。了解这些方法是如何正交工作的。

3。评估每种技术的概括性。

我们使用CIFAR10[9]数据集作为所有实验的基准，并限制所有技术，以便为所有实验使用一致的优化器、计算预算和单个数据增强方案。令人惊讶的是，我们的实验表明，vanilla知识蒸馏在经过仔细的超参数调整后表现最佳。最令人惊讶的是，特征提取技术的性能似乎比所有其他方法都差。事实上，我们遇到的最大的因素是，当我们转向不同架构的教师时，蒸馏性能的差异。

2 Knowledge Distillation

目前最常见的蒸馏损失是由Hinton等人首次提出的。[7] 2014年。Hinton等人提出的知识蒸馏，试图通过训练一个除任务损失外还有蒸馏损失的模型，提供另一条获取任务知识的途径。这种蒸馏损失是在教师网络的帮助下产生的，这种网络是“繁琐的”，即规模很大，但在任务上达到了很高的精度。蒸馏的目的是通过蒸馏损失来帮助学习，从而提高较小网络（学生）的准确性。准确的KD损失定义为:

2.1 Extensions

这些年来，许多人对知识蒸馏的概念做了进一步的修改。最初由Romero等人（2014年[12]）开发的一个特定研究领域，通过在培训过程中也将教师的中间表征层视为提示来增强知识转移。提取学生任务的中间表示常被称为特征提取，是一个新兴的研究领域。最近，将特征提取引入到特定的任务和模型类型中受到了广泛的关注。各种方法都试图提取用于语言建模的BERT模型，并报告模型尺寸减小了7.5x，精度只有小幅度的降低[18]，TinyBERT[8]提出了一种新的 transformer蒸馏方法，该方法通过最小化 transformer网络各层之间的均方误差来工作。

他们还提出了一个两步训练管道，首先训练一个通用的BERT模型，然后再结合数据增强技术，对该通用模型在下游任务上进行微调。消融研究证实了这种训练方法的有效性，以及多头注意attention layers的重要性。类似Sun等人的工作，2019[13]，被称为“患者知识蒸馏”，通过最小化学生和教师的每个个体层的均方误差损失来提取BERT。

在图像分类领域，Heo等人，2019[5]对特征提取的现状进行了全面的调查。他们推测他们提出的方法，包括一个带margin ReLU的特征变换，蒸馏特征位置的仔细选择，以及部分L2距离函数，超过了他们以前的工作（AB蒸馏[6]），并导致了最新的精度。

一种不同于以往蒸馏技术的方法是Park等人的关系知识蒸馏（RKD），2019年[11]。RKD的区别在于它关注教师和学生产出的结构差异，而不是计算个人产出的损失。RKD引入了一个距离损失和一个角度损失，旨在弥补关系团队除了使用特征蒸馏损失和辛顿损失外，还使用这些损失和精心调整的超参数。

Mirzadeh等人，2019[10]假设学生从老师那里学到的东西太先进了，因此跟不上。为了解决这个问题，他们首先通过提炼教师来培养一个中等规模的“助理”网络。然后从这个中间助手身上提炼出这个学生网络。It结果表明，利用助教的知识转移，学生能够获得比基线知识蒸馏更高的准确性。

3 Baselines

我们选择第2.1节中描述的一组高性能技术来评估知识蒸馏的状态：激活边界蒸馏（AB）、检修蒸馏（OH）、关系知识蒸馏（RKD）和教师辅助蒸馏（TAKD）。在下一节中，我们将详细说明如何将每种方法集成到我们的评估流程中。

3.0.1 Activation-Boundary Distillation (AB)

Heo等人，2019[6]提出基于“活化边界”计算蒸馏损失，活化边界定义为正响应和负响应之间的差异。这与比较两个特征层响应的绝对大小相反。我们选择AB蒸馏法，因为作者声称CIFAR100的性能优于Hinton损失。不幸的是，我们在采用AB蒸馏法时遇到了很大的困难，即使我们可以访问作者的代码库。AB蒸馏已经在广泛的ResNets上进行了测试[17]，它需要来自神经网络模型的高度特定的信息（每层的输入通道数、对模型具体各个层的访问以及每个特征输出）。因此，ResNet模型必须手动调整以适应所建议的方法。这需要选择要提取的隐藏层，根据大小差异匹配学生/教师的特征映射维度，并调整用于特征提取的超参数。我们在许多特征提取研究工作中遇到的这种特殊性，是特征提取的一个重要缺点。

该方法本身在应用ReLU之前比较特征值，并在每个层上使用自定义的“铰链式”损失。AB蒸馏分为两个阶段。首先，学生通过将其特征与教师翻译的特征对齐来初始化。在此之后，学生将接受标准知识提炼的培训。我们把这两个阶段分成60:40的部分，如文中所述。首先进行嵌入初始化，然后进行常规知识提取训练。在初步实验中，我们观察到与KD几乎没有差别，可能是因为第二蒸馏阶段占主导地位。因此，我们决定重新完成这项工作的后续工作，检修蒸馏。

3.0.2 Overhaul Distillation (OH)

OH蒸馏的操作与AB蒸馏类似，但通过重新考虑从中选择特征向量的位置来改进。在应用ReLU之前，OH选择特定的蒸馏位置并计算特征和活化边界损失。希望通过仔细选择相关的ReLU层，只考虑激活边界，只考虑最必要的信息。我们能够通过参考作者的codebase2并通过对ResNet模型进行必要的调整来获得这些信息，从而将此技术集成到我们的评估管道中。

3.1 Relational Knowledge Distillation (RKD)

RKD使用各种损失函数，所有这些函数都试图测量向量的一些相关性质。这些概念以角距离损失、距离损失和“暗秩”的形式表示，暗秩通常用于度量学习。RKD还利用了传统的KD、注意力转移（AT）[16]和FitNet[12]损失。

使用这个损失集成，RKD声称在Cifar100上性能最好。我们重新实现了RKD中不需要访问模型特定特性的部分。这意味着我们不使用AT和FitNet亏损。然而，虽然这可能会损害整体性能，但我们仍然期望比传统的知识蒸馏有所改进。不幸的是，本文中使用的CIFAR10蒸馏代码在本项目实施时并不公开3。我们根据论文的描述，通过联系作者并询问细节，重新实现了这一方法。

3.2 Teacher-Assistant Distillation (TAKD)

教师助理知识提炼[10]遵循一个简单的前提。最近的工作[3]声称自蒸馏实际上可以提高基础模型的准确性，受此启发，TAKD提出了蒸馏的多个阶段。TAKD没有从一个大老师训练成一个学生，而是使用“教师助理”（TA）。助教通常是同一体系结构的较小模型，它弥合了教师和学生之间的表达差距。这个命题是助教能够翻译学生可能无法表达的教师分类。

4 新技术

我们开发了三种新的知识蒸馏变体，我们将在下面详细介绍。

4.0.1 Simple Feature Distillation (SFD)

病人知识提取（PKD）[13]是一种用于BERT模型压缩的技术，但它的通用性足以将其转换为视觉任务。其基本思想是简单地将学生和教师每一层之间的均方误差最小化。受PKD的启发，我们实现了一种称为简单特征提取（SFD）的方法。SFD自动检索模型的所有层，并在教师层上应用max pool操作，使其减小到学生层的大小。Max pool在保持强信号的同时压缩特征层。我们用deconvolutional、插值和平均池化层进行了实验，观察到它们之间没有显著差异。

一旦特征层被匹配，学生和老师之间的均方误差损失将最小化。这种方法背后的直觉是将学生的激活与教师的压缩、翻译表示对齐。我们还尝试了最小化特征图的KL发散，并观察到最终验证精度没有差异。

4.0.2 Ensemble Distillation (MKD)

基于Hinton的观察和TAKD的论文，我们在一个“多面手”教师群体下训练一名学生。此方法简单地平均每个教师和学生输出的Hinton KD-Lost。期望学生在各种不同的信号下能更好地概括。我们使用同一架构的多个模型来表示教师群体。

4.0.3 Unsupervised Distillation (UDA)

最后，我们还借鉴了无监督数据增强学习的技术[15]。我们建立了一个训练方案，其中数据加载器使用数据扩充策略randagment[1]在同一个小批量中输出一个未经整理的图像和一个扩充的图像。此策略通过从一组手工挑选的数据扩展中随机挑选一个转换来工作，这些数据扩展在CIFAR10中工作得很好。我们通过将一个增强图像和一个未整合图像的师生登录对相加，将Hinton知识蒸馏损失最小化。我们把这种损失称为UDA-Cifar loss.。

在另一个实验中，我们将STL-10和Cifar10数据集连接起来。在培训期间，遇到Cifar10样本时-使用UDA Cifar损失，遇到STL10无监督样本时-使用UDA[15]损失。这种方法的直觉是使用更多的数据，并使用自我监督训练的范式来挤出改进。

我们确保在一个小批量中拥有相同数量的Cifar10和STL样本，正如我们观察到的，如果不使用这种硬示例挖掘，模型的性能会更差。我们称这种方法为STL。这项实验的灵感来源于观察到，一名学生从一名接受过Cifar10培训的教师那里蒸馏出来，使用STL数据集进行蒸馏，在没有接受过Cifar10培训的情况下，对Cifar10的验证准确率为83%。

5 Experiments

我们的实验包括三个主要阶段。首先，为了了解知识蒸馏的特性，我们进行了超参数和模型结构分析。根据分析结果，我们选择一个教师和参数配置，并使用相同配置运行所有实现的技术。然后，我们选择性能最好的技术，并在多次大范围运行中平均它们的性能。

5.1 Setup

我们的大多数测试都在CIFAR10[9]数据集上执行。我们之所以选择CIFAR，是因为我们在原始工作中关注图像分类，并且考虑到它的计算可行性。我们可以在更小的设备上训练CIFAR，而不需要多个GPU设置。我们测试的一个重要重点是确保公平和公平的条件。相应地，所有的知识蒸馏实验都在相同的条件下进行。我们所有的测试都是用同一个优化器执行的。启用Nesterov的随机梯度下降，动量为0.9，初始学习率为0.1，在总时间段的33%和66%时下降了0.1。权重衰减固定为0.0005。对于训练，我们使用传统的CIFAR10增强方法来增强数据。我们对每个图像进行规格化，应用随机水平翻转，并将图像随机裁剪为32x32大小，填充4。验证集仅规范化。

我们使用的模型来自几个不同的来源。由于PyTorch示例架构是为ImageNet[2]设计的，因此我们主要使用Github用户Kuangliu5流行的ResNet[4]架构，该架构经过优化以在CIFAR10和CIFAR100上实现高精度。

这些模型在验证集上很快达到了95%以上的准确率，我们认为这已经足够了。对于知识提炼，我们使用这个模型的一个重剥离版本ResNet8。ResNet8只包含三个主要块，而不是四个，并且具有更少的参数。比较对于我们最小的4层ResNet ResNet10，它有4903242个参数，占用25.28MB的空间，ResNet8只使用89322个参数，占用2.88mb的内存空间。我们将有效的ResNet8用于我们所有的知识蒸馏实验。基本精度达到89%。我们认为任何可靠地达到90%以上的技术都是成功的。

5.2 Parameter Tuning

在我们进行CIFAR10分类测量之前，我们进行了广泛的超参数搜索，以了解经典知识蒸馏中的权衡。我们问了自己两个问题。1） T和a的不同组合对蒸馏性能的影响。2）教师的结构对表现有影响吗？

对于1）我们训练了一个ResNet8和一个Resnet26老师，每次a=[0.1，0.4，0.5，0.7，1.0]和T=[1，5，10，15，20]组合150个阶段。表1突出显示了选定的结果。结果表明，我们所建立的知识蒸馏系统对参数选择具有较强的鲁棒性，且性能差异不大。即使是使用0.1的a进行的测试，其性能也显著高于正常训练（0.8814）。

我们的第二个测试评估了模型结构对蒸馏性能的影响。再次，我们训练了150个epoch的ResNet8，并选择了不同的教师体系结构进行比较。表2突出显示了结果。有趣的是，模型架构对最终的精确性结果有很大的影响。教师（ResNet20，ResNet26）在相同的结构下获得最高的分类准确率，即使他们可能没有最高的分类准确率。

宽ResNets[17]（WRN10-1和wrn16-4）和4层ResNets（ResNet18）在结构上不同，这会影响学生模拟教师输出的能力。我们还对ResNet18进行了额外的测试，以评估较高的温度值是否能改善性能，但我们没有观察到任何明显的变化效果。这个可能是因为模型之间的参数差异没有表现出足够的幅度。

根据1）和2）中的结果，我们最终决定挑选一名准确率为93.41的ResNet26教师，并为所有后续测试进行a为0.5和T为5的培训。

5.3 Cifar10 Classification Experiments

5.3.1 Preliminary Comparisons

我们使用第5.1节中描述的配置为200个阶段运行每个实现的技术。对于每次运行，我们收集所达到的最高验证精度。表3显示了结果。不幸的是，所有的特征提取技术都表现得很差，甚至无法打败正常的训练。只有RKD优于基线，但这可能是由于SFD和OH中缺少额外的知识蒸馏损失。

5.4 In-depth Analysis

我们更深入地研究了所有优于知识蒸馏的技术。我们删除了MKD，因为它无法获得比KD更高的性能。我们用350次迭代重新进行了实验，并对每种技术的结果进行了平均。表4显示了最终结果。UDA蒸馏明显优于TAKD和正常KD，这意味着无监督的数据增强损失可以提供实质性的好处。

为了验证这一性能提升不仅仅是因为常规的数据增强，我们还运行了一个带有Hinton损失的UDA测试。虽然它取得了比常规训练更好的成绩，但在最终成绩上比KD仍有显著的提高。**我们推测，简单的知识提取与复杂的增强和高参数调整相结合，可以匹配高精度的特征提取技术。**不幸的是，由于我们无法及时再现“工作”特征提取方法，我们无法证实这一假设。

6 Conclusion

我们观察到，达到95%准确度的resnet18能够将resnet8学生提取到88.5%的准确度。然而，改用resnet26教师，其最终验证准确率为93%，可以更有效地蒸馏。结果同样的resnet8学生获得了90.5%的准确率，使准确率提高了近2%。

我们还观察到，特征提取是一个困难的问题，我们所有的实验都是用最先进的方法进行的，比学生的基线表现差。有一种观点认为，学生可能太小，无法有效地模拟问题。我们的模型可能只是达到了参数化建模的极限，无法获得更好的精度。

90.5%的准确率，使准确率提高了近2%。

我们计划在未来的工作中探索剪枝和特征提取的结合，并了解如何识别神经网络的参数建模的限制。

SIMULINK开发项目实例 1000 例专栏之第663例：基于simulink的SVPWM技术的研究的三相电压源逆变器建模仿真 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 matlab simulink
目录准备工作步骤详解第一步：创建Simulink项目第二步：选择并添加合适的库组件第三步：构建基本的三相电压源逆变器模型第四步：实现SVPWM算法第五步：仿真与调试第六步：结果分析第七步：优化与改进第八步：导出与部署总结三相电压源逆变器（VoltageSourceInverter,VSI）在电力电子中是将直流电转换为交流电的一种重要设备，广泛应用于电机驱动、不间断电源（UPS）、可再生能源系统等领
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
大模型 AI智能体Coze知识库从使用到实战详解非著名架构师大模型知识文档人工智能 Coze知识库
一、Coze知识库核心价值解析1.1知识库技术架构创新Coze知识库采用四层混合架构设计，在2025年大模型应用中展现出独特优势：存储层：支持向量数据库（Qdrant）+图数据库（Neo4j）双引擎处理层：集成PDF/PPT/Excel等23种文件解析器检索层：混合检索算法（BM25+稠密检索+语义路由）应用层：RAG（检索增强生成）优化接口与传统方案相比，查询准确率提升42%，特别擅长处理：专业
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
React与Vue的区别？扎西_德勒 vue.js react.js javascript
一、区别:1.语法Vue采用自己特有的模板语法；React是单向的，采用jsx语法创建react元素。2.监听数据变化的实现原理不同Vue2.0通过Object.defineproperty()方法的getter/setter属性,实现数据劫持,每次修改完数据会触发diff算法(双端对比)React默认是通过shouldComponentUpdata生命周期来决定是否需要渲染更新,再触发它的dif
2025年6月AIGC发展全景：技术轻量化、Agent产业化与伦理新挑战 Loving_enjoy 计算机学科论文创新点深度学习人工智能经验分享 facebook
>**当一块消费级GPU能解高考数学题，当AI智能体接管医院诊断流程，我们正站在人机协作新纪元的门槛上**2025年6月，AIGC领域迎来关键转折点——**模型轻量化**让百亿参数算法飞入寻常设备，**多模态融合**打破文本与视觉的次元壁，而**Agent智能体**正从实验室概念蜕变为产业核心引擎。这场变革不仅重塑技术范式，更在重构商业逻辑与人类创造力边界。---###一、技术突破：垂直化、轻量化
代码随想录算法训练营第十一天天天开心(∩_∩) 算法
LeetCode.150逆波兰表达式求值题目链接逆波兰表达式求值题解classSolution{publicintevalRPN(String[]tokens){Stackcstack=newStackset=newHashSetdeque=newLinkedListdeque.getLast()){deque.removeLast();}deque.add(val);}intpeek(){ret
解读国密非对称加密算法SM2 云水木石详解国密算法数据安全
本文先介绍非对称加密算法，然后聊一聊椭圆曲线密码算法（EllipticCurveCryptography，ECC），最后才是本文的主题国密非对称加密算法SM2。因为我的数学知识有限，对于算法涉及的一些复杂的理论知识，也是不懂，所以本文不会涉及理论，仅仅从编程的角度解读一下SM2。在进行国密算法开发的这段时间，我主要参考的书籍是《深入浅出HTTPS：从原理到实战》，微信读书上也有电子版，如果你也是进
【归纳】C++入门算法模版总结（超级详细！！！）（包括高精度，排序，枚举，二分，搜索，动态规划等）
0.前言本文针对有一定算法基础的选手制作，收录了大部分算法的模板，详细解说可以点进去我提供的链接了解。或者进入我的主页给一点支持！本人也是一名新手，如果这篇文章有不严谨的地方或者不懂的地方可以在评论区留言，我会为你们一一解答的。【归纳】C++入门算法模版总结（包括高精度，排序，枚举，二分，搜索，动态规划等）（超级详细！！！）0.前言1.高精度1.1.单独实现1.1.1.高精度加法1.1.2.高精度
（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
扒开嵌入式硬件的底裤（上）！从 PCB 到 FPGA/IC 设计，小白到 CTO 的必学秘籍硬核知识点全揭秘！从c语言入门到mcu与arm架构及外设相关 small_wh1te_coder 嵌入式内核嵌入式开发嵌入式硬件算法 c 汇编面试驱动开发单片机
【硬核揭秘】嵌入式硬件工程师的“底裤”：从入门到牛逼，你必须知道的一切！第一部分：破冰与认知——嵌入式硬件工程师的“世界观”嘿，各位C语言老铁，以及所有对“让硬件听你话”充满好奇的朋友们！我是你们的老朋友，一个常年“折腾”在代码和电路板之间的码农。今天，咱们要聊一个真正能让你“硬”起来的话题——如何成为一个合格、优秀、牛逼的嵌入式硬件工程师！你可能正坐在电脑前，敲着C语言代码，刷着力扣算法题，心里
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
基于条件风险价值CVaR的微网动态定价与调度策略（Matlab代码实现） Ps.729 matlab 开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、CVaR的理论基础及其在微网中的适用性1.CVaR的定义与优势2.微网应用场景适配性二、动态定价与调度模型的联合优化框架1.目标函数设计2.动态定价机制3.不确定性处理方法三、关键算法与求解策略1.随机规划与CVaR集成2.智能优化算法对比四、实证
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
最长回文子串-leetCode-005
针对这个问题，共有四种解法，分别是暴力法，中心拓展法，动态规划，Manacher算法解法一：暴力法思路：枚举所有可能的子串，然后判断每个子串是否是回文串，最后找出最长的回文子串。classSolution{publicStringlongestPalindrome(Strings){intn=s.length();if(n==0){return"";}StringmaxPalindrome=s.s
[贪心算法]BM96 主持人调度（二） lanbing 多语言LeeCode的题解贪心算法算法
一、题目牛客题目链接：主持人调度（二）_牛客题霸_牛客网题目描述：有n个活动即将举办，每个活动都有开始时间与活动的结束时间，第i个活动的开始时间是startistart_istarti，第i个活动的结束时间是endiend_iendi,举办某个活动就需要为该活动准备一个活动主持人。一位活动主持人在同一时间只能参与一个活动。并且活动主持人需要全程参与活动，换句话说，一个主持人参与了第i个活动，那么该
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
典型的几种神经网络 Victor Zhong AI 框架神经网络人工智能深度学习
骨干网络CNN(卷积神经网络)RNN(循环神经网络)三级目录CNN(卷积神经网络)包括输入层、隐藏层、输出层：输入层一般为一张图片（w,h,d）,输入层数据一般要做归一化处理;隐藏层包含特有的卷积层（卷积核有权重系数）、池化层（没有权重系数）、全连接层，还有残差块？和Inception模块？。；输出层：RNN(循环神经网络)单向的RNN示意图：三级目录
算法理论知识 Victor Zhong AI 框架算法
算法理论知识排序二分查找冒泡排序插入排序选择排序快速排序堆排序希尔排序归并排序基数排序动态规划排序二分查找start=0end=len(list)mid=(start+end)//2冒泡排序每次都是相邻元素两两比较并交换位置。插入排序就好比扑克牌（分左边排好序，右边待排序），每次都是从右边拿一张牌去左边排好序的序列中找插入的位置。选择排序从后面找最小的和前面那个元素进行交换快速排序从中找一个元素作
时间复杂度高斯林.神犇数据结构
一、算法的目的：解决一个问题，所需执行代码的效率时间评价法：有很大缺陷，由于硬件CPU结构不同导致时间绝对差异性太大（有可能CPU好一点运行速度块，但算法可能很烂）纯时间法不行，后来人们提出：二、数据增长性来评价耗时间增长性和耗空间增长性比如当我们数据增长十倍，所耗空间或者所耗时间是否增长十倍，在此基础上提出两个概念时间复杂度空间复杂度三、那怎么计算时间复杂度呢1.找核心语句2.看核心语句执行的频
【数据结构】排序算法：归并与堆 nanguochenchuan 数据结构排序算法数据结构算法
归并排序：分治策略的经典实现算法原理归并排序采用分治法策略，包含三个关键步骤：分解：递归地将数组分成两半解决：对子数组进行排序合并：将两个有序子数组合并为一个有序数组C语言实现#include#include//合并两个有序子数组voidmerge(intarr[],intleft,intmid,intright){inti,j,k;intn1=mid-left+1;intn2=right-mid
多目标路径规划：IMOMD-RRT*算法详解
多目标路径规划项目结构与关键算法解析一、项目版本概览该路径规划项目共包含两个主要版本：两个版本的共同点：配置文件路径：config/algorithm_config.yamlsystem:使用不同算法的编号destination:定义目标点的ID列表map:指定使用的地图文件pseudo:1:仅规划起点到终点0:多目标路径规划两个版本的区别：✅新版特点：路径生成由src/main可执行文件完成；支
React 核心原理与Fiber架构旺代 react.js
目录一、虚拟DOM二、Diffing算法三、Fiber架构四、渲染流程1.Render阶段（可中断异步过程）2.Commit阶段（同步不可中断）五、时间切片（TimeSlicing）六、核心流程步骤总结1.状态更新触发2.Render阶段（异步可中断，构建Fiber树）3.Commit阶段（同步不可中断，更新真实DOM）4.双缓存机制切换5.调度系统核心支撑七、组件触发渲染的时机八、Hooks顶层
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

The State Of Knowledge Distillation For Classification Tasks

The State Of Knowledge Distillation For Classification Tasks

1 Introduction

2 Knowledge Distillation

2.1 Extensions

3 Baselines

3.0.1 Activation-Boundary Distillation (AB)

3.0.2 Overhaul Distillation (OH)

3.1 Relational Knowledge Distillation (RKD)

3.2 Teacher-Assistant Distillation (TAKD)

4 新技术

4.0.1 Simple Feature Distillation (SFD)

4.0.2 Ensemble Distillation (MKD)

4.0.3 Unsupervised Distillation (UDA)

5 Experiments

5.1 Setup

5.2 Parameter Tuning

5.3 Cifar10 Classification Experiments

5.3.1 Preliminary Comparisons

5.4 In-depth Analysis

6 Conclusion

你可能感兴趣的:(知识蒸馏,算法,计算机视觉,深度学习,神经网络)