一朵小红花HH

[论文阅读]PKD——基于Pearson相关系数的目标检测器通用蒸馏框架

PKD

General Distillation Framework for Object Detectors via Pearson Correlation Coefficient
基于Pearson相关系数的目标检测器通用蒸馏框架
论文网址：PKD

创新点

1.提出FPN特征模仿适用于异构检测器对。之前的工作大多只考虑同质检测器对,很少研究异构情况。
2.指出直接最小化特征图之间的均方误差存在问题,如教师和学生特征幅值不同、FPN不同级别和通道存在主导特征等。
3.提出用Pearson相关系数进行特征模仿,可以关注特征之间的关系信息,而不受幅值的约束。并证明这与高温度下的KL散度最小化等价。
4.在多个检测器和数据集上进行了大量实验,结果显示该方法可以显著提升性能,并且收敛速度快,对超参数不敏感。

具体蒸馏过程

1.获取教师网络和学生网络的多尺度特征图,例如从FPN的P3到P7。
2.对每一个特征图进行归一化,使其均值为0,方差为1。这样可以消除不同特征图之间的量纲差异。
3.计算教师和学生特征图之间的Pearson相关系数,然后将1减去相关系数作为损失函数,最小化这个损失函数。
4.重复上述步骤,通过反向传播更新学生网络的参数,使其特征图与教师网络特征图之间的相关性最大化。
5.同时结合检测网络正常的监督学习损失,最终获得一个蒸馏后的学生检测网络。
具体来说,设教师网络第l层特征为t,学生网络对应层特征为s,则Pearson相关系数定义为:r(s, t) = (s - μ_s)⊤(t - μ_t) / (||s - μ_s|| ||t - μ_t||)，这里μ表示均值向量,||·||表示L2范数。通过归一化可以去除量纲影响。然后损失函数为:L = 1 - r(s, t)，最小化这个损失函数就是最大化特征图之间的相关性。

摘要

知识蒸馏（KD）是一种广泛使用的技术，用于在目标检测中训练小模型。然而，目前还缺乏关于异构检测器之间如何进行蒸馏的研究。本文凭经验发现，尽管学生的检测头和标签分配不同，但来自异构教师检测器的更好的 FPN 特征可以帮助学生。然而，直接将特征图与蒸馏检测器对齐会遇到两个问题。首先，教师和学生之间特征量级的差异可能会对学生施加过于严格的约束。其次，教师模型中具有较大特征量级的 FPN 阶段和通道可能会主导蒸馏损失的梯度，这将压倒 KD 中其他特征的影响并引入大量噪声。为了解决上述问题，本文建议用Pearson相关系数来模仿特征，以关注来自教师的关系信息，并放松对特征大小的限制。

引言

知识蒸馏（KD）是一种广泛使用的技术，用于在目标检测中训练紧凑模型。然而，目前还缺乏关于异构检测器之间如何进行蒸馏的研究。大多数先前的工作[Distilling object detectors with fine-grained feature imitation, Distilling object detectors with task adaptive regularization, General instance distillation for object detection, Knowledge distillation for object detection via rank mimicking and prediction-guided feature imitation, Distilling object detectors via decoupled features]依赖于特定于检测器的设计，并且只能应用于同构探测器。 [Focal and global knowledge distillation for detectors, Distilling object detectors with feature richness]对具有异构骨干的检测器进行了实验，但是具有异构检测头和不同标签分配的检测器总是被忽略。目标检测正在迅速发展，性能更好的算法不断被提出。然而，在实际应用中，频繁更换检测器对于稳定性而言并不容易。此外，在某些场景下，由于硬件限制，只能部署特定架构的检测器（例如，两阶段检测器很难部署），而大多数强大的教师都属于不同的类别。因此，如果能够在异构检测器对之间进行知识蒸馏，这是有希望的。此外，当前的蒸馏方法，例如[Focal and global knowledge distillation for detectors, Improve object detection with feature-based knowledge distillation]，通常引入几个互补的损失函数来进一步提高其性能，因此使用几个超参数来调整每个损失函数的贡献，这严重影响了它们转移到其他数据集。
本文首先凭经验验证 FPN 特征模仿可以成功地提取知识，即使学生-教师检测器对是异构的。然而，直接最小化教师和学生特征之间的均方误差（MSE）会导致次优结果。[Learning efficient object detection models with knowledge distillation, Distilling object detectors via decoupled features, Distilling object detectors with feature richness, Focal
and global knowledge distillation for detectors]中得出了类似的结论。为了探索 MSE 的局限性，我们精心可视化了教师和学生检测器的 FPN 特征响应，如图 1 所示。具体来说，对于第 l 个 FPN 阶段的输出特征 sl ∈ RC×H×W，我们选择每个像素处 C 维的最大值并获得二维矩阵。然后我们根据 l 个二维矩阵的最大值和最小值将值标准化为 0-255。通过这些比较，本文得到以下观察结果：

教师和学生的特征值大小不同，特别是对于异构检测器
几个 FPN 阶段的值比其他阶段大
某些通道的值明显大于其他通道

根据这些观察，本文提出了如图下所示的Pearson系数（PKD）的知识蒸馏，其重点关注教师和学生特征之间的线性相关性。为了消除不同 FPN 阶段和通道之间师生检测器对之间以及检测器内的幅度差异的负面影响，首先对特征图进行归一化，使其均值和单位方差为零，并最小化归一化特征之间的 MSE 损失。从数学上讲，相当于首先计算两个原始特征向量之间的pearson相关系数（r），然后使用 1 − r 作为特征模仿损失。

与以前的方法相比，本文的方法具有以下优点。首先，由于蒸馏损失仅根据 FPN 特征计算，因此它可以轻松应用于异构检测器对，包括具有异构主干、异构检测头和不同训练策略（例如标签分配）的模型。其次，由于不需要训练教师的检测头，因此可以显著减少训练时间，特别是对于那些具有级联头的模型。此外，PKD 比以前的方法收敛得更快。最后也很重要的一点是，它只有一个超参数——蒸馏损失权重，并且对此不敏感。因此它可以很容易地应用于其他数据集。本文进行了大量的实验来验证本文的方法在 COCO 数据集上带来的显着性能提升。使用与老师相同的两阶段检测器，基于 ResNet50 的 RetinaNet 和 FCOS 实现了 41.5% mAP 和 43.9% mAP，分别超出基线 4.1% 和 4.8%。
贡献：

本文认为，即使学生-教师检测器对是异构的，FPN 特征模仿也可以成功地提取知识。
本文建议用 PCC 来模仿 FPN 特征，以关注关系信息并放宽学生特征大小的分布约束。它能够提取同构和异构检测器对的知识。
通过 COCO 上的大量实验验证了本文的方法在各种探测器上的有效性，并在没有花哨的情况下实现了最先进的性能。此外，本文的方法收敛速度更快，并且对唯一一个超参数蒸馏损失权重不敏感，简单而有效。

Method

Preliminaries

目标检测的传统知识蒸馏。最近，采用基于多尺度特征的特征蒸馏来处理丰富的空间信息以进行检测。提出了不同的模仿掩模M来形成前景特征的注意机制并滤除背景中的噪声。目标可以表述为：

其中L是FPN层数，l表示第l个FPN层。Ft l 和 Fs l 分别是学生和教师检测器的第 l 层特征。函数 φadapt 是一个 1x1 卷积层，用于在教师和学生之间的通道数不匹配时对学生网络的通道数进行上采样。
这些方法中M的定义是不同的。例如，FRS使用来自相应 FPN 层的聚合分类得分图，而 FGD同时考虑空间注意力、通道注意力、对象大小和前景-背景信息。

Is FPN feature imitation applicable for heterogeneous detector pairs?

之前的大部分工作都是在 FPN 上进行蒸馏，因为 FPN 集成了多个主干层并提供了多尺度对象的丰富空间信息。强迫学生模仿同构教师的 FPN 特征是合理的，因为他们具有相同的检测头和标签分配，并且更好的特征可以带来更好的性能。然而，目前还缺乏关于异构检测器之间如何进行蒸馏的研究。 [Focal and global knowledge distillation for detectors, Distilling object detectors with feature richness]对具有异构主干的检测器进行了实验，但是具有异构检测头和不同标签分配的检测器总是被忽略。因此，本文有动力研究 FPN 特征模仿对于这些异构检测器对是否仍然有意义。
本文在三种流行的检测器上进行了骨干和颈部替换实验：GFL 、FCOS 和 RetinaNet 。首先，用经过良好训练（经过 12 epochs）的 GFL 的骨干和颈部替换 FCOS 的骨干和颈部。由于基于特征的蒸馏方法的主要思想是直接对齐教师和学生的特征激活，因此可以将其视为 FCOS 和 GFL 之间 FPN 特征模仿的极端情况。然后用FCOS更换的 GFL 骨干和颈部对 FCOS 头部进行微调。实验显示，通过更换GFL的骨干和颈部，探测器获得了更高的性能（从36.5到37.6）。一定程度上验证了FPN特征模仿在异构检测器之间的适用性。相比之下，将 RetinaNet 的主干和颈部替换为 FCOS 训练有素（经过 12 个 epoch）的主干和颈部。由于 FCOS 头部中的组归一化导致两个模型之间的特征值幅度差异，可以观察到显着的 mAP 下降（从 36.3 到 35.2）。这意味着特征值大小差异可能会干扰两个异构检测器之间的知识蒸馏。

使用pearson相关系数进行特征模仿

一种有前景的特征蒸馏方法在将它们构建成对进行模仿时需要考虑数量级差异。此外，本文发现主要的 FPN 阶段和通道会对学生的训练阶段产生负面干扰，并导致次优结果，而这一点被以前的工作所忽略。
为了解决上述问题，本文建议首先将教师和学生的特征归一化，使其均值和单位方差为零，并最小化归一化特征之间的 MSE。此外，希望归一化遵循卷积属性 - 以便同一特征图的不同元素在不同位置以相同的方式归一化。令 B 为特征图中跨小批量元素和空间位置的所有值的集合。因此，对于大小为 b 的小批量和大小为 h ×w 的特征图，使用大小为 m = ||B|| = b · hw 的有效小批量。令 s© ∈ Rm 为一批 FPN 输出的第 c 个通道，为了清楚起见，省略 c。然后分别从学生和老师那里得到标准化值 ˆs1…m 和 ˆt1…m 而不是精心设计等式1中的仿掩模M. 选择重要的特征，benwen 的PKD在完整的特征图上运行。也就是说，仿掩模 M 填充了标量值 1。因此可以将蒸馏损失公式如下：

最小化上面的损失函数相当于最大化学生和教师的预归一化特征之间的 PCC。 PCC 可以计算为：

Pearson 相关系数本质上是协方差的归一化测量，因此结果始终具有介于 -1 和 1 之间的值。因此，LFPN = 1 − r 始终具有介于 0 和 2 之间的值。它侧重于教师和学生的特征，并放宽对特征大小的限制。实际上，特征图 s, t ∈ Rm 可以被视为 m 个数据点 (si, ti)。 LFPN = 0 意味着所有数据点都位于 s 随着 t 增加而增加的线上。因此，该学生训练有素。 LFPN = 2 时反之亦然。值为 1 意味着学生和教师的特征之间不存在线性相关性。
在训练期间，PCC 的梯度，∂L/∂si，相对于每个 FPN 输出 si，由下式给出：

总之，PCC关注来自教师的关系信息，放宽了对学生特征大小的分布约束。此外，它消除了主要 FPN 阶段和通道的负面影响，从而带来更好的性能。因此，规范化机制弥合了学生和教师激活模式之间的差距。因此，PCC 的特征模仿适用于异构检测器对。本文用总损失训练学生检测器如下：

其中LGT是检测训练损失，α是平衡检测训练损失和蒸馏损失的超参数。

PCC和KL散度的连接

规范化机制是解决上述三个问题的关键。在之前的工作中，KL散度已广泛应用于蒸馏中。他们首先使用 softmax 函数将激活转换为概率分布，然后最小化归一化激活图的不对称 KL 散度。
在这里，实验表明，在高温极限下最小化归一化特征之间的 KL 散度相当于最小化归一化特征之间的 MSE，因此相当于最大化原始特征之间的 PCC。

结论

本文根据经验发现 FPN 特征模仿适用于异构检测器对，尽管它们的检测头和标签分配不同。然后，提出使用pearson相关系数的特征模仿，以关注来自教师的相关信息，并放松学生特征值大小的分布约束。此外，还提出了一个通用的 KD 框架，能够提取同构和异构检测器对的知识。它收敛速度更快，并且只引入一个超参数，可以轻松应用于其他数据集。然而，本文对提出的 PKD 是否能够执行文本识别等其他任务的理解还处于初步阶段，留待未来的工作。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

[论文阅读]PKD——基于Pearson相关系数的目标检测器通用蒸馏框架

PKD

创新点

具体蒸馏过程

摘要

引言

相关工作

目标检测

知识蒸馏

Method

Preliminaries

Is FPN feature imitation applicable for heterogeneous detector pairs?

使用pearson相关系数进行特征模仿

PCC和KL散度的连接

结论

你可能感兴趣的:(知识蒸馏,神经网络,人工智能,深度学习,论文阅读)