Andy_2259

DER: Dynamically Expandable Representation for Class Incremental Learning翻译

DER: Dynamically Expandable Representation for Class Incremental Learning (CVPR, 2021)
DER:类增量学习的动态可扩展表示

传送门
Abstract
1. Introduction
2. Related Work
- Representation Learning
- Classifier Learning 分类器的学习
- Discussion
3. Methods
- 3.1. Problem Setup and Method Overview问题设置和方法概述
- 3.2. Expandable Representation Learning可扩展的代表学习
- 3.3. Dynamical Expansion
- 3.4. Classifier Learning
4. Experiments
- 4.1. Experiment Setup and Implementation Details 4.1. 实验设置和实现细节
- 4.2. Evaluation on CIFAR100 4.2. 评价CIFAR100
- 4.3. 评价ImageNet
- 4.4. Ablation Study and Analysis 4.4. 消融实验与分析
5. Conclusion

传送门

paper
code

Abstract

我们解决了类增量学习的问题，这是实现自适应视觉智能的核心步骤。特别地，我们考虑了有限记忆的增量学习任务设置，目的是实现更好的稳定性-可塑性平衡。为此，我们提出了一种新的两阶段学习方法，该方法利用一种动态可扩展的表示来实现更有效的增量概念建模。具体来说，在每一个增量步骤中，我们冻结之前学习的表示，并从一个新的可学习特征提取器中增加特征维度来扩充它。这使我们能够整合新的视觉概念和保留所学知识。我们通过引入信道级的基于掩码的剪枝策略，根据新概念的复杂性动态扩展表示。此外，我们引入了一个辅助损失来鼓励模型学习多样性和识别新概念的特征。我们在三个类增量学习基准上进行了大量的实验，我们的方法始终以较大的优势优于其他方法。

1. Introduction

人类可以很容易地从过去的经验中积累视觉知识，并逐渐学习新的概念。受此启发，类增量学习问题旨在设计能够循序渐进地学习新概念并最终在所有观察到的类上表现良好的算法。这种能力对于许多现实世界的应用是不可或缺的，如智能机器人[31]，人脸识别[19]和自动驾驶[25]。然而，实现人类水平的增量学习仍然是现代视觉识别系统的挑战。

在文献[36,23,27,3,12,33,39]中有很多试图解决增量学习的努力。其中，可能最有效的策略是保留一个内存缓冲区，存储部分观察到的数据，以备将来的回放[28,29]。然而，由于数据存储量有限，这种增量学习方法在一般的持续学习任务中仍然面临着几个典型的挑战。特别是，它需要一个模型在不忘记已有知识的情况下有效地吸收新概念，这也被称为稳定性-可塑性困境[9]。具体而言，过度的可塑性往往会导致旧类别的性能大幅下降，称为灾难性遗忘[8]。相反，过度的稳定阻碍了新概念的适应。
现有的大多数研究都试图通过逐渐更新数据表示和类决策边界来实现稳定性和可塑性之间的平衡，以适应越来越大的标签空间。例如，正则化方法[4]惩罚了之前学习的模型的重要权值的变化，而知识精馏方法[27,3,12,6,34]保留了有可用数据的网络输出，基于结构的方法[26,1]在为新类别分配更多的参数时，保持了旧参数不变。然而，所有这些方法要么牺牲模型的可塑性以获得稳定性，要么由于旧概念的特征退化而容易遗忘。如图1所示，在所有数据上训练的模型(Joint)与以前最先进的模型之间仍然存在很大的性能差距。

在本研究中，我们的目标是解决上述缺点，并在类增量学习中实现更好的稳定性-可塑性权衡。为此，我们采用了两阶段学习策略，将深度网络[15]的特征表示自适应和最终分类器头(简称分类器)解耦。在这个框架内，我们提出了一种新的数据表示，称为超特征，能够增加其维数以适应新的类。我们的主要思想是冻结以前学习过的表示，并在每一个增量步骤中从一个新的可学习提取器中使用额外的特征维度来增加它。这使我们能够保留现有的知识，并提供足够的灵活性来学习新的概念。此外，我们的超特征是根据新概念的复杂性动态扩展的，以保持一个紧凑的表示。

为此，我们开发了一个由超特征提取器网络和线性分类器组成的模块化深度分类网络。我们的超特征提取器网络由多个大小不同的特征提取器组成，每个增量步骤对应一个特征提取器。具体来说，在一个新的阶段，我们用一个新的特征提取器扩展了超特征提取器网络，同时保持了之前提取器的参数不变。所有提取器生成的特征被连接在一起，并将其输入分类器进行分类预测。

我们对新的特征提取器和分类器进行记忆训练和新输入的数据训练。为了鼓励新的提取器学习新类的多样性和判别性特征，我们设计了一个用于区分新旧类的辅助损失。此外，为了去除模型冗余并学习新类的紧凑特征，我们采用了一种可微分的基于通道级掩码的剪枝方法，该方法根据新概念的难度动态剪枝网络。最后，给定更新后的表示，我们冻结超特征提取器，并在一个平衡的训练子集上对分类器进行细微调整，以解决类不平衡问题[33,39]。

我们在三个常用的基准测试上验证了我们的方法，包括CIFAR-100、ImageNet-100和ImageNet-1000数据集。实验结果和消融研究证明了我们的方法优于先前的先进方法。有趣的是，我们还发现我们的方法可以在步骤之间实现正向的向后和向前转移。
•为了实现更好的稳定性-可塑性权衡，我们开发了一个动态可扩展的表示和一个两阶段的课堂增量学习策略。
•我们提出了一个辅助损失来促进新增的特征模块有效地学习新类，以及一个模型修剪步骤来学习紧凑的特征。
•我们的方法在广泛的模型复杂性下，在所有三个基准上实现了最新的性能状态，如图1所示。

2. Related Work

类增量学习旨在不断学习新类。有些作品[36,23]试图在无法访问之前看到的数据的情况下解决这个问题。然而，目前常用的方法都是基于回放策略的，数据存储量有限，主要从Representation Learning（表示学习）和Classifier Learning（分类器学习）两方面进行分析。

Representation Learning

目前的作品主要可以分为以下三类。
基于正则化的方法[16,37,18,4,2]采用最大后验估计估计重要参数的微小变化，并依次更新模型参数的后验。然而，它的棘手的计算通常需要一个强大的模型假设近似。例如，EWC[16]使用拉普拉斯近似，它假设权值落在上一步最优权值的局部区域。这严重限制了模型适应新概念的能力。

基于蒸馏的方法[27,39,33,12,3,6,34]使用知识蒸馏[11]来保持表示。iCaRL[27]和EE2L[3]计算网络输出的蒸馏损失。UCIR[12]使用归一化特征向量来应用蒸馏损失而不是网络的预测。PODNet[6]采用基于空间的蒸馏损失来限制模型的变化。tcil[34]使模型保持CNN特征空间的拓扑结构。知识蒸馏的性能取决于所保存数据的质量和数量。

基于结构的方法[21,13,30,20,22,7,35,26,1,20]将学习到的与之前的类相关的参数保持不变，并以不同的形式分配新的参数，如未使用的参数、额外的网络等，以学习新的知识。CPG[13]提出了一种压缩和选择/扩展机制，该机制对深层模型进行修剪，并通过选择性权重共享来扩展体系结构。然而，大多数基于结构的方法[21,13,30,20,22,7,35]是针对任务持续学习而设计的，在推理过程中需要任务同一性。

对于类增量学习，RPSNet[26]提出了一种随机路径选择算法，该算法逐步为新类选择最优路径作为子网络。CCGN[1]为每个卷积层配备了特定于任务的门控模块，以选择要应用于给定输入的过滤器，并使用任务预测器在推理中选择门控模块。

Classifier Learning 分类器的学习

由于分类器的内存有限，类的不平衡问题是分类器学习的主要挑战。有些作品像LWF。MC[27]， RWalk[4]在一次训练中联合训练提取器和分类器。相比之下，近年来通过引入表征学习后的独立分类器学习阶段来解决分类不平衡问题的研究较多。EEIL[3]在一个平衡的训练子集上微调分类器。BiC[33]增加了一个偏差校正层来校正模型的输出，该层在一个单独的验证集上接受训练。WA[39]通过将新类的权重向量规范与旧类的权重向量规范对齐来纠正有偏差的权重。

Discussion

我们的工作是基于结构的方法，与我们最相似的工作是RPSNet和CCGN。RPSNet不能保留每一个旧概念的内在结构，在每个ConvNet阶段，RPSNet倾向于通过对之前学习到的特征和新学习到的特征进行相加，逐渐忘记所学到的概念。在CCGN中，由于只有部分层的参数被冻结，学习后的表示可能会在步骤中缓慢退化。相比之下，我们保持之前学习的表示不变，并使用新的特征提取器参数化的新特征来扩充它。这使得我们能够在之前学习的表示的子空间中保留旧概念的内在结构，并通过最终的分类器重用该结构以减少遗忘。

3. Methods

在本节中，我们将介绍我们解决类增量学习问题的方法，目的是在稳定性和可塑性之间取得更好的权衡。为此，我们提出了一种动态可扩展表示方法(DER)，该方法可以用新特征增量地增强先前学习的表示，并提出了一种两阶段学习策略。
下面我们首先介绍类增量学习的公式，并在3.1节概述我们的方法。然后我们在第3.2节中介绍可扩展表示学习及其损失函数。在此之后，我们在第3.3节描述了我们表示的动态扩展，在第3.4节描述了分类器学习的第二阶段。

3.1. Problem Setup and Method Overview问题设置和方法概述

首先，我们介绍了类增量学习的问题设置。与任务增量学习相比，类增量学习在推理过程中不需要任务id。具体来说，在类增量学习过程中，模型观察了一组类组{Yt}及其对应的训练数据{Dt}。特别地，在步长t处输入的数据集Dt具有(xti, yti)的形式，其中xti是输入图像，yti∈Yt是标签集Yt中的标签。模型的标签空间都是categories ~ Yt =∪ti=1Yi，预计模型在Yt中的所有类上都能很好地预测。

我们的方法采用了回放策略，将部分数据保存为记忆Mt，用于以后的训练。对于步骤t的学习，我们将学习过程分解为以下两个顺序阶段。

1)表征学习阶段。为了在稳定性和可塑性之间取得更好的平衡，我们修正了之前的特征表示，并使用一个新的特征提取器对传入和记忆数据进行训练来扩展它。我们在新的提取器上设计了一个辅助损耗，以促进它学习多样的和有区别的特征。为了提高模型的效率，我们通过引入一种通道级掩码剪枝方法，根据新类的复杂性动态扩展表示。我们提议的表示的概述如图2所示。
2)分类器学习阶段。在学习表示之后，我们在步长t处用当前可用的数据重新训练分类器，通过采用[3]中的平衡微调方法来处理类的不平衡问题。

3.2. Expandable Representation Learning可扩展的代表学习

我们首先介绍我们的可展开表示。在步骤t，我们的模型由一个超特征提取器Φt和分类器Ht组成。超级特征提取器Φt是通过新创建的特征提取器Ft扩展特征提取器Φt−1构建的。具体来说，给定图像x∈~Dt，通过Φt提取的特征u 通过如下拼接得到

在这里，我们重用了以前的F1…Ft - 1，并鼓励新的提取器Ft只学习新类的新方面。然后将特征u输入分类器Ht，进行如下预测

然后预测ˆy = arg max pHt (y|x)，ˆy∈Yt。设计分类器匹配步骤t的新输入输出维数，旧特征的Ht参数从Ht−1中继承，保留旧知识，并随机初始化新添加的参数。

为了减少灾难性的遗忘，我们在第t步冻结学习到的functionΦt−1，因为它捕获了之前数据的内在结构。其中，上一步超特性extractorθΦt−1参数和批处理归一化统计信息[14]未更新。

此外，我们以Ft−1为初始化实例化Ft，以便重用之前的知识进行快速适应和向前传输。

我们可以根据之前的数据D1:t−1，从估计先验分布p(θΦt |D1:t−1)的角度来解释这个问题。与以往的正则化方法(如EWC)不同，我们不假设t步的先验分布是单峰的，这限制了模型的灵活性，在实践中通常不是这样。对于我们的方法，通过为输入数据创建单独的特征提取器Ft，模型扩展了新的参数，并采用均匀分布作为先验分布p(θFt |D1:t−1)，这为模型适应新概念提供了足够的灵活性。同时，为简便起见，我们将旧参数θΦt−1上的先验分布p(θΦt−1 |D1:t−1)近似为狄拉克分布，该分布保留了从D1:t−1上获得的信息。通过积分p(θΦt−1 |D1:t−1)和p(θFt |D1:t−1)的两个先验分布假设，我们在实现更好的稳定性和塑性权衡方面具有更大的灵活性。

Training Loss
我们学习在记忆和输入数据上有交叉熵损失的模型如下

其中xi是image, yi是对应的标签。

为了加强网络对新概念的多样性和判别性特征的学习，我们进一步发展了一个作用于新特征Ft(x)的辅助损失。具体地说，我们引入了一个辅助分类器Hat，它预测了概率pHat (y|x) = Softmax(Hat (Ft(x))。为了鼓励网络学习特征来区分新旧概念，Hat的标签空间为|Yt|+1，将所有旧概念视为一个类别，其中包含新类别集Yt和其他类别。因此，我们引入辅助损耗，得到可扩展表示损耗如下

其中，λa是控制辅助分类器效果的超参数。值得注意的是，第一步t = 1时，λa=0。

3.3. Dynamical Expansion

为了消除模型冗余并保持模型的紧凑表示，我们根据新概念的复杂性对超特征进行了动态扩展。具体来说，我们采用了一种可微分的基于通道级掩模的方法来对提取器Ft进行剪枝滤波，其中掩模与表示联合学习。学习掩码后，对掩码进行二值化处理，并对特征提取器Ft进行剪枝，得到剪枝后的网络F Pt。

Channel-level Masks通道级掩码
我们的剪枝方法是基于可微通道级掩码的，它改编自HAT[30]。小说特征提取器英尺,卷积的输入特性映射层给定图像x l表示fl。我们引入通道面具毫升∈Rcl控制层的尺寸l, mil∈[0,1]和cl是渠道的数量层l . fl与面具调制如下

f l是掩码特征图， O意味着通道级乘法。为了使ml值进入区间[0,1]，采用如下的选通函数

其中el表示可学习掩模参数，选通函数σ(·)在本工作中使用了s型函数，s是控制函数锐度的缩放因子。有了这样的掩码机制，步长t的超特征~ u可以重写为

训练时，φt(x)为带软口罩的Ft(x)。为了进行推理，我们赋予s一个大的值对掩码进行二值化，得到修剪网络F Pt，并且φt(x) = F Pt (x)

Mask Learning
在epoch中，对s应用线性退火程序如下

其中b是批量索引，smax?1是控制进度的超参数，B是一个epoch的批次数。训练时代以统一的方式激活所有的通道开始。然后在一个epoch内，随着批量索引的增加，逐步对掩模进行二值化。s型函数的一个问题是，由于s型调度，梯度是不稳定的。为了消除s的影响，我们对el的梯度凝胶进行补偿如下

其中g0el为补偿梯度。

Sparsity Loss稀疏的损失
在每一步中，我们鼓励模型以最小的性能下降最大限度地减少参数的数量。基于此，我们根据使用权重在所有可用权重中的比例添加了稀疏性损失。

式中，L为层数，Kl为卷积层L的核大小，L =0为输入图像，km0k1=3。

加入稀疏损耗后，最终损耗函数为

其中λs是控制模型尺寸的超参数。

3.4. Classifier Learning

在表征学习阶段，我们重新训练分类器头，以减少不平衡训练引入的分类器权值的偏差。具体来说，我们首先用随机权重重新初始化分类器，然后从当前可用的数据~ Dt采样一个类平衡的子集。在Softmax[38]中，我们只使用带有温度δ的交叉熵损失来训练分类器头。温度控制Softmax功能的平滑度，以改善类间的间隙。

4. Experiments

在本节中，我们进行了大量的实验来验证我们算法的有效性。特别是，我们在CIFAR-100[27]、ImageNet-100[27]和ImageNet-1000[27]数据集上使用两个广泛使用的基准协议评估我们的方法。我们还进行了一系列消融研究，以评估每个部件的重要性，并为我们的方法提供了更多的见解。下面我们首先在第4.1节中介绍实验设置和实现细节，然后在第4.2节中介绍在CIFAR100数据集上的实验结果。然后，我们在第4.3节给出了在ImageNet-100和ImageNet-1000数据集上的评估结果。最后，我们在4.4节介绍了我们方法的消融研究和分析。

4.1. Experiment Setup and Implementation Details 4.1. 实验设置和实现细节

Datasets CIFAR-100[17]由100个类的32x32像素彩色图像组成。它包含50,000张图像用于训练，每类500张图像，以及10,000张图像用于评估，每类100张图像。ImageNet-1000[5]是一个来自1000个类的大型数据集，包括约120万张用于训练的RGB图像和5万张用于验证的图像。ImageNet-100[27,12]是通过从ImageNet-1000数据集中选择100个类来构建的。

Benchmark Protocols 对于CIFAR-100基准，我们在两种流行的协议上测试我们的方法，包括1)CIF AR100-B0:我们遵循[27]中提出的协议，它在多个分割中训练所有100个类，包括5、10、20、50个增量步骤，每批2000个范例的固定内存大小;2)CIF AR100-B50:我们遵循[12]中引入的协议，从一个在50个类上训练的模型开始，剩下的50个类分为2、5、10个步骤，每个类20个示例作为内存。我们比较前1个平均增量精度，它取每一步精度的平均值。

我们还使用两个协议在ImageNet-100上评估我们的方法:1)ImageNet100-B0:协议[27]以10个类的批次从头开始训练模型，每批固定的内存大小为2000;2)ImageNet100B50:协议[12]从一个在50个类上训练的模型开始，剩下的50个类分为10个步骤，每个类有20个示例作为内存。为了公平起见，我们使用相同的ImageNet子集和类顺序遵循协议[27,12]。对于ImageNet-1000，我们在协议[27]上评估我们的方法，称为ImageNet1000-B0基准，该基准以100个类为批次，总共10个步骤训练模型，并将固定内存大小设置为20,000。详细地说，我们使用与ImageNet-1000的[27]相同的类顺序。此外，我们在ImageNet-100和ImageNet-1000数据集上比较了top-1和top-5的平均增量精度和最后一步精度。

Implementation Details 实现细节
我们的方法是用PyTorch[24]实现的。对于CIFAR-100，我们在RPSNet[26]之后采用ResNet-18作为特征提取器Ft。我们注意到，大多数以前的工作使用一个修改的32层ResNet[27]，与标准ResNet-32相比，它有更少的通道和剩余块。我们认为这样一个小的网络是不适合的，因为它不能在CIFAR100上取得与标准的18层ResNet[10]相比的竞争结果，并且可能低估了方法的性能。我们根据这些方法的代码实现，在相同的类顺序上使用标准ResNet-18运行这些方法。对于那些没有发布代码的人，我们会根据我们的实现报告结果。对于RPSNet，我们直接在他们的论文中使用了结果。对于ImageNet-100和ImageNet-1000基准测试，我们使用18层ResNet作为基本网络

在这些实验中，我们遵循前面的工作[27]，根据羊群选择策略[32]选择样本作为记忆。此外，我们在三个不同的班序上进行实验，报告结果的平均±标准偏差。在附录中我们也提供了基于改进的32层ResNet[27]的ciremote -100的实验结果，再次证明了我们的方法的优越性。我们遵循[6,30]中的协议，并在通过拿出一部分原始训练数据创建的验证集上调优超参数。超参数的详细信息被添加到附录中。

4.2. Evaluation on CIFAR100 4.2. 评价CIFAR100

Quantitative Results 定量结果
表1总结了CIFAR100-B0基准测试的结果。我们可以看到，在不同的增量分割中，我们的方法始终优于其他方法。随着分割步骤数量的增加，可以观察到我们的方法和其他方法之间的边界不断增加，这表明我们的方法在困难的分割和更长的步骤上表现得更好。特别是在50步增量设置下，在参数较少的情况下，平均增量精度从64.32%提高到72.05%(+7.73%)。值得注意的是，虽然减少了大量的模型参数，但由于剪枝导致的性能下降可以忽略不计，这证明了我们的剪枝方法是成功的

表1:CIFAR100-B0基准测试的结果，这是三次运行的平均值。#Paras表示在步骤推断期间使用的平均参数数量，以百万计。平均值是指在步骤上的平均准确率(%)。我们的(w/o P)是指我们的方法不需要修剪。

如图3的左面板所示，可以观察到我们的方法在不同的拆分步骤中始终优于其他方法。而且，随着新类的不断加入，我们的方法与其他方法的差距越来越大。在50步增量分割的情况下，最后一步的精度从42.75%提高到58.66%(+15.91%)，进一步证明了该方法的有效性。

我们还在CIFAR100-B50基准上将我们的方法与表2中以前的方法进行了性能比较，表2显示我们的方法在所有拆分方面都显著提高了性能。特别是在10步增量设置下，我们的方法比PODNet的平均增量精度高出8.41%。如图3的右边面板所示，对于所有拆分，我们的方法在每个步骤上都比其他方法表现得更好。特别是，我们的方法在10步分割中，最后一步的准确率从52.56%提高到65.58%(+13.02%)。此外，与不进行剪枝的方法相比，我们的方法以更少的参数达到了相似的性能。

表2:CIFAR100-B50测试结果(平均超过3次)。#Paras表示在步骤推断期间使用的平均参数数量，以百万计。平均值是指在步骤上的平均准确率(%)。我们的(w/o P)是指我们的方法不需要修剪。

值得注意的是，以前的方法通常只在其中一种协议上表现良好，其中W A是CIFAR100-B0上最先进的协议，而PODNet是CIFAR100-B50上最先进的协议。相比之下，我们的方法在两个协议中始终优于其他方法。

The effects of model size 模型大小的影响
我们进行了大量的实验来研究模型大小对性能的影响。
如图1所示，我们可以看到我们的方法在不同的模型规模下比其他方法持续且显著地表现得更好。我们还注意到，与大多数其他方法相比，我们的方法的改进随着模型大小的增加变得更加显著，这说明我们的方法可以利用大型模型的潜力。

4.3. 评价ImageNet

表3总结了ImageNet-100和ImageNet-1000数据集的实验结果。我们可以看到，在ImageNet-100和ImageNet-1000数据集上，我们的方法始终超过了其他方法，尤其是最后一步的准确性。具体来说，我们的方法在ImageNet100-B0基准上的平均前5位精度上优于最先进的方法，约为1.79%。对于ImageNet100B50基准，最后一步top-1精度从66.91%提高到72.06%(+5.15%)。此外，在ImageNet1000-B0基准测试中，我们的方法将最后一步top-1的准确率从55.6%提高到58.62%(+3.02%)

虽然前5名的准确性差距较小，但我们认为这是因为前5名的准确性对稍微不准确的预测更宽容，因此对遗忘不那么敏感。

表3:ImageNet-100和ImageNet-1000数据集上的结果。左:ImageNet100-B0和ImageNet1000-B0基准测试的结果。右:ImageNet100-B50基准测试的结果。#Paras表示在步骤推断期间的平均参数数，以百万计。平均值是指在步骤上的平均准确率(%)。最后是最后一步的准确率(%)。我们的(w/o P)是指我们的方法不需要修剪。

4.4. Ablation Study and Analysis 4.4. 消融实验与分析

我们进行穷举消融研究来评估每个成分对我们方法的贡献。我们还对附录中的超参数进行了敏感研究。此外，我们还研究了每种方法表示的向后传递和向前传递。

The effect of each component 每个成分的影响
表4总结了我们在CIFAR100-B0上的10步烧蚀实验结果。我们可以看到，通过表示扩展，平均准确率从61.84%显著提高到73.26%。我们还表明，该模型的性能进一步提高了2.10%的增益使用辅助损失。

表4:每个组件的贡献。E.R.意味着可扩展的代表。Aux。意味着使用辅助损耗

Backward Transfer for Representation 表示的向后转移
为了评估表示的质量，我们引入了一个理想的决策边界，该边界是通过使用所有观测数据微调分类器得到的，这使我们能够排除分类器的影响。然后，我们将步长t时的分类精度AtYk定义为对类集Yk的测试图像的精度，其中模型的预测空间限制在Yk。通过观察t上的AtYk曲线，我们可以看到表示质量是如何随着增量而变化的。图4显示了10个增量步骤的CIFAR100-B0的结果。我们还计算了不同方法的向后转移值，如下:

图4:分析。通过观察不同分裂时AtY1的变化来逆向转移表征。

结果如表5所示。我们可以看到，其他的方法有严重的遗忘。相比之下，我们的方法甚至实现了正向的向后转移+1.36%，准确率相对于步长有了提高，进一步证明了我们的方法的优越性。

表5:表示的向后传输和向前传输(FWT)。

Forward Transfer for Representation 代表转让权
我们还通过10个增量步骤(称为forward transfer)来衡量现有知识对CIFAR100-B0上后续概念性能的影响。具体地说，我们定义一个正向传动比表示如下

其中¯AiYi是由在可用数据上训练的模型获得的测试准确性。˜Dt只有在随机初始化时的交叉熵损失。如表5所示，我们观察到大多数方法存在负正向迁移，这表明它们牺牲了适应新概念的灵活性。相比之下，我们的方法实现了+1.49%的FWT，这意味着我们的方法不仅使模型具有高度的灵活性，而且带来正向转移。

5. Conclusion

在这项工作中，我们提出了动态可扩展表示来改进班级增量学习的表示。在每一步，我们冻结之前学习的表示，并用新的参数化特征来扩充它。我们还根据新概念的难易程度引入信道级掩码剪枝来动态扩展表示，并引入辅助损失来更好地学习新识别特征。我们对三个主要的增量分类基准进行了详尽的实验。实验结果表明，我们的方法比其他方法在相当大的范围内始终保持更好的性能。有趣的是，我们还发现我们的方法甚至可以实现正向的向后和向前转移。

References

[1] Davide Abati, Jakub Tomczak, Tijmen Blankevoort, Simone
Calderara, Rita Cucchiara, and Babak Ehteshami Bejnordi.
Conditional channel gated networks for task-aware contin-
ual learning. In Proceedings of the IEEE conference on com-
puter vision and pattern recognition (CVPR), 2020. 2, 3
[2] Rahaf Aljundi, Francesca Babiloni, Mohamed Elhoseiny,
Marcus Rohrbach, and Tinne Tuytelaars. Memory aware
synapses: Learning what (not) to forget. In Proceedings
of the European Conference on Computer Vision (ECCV),
2018. 2
[3] Francisco M. Castro, Manuel J. Mar´ın-Jiménez, Nicolás
Guil, Cordelia Schmid, and Karteek Alahari. End-to-end in-
cremental learning. In Proceedings of the European Confer-
ence on Computer Vision (ECCV), 2018. 1, 2, 3
[4] Arslan Chaudhry, Puneet K Dokania, Thalaiyasingam Ajan-
than, and Philip HS Torr. Riemannian walk for incremen-
tal learning: Understanding forgetting and intransigence. In
Proceedings of the European Conference on Computer Vi-
sion (ECCV), 2018. 2, 3
[5] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,
and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In Proceedings of the IEEE conference on com-
puter vision and pattern recognition (CVPR), 2009. 5
[6] Arthur Douillard, Matthieu Cord, Charles Ollion, Thomas
Robert, and Eduardo V alle. Podnet: Pooled outputs distil-
lation for small-tasks incremental learning. In Proceedings
of the European Conference on Computer Vision (ECCV),
2020. 1, 2, 6, 7, 12
[7] Chrisantha Fernando, Dylan Banarse, Charles Blundell, Y ori
Zwols, David Ha, Andrei A Rusu, Alexander Pritzel, and
Daan Wierstra. Pathnet: Evolution channels gradient descent
in super neural networks. arXiv preprint arXiv:1701.08734,
2017. 2
[8] Robert M. French and Nick Chater. Using noise to compute
error surfaces in connectionist networks: A novel means of
reducing catastrophic forgetting. Neural Comput., 2002. 1
[9] Stephen Grossberg. Adaptive resonance theory: How a brain
learns to consciously attend, learn, and recognize a changing
world. Neural Networks, 2013. 1
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
Deep residual learning for image recognition. In Proceed-
ings of the IEEE conference on computer vision and pattern
recognition (CVPR), 2016. 6
[11] Geoffrey Hinton, Oriol Vinyals, and Jeffrey Dean. Distilling
the knowledge in a neural network. In Advances in Neural
Information Processing Systems (NeurIPS) Workshop, 2015.
2
[12] Saihui Hou, Xinyu Pan, Chen Change Loy, Zilei Wang, and
Dahua Lin. Learning a unified classifier incrementally via
rebalancing. In Proceedings of the IEEE conference on com-
puter vision and pattern recognition (CVPR), 2019. 1, 2, 5,
6, 7, 12
[13] Steven C. Y . Hung, Cheng-Hao Tu, Cheng-En Wu, Chien-
Hung Chen, Yi-Ming Chan, and Chu-Song Chen. Compact-
ing, picking and growing for unforgetting continual learn-
ing. In Advances in Neural Information Processing Systems
(NeurIPS), 2019. 2
[14] Sergey Ioffe and Christian Szegedy. Batch normalization:
Accelerating deep network training by reducing internal co-
variate shift. In International Conference on Machine Learn-
ing (ICML), 2015. 3
[15] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan,
Albert Gordo, Jiashi Feng, and Yannis Kalantidis. Decou-
pling representation and classifier for long-tailed recogni-
tion. In International Conference on Learning Representa-
tions (ICLR), 2020. 2
[16] James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel
V eness, Guillaume Desjardins, Andrei A Rusu, Kieran
Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-
Barwinska, et al. Overcoming catastrophic forgetting in neu-
ral networks. Proceedings of the national academy of sci-
ences (PNAS), 2017. 2
[17] Alex Krizhevsky and Geoffrey Hinton. Learning multiple
layers of features from tiny images. Technical report, Uni-
versity of Toronto, 2009. 5
[18] Sang-Woo Lee, Jin-Hwa Kim, Jaehyun Jun, Jung-Woo Ha,
and Byoung-Tak Zhang. Overcoming catastrophic forgetting
by incremental moment matching. In Advances in neural
information processing systems (NeurIPS), 2017. 2
[19] Lufan Li, Zhang Jun, Jiawei Fei, and Shuohao Li. An in-
cremental face recognition system based on deep learning.
In International Conference on Machine Vision Applications
(MVA), 2017. 1
[20] Xilai Li, Yingbo Zhou, Tianfu Wu, Richard Socher, and
Caiming Xiong. Learn to grow: A continual structure learn-
ing framework for overcoming catastrophic forgetting. In In-
ternational Conference on Machine Learning(ICML), 2019.
2
[21] Arun Mallya, Dillon Davis, and Svetlana Lazebnik. Piggy-
back: Adapting a single network to multiple tasks by learn-
ing to mask weights. In Proceedings of the European Con-
ference on Computer Vision (ECCV), 2018. 2
[22] Arun Mallya and Svetlana Lazebnik. Packnet: Adding multi-
ple tasks to a single network by iterative pruning. In Proceed-
ings of the IEEE conference on computer vision and pattern
recognition (CVPR), 2018. 2
[23] Oleksiy Ostapenko, Mihai Puscas, Tassilo Klein, Patrick Jah-
nichen, and Moin Nabi. Learning to remember: A synaptic
plasticity driven framework for continual learning. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2019. 1, 2
[24] Adam Paszke, Sam Gross, Soumith Chintala, Gregory
Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Al-
ban Desmaison, Luca Antiga, and Adam Lerer. Automatic
differentiation in pytorch. 2017. 6
[25] John M Pierre. Incremental lifelong deep learning for au-
tonomous vehicles. In International Conference on Intelli-
gent Transportation Systems (ITSC), 2018. 1
[26] Jathushan Rajasegaran, Munawar Hayat, Salman H Khan,
Fahad Shahbaz Khan, and Ling Shao. Random path selection
for continual learning. In Advances in Neural Information
Processing Systems (NeurIPS), 2019. 1, 2, 6, 7
[27] Sylvestre-Alvise Rebuffi, Alexander Kolesnikov, Georg
Sperl, and Christoph H Lampert. icarl: Incremental classifier
and representation learning. In Proceedings of the IEEE con-
ference on computer vision and pattern recognition (CVPR),
2017. 1, 2, 3, 5, 6, 7, 11, 12
[28] Anthony V . Robins. Catastrophic forgetting in neural net-
works: the role of rehearsal mechanisms. In International
Two-Stream Conference on Artificial Neural Networks and
Expert Systems, ANNES, 1993. 1
[29] Anthony V . Robins. Catastrophic forgetting, rehearsal and
pseudorehearsal. Connect. Sci., 1995. 1
[30] Joan Serra, Didac Suris, Marius Miron, and Alexandros
Karatzoglou. Overcoming catastrophic forgetting with hard
attention to the task. In International Conference on Machine
Learning (ICML), 2018. 2, 4, 6
[31] Sebastian Thrun and Tom M Mitchell. Lifelong robot learn-
ing. Robotics and autonomous systems, 1995. 1
[32] Max Welling. Herding dynamical weights to learn. In In-
ternational Conference on Machine Learning (ICML), 2009.
6
[33] Y ue Wu, Yinpeng Chen, Lijuan Wang, Y uancheng Ye,
Zicheng Liu, Yandong Guo, and Y un Fu. Large scale in-
cremental learning. In Proceedings of the IEEE conference
on computer vision and pattern recognition (CVPR), 2019.
1, 2, 3
[34] Tao Xiaoyu, Chang Xinyuan, Hong Xiaopeng, Wei Xing,
and Gong Yihong. Topology-preserving class-incremental
learning. In Proceedings of the European Conference on
Computer Vision (ECCV), 2020. 2, 7, 12
[35] Jaehong Y oon, Eunho Yang, Jeongtae Lee, and Sung Ju
Hwang. Lifelong learning with dynamically expandable net-
works. In International Conference on Learning Represen-
tations (ICLR), 2018. 2
[36] Lu Y u, Bartlomiej Twardowski, Xialei Liu, Luis Herranz,
Kai Wang, Y ongmei Cheng, Shangling Jui, and Joost van de
Weijer. Semantic drift compensation for class-incremental
learning. In Proceedings of the IEEE Conference on Com-
puter Vision and Pattern Recognition (CVPR), 2020. 1, 2
[37] Friedemann Zenke, Ben Poole, and Surya Ganguli. Contin-
ual learning through synaptic intelligence. In International
Conference on Machine Learning (ICML), 2017. 2
[38] Xu Zhang, Felix Xinnan Y u, Svebor Karaman, Wei Zhang,
and Shih-Fu Chang. Heated-up softmax embedding. arXiv
preprint arXiv:1809.04157, 2018. 5
[39] Bowen Zhao, Xi Xiao, Guojun Gan, Bin Zhang, and Shu-
Tao Xia. Maintaining discrimination and fairness in class
incremental learning. In Proceedings of the IEEE conference
on computer vision and pattern recognition (CVPR), 2020. 1,
2, 3, 6, 7, 12

你可能感兴趣的:(增量学习,增量学习)

灾难性遗忘问题（Catastrophic Forgetting，CF）是什么？ Chauvin912 机器学习算法科普学习方法
灾难性遗忘问题（CatastrophicForgetting，CF）是什么？在深度学习和人工智能领域中，“灾难性遗忘”（CatastrophicForgetting）是指当神经网络在增量学习（IncrementalLearning）或持续学习（ContinualLearning）过程中遇到新任务时，往往会显著遗忘之前所学的任务知识。这种现象在需要模型长期积累知识的应用场景中尤为显著，如自动驾驶、机
机器学习中的增量学习（Incremental Learning，IL）策略是什么？ Chauvin912 机器学习算法科普机器学习学习人工智能
机器学习中的增量学习（IncrementalLearning，IL）策略是什么？在当今快速发展的数据驱动世界中，传统的静态机器学习模型逐渐显露出局限性。随着数据量的增长和分布的变化，模型需要不断更新，以保持其预测能力和适应性。然而，频繁的重新训练不仅耗费大量资源，还会导致模型丧失对旧数据的记忆，这被称为“灾难性遗忘”（CatastrophicForgetting）现象。为解决这一问题，增量学习（I
机器学习概述与应用：深度学习、人工智能与经典学习方法刷刷刷粉刷匠人工智能机器学习深度学习
引言机器学习（MachineLearning）是人工智能（AI）领域中最为核心的分支之一，其主要目的是通过数据学习和构建模型，帮助计算机系统自动完成特定任务。随着深度学习（DeepLearning）的崛起，机器学习技术在各行各业中的应用变得越来越广泛。在本文中，我们将详细介绍机器学习的基础概念，包括无监督学习、有监督学习、增量学习，以及常见的回归和分类问题，并结合实际代码示例来加深理解。1.机器学
如何利用增量学习的方法来解决灾难性遗忘的问题？ AlphaFinance 机器学习学习机器学习深度学习
增量学习是一种逐步学习新数据的方法，通过在新数据上更新模型而不是从头开始训练。这种方法在很大程度上可以缓解灾难性遗忘问题，因为它试图在学习新知识的同时保留已有知识。以下是一些使用增量学习解决灾难性遗忘问题的策略：记忆回放：记忆回放是一种常用的解决灾难性遗忘问题的方法。它通过存储一些先前学习过的样本，并在训练新数据时将这些样本与新数据混合，从而使模型能够回顾并巩固已学习的知识。这有助于在学习新任务时
Obsidian与SuperMemo联用（四）来自知乎的一只小胖子
在之前系列文章中，我有讲解了SuperMemo在学习场景中与其它软件协同的操作流程，包括如何在SuperMemo中导入Obsidian笔记进行增量学习的具体操作。很快几个月过去了，通过对Obsidian软件这段时间的使用和学习，我现在对两个软件的结合使用又有了一些新的想法，因此便有了此文。如果你还未阅读原文，可参考如下原文链接，来了解SuperMemo在学习中的协同使用流程：一只小胖子：Super
增量学习时，通过网络快速搜索关键词的快捷键是什么？菜五
(2019-02-02-周六04:55:05)Ctrl+f3要快速搜索有关您正在阅读的主题的文章，请选择文本的一部分，按Ctrl+F3并选择谷歌
深度学习笔记：灾难性遗忘 UQI-LIUWJ 机器学习笔记
1灾难性遗忘介绍当神经网络被训练去学习新的任务时，它可能会完全忘记如何执行它以前学过的任务。这种现象尤其在所谓的“连续学习”（continuouslearning）或“增量学习”（incrementallearning）场景中很常见2不同视角下看待灾难性遗忘以及对应的解决方法2.1从梯度的视角2.1.1从梯度的视角看灾难性遗忘我们有两个不同任务的损失曲面，用平滑的曲面训练完之后，再在坑坑洼洼的曲面
incremental learning(增量学习是什么意思）：）�东东要拼命 CV基础知识 1024程序员节机器学习人工智能目标检测 deep learning
有时候真的从ai的理解反复横跳，从一个不明觉厉ai的概念的小白到初识neuralnetwork的科研菜鸡。概念上跟着吴恩达大佬刷新了一下，其实只是看上去nn和大脑神经相似而已，本质上就是让机器给我们一个函数，一个“黑盒”，输进去data,出来我们想要的结果。增量学习（incrementallearning）从某种角度来说，有点契合我们人类持续不断地学习的状态，我们永远鼓励大家接受新事物，学习新知识
Continual Learning/Lifelong Learning/Incremental Learning Si_ang_ 深度学习神经网络人工智能
一、浅谈持续学习持续学习（ContinualLearning）又叫终身学习（LifelongLearning）又叫增量学习（IncrementalLearning)。增量学习是可取的，因为它允许通过消除新数据到达时从头再训练的需要来有效地使用资源；通过防止或限制所需存储的数据量来减少内存使用，在施加隐私限制时也很重要；学习更接近于人类的学习。近年来，深度神经网络的增量学习出现了爆炸式增长。最初的工
连续学习（Continual Learning）或者增量学习的场景中，multiband和replay分别是什么？起到什么作用马鹏森机器学习基础学习
multiband和replay是两种不同的训练策略，通常用在处理连续学习或者增量学习的场景中。这些策略旨在解决新知识学习导致旧知识遗忘的问题，即所谓的灾难性遗忘。以下是multiband和replay两种策略的基本区别：Multiband:定义:multiband通常是指一种训练过程，其中模型被设计为可以同时学习和保持对多个任务或数据集的知识（同时学习新旧知识）。这种方法的目标是在整个训练过程中
IJCAI2023 | 高效训练Transformers的方法 JOYCE_Leo16 Transformer 深度学习 transformer 人工智能计算机视觉
来源：Google数据科学文章目录前言一、ComputationEffciency1.Optimization（优化器）2.Initialization（参数初始化）3.Sparsetraining（稀疏训练）4.Overparameterization（过参数化）5.Largebatchtraining（大批量训练）6.Incrementallearning（增量学习）二、DataSelecti
2024年原创深度学习算法项目分享 Jason160918 python 机器学习目标检测人工智能自然语言处理计算机视觉
原创深度学习算法项目分享，包括以下领域：图像视频、文本分析、知识图谱、推荐系统、问答系统、强化学习、机器学习、多模态、系统界面、爬虫、增量学习等领域…有需要的话，评论区私聊
SuperMemo16有一小篇幅的文章，因它整合在“增量学习”内，所以不受人欢迎。 “增量学习”这篇文章，其篇幅之长，可当一本书来对待。菜五
(2018-05-16-周三00:15:52)SuperMemo16有一篇短小的文章，但它不受欢迎，它与“增量学习”的文章结合在一起，这篇文章读起来就像一本小书(由于篇幅太长)。
除了items、主题和概念之外，您还可以在增量学习中使用任务。菜五
(2018-11-19-周一15:41:42)除了items、主题和概念之外，您还可以在增量学习中使用任务。
近日思考（）坠金目标识别/语义分割计算机视觉
科研过程的一些小思考，多半是自己还没能力实现的，如果有路过的大佬知道这些问题有解决的思路，请给我一点关键词，验证可行的请你喝咖啡~Q1：cv任务是否可以分阶段学习？类似婴儿有一定的多分类能力，但没见过苹果，给它新数据集但是只标签只有背景和苹果（可能包含以前见过的类别，但标记为背景）增量学习（IncrementalLearning）或继续学习（ContinualLearning）？对这块不太了解，查
63基于matlab的生物地理的优化器（BBO）被用作多层感知器（MLP）的训练器。顶呱呱程序 matlab工程应用 matlab 学习人工智能多种优化算法比较模式识别
基于matlab的生物地理的优化器（BBO）被用作多层感知器（MLP）的训练器。粒子群优化（PSO）、蚁群优化（ACO）、遗传算法（GA）、进化策略（ES）和基于概率的增量学习（PBIL）。计算了BBO-MLP、PSO、ACO、ES、GA和PBIL的分类精度并相互比较。输出每种算法的收敛曲线和分类精度。程序已调通，可直接运行。63模式识别多种优化算法比较(xiaohongshu.com)
《机器学习实战》1章-机器学习概览一只勤劳的小鸡机器学习人工智能机器学习
前言：本文是对蜥蜴书第二版第一章学习概要。一、什么是机器学习利用经验E来学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习。-TomMitchell二、机器学习分类Ⅰ、按照是否有监督有监督学习有标签无监督学习无标签半监督学习部分有标签强化学习有奖惩。Ⅱ、按照是否动态增量学习（持续学习）在线学习不良的数据可能会使系统性能降低。批量学习Ⅲ、按研究对象基于实例学习基于模型学
【论文翻译】Faster ILOD：Incremental Learning for Object Detectors based on Faster RCNN 小张好难瘦论文目标检测人工智能计算机视觉
FasterILOD：IncrementalLearningforObjectDetectorsbasedonFasterRCNNFasterILOD：基于FasterRCNN的目标检测器增量学习论文地址：https://arxiv.org/pdf/2003.03901.pdf代码地址：无目录Abstract1Introduction2ProblemFormulation3RelatedWork3
读书笔记-增量学习-EEIL_End-to-End Incremental Learning 谷粤狐读书笔记机器学习人工智能深度学习神经网络计算机视觉
一篇2018年的论文：End-to-EndIncrementalLearning。为了使模型实现增量学习，把新、旧数据一起重新训练会导致时间、存储成本等一系列问题。作者提出的方法仅使用新数据与部分代表性的旧数据。基于Distillation知识蒸馏从旧数据中提取代表性样本、Crossentropy交叉熵学习新数据。题目的End-to-End指的是能同时训练更新Classification分类器和代
联邦类增量学习王洛伊学习
FCIL联邦类增量学习已经参与联邦学习的用户经常可能收到新的类别，但是考虑到每个用户自己设备的存储空间有限，很难对其收集到的所有类别都保存下足够数量的数据。这种情况会导致联邦学习模型对于旧类数据的性能遇到严重的灾难性遗忘。全局-局部遗忘补偿（GLFC）模型，同时从global和local俩个角度出发，尽可能的减弱灾难性遗忘，使联邦学习最终可训练一个全局增量模型。为了解决由于localclient的
增量学习分享 cqbelt 日记学习机器学习深度学习
增量学习主要应用于判别性任务。在这个场景中，分类任务是按顺序学习的。在序列的最后，判别模型应该能够记住所有的任务。从一个任务到下一个任务的简单的微调方法会导致灾难性遗忘，也就是说，无法在之前的任务上保持初始性能。之前提出的方法可以分为四种类型。第一种方法，称为排练，是保留以前任务的样本。这些样本可以用不同的方式来克服遗忘。该方法不能用于以前任务的数据不可用的场景。此外，这种方法的可扩展也会受到质疑
sklearn 增量学习吹洞箫饮酒杏花下
对于大数据集，在训练时会出现MemoryError。sklearn提供了几种办法，一是从根本上节省空间，二是流式读取，三是节省每次运行时的数据量。1.流式数据要给算法流式数据或小batch的数据。读入数据的一部分？2.特征提取或者降维sklearn提供了很多方法。3.增量学习算法sklearn中任何提供了partial_fit的函数的学习器都可以进行增量学习。运行数据的一部分。每次训练只有一个mi
【知识点】增量学习、在线学习、离线学习的区别风等雨归期学习
参考链接：https://www.6aiq.com/article/1613258706447?p=1&m=0离线学习常见的学习方式，一次性将所有数据参与进训练。离线学习完成了目标函数的优化将不会在改变了离线学习需要一次提供整个训练集时间和空间成本效率低发生数据变更或模型漂移需要从头开始训练离线学习模型稳定性高，方便做模型的验证评估在线学习在线学习，能够根据线上反馈数据，实时快速地进行模型调整，使
超越传统学习：揭秘增量学习的优势与挑战机器学习深度学习
增量学习代表了学术界的一种动态方法，促进逐步和一致的知识同化。与向学习者提供海量信息的传统方法不同，增量学习将复杂的主题分解为可管理的片段。在机器学习中，增量方法训练人工智能模型逐步吸收新知识。这使模型能够保留并增强现有的理解，形成持续进步的基石。什么是增量学习？增量学习是一种教育方法，通过以可管理的小增量引入新数据，多年来逐渐积累知识。增量学习不是试图立即学习所有内容，而是将复杂的主题分解为更小
yolo中迁移学习和增量学习的区别是什么，适用于什么情况小镇种田家 yolo YOLO 迁移学习学习深度学习
在YOLO中，迁移学习和增量学习是两种不同的训练策略，它们有着不同的应用场景和目的。1.迁移学习（TransferLearning）：迁移学习是指将在一个任务上训练好的模型应用于另一个相关任务上。在YOLO中，迁移学习可以通过将在大规模数据集（如COCO数据集）上预训练的模型作为初始模型，然后在目标数据集（如自己的数据集）上进行微调训练。这样做的好处是，可以快速将模型适应到新数据集，从而节省训练时
Unsupervised Recognition of Unknown Objects for Open-World Object Detection（论文解析）黄阳老师目标检测目标跟踪人工智能
UnsupervisedRecognitionofUnknownObjectsforOpen-WorldObjectDetection摘要2相关工作摘要开放世界目标检测（OWOD）将目标检测问题扩展到一个现实且动态的场景，要求检测模型能够检测已知和未知对象，并能够增量学习新引入的知识。当前的OWOD模型，如ORE和OW-DETR，侧重于将具有高物体性分数的区域标记为未知对象，它们的性能在很大程度上
PROB: Probabilistic Objectness for Open World Object Detection（论文解析）黄阳老师目标检测人工智能计算机视觉
PROB:ProbabilisticObjectnessforOpenWorldObjectDetection摘要2相关工作摘要开放世界目标检测（OWOD）是一个新的、具有挑战性的计算机视觉任务，它弥合了传统的目标检测（OD）基准和现实世界中的目标检测之间的差距。除了检测和分类已知/标记的对象外，OWOD算法还应该能够检测新颖/未知的对象，这些对象可以进行分类和增量学习。在标准的OD中，不与已标记
【增量学习】Incremental Intent Detection for Medical Domainwith Contrastive Replay Networks nlp_xiaobai 学习自然语言处理 tensorflow 深度学习机器学习
这篇2022年5月份的ACL文章出自于中科院Abstract传统的医疗意图检测方法需要固定的预定义意图类别。然而，由于现实世界中新的医学意图不断涌现，这样的要求并不现实。考虑到每次新数据和意图进入时存储和重新训练整个数据的计算成本很高，我们建议增量学习出现的意图，同时避免灾难性地忘记旧意图。我们首先为医疗意图检测制定增量学习。然后，我们采用基于记忆的方法来处理增量学习。我们进一步建议使用对比重放网
《A Survey of Model Compression and Acceleration for Deep Neural Networks》笔记 luyanfcp
Introduce随着DNN的层数和节点个数越来越多，它面临着两方面的问题。一方面它的计算和存储成本越来越高，对一些及时性的程序带来了挑战（在线学习和增量学习）；另一方面由于小型化设备越来越普及，小型设备对DNN越来越强。但由于体积和计算难度，DNN在小型设备上的部署也面临挑战。本文综述了最近几年ML、最优化、计算机体系结构、数据压缩、硬件设计等等方面对DNN加速和压缩方面的进展。本文讲这些进展分
机器学习的种类介绍 statr
现有的机器学习种类繁多，我们一般可以进行如下的分类标准：是否在人类监督下学习（监督学习、非监督学习、半监督学习和强化学习）是否可以动态的增量学习（在线学习和批量学习）是简单的将新的数据点和已知的数据点进行匹配，还是像科学家那样对训练数据进行模型检测，然后建立一个预测模型（基于实例的学习和基于模型的学习）这些标准之间并不排斥。一、监督学习和非监督学习根据训练期间接受的监督数量和监督类型，可以将机器学
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite