菜到怀疑人生

深度学习论文笔记（增量学习）——Incremental Classifier and Representation Learning

文章目录

前言
什么是增量学习
增量学习存在的问题
- 灾难性遗忘（catastrophic forgetting）
- 克服灾难性遗忘的策略
- - 策略一
  - 策略二
论文主要工作
网络架构细节
算法介绍
- 名词解释
- 总体流程
- 步骤一：模型训练
- 步骤二： $e x a m p l a r$ 管理
- - $c o n s t r u c t e x e m p l a r s e t$ 函数
  - $r e d u c e e x e m p l a r s e t$ 函数
- 模型预测
实验
- 与其他方法的比较
- 其他实验
个人理解

前言

我将看过的增量学习论文建了一个github库，方便各位阅读，地址

什么是增量学习

增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识，就和人类学习知识一样，学习完新知识后，我们仍然记得旧知识

自己复现的代码

增量学习存在的问题

灾难性遗忘（catastrophic forgetting）

神经网络在新数据上训练后，权重发生变化，导致神经网络遗忘旧数据上学习到的规律，类似于背英语单词，背了新的忘了旧的

克服灾难性遗忘的策略

策略一

冻结当前神经网络的部分权重，并且增加神经网络的深度，让神经网络能够保留学习新知识的能力。

以下为个人对策略一的理解
浅层神经网络会保留旧数据上学习的知识，而深层神经网络则在旧知识的基础上继续学习新知识，假设利用残差结构连接深层网络的输出与浅层网络的输出，对于旧知识，只需要让深层网络的输出近似于0即可完全保留旧知识，这和残差结构的出发点类似。

策略二

利用旧数据与新数据对网络进行训练。

以下为个人对策略二的理解
策略二更像是一种微调，如果仅仅利用新数据训练网络，那么网络的确很有可能遗忘旧知识，提供旧数据有助于网络在学习新知识的前提下抵抗遗忘。

论文主要工作

针对图像分类网络的增量学习，即让网络在保留旧类别区分能力的基础上，区分新类别，提出了一种名为iCaRL的训练策略，该算法可以让分类器（例如softmax分类器）与特征提取器（例如CNN）同时学习。

论文提出的训练策略并不针对某个CNN框架，因此可以自由选择CNN框架。另外，CNN框架的不同并不能解决灾难性遗忘。

网络架构细节

可以自由选择CNN架构，CNN架构之后接一个激活函数为 $s i g m o i d$ 的全连接层 $L$ ，作为分类器，全连接层的输入（特征向量），均进行了 $L 2$ 归一化，L2归一化有助于网络收敛。使用多标签分类损失函数，多标签分类损失函数其实就是极大似然估计，具体可查看我是链接。

算法介绍

名词解释

$e x a m p l a r$ ：可以看成一个容器，一个 $e x a m p l a r$ 保存了某一类的部分训练数据
$K$ ：K即为存储训练数据的上限，假设目前有 $m$ 类，那么每一个 $e x a m p l a r$ 可以存储的训练数据为 $\frac{K}{m}$ 。

总体流程

iCaRL算法的总体流程如下：

每个函数的具体解释如下：
$u p d a t e r e p r e s e n t a t i o n$ 函数：用于更新CNN与全连接层分类器的参数。
$r e d u c e e x e m p l a r s e t$ 函数：用于减少旧类的 $e x a m p l a r$ 的容量。
$c o n s t r u c t e x e m p l a r s e t$ 函数：用于构造新类的 $e x a m p l a r$ 。

整个算法的流程总结一下，即为：

添加新类别数据后，训练CNN与全连接层分类器
减少旧类别的 $e x a m p l a r$ 的容量，去除部分训练数据
构造新类别的 $e x a m p l a r$ ，存储部分新类别的训练数据

$e x a m p l a r$ 存储数据会用于模型的训练，帮助模型抵抗遗忘

步骤一：模型训练

由 $u p d a t e r e p r e s e n t a t i o n$ 函数实现

该函数需要的参数为

新类别数据
$e x a m p l a r$ 集合
CNN与全连接层分类器

具体步骤如下：

合并 $e x a m p l a r$ 集合以及新类别数据集，构造训练数据集
存储训练前，模型对于训练数据的预测结果（迷之操作， $g(x_i)$ 表示CNN+全连接层分类器的输出向量， $g_y(x_i)$ 表示输出向量的第 $y$ 维的值）
训练模型

损失函数使用多标签分类损失函数，分为分类以及蒸馏两部分，按步骤来说

从旧模型上得到新数据的分类标签，该类标签可以提供一种更强的监督信号，表明与新旧类别相似的类别
新模型对应的one-hot标签的旧类别部分替换为步骤一的结果

对于旧类别而言，步骤一的标签可以提供更强的监督信号，来弥补数据不足导致的监督信号缺失。

步骤二： $e x a m p l a r$ 管理

训练完模型后，需要对 $e x a m p l a r$ 集合进行调整， $e x a m p l a r$ 集合的作用有两个

帮助模型抵抗遗忘（上面已经介绍）
预测分类（在模型预测模块介绍）

$e x a m p l a r$ 的管理由 $r e d u c e e x e m p l a r s e t$ 函数与 $c o n s t r u c t e x e m p l a r s e t$ 函数实现。

$c o n s t r u c t e x e m p l a r s e t$ 函数

采样的标准：每次选择离训练数据类别中心最接近的图像样本，这和之后的分类有关。
按照采样的先后顺序构建新类别的 $e x a m p l a r$ （即 $P$ ），在 $P$ 中越靠前位置的样本组成的集合，离类别中心越接近

$r e d u c e e x e m p l a r s e t$ 函数

$e x a m p l a r$ 中的样本要遵循的原则——样本集合的中心尽可能的接近类别集合，依据进入 $e x a m p l a r$ 的顺序，靠前位置样本组成的集合，比靠后位置样本组成的集合，离类别中心更接近，因此，每次都去除尾部一定数量的样本，让 $e x a m p l a r$ 的大小不超过 $\frac{K}{m}$ ， $K$ 为存储空间上限， $m$ 为当前类别数。

模型预测

常见的神经网络分类模型，都是分类器（例如softmax分类器）与特征提取器（例如CNN）一起学习，但是iCaRL将分类器与特征提取器分开，只有特征提取器进行学习，分类器则选择了不需训练的最近邻分类器，这点有点反直觉，分类过程如下：

由于使用最近邻分类器，所以 $e x a m p l a r$ 中，A类别的样本集合中心应该尽可能接近A类别训练数据的中心，这也是构建 $e x a m p l a r$ 的出发点。

实验

与其他方法的比较

论文选取了三个baseline

Finetuning：在之前学习的基础上添加一个新的类别分支，利用新数据微调网络
Fixed representation：第一次增量学习训练完毕后，冻结特征提取器的权重，只会训练分类器新分支的权重，新分支训练完毕后，冻结新分支的权重
Learning without Forgetting模型

iCaRL与上述三个baseline都使用相同的CNN（ResNet），一次增量学习即让学习器多学习 $N$ 类，论文比对了N=2,5,10,20,50的情况，论文在CIFAR100以及ImageNet数据集上比对了这几个方法

CIFAR-100数据集的结果如下：

在ImageNet数据集的结果如下：

学习次数的越多，网络的性能表现越糟糕，这在一定程度上表明模型存在遗忘现象，从上图可知，iCaRL训练的网络，性能最号，但是无法判断相比于baseline，iCaRL是否可以更好的抵抗遗忘。

为了进一步显示模型是否出现遗忘，作者还比较了iCaRL与三个baseline在CIFAR-100上的混淆矩阵（一次增量学习多学习10类），结果如下：

iCaRL存在一个明显的对角线，分类性能最好，LwF.MC偏向于预测新的类别，这在一定程度上说明模型出现了遗忘，fixed representation偏向于预测旧的类别，这很好理解，因为特征提取器一次增量学习后就被固定了，对于新类别，很难提取出足够区分度的特征，finetuning
的遗忘现象最为严重。

其他实验

iCaRL采取了三个策略

使用最近邻分类器
使用 $e x a m p l a r$ 集合以及新类别数据训练模型
使用蒸馏loss

为了探究上述三个策略在抵抗遗忘方面的作用，论文设计了三个比对实验

$h y b r i d 1$ ：使用策略2、3，使用全连接层分类器
$h y b r i d 2$ ：使用策略1、2，不使用蒸馏loss
$h y b r i d 3$ ：仅使用策略2
$i C a R L$ ：使用策略1、2、3

多次增量学习后，模型的平均准确率如下：

$i C a R L$ vc $h y b r i d 1$ ：可以康出使用最近邻分类器更具有优势
$i C a R L$ vc $h y b r i d 2$ ：当N取值较小(例如2)时，蒸馏loss似乎无法有效提高模型准确率，当N取值较大(N>2)时，蒸馏loss有助于抵抗遗忘
$h y b r i d 3$ vs LwF.MC：使用 $e x a m p l a r$ 集合与新数据一起训练模型一定程度上有助于模型抵抗遗忘

个人理解

本论文的分类准确率提升来源于两个方面

使用新数据与部分旧数据微调网络
使用更为鲁棒的分类算法——最近邻

从论文结果中可以看到，使用最近邻进行分类的架构比使用全连接层进行分类的架构准确率提升了几个百分点，个人认为这属于分类器的鲁棒性带来的性能提升。

对新数据进行训练时，特征提取器（CNN）的输出可能与旧数据的输出发生非常大的改变，如果分类器对于输入的扰动过于敏感，可能会导致旧数据的遗忘，而最近邻算法鲁棒性恰好非常优越。

论文开源代码地址iCaRL

你可能感兴趣的:(深度学习,增量学习)

深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他