假装很坏的谦谦君

Self-Supervised Representation Learning by Rotation Feature Decoupling （旋转特征解耦的自我监督表示学习）

本文是论文 Self-Supervised Representation Learning by Rotation Feature Decoupling （旋转特征解耦的自我监督表示学习）的翻译，因作者本人水平有限，难免有不妥之处，还望读者不吝赐教，谢谢！

摘要

我们介绍了一种自我监督的学习方法，该方法着眼于表示的有益特性及其在推广到实际任务中的能力。该方法将旋转不变性纳入特征学习框架，这是视觉表示的许多良好且经过充分研究的特性之一，而以前的基于深度卷积神经网络的自我监督的表示学习方法很少对此加以欣赏或利用。特别是，我们的模型学习了包含旋转相关部分和不相关部分的拆分表示。通过联合预测图像旋转和区分单个实例来训练神经网络。尤其是，我们的模型将旋转判别与实例判别解耦，这使我们能够通过减轻旋转标签噪声的影响来改进旋转预测，也可以区分实例而不考虑图像旋转。所产生的特征对更多的各种任务具有更好的通用能力。实验结果表明，在标准的自我监督特征学习基准上，我们的模型优于当前的最新方法。

1 引言

深度神经网络，尤其是卷积神经网络（ConvNets），已取得计算机视觉领域的重大突破。给定大规模手动标记的图像数据集，例如ImageNet，卷积神经网络可以通过反向传播进行良好的训练，并在许多任务上实现最先进的性能，例如图像分类[25，45]和目标检测[31]。这些网络提取的丰富表示在通常情况下，不仅可以作为训练网络的任务的良好通用功能，而且还可以用于许多其他视觉任务，例如语义分割[33]和视觉问题解答[2]。但是，以完全监督的方式训练深度神经网络需要大量的手动标记工作，这在某些实际场景中是不可行的。作为有监督的特征学习的替代方法，不依赖于昂贵且费时的人类标签的无监督方法正受到越来越多的关注。最近出现的自监督学习范式[10、43、52、27、37]是用于学习有用的通用视觉表示的可扩展且有希望的解决方案。这些方法用于使用数据本身的结构信息并定义与学习到的特征的最终应用有关的辅助（pretext）任务，以训练神经网络。在辅助（pretext）任务中，无需大量人力即可轻松开发监督信号，因此可以将大量易于获得的图像应用于训练。

在过去的几年中，已经提出了许多不同的辅助（pretext）任务来进行自我监督学习。例如，这些方法中的一类试图从另一部分本身中恢复一部分数据[43、28、53]。然而这些方法的缺点是重建和预测图像像素值通常需要大量的计算资源。深度神经网络也可以被训练来区分原始图像和恢复的不完整图像[21]。但是，生成合成图像并不总是一件容易的事。在自我监督学习中已经研究了 Siamese 网络体系结构[2，36，53]，但是内存消耗通常很大。另一种不同但普遍采用的策略是在视频中发现监督信号，例如跟踪图像补丁[47]和对帧序列进行排序[30]。

现有的大多数工作都集中在设计各种辅助（pretext）任务，而很少关心学习的表示所拥有的属性以及它们是否确实有利于现实世界中任务的泛化。例如，高级表示应该传达清楚的解释或对变化因素的确定依赖性[5]。最近的尝试是预测图像旋转[17]。通过这种方法学习的特征可以很好地概括各种任务，并实现最新的性能。但是，这些特征与旋转变换是有区别的，因此不能使支持旋转不变性的视觉任务受益。此外，让人有所启发的是，并非所有的示例在实践中都是旋转可确定性的。图像的方向不仅对于圆形物体来说是模棱两可的，而且对于图像中方向不可知的其他对象也模棱两可，例如，从顶部观察的一些物品或者具有对称形状的某些物体，如图1所示。旋转这些对象不会严重影响我们的描述或理解。

图1：ImageNet中一些旋转不可知图像的示例，这些图像的默认方向不明确。

在本文中，我们提出了一种新的自监督学习算法，该算法通过一个旋转预测任务和一个实例区分任务将表示分离。学习的示例特征分别由旋转判别和旋转无关两个要素组成。旋转判别特征可以通过预测图像旋转来发现，这是简单而有效的，并且在某些基准上可以达到最新的结果[17]。对于数据集中的那些与方向无关的图像，自动分配的旋转标签通常包含噪声，这自然会导致正向的未标记学习问题。默认方向的原始图像为正实例，而旋转后的副本为未标记实例，可以为正或负。如果无法明确地识别出旋转副本的变换，我们将其视为在无标记集合中具有默认方向的正实例（请参见补充材料中的图1）。另一方面，我们通过惩罚相同图像在不同旋转下的特征之间的距离差来学习与旋转无关的特征。应用非参数方法根据这些旋转无关特征来区分不同实例。因此，这些特征将在实例级别具有判别能力。

为了证明我们的自监督学习方法的有效性，我们在标准特征转换学习基准上进行了实验。我们执行消融研究以检查模型和不同配置中的各个组件。我们还测试了旋转数据集上的特征。实验结果表明，有必要研究与旋转相关和不相关的特征。在许多方法上，包括在ImageNet和Places上的线性分类，以及在PASCAL VOC上的分类，检测和分割，我们方法中学习的特征都优于最新方法。

2 相关工作

这项工作涉及机器学习和计算机视觉中的多个主题：自监督学习，正性未标记（PU）学习和图像旋转不变性。

自我监督学习：自监督学习构建了一些直接根据输入数据计算出的监督信号。例如，某些方法尝试恢复部分数据本身，例如图像补全[43]，图像上色[52、27、28]和通道预测[53]。其他方法则利用图像中的概念信息，然后构造约束，例如图像斑块位置[10、36]，解决拼图游戏[37]，计数[38]，旋转[17]和实例判别[13、48]。依靠对抗训练的方法包括[12]和[21]。Norooziet等 [39] 和Caronet等 [6]使用聚类方法生成伪标签。除了单个任务，Doersch和Zisserman [11]以及Ren和Lee [44]还考虑一起使用多个任务来提高性能。对于视频，监督信号有：自我运动[1，42]，时间相干[47，30]和声音[41]。我们的方法基于预测图像旋转[17]，并考虑了学习表示所拥有的属性。我们将重点放在与旋转相关和无关的属性上。

正向未标记学习：在PU学习中，未标记的数据通常被视为负面示例，这意味着只有观察到的负面示例包含嘈杂的标签[14]。许多方法可以利用条件概率与其估计值之间的关系来建模标签错误率[46，40]。然后，标签错误的比率可通过各种方式用于处理嘈杂的观测负样本，例如排除置信度较低的样本[40]，标记置信度较高的样本[49、23、19]或重加权样本[14、35、32]。但是，具有良好理论特性的PU学习方法可能无法正确扩展到使用数百万个样本训练的深度网络。在这项工作中，我们将预测图像旋转的任务作为PU学习问题进行了公式化，并通过应用未标记样本的权重来处理标签噪声。

旋转不变性：许多经典的手工制作的特征，例如用于计算机视觉的SIFT [34]和RIFT [29]，对某些旋转变换都不敏感。对于最近的基于卷积网络的特征学习，一些经过精心设计的网络结构，例如G-CNN [7]和Warped Convolutions [20]，在学习旋转不变特征方面表现出优异的成绩。通过数据扩充可以实现对任意变换集的不变性。Laptevet等[26]提取图像的多个旋转副本的最大池激活。Dielemanet等[9]通过组合各种变换后的特征来扩展特征图。这些不变表示学习方法主要在有监督的任务中训练。我们旨在学习以无监督的方式包含旋转无关部分的复合特征。我们的方法还依赖于数据的多个旋转副本，而我们将这种旋转信息有效地用于两个解耦的无监督任务。

3 旋转特征解耦

图2：提出的方法的示意图。神经网络输出一个解耦的语义特征，其中包含旋转相关和不相关的部分。通过预测图像旋转来训练第一部分。旋转标签中的噪声被建模为PU学习问题，该问题学习实例权重以减少旋转不确定图像的影响。另一部分使用非参数分类进行距离惩罚损失训练，以强制执行旋转无关性以及实例判别任务。

在本节中，我们首先回顾预测图像旋转的方法（RotNet）[17]，然后将其重新表述为正向的，没有标签的学习问题，从而减轻此辅助任务设计中的先天缺陷。我们详细描述了旋转特征去耦方法，并给出了完整的模型（见图2）。

3.1 图像旋转预测

卷积网络在将原始图像映射到语义上有意义的特征向量方面特别强大，但通常使用图像及其相应的真实标签对其进行训练。为了以一种无监督的方式获得图像的通用特征，RotNet会研究图像的几何变换，特别是将图像旋转90度作为监督信号，并训练卷积网络预测其变换[17]。因此，语义有意义的表示可以在卷积网络更高层的特征图中进行编码。

给定一个训练集 $S=\{X_i\}_{i=1}^N$ ，包含N张图像，RotNet为每个图像X定义了一组旋转变换 $G=\{g(X; y)\}^K_{y=1}$ 。 $X_{i,y}$ 表示第 $i$ 个图像进行第 $y$ 个变换得到的图形， $X_{i,y}=g(X_i;y)$ 。训练了一个卷积网络模型 $F(\cdot ; \theta)$ ，将每个旋转的图像分类为一种转换。目标函数为：
$\min_{\theta}\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kl(F(X_{i,y};\theta),y), \tag{1}$
其中 $l$ 代表分类问题的交叉熵损失。变换被定义为旋转几个90度，例如K=4，并且 $g (X; y)$ ，表示将图像X逆时针旋转（y-1）* 90度。

RotNet的基本前提是旋转图像会改变图像中对象的方向，应该易于识别。为了预测图像旋转，神经网络必须识别并定位图像中的显着物体部分。因此，训练有素的神经网络可以为图像中的显着对象生成准确的特征，并且这些特征可以轻松地转移到实际任务中，例如检测和分割。

3.2 嘈杂的旋转图像

旋转预测模型中引入的先决条件可以满足大多数自然图像的需求，这些图像通常具有处于向前姿势的对象。这种图像通常具有默认方向。图像的任何旋转都会导致异常的物体方向，可以由人眼轻易地分辨。像ImageNet这样的数据集中的许多实例都有这样的图像，并且适合于旋转预测任务。

尽管具有简单性和有效性，但是这个前提会因为图像中的一些物体的方向不可知而无法满足，例如从顶部观测的物体或者对称的物体（详见图1）。在实践中，识别出这些图像的精确旋转变换是毫无意义的，并且在任何情况下都不加思考地应用卷积网络，只会将混杂因素引入到模型训练中。而且，在RotNet中学习到的特征对旋转角度是有区别的。它们在诸如浮游生物[8]和ISBI2012电子显微镜分割挑战[3]之类的与旋转无关的图像数据集中并不受欢迎。这里我们首先在下一个小节中介绍减少噪声旋转标签影响的方法，并介绍学习旋转无关特征的方法。

我们将数据集中的原始图像视为默认方向，并将其标记为正样本。未标记的样本包括所有旋转后的副本，其中某些副本在旋转后仍处于默认方向。因此，这些图像自动分配的旋转标签对于RotNet而言比较嘈杂。因此，如果所有未标记的数据都被视为负样本，则预测输入图像是否旋转是一个二分类问题[4]。在PU学习中，估计的条件概率与噪声率和样本是否干净的可信度有关[40，19]。我们提出使用估计的概率来加权每个旋转图像，并减少旋转含糊图像的相对损失。

首先，训练一个卷积网络模型进行二分类。我们用 $\breve{F}(X_{i,y})$ 表示从该预训练模型估计图像为正的概率。我们将每个实例的权重添加到具有可调参数 $\gamma$ 的交叉熵损失中，即：
$w_{i,y}=\begin{cases}1 & y=1 \\ 1-\breve{F}(X_{i,y})^{\gamma} & otherwise\end{cases}\tag{2}$
可以使用计算的实例权重来重新制定目标函数(1)：
$\min_{\theta}\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kw_{i,y}l(F(X_{i,y};\theta),y)\tag{3}$
可以预测图像旋转，同时减轻嘈杂样本的影响。

3.3 特征解耦

仅涉及图像旋转的图像特征对于涉及旋转不可知图像的下游任务并不实用。另一种解决方案是用与图像旋转无关的其他特征来补充与旋转相关的特征。我们通过开发特征解耦算法来实现此目标，该算法学习了一种语义特征，该语义特征在图像旋转方面具有区别性，在某种程度上与图像旋转无关。该特征的第一部分将享受从估计图像旋转的任务中继承的好处。另一部分与图像旋转无关，适用于某些方向无关的任务。

旋转分类 我们假设将图像 X高级特征表示为 $f=[f^{(1)^T},f^{(2)^T}]^T$ ，其中 $f^{(1)}$ 图像旋转显式有关，而 $f^{(2)}$ 负责与旋转变换无关的信息。使用具有参数 $\theta^f$ 的基于卷积网络的特征提取器 $F_f(\cdot;\theta_f)$ ，将一个输入的旋转过的图片 $X_{i,y}$ 映射到一个固定大小的向量 $f_{i,y}=F_y(X_{i,y};\theta_f)$ 。分类器 $F_c(\cdot;\theta_c)$ 采用特征 $f_{i,y}^{(1)}$ 作为输入以估计图像的旋转类型。旋转分类损失函数可以表示为：
$L_c=\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kw_{i,y}l(F_c(f_{i,y}^{(1)};\theta_c),y)\tag{4}$
与等式3不同，因为此处仅使用特征f的一部分来识别旋转。

旋转无关紧要 ：为了实现旋转无关特征的目标，我们在具有不同旋转角度的同一图像的各个特征之间实施相似性。即：给定图像的旋转副本： ${X_y\}_{y=1}^K$ ，它们的特征 ${f_y^{(2)}\}_{y=1}^K$ 应该尽可能彼此相似。我们通过最小化每个特征 ${f_y^{(2)}\}_{y=1}^K$ 和它们的平均特征向量 $\overline{f}=\frac{1}{K}\sum_{y=1}^Kf_y^{(2)}$ 的距离来解决此问题，并将目标函数写为：
$L_r=\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kd(f_{i,y}^{(2)},\overline{f}_i)\tag{5}$
为了计算效率，我们采用欧几里得距离，即： $d(x,y)=\begin{Vmatrix}x-y\end{Vmatrix}_2$ 。

然而，只有这个目标函数只能产生微不足道的解决方案。尽管相同图像在不同旋转角度下的特征是相似的，但是网络可以简单地输出相同矢量（例如零矢量），而与输入图像无关。因此，除了等式5，我们希望与旋转无关的特征相对于图片实例具有区分性，而不是旋转类别的区分性。可以应用非参数分类[48]来避免这种退化的解决方案。

图像实例分类：对于同一图像，在不同旋转下，特征f(2)彼此之间的相似性要比对不同图像的特征f(2)更相似。由于图像的旋转副本的特征已被约束为接近等式5中的平均特征向量，因此我们继续进行区分和散布这些平均特征。在非参数分类中，将图像X预测为数据集中第i个实例的概率为：
$P(i|\hat{f})=\frac{\exp(\hat{f_i^T}\hat{f}/\tau)}{\sum_{j=1}^N\exp(\hat{f_j^T}\hat{f}/\tau)}\tag{6}$
其中 $\hat{f}$ 是 $\overline{f}$ 的 $L_2$ 归一化版本， $\tau$ 是温度参数。给定训练数据集S，我们关注于最小化负对数似然：
$L_n=-\sum_{i=1}^N\log P(i|\hat{f_i})\tag{7}$
为了减轻在大型数据集上计算等式7的时间和空间，我们在归一化之前将均值特征线性映射到128维矢量，并采用噪声常数估计（NCE）和近端正则化[48]。目的是最小化以下损失函数：
$L_n=-\mathbb{E}_{P_d}\left[\log h(i,\hat{f_i}^{(t-1)})-\lambda\begin{Vmatrix}\hat{f_i}^{(t)}-\hat{f_i}^{(t-1)}\end{Vmatrix}_2^2\right]\\-m\cdot\mathbb{E}_{P_n}\left[\log(1-h(i,\hat{f^{\prime}}^{(t-1)}))\right]\tag{8}$
其中 $h(i,\hat{f}):=P(i|\hat{f})/\left[p(i|\hat{f})+mP_n(i)\right]$ 。 $P_d$ 代表实际数据的分布， $P_n$ 代表NCE中噪声的均匀分布。 $\hat{f^{\prime}}$ 是另一个图像的归一化特征。

生成的模型包含三个核心模块：旋转分类（Eq.4），旋转不相关（Eq.5）和图像实例分类（Eq.8），可以写成：
$\min_{\theta_f,\theta_c}\lambda_cL_c+\lambda_rL_r+\lambda_nL_n\tag{9}$ 我们将 $f^{(1)}$ 和 $f^{(2)}$ 串联起来表示一个输入图像。图像特征由与旋转相关和不相关的组件组成，这两个组件均包含丰富的高级语义图像表示。 $f^{(1)}$ 将包含必要的信息，例如显着物体的位置及其默认方向，以预测图像旋转。另一方面， $f^{(2)}$ 没有与旋转有关的信息，而是更多地关注每个图像的差异。

4 实验

在本节中，我们进行实验以证明我们方法的有效性。如果以无监督的方式学习到的视觉表示是有效且通用的，它们将很好地推广到各种任务。首先，我们定性地分析了通过该算法学习到的网络。然后，我们在几个标准的迁移学习基准上报告结果。

4.1 实现细节

为了与以前的工作进行比较，我们使用由pytorch [24]实现的标准AlexNet体系结构，减少它的通道数作为特征提取器 $F_f(\cdot;\theta_f)$ 。它由五个卷积层和两个全连接层组成。我们省略了局部响应归一化（LRN）层，并在每个线性层之后添加了批归一化（BN），这是最近的自监督学习方法中的常见的过程[10，52，12，53, 17，48，44 ，6]。将解耦的特征 $f^{(1)}$ 和 $f^{(2)}$ 简单设置为具有相同的尺寸，即将表示 $f$ 分为两半。我们使用一层线性网络实现旋转分类器 $F_c(\cdot;\theta_c)$ 。在我们的模型中， $\gamma$ ， $\tau$ 和 $m$ 分别设置为2,0.07和4096。我们简单的将用于损失平衡的参数 $\lambda_c$ ， $\lambda_r$ 和 $\lambda_n$ 都设置为1。我们在ILSVRC 2012训练集上将模型训练了总共200个epoch。最初将学习率设置为0.01，然后在前90个周期后每40个周期衰减10倍。训练网络使用0.9的动量，192的批量大小，权重 $\theta$ 的 $L_2$ 惩罚为 $5\cdot10^{-4}$ 。

4.2 定性分析

最近邻居检索：自监督训练有望为语义相似的图像分配相似的特征。我们首先对ImageNet ILSVRC 2012验证集执行最近邻检索，以测试学习到的特征捕获语义信息的能力。我们将其与RotNet基线进行比较，以了解特征去耦的效果。我们的模型从特征提取器网络 $F_f(\cdot;\theta_f)$ 输出的4,096维向量中获取特征。相应的，RogNet从 FC7层获取特征。我们使用余弦相似度计算特征之间的距离。

图3中从左到右按距离递增的顺序排列了一些样本的检索内容。RotNet和所提出的模型都能够捕获某些类别的图像中的语义。RotNet和我们的模型在包含显着对象并且旋转明确的随机选择图像上的结果都令人满意。我们的模型有时可以捕获更细粒度的相似性。例如，在第二行中，RotNet检索一些相似的背景植物，而不是前景对象鸟。在子弹头列车上，我们的模型成功找到了相同类别的图像，而不是普通的车辆。此外，对于某些旋转不可知的图像查询，RotNet无法提取图像中对象的潜在信息。 RotNet检索到的许多图像与查询完全无关（标有红色边框）。这可能是因为RotNet更加关注对象的形状，而对不同实例的判别却较少。相反，我们的模型可以针对这些查询返回语义上更相似的图像，这确认了我们模型在实例级别的区分能力。

图3：最近邻居检索结果。我们在ImageNet验证集中显示RotNet的七个最近邻居和功能去耦网络。查询包含随机选择的图像（上四行）和不可旋转的图像（下四行）。语义上不相关的检索标有红色边框。

滤波器可视化：为了更好地了解通过我们的方法学习到的滤波器和特征，我们使用了不同的网络可视化技术。图4示出了来自第一层[25]的滤波器，使每个卷积层的某个通道的某些激活最大化的合成图像[15、50]和最大激活的图像[51]。我们发现模型中的较深层似乎捕获了更复杂和抽象的纹理结构。

图4：过滤器可视化。我们绘制了来自conv1层的过滤器，并显示了可以最大程度地激活不同卷积层中某个通道的特定功能图的合成图像。对应于该通道的ImageNet训练集中的前9张激活的图像在右侧。

4.3激活的线性分类

仿照Zhanget等 [52]，我们在不同卷积层提取的特征的顶部训练线性分类器。该分类结果表示所学习表示的特定于任务的能力，特别是对对象类别的判别能力。通常，我们会在ILSVRC 2012 [45]和Places数据集[54]上进行这项研究。冻结特征提取器网络的所有权重，并在空间上调整特征图的大小（使用自适应最大池），以具有约9,000个元素。结果分别记录在表1和2中。表中的所有方法均使用基于AlexNet的网络，并且在ImageNet上进行了预训练，除了ImageNet标签，Places标签和Random条目外，没有标签。（带有*标记的方法使用的是更大版本的AlexNet，但没有分组或通道数量减少，而卷积层中的参数将增加50％，通常会提高性能。在本文中，我们还报告了该网络上的结果）我们在[36，39]中报告了每种方法的最佳编号。我们还在补充材料中在ImageNet上提供了非线性分类的结果。

在ImageNet上，我们的方法从conv3t到conv5取得了最先进的结果。我们在conv1和conv2上的结果与以前的结果和ImageNet标签条目相当。请注意，网络的较低层通常捕获图像中的低级信息（如边缘或轮廓），并且具有相对较低的迁移精度，因此通常很少直接使用这些特征。重要的是要注意，大多数先前工作的性能会沿神经网络深度降低。与之形成鲜明对比的是，我们成功缩小了ImageNet标签在更高层上的差距。最大的改进（7.8％）是在conv5层上实现的，该层通常提取抽象语义信息。这表明我们的方法提取的高级功能在实际应用中更有希望。

在Places数据集上，我们方法的结果呈现出与ImageNet相似的趋势。我们在Conv4和Conv5层取得了最大的精度，同时在Conv1到Conv3上也取得了可比较的精度。在Conv5层，我们取得了最先进的3.7%。

4.4 PASCAL VOC上的多标签分类，目标检测和语义分割

我们在PASCAL VOC数据集上测试了学习到的特征的可传递性[16]。我们使用无监督的训练网络 $F_f(\cdot;\theta_f)$ 作为PASCAL上任务的初始化模型。分类和检测的性能通过平均均值精度（mAP）进行测量，分割的性能则通过平均跨界联合（mIU）进行测量。在传输过程中，我们将批量归一化参数吸收到其先前的线性层中，并且在微调期间不使用BN层。 Kr̈ahenb̈uhlet等人提出的依赖数据的缩放方法[22]作为标准惯例，用于在所有实验中重新调整权重。表3总结了我们的方法与其他方法的比较。我们在所有这三个任务上都优于以前的方法。

PASCAL VOC 2007上的分类：我们使用Kr̈ahenb̈uhl（https://github.com/philkr/voc-classification）提供的开源协议执行多标签分类。我们在训练集上微调整个网络或仅fc6-8层，并在测试集上评估。我们的方法可以改进RotNet（目前分类的最佳方法）。可以观察到，更大的AlexNet模型将带来性能上的提升。

在PASCAL VOC 2007上的检测：对于物体检测，我们使用自监督训练的网络作为Fast-RCNN[18]的初始化。我们使用Girshick提供的公开测试框架[18]，并使用多尺度训练和单尺度测试。第一层的权重在微调期间是固定的，因为它是Fast-RCNN中的默认设置。以57.5％的mAP，我们达到了最佳结果。补充材料中还提供了我们方法的每类检测性能。

在PASCAL VOC 2012上进行分割：我们使用FCN [33]在PASCAL VOC 2012训练集上微调模型并在测试集进行评估。我们的方法比最新技术高出2.7％。

4.5 讨论

消融研究：要查看模型中每个组件的影响，我们对具有固定特征的ImageNet线性分类进行消融研究。我们比较旋转预测任务（Rotation），旋转无关实例分类（Instance），这两个任务的组合（Rotation + Instance）和考虑未标记集中的嘈杂标签（PURotation +Instance）。表4的中间四行显示了不同组件的性能。当考虑旋转识别，噪声标签和实例识别时，该模型的效果最佳。

不同的配置：我们通过在ImageNet上的线性分类评估各种设计选择的效果。我们比较特征提取器网络 $Ff(\cdot;\theta_f)$ 的不同结构：AlexNet（conv5）的卷积层，conv5具有一个全连接层（fc6）的情况和conv5具有两个全连接层（fc7）的情况。结果总结在表4的下三行中。当高层的特征被解耦时，高层将学习到更好的特征。有趣的是，下层的性能趋于下降。这可能是因为将损失函数应用于较高层时，有效的梯度信息对较低层的帮助较小。

旋转特征评估：我们最终证明，当下游任务中的图像表现出旋转对称性时，解耦特征更适合。为此，我们将PASCAL VOC 2007中的图像旋转90度的倍数（即90、180和270），并在分类任务上评估。旋转后的数据集有20,044张用于训练的图像和19,808张用于测试的图像（是原始数据集的4倍）。具有不同旋转角度的每个实例共享相同的类标签。我们直接在上半部分（旋转相关）特征 $f^{(1)}$ ，下半部分（旋转无关）特征 $f^{(2)}$ 和复合解耦特征的顶部训练线性分类器。我们生产ImageNet标签和基准RotNet的结果，并报告以作参考。我们还考虑针对三种不同的方法对fc6-8进行微调。如表5所示，RotNet学习到的特征以及我们模型中与旋转相关的那一半特征性能较差。原因是它们对于图像旋转具有区分性，并且在旋转的数据集中没有很好的泛化能力。该结果表明，考虑旋转相关特征和不相关特征都是有益的。我们的方法更适合于需要旋转不变的视觉任务。

5 结论

在本文中，我们提出了一种无监督的表示学习方法，该方法学习包含旋转相关部分和不相关部分的有意义的语义特征。我们的方法从区分单个实例中分离出图像旋转预测。与标准的自监督学习基准相比，特征的迁移可实现比最新方法更高的性能。解耦特征的优点在旋转不可知任务中得到进一步证明。我们相信，为自监督型学习引入更多分析特性的表示，对推广很有帮助，并且是一个有前途的未来方向。

参考文献

[1] Pulkit Agrawal, Joao Carreira, and Jitendra Malik. Learningto see by moving. InThe IEEE International Conference onComputer Vision (ICCV), December 2015.
[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and DeviParikh. Vqa: Visual question answering. InThe IEEE Inter-national Conference on Computer Vision (ICCV), December2015.
[3] Ignacio Arganda-Carreras, Srinivas C. Turaga, Daniel R.Berger, Dan Cires ̧an, Alessandro Giusti, Luca M. Gam-bardella, J ̈urgen Schmidhuber, Dmitry Laptev, SarveshDwivedi, Joachim M. Buhmann, Ting Liu, Mojtaba Seyed-hosseini, Tolga Tasdizen, Lee Kamentsky, Radim Burget,Vaclav Uher, Xiao Tan, Changming Sun, Tuan D. Pham,Erhan Bas, Mustafa G. Uzunbas, Albert Cardona, JohannesSchindelin, and H. Sebastian Seung. Crowdsourcing the cre-ation of image segmentation algorithms for connectomics.Frontiers in Neuroanatomy, 9:142, 2015.
[4] Jessa Bekker and Jesse Davis. Learning from positive andunlabeled data: A survey.arXiv:1811.04820, 2018.
[5] Y. Bengio, A. Courville, and P. Vincent. Representationlearning: A review and new perspectives.IEEE Transactionson Pattern Analysis and Machine Intelligence, 35(8):1798–1828, Aug 2013.
[6] Mathilde Caron, Piotr Bojanowski, Armand Joulin, andMatthijs Douze. Deep clustering for unsupervised learningof visual features. In Vittorio Ferrari, Martial Hebert, Cris-tian Sminchisescu, and Yair Weiss, editors,Computer Vision– ECCV 2018, pages 139–156, Cham, 2018. Springer Inter-national Publishing.
[7] Taco Cohen and Max Welling. Group equivariant convo-lutional networks. In Maria Florina Balcan and Kilian Q.Weinberger, editors,Proceedings of The 33rd InternationalConference on Machine Learning, volume 48 ofProceed-ings of Machine Learning Research, pages 2990–2999, NewYork, New York, USA, 20–22 Jun 2016. PMLR.
[8] Robert K Cowen, S Sponaugle, K Robinson, and J Luo.Planktonset 1.0: Plankton imagery data collected from fgwalton smith in straits of florida from 2014–06-03 to 2014–06-06 and used in the 2015 national data science bowl (nceiaccession 0127422).NOAA National Centers for Environ-mental Information, 2015.
[9] Sander Dieleman, Jeffrey De Fauw, and Koray Kavukcuoglu.Exploiting cyclic symmetry in convolutional neural net-works. In Maria Florina Balcan and Kilian Q. Weinberger,editors,Proceedings of The 33rd International Conferenceon Machine Learning, volume 48 ofProceedings of MachineLearning Research, pages 1889–1898, New York, New York,USA, 20–22 Jun 2016. PMLR.
[10] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsu-pervised visual representation learning by context prediction.InThe IEEE International Conference on Computer Vision(ICCV), December 2015.
[11] Carl Doersch and Andrew Zisserman. Multi-task self-supervised visual learning. InThe IEEE International Con-ference on Computer Vision (ICCV), Oct 2017.
[12] Jeff Donahue, Philipp Kr ̈ahenb ̈uhl, and Trevor Darrell. Ad-versarial feature learning. InInternational Conference onLearning Representations, 2017.
[13] Alexey Dosovitskiy, Jost Tobias Springenberg, Martin Ried-miller, and Thomas Brox. Discriminative unsupervised fea-ture learning with convolutional neural networks. In Z.Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, andK. Q. Weinberger, editors,Advances in Neural InformationProcessing Systems 27, pages 766–774. Curran Associates,Inc., 2014.
[14] Charles Elkan and Keith Noto. Learning classifiers from onlypositive and unlabeled data. InProceedings of the 14th ACMSIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’08, pages 213–220, New York, NY,USA, 2008. ACM.
[15] Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pas-cal Vincent. Visualizing higher-layer features of a deep net-work. Technical Report 1341, University of Montreal, June2009. Also presented at the ICML 2009 Workshop on Learn-ing Feature Hierarchies, Montr ́eal, Canada.
[16] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I.Williams, J. Winn, and A. Zisserman. The pascal visual ob-ject classes challenge: A retrospective.International Journalof Computer Vision, 111(1):98–136, Jan. 2015.
[17] Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Un-supervised representation learning by predicting image rota-tions. InInternational Conference on Learning Representa-tions, 2018.
[18] Ross Girshick. Fast r-cnn. InThe IEEE International Con-ference on Computer Vision (ICCV), December 2015.
[19] Fengxiang He, Tongliang Liu, Geoffrey I Webb, andDacheng Tao. Instance-dependent PU learning by bayesianoptimal relabeling.arXiv:1808.02180, 2018.
[20] Jo ̃ao F. Henriques and Andrea Vedaldi. Warped convolu-tions: Efficient invariance to spatial transformations. InDoina Precup and Yee Whye Teh, editors,Proceedings ofthe 34th International Conference on Machine Learning,volume 70 ofProceedings of Machine Learning Research,pages 1461–1469, International Convention Centre, Sydney,Australia, 06–11 Aug 2017. PMLR.
[21] Simon Jenni and Paolo Favaro. Self-supervised feature learn-ing by learning to spot artifacts. InThe IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR), June2018.
[22] Philipp Kr ̈ahenb ̈uhl, Carl Doersch, Jeff Donahue, and TrevorDarrell. Data-dependent initializations of convolutional neu-ral networks. InInternational Conference on Learning Rep-resentations, 2016.
[23] Jan Kremer, Fei Sha, and Christian Igel. Robust active la-bel correction. In Amos Storkey and Fernando Perez-Cruz,editors,Proceedings of the Twenty-First International Con-ference on Artificial Intelligence and Statistics, volume 84 ofProceedings of Machine Learning Research, pages 308–316,Playa Blanca, Lanzarote, Canary Islands, 09–11 Apr 2018.PMLR.
[24] Alex Krizhevsky. One weird trick for parallelizing convolu-tional neural networks.CoRR, abs/1404.5997, 2014.
[25] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.Imagenet classification with deep convolutional neural net-works. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q.Weinberger, editors,Advances in Neural Information Pro-cessing Systems 25, pages 1097–1105. Curran Associates,Inc., 2012.
[26] Dmitry Laptev, Nikolay Savinov, Joachim M. Buhmann, andMarc Pollefeys. Ti-pooling: Transformation-invariant pool-ing for feature learning in convolutional neural networks.InThe IEEE Conference on Computer Vision and PatternRecognition (CVPR), June 2016.
[27] Gustav Larsson, Michael Maire, and GregoryShakhnarovich. Learning representations for automaticcolorization. In Bastian Leibe, Jiri Matas, Nicu Sebe, andMax Welling, editors,Computer Vision – ECCV 2016, pages577–593, Cham, 2016. Springer International Publishing.
[28] Gustav Larsson, Michael Maire, and GregoryShakhnarovich. Colorization as a proxy task for visualunderstanding. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), July 2017.
[29] S. Lazebnik, C. Schmid, and Jean Ponce. Semi-localaffine parts for object recognition. InProceedings ofthe British Machine Vision Conference, pages 98.1–98.10.BMVA Press, 2004. doi:10.5244/C.18.98.
[30] Hsin-Ying Lee, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Unsupervised representation learning by sort-ing sequences. InThe IEEE International Conference onComputer Vision (ICCV), Oct 2017.
[31] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll ́ar, and C. LawrenceZitnick. Microsoft coco: Common objects in context. InDavid Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuyte-laars, editors,Computer Vision – ECCV 2014, pages 740–755, Cham, 2014. Springer International Publishing.
[32] T. Liu and D. Tao. Classification with noisy labels by impor-tance reweighting.IEEE Transactions on Pattern Analysisand Machine Intelligence, 38(3):447–461, March 2016.
[33] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. InTheIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), June 2015.
[34] David G. Lowe. Distinctive image features from scale-invariant keypoints.International Journal of Computer Vi-sion, 60(2):91–110, Nov 2004.
[35] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Raviku-mar, and Ambuj Tewari. Learning with noisy labels. InC. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani,and K. Q. Weinberger, editors,Advances in Neural Informa-tion Processing Systems 26, pages 1196–1204. Curran Asso-ciates, Inc., 2013.
[36] T. Nathan Mundhenk, Daniel Ho, and Barry Y. Chen. Im-provements to context based self-supervised learning. InTheIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), June 2018.
[37] Mehdi Noroozi and Paolo Favaro. Unsupervised learningof visual representations by solving jigsaw puzzles. In Bas-tian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors,Computer Vision – ECCV 2016, pages 69–84, Cham, 2016.Springer International Publishing.
[38] Mehdi Noroozi, Hamed Pirsiavash, and Paolo Favaro. Rep-resentation learning by learning to count. InThe IEEE Inter-national Conference on Computer Vision (ICCV), Oct 2017.
[39] Mehdi Noroozi, Ananth Vinjimoor, Paolo Favaro, andHamed Pirsiavash. Boosting self-supervised learning viaknowledge transfer. InThe IEEE Conference on ComputerVision and Pattern Recognition (CVPR), June 2018.
[40] Curtis G. Northcutt, Tailin Wu, and Isaac L. Chuang. Learn-ing with confident examples: Rank pruning for robust classi-fication with noisy labels. InProceedings of the Thirty-ThirdConference on Uncertainty in Artificial Intelligence, UAI’17.AUAI Press, 2017.
[41] Andrew Owens, Jiajun Wu, Josh H. McDermott, William T.Freeman, and Antonio Torralba. Ambient sound provides su-pervision for visual learning. In Bastian Leibe, Jiri Matas,Nicu Sebe, and Max Welling, editors,Computer Vision –ECCV 2016, pages 801–816, Cham, 2016. Springer Inter-national Publishing.
[42] Deepak Pathak, Ross Girshick, Piotr Dollar, Trevor Darrell,and Bharath Hariharan. Learning features by watching ob-jects move. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), July 2017.
[43] Deepak Pathak, Philipp Kr ̈ahenb ̈uhl, Jeff Donahue, TrevorDarrell, and Alexei A. Efros. Context encoders: Featurelearning by inpainting. InThe IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), June 2016.
[44] Zhongzheng Ren and Yong Jae Lee. Cross-domain self-supervised multi-task feature learning using synthetic im-agery. InThe IEEE Conference on Computer Vision andPattern Recognition (CVPR), June 2018.
[45] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, San-jeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy,Aditya Khosla, Michael Bernstein, Alexander C. Berg, andLi Fei-Fei. Imagenet large scale visual recognition challenge.International Journal of Computer Vision, 115(3):211–252,Dec 2015.
[46] Clayton Scott. A Rate of Convergence for Mixture Propor-tion Estimation, with Application to Learning from NoisyLabels. In Guy Lebanon and S. V. N. Vishwanathan, ed-itors,Proceedings of the Eighteenth International Confer-ence on Artificial Intelligence and Statistics, volume 38 ofProceedings of Machine Learning Research, pages 838–846,San Diego, California, USA, 09–12 May 2015. PMLR.
[47] Xiaolong Wang and Abhinav Gupta. Unsupervised learningof visual representations using videos. InThe IEEE Inter-national Conference on Computer Vision (ICCV), December2015.
[48] Zhirong Wu, Yuanjun Xiong, Stella X. Yu, and Dahua Lin.Unsupervised feature learning via non-parametric instancediscrimination. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), June 2018.
[49] Pengyi Yang, Wei Liu, and Jean Yang. Positive unlabeledlearning via wrapper-based adaptive sampling. InProceed-ings of the Twenty-Sixth International Joint Conference onArtificial Intelligence, IJCAI-17, pages 3273–3279, 2017.
[50] Jason Yosinski, Jeff Clune, Thomas Fuchs, and Hod Lipson.Understanding neural networks through deep visualization.InICML Workshop on Deep Learning, 2015.
[51] Matthew D. Zeiler and Rob Fergus. Visualizing and under-standing convolutional networks. In David Fleet, Tomas Pa-jdla, Bernt Schiele, and Tinne Tuytelaars, editors,ComputerVision – ECCV 2014, pages 818–833, Cham, 2014. SpringerInternational Publishing.
[52] Richard Zhang, Phillip Isola, and Alexei A. Efros. Color-ful image colorization. In Bastian Leibe, Jiri Matas, NicuSebe, and Max Welling, editors,Computer Vision – ECCV2016, pages 649–666, Cham, 2016. Springer InternationalPublishing.
[53] Richard Zhang, Phillip Isola, and Alexei A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channelprediction. InThe IEEE Conference on Computer Vision andPattern Recognition (CVPR), July 2017.
[54] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Tor-ralba, and Aude Oliva. Learning deep features for scenerecognition using places database. In Z. Ghahramani, M.Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger,editors,Advances in Neural Information Processing Systems27, pages 487–495. Curran Associates, Inc., 2014.

你可能感兴趣的:(计算机视觉)

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
深度学习驱动下的字符识别：挑战与创新逼子歌神经网络深度学习字符识别卷积神经网络图像处理特征提取
一、引言1.1研究背景深度学习在字符识别领域具有至关重要的地位。随着信息技术的飞速发展，对字符识别的准确性和效率要求越来越高。字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。国内研究者主要使用基于模板匹配的方法、基于统计模型的方法、基于神经网络的方法等各种方法进行字符识别研究。目前，国内各大
【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【激活函数总结】Pytorch中的激活函数详解： ReLU、Leaky ReLU、Sigmoid、Tanh 以及 Softmax 阿_旭深度学习知识点 pytorch 人工智能 python 激活函数深度学习
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文