Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)

本文是论文 Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自​​我监督表示学习)的翻译,因作者本人水平有限,难免有不妥之处,还望读者不吝赐教,谢谢!

摘要

我们介绍了一种自我监督的学习方法,该方法着眼于表示的有益特性及其在推广到实际任务中的能力。该方法将旋转不变性纳入特征学习框架,这是视觉表示的许多良好且经过充分研究的特性之一,而以前的基于深度卷积神经网络的自我监督的表示学习方法很少对此加以欣赏或利用。特别是,我们的模型学习了包含旋转相关部分和不相关部分的拆分表示。通过联合预测图像旋转和区分单个实例来训练神经网络。尤其是,我们的模型将旋转判别与实例判别解耦,这使我们能够通过减轻旋转标签噪声的影响来改进旋转预测,也可以区分实例而不考虑图像旋转。所产生的特征对更多的各种任务具有更好的通用能力。实验结果表明,在标准的自我监督特征学习基准上,我们的模型优于当前的最新方法。

1 引言

深度神经网络,尤其是卷积神经网络(ConvNets),已取得计算机视觉领域的重大突破。给定大规模手动标记的图像数据集,例如ImageNet,卷积神经网络可以通过反向传播进行良好的训练,并在许多任务上实现最先进的性能,例如图像分类[25,45]和目标检测[31]。这些网络提取的丰富表示在通常情况下,不仅可以作为训练网络的任务的良好通用功能,而且还可以用于许多其他视觉任务,例如语义分割[33]和视觉问题解答[2]。但是,以完全监督的方式训练深度神经网络需要大量的手动标记工作,这在某些实际场景中是不可行的。作为有监督的特征学习的替代方法,不依赖于昂贵且费时的人类标签的无监督方法正受到越来越多的关注。最近出现的自监督学习范式[10、43、52、27、37]是用于学习有用的通用视觉表示的可扩展且有希望的解决方案。这些方法用于使用数据本身的结构信息并定义与学习到的特征的最终应用有关的辅助(pretext)任务,以训练神经网络。在辅助(pretext)任务中,无需大量人力即可轻松开发监督信号,因此可以将大量易于获得的图像应用于训练。

在过去的几年中,已经提出了许多不同的辅助(pretext)任务来进行自我监督学习。例如,这些方法中的一类试图从另一部分本身中恢复一部分数据[43、28、53]。然而这些方法的缺点是重建和预测图像像素值通常需要大量的计算资源。深度神经网络也可以被训练来区分原始图像和恢复的不完整图像[21]。但是,生成合成图像并不总是一件容易的事。在自我监督学习中已经研究了 Siamese 网络体系结构[2,36,53],但是内存消耗通常很大。另一种不同但普遍采用的策略是在视频中发现监督信号,例如跟踪图像补丁[47]和对帧序列进行排序[30]。

现有的大多数工作都集中在设计各种辅助(pretext)任务,而很少关心学习的表示所拥有的属性以及它们是否确实有利于现实世界中任务的泛化。例如,高级表示应该传达清楚的解释或对变化因素的确定依赖性[5]。最近的尝试是预测图像旋转[17]。通过这种方法学习的特征可以很好地概括各种任务,并实现最新的性能。但是,这些特征与旋转变换是有区别的,因此不能使支持旋转不变性的视觉任务受益。此外,让人有所启发的是,并非所有的示例在实践中都是旋转可确定性的。图像的方向不仅对于圆形物体来说是模棱两可的,而且对于图像中方向不可知的其他对象也模棱两可,例如,从顶部观察的一些物品或者具有对称形状的某些物体,如图1所示。旋转这些对象不会严重影响我们的描述或理解。
Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第1张图片
图1:ImageNet中一些旋转不可知图像的示例,这些图像的默认方向不明确

在本文中,我们提出了一种新的自监督学习算法,该算法通过一个旋转预测任务和一个实例区分任务将表示分离。学习的示例特征分别由旋转判别和旋转无关两个要素组成。旋转判别特征可以通过预测图像旋转来发现,这是简单而有效的,并且在某些基准上可以达到最新的结果[17]。对于数据集中的那些与方向无关的图像,自动分配的旋转标签通常包含噪声,这自然会导致正向的未标记学习问题。默认方向的原始图像为正实例,而旋转后的副本为未标记实例,可以为正或负。如果无法明确地识别出旋转副本的变换,我们将其视为在无标记集合中具有默认方向的正实例(请参见补充材料中的图1)。另一方面,我们通过惩罚相同图像在不同旋转下的特征之间的距离差来学习与旋转无关的特征。应用非参数方法根据这些旋转无关特征来区分不同实例。因此,这些特征将在实例级别具有判别能力。

为了证明我们的自监督学习方法的有效性,我们在标准特征转换学习基准上进行了实验。我们执行消融研究以检查模型和不同配置中的各个组件。我们还测试了旋转数据集上的特征。实验结果表明,有必要研究与旋转相关和不相关的特征。在许多方法上,包括在ImageNet和Places上的线性分类,以及在PASCAL VOC上的分类,检测和分割,我们方法中学习的特征都优于最新方法。

2 相关工作

这项工作涉及机器学习和计算机视觉中的多个主题:自监督学习,正性未标记(PU)学习和图像旋转不变性。

自我监督学习:自监督学习构建了一些直接根据输入数据计算出的监督信号。例如,某些方法尝试恢复部分数据本身,例如图像补全[43],图像上色[52、27、28]和通道预测[53]。其他方法则利用图像中的概念信息,然后构造约束,例如图像斑块位置[10、36],解决拼图游戏[37],计数[38],旋转[17]和实例判别[13、48]。依靠对抗训练的方法包括[12]和[21]。Norooziet等 [39] 和Caronet等 [6]使用聚类方法生成伪标签。除了单个任务,Doersch和Zisserman [11]以及Ren和Lee [44]还考虑一起使用多个任务来提高性能。对于视频,监督信号有:自我运动[1,42],时间相干[47,30]和声音[41]。我们的方法基于预测图像旋转[17],并考虑了学习表示所拥有的属性。我们将重点放在与旋转相关和无关的属性上。

正向未标记学习:在PU学习中,未标记的数据通常被视为负面示例,这意味着只有观察到的负面示例包含嘈杂的标签[14]。许多方法可以利用条件概率与其估计值之间的关系来建模标签错误率[46,40]。然后,标签错误的比率可通过各种方式用于处理嘈杂的观测负样本,例如排除置信度较低的样本[40],标记置信度较高的样本[49、23、19]或重加权样本[14、35、32]。但是,具有良好理论特性的PU学习方法可能无法正确扩展到使用数百万个样本训练的深度网络。在这项工作中,我们将预测图像旋转的任务作为PU学习问题进行了公式化,并通过应用未标记样本的权重来处理标签噪声。

旋转不变性:许多经典的手工制作的特征,例如用于计算机视觉的SIFT [34]和RIFT [29],对某些旋转变换都不敏感。对于最近的基于卷积网络的特征学习,一些经过精心设计的网络结构,例如G-CNN [7]和Warped Convolutions [20],在学习旋转不变特征方面表现出优异的成绩。通过数据扩充可以实现对任意变换集的不变性。Laptevet等[26]提取图像的多个旋转副本的最大池激活。Dielemanet等[9]通过组合各种变换后的特征来扩展特征图。这些不变表示学习方法主要在有监督的任务中训练。我们旨在学习以无监督的方式包含旋转无关部分的复合特征。我们的方法还依赖于数据的多个旋转副本,而我们将这种旋转信息有效地用于两个解耦的无监督任务。

3 旋转特征解耦

Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第2张图片
图2:提出的方法的示意图。神经网络输出一个解耦的语义特征,其中包含旋转相关和不相关的部分。通过预测图像旋转来训练第一部分。旋转标签中的噪声被建模为PU学习问题,该问题学习实例权重以减少旋转不确定图像的影响。另一部分使用非参数分类进行距离惩罚损失训练,以强制执行旋转无关性以及实例判别任务。

在本节中,我们首先回顾预测图像旋转的方法(RotNet)[17],然后将其重新表述为正向的,没有标签的学习问题,从而减轻此辅助任务设计中的先天缺陷。我们详细描述了旋转特征去耦方法,并给出了完整的模型(见图2)。

3.1 图像旋转预测

卷积网络在将原始图像映射到语义上有意义的特征向量方面特别强大,但通常使用图像及其相应的真实标签对其进行训练。为了以一种无监督的方式获得图像的通用特征,RotNet会研究图像的几何变换,特别是将图像旋转90度作为监督信号,并训练卷积网络预测其变换[17]。因此,语义有意义的表示可以在卷积网络更高层的特征图中进行编码。

给定一个训练集 S = { X i } i = 1 N S=\{X_i\}_{i=1}^N S={Xi}i=1N,包含N张图像,RotNet为每个图像X定义了一组旋转变换 G = { g ( X ; y ) } y = 1 K G=\{g(X; y)\}^K_{y=1} G={g(X;y)}y=1K X i , y X_{i,y} Xi,y表示第 i i i个图像进行第 y y y个变换得到的图形, X i , y = g ( X i ; y ) X_{i,y}=g(X_i;y) Xi,y=g(Xi;y)。训练了一个卷积网络模型 F ( ⋅ ; θ ) F(\cdot ; \theta) F(;θ),将每个旋转的图像分类为一种转换。目标函数为:
min ⁡ θ 1 N K ∑ i = 1 N ∑ y = 1 K l ( F ( X i , y ; θ ) , y ) , (1) \min_{\theta}\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kl(F(X_{i,y};\theta),y), \tag{1} θminNK1i=1Ny=1Kl(F(Xi,y;θ),y),(1)
其中 l l l代表分类问题的交叉熵损失。变换被定义为旋转几个90度,例如K=4,并且 g ( X ; y ) g(X;y) g(X;y),表示将图像X逆时针旋转(y-1)* 90度。

RotNet的基本前提是旋转图像会改变图像中对象的方向,应该易于识别。为了预测图像旋转,神经网络必须识别并定位图像中的显着物体部分。因此,训练有素的神经网络可以为图像中的显着对象生成准确的特征,并且这些特征可以轻松地转移到实际任务中,例如检测和分割。

3.2 嘈杂的旋转图像

旋转预测模型中引入的先决条件可以满足大多数自然图像的需求,这些图像通常具有处于向前姿势的对象。这种图像通常具有默认方向。图像的任何旋转都会导致异常的物体方向,可以由人眼轻易地分辨。像ImageNet这样的数据集中的许多实例都有这样的图像,并且适合于旋转预测任务。

尽管具有简单性和有效性,但是这个前提会因为图像中的一些物体的方向不可知而无法满足,例如从顶部观测的物体或者对称的物体(详见图1)。在实践中,识别出这些图像的精确旋转变换是毫无意义的,并且在任何情况下都不加思考地应用卷积网络,只会将混杂因素引入到模型训练中。而且,在RotNet中学习到的特征对旋转角度是有区别的。它们在诸如浮游生物[8]和ISBI2012电子显微镜分割挑战[3]之类的与旋转无关的图像数据集中并不受欢迎。这里我们首先在下一个小节中介绍减少噪声旋转标签影响的方法,并介绍学习旋转无关特征的方法。

我们将数据集中的原始图像视为默认方向,并将其标记为正样本。未标记的样本包括所有旋转后的副本,其中某些副本在旋转后仍处于默认方向。因此,这些图像自动分配的旋转标签对于RotNet而言比较嘈杂。因此,如果所有未标记的数据都被视为负样本,则预测输入图像是否旋转是一个二分类问题[4]。在PU学习中,估计的条件概率与噪声率和样本是否干净的可信度有关[40,19]。我们提出使用估计的概率来加权每个旋转图像,并减少旋转含糊图像的相对损失。

首先,训练一个卷积网络模型进行二分类。我们用 F ˘ ( X i , y ) \breve{F}(X_{i,y}) F˘(Xi,y)表示从该预训练模型估计图像为正的概率。我们将每个实例的权重添加到具有可调参数 γ \gamma γ的交叉熵损失中,即:
w i , y = { 1 y = 1 1 − F ˘ ( X i , y ) γ o t h e r w i s e (2) w_{i,y}=\begin{cases}1 & y=1 \\ 1-\breve{F}(X_{i,y})^{\gamma} & otherwise\end{cases}\tag{2} wi,y={11F˘(Xi,y)γy=1otherwise(2)
可以使用计算的实例权重来重新制定目标函数(1):
min ⁡ θ 1 N K ∑ i = 1 N ∑ y = 1 K w i , y l ( F ( X i , y ; θ ) , y ) (3) \min_{\theta}\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kw_{i,y}l(F(X_{i,y};\theta),y)\tag{3} θminNK1i=1Ny=1Kwi,yl(F(Xi,y;θ),y)(3)
可以预测图像旋转,同时减轻嘈杂样本的影响。

3.3 特征解耦

仅涉及图像旋转的图像特征对于涉及旋转不可知图像的下游任务并不实用。另一种解决方案是用与图像旋转无关的其他特征来补充与旋转相关的特征。我们通过开发特征解耦算法来实现此目标,该算法学习了一种语义特征,该语义特征在图像旋转方面具有区别性,在某种程度上与图像旋转无关。该特征的第一部分将享受从估计图像旋转的任务中继承的好处。另一部分与图像旋转无关,适用于某些方向无关的任务。

旋转分类 我们假设将图像 X高级特征表示为 f = [ f ( 1 ) T , f ( 2 ) T ] T f=[f^{(1)^T},f^{(2)^T}]^T f=[f(1)T,f(2)T]T,其中 f ( 1 ) f^{(1)} f(1) 图像旋转显式有关,而 f ( 2 ) f^{(2)} f(2)负责与旋转变换无关的信息。使用具有参数 θ f \theta^f θf的基于卷积网络的特征提取器 F f ( ⋅ ; θ f ) F_f(\cdot;\theta_f) Ff(;θf),将一个输入的旋转过的图片 X i , y X_{i,y} Xi,y映射到一个固定大小的向量 f i , y = F y ( X i , y ; θ f ) f_{i,y}=F_y(X_{i,y};\theta_f) fi,y=Fy(Xi,y;θf)。分类器 F c ( ⋅ ; θ c ) F_c(\cdot;\theta_c) Fc(;θc)采用特征 f i , y ( 1 ) f_{i,y}^{(1)} fi,y(1)作为输入以估计图像的旋转类型。旋转分类损失函数可以表示为:
L c = 1 N K ∑ i = 1 N ∑ y = 1 K w i , y l ( F c ( f i , y ( 1 ) ; θ c ) , y ) (4) L_c=\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kw_{i,y}l(F_c(f_{i,y}^{(1)};\theta_c),y)\tag{4} Lc=NK1i=1Ny=1Kwi,yl(Fc(fi,y(1);θc),y)(4)
与等式3不同,因为此处仅使用特征f的一部分来识别旋转。

旋转无关紧要 :为了实现旋转无关特征的目标,我们在具有不同旋转角度的同一图像的各个特征之间实施相似性。即:给定图像的旋转副本: { X y } y = 1 K \{X_y\}_{y=1}^K {Xy}y=1K,它们的特征 { f y ( 2 ) } y = 1 K \{f_y^{(2)}\}_{y=1}^K {fy(2)}y=1K应该尽可能彼此相似。我们通过最小化每个特征 { f y ( 2 ) } y = 1 K \{f_y^{(2)}\}_{y=1}^K {fy(2)}y=1K和它们的平均特征向量 f ‾ = 1 K ∑ y = 1 K f y ( 2 ) \overline{f}=\frac{1}{K}\sum_{y=1}^Kf_y^{(2)} f=K1y=1Kfy(2)的距离来解决此问题,并将目标函数写为:
L r = 1 N K ∑ i = 1 N ∑ y = 1 K d ( f i , y ( 2 ) , f ‾ i ) (5) L_r=\frac{1}{NK}\sum_{i=1}^N\sum_{y=1}^Kd(f_{i,y}^{(2)},\overline{f}_i)\tag{5} Lr=NK1i=1Ny=1Kd(fi,y(2),fi)(5)
为了计算效率,我们采用欧几里得距离,即: d ( x , y ) = ∥ x − y ∥ 2 d(x,y)=\begin{Vmatrix}x-y\end{Vmatrix}_2 d(x,y)=xy2

然而,只有这个目标函数只能产生微不足道的解决方案。尽管相同图像在不同旋转角度下的特征是相似的,但是网络可以简单地输出相同矢量(例如零矢量),而与输入图像无关。因此,除了等式5,我们希望与旋转无关的特征相对于图片实例具有区分性,而不是旋转类别的区分性。可以应用非参数分类[48]来避免这种退化的解决方案。

图像实例分类:对于同一图像,在不同旋转下,特征f(2)彼此之间的相似性要比对不同图像的特征f(2)更相似。由于图像的旋转副本的特征已被约束为接近等式5中的平均特征向量,因此我们继续进行区分和散布这些平均特征。在非参数分类中,将图像X预测为数据集中第i个实例的概率为:
P ( i ∣ f ^ ) = exp ⁡ ( f i T ^ f ^ / τ ) ∑ j = 1 N exp ⁡ ( f j T ^ f ^ / τ ) (6) P(i|\hat{f})=\frac{\exp(\hat{f_i^T}\hat{f}/\tau)}{\sum_{j=1}^N\exp(\hat{f_j^T}\hat{f}/\tau)}\tag{6} P(if^)=j=1Nexp(fjT^f^/τ)exp(fiT^f^/τ)(6)
其中 f ^ \hat{f} f^ f ‾ \overline{f} f L 2 L_2 L2归一化版本, τ \tau τ是温度参数。给定训练数据集S,我们关注于最小化负对数似然:
L n = − ∑ i = 1 N log ⁡ P ( i ∣ f i ^ ) (7) L_n=-\sum_{i=1}^N\log P(i|\hat{f_i})\tag{7} Ln=i=1NlogP(ifi^)(7)
为了减轻在大型数据集上计算等式7的时间和空间,我们在归一化之前将均值特征线性映射到128维矢量,并采用噪声常数估计(NCE)和近端正则化[48]。目的是最小化以下损失函数:
L n = − E P d [ log ⁡ h ( i , f i ^ ( t − 1 ) ) − λ ∥ f i ^ ( t ) − f i ^ ( t − 1 ) ∥ 2 2 ] − m ⋅ E P n [ log ⁡ ( 1 − h ( i , f ′ ^ ( t − 1 ) ) ) ] (8) L_n=-\mathbb{E}_{P_d}\left[\log h(i,\hat{f_i}^{(t-1)})-\lambda\begin{Vmatrix}\hat{f_i}^{(t)}-\hat{f_i}^{(t-1)}\end{Vmatrix}_2^2\right]\\-m\cdot\mathbb{E}_{P_n}\left[\log(1-h(i,\hat{f^{\prime}}^{(t-1)}))\right]\tag{8} Ln=EPd[logh(i,fi^(t1))λfi^(t)fi^(t1)22]mEPn[log(1h(i,f^(t1)))](8)
其中 h ( i , f ^ ) : = P ( i ∣ f ^ ) / [ p ( i ∣ f ^ ) + m P n ( i ) ] h(i,\hat{f}):=P(i|\hat{f})/\left[p(i|\hat{f})+mP_n(i)\right] h(i,f^):=P(if^)/[p(if^)+mPn(i)] P d P_d Pd代表实际数据的分布, P n P_n Pn代表NCE中噪声的均匀分布。 f ′ ^ \hat{f^{\prime}} f^是另一个图像的归一化特征。

生成的模型包含三个核心模块:旋转分类(Eq.4),旋转不相关(Eq.5)和图像实例分类(Eq.8),可以写成:
min ⁡ θ f , θ c λ c L c + λ r L r + λ n L n (9) \min_{\theta_f,\theta_c}\lambda_cL_c+\lambda_rL_r+\lambda_nL_n\tag{9} θf,θcminλcLc+λrLr+λnLn(9)我们将 f ( 1 ) f^{(1)} f(1) f ( 2 ) f^{(2)} f(2)串联起来表示一个输入图像。图像特征由与旋转相关和不相关的组件组成,这两个组件均包含丰富的高级语义图像表示。 f ( 1 ) f^{(1)} f(1)将包含必要的信息,例如显着物体的位置及其默认方向,以预测图像旋转。另一方面, f ( 2 ) f^{(2)} f(2)没有与旋转有关的信息,而是更多地关注每个图像的差异。

4 实验

在本节中,我们进行实验以证明我们方法的有效性。如果以无监督的方式学习到的视觉表示是有效且通用的,它们将很好地推广到各种任务。首先,我们定性地分析了通过该算法学习到的网络。然后,我们在几个标准的迁移学习基准上报告结果。

4.1 实现细节

为了与以前的工作进行比较,我们使用由pytorch [24]实现的标准AlexNet体系结构,减少它的通道数作为特征提取器 F f ( ⋅ ; θ f ) F_f(\cdot;\theta_f) Ff(;θf)。它由五个卷积层和两个全连接层组成。我们省略了局部响应归一化(LRN)层,并在每个线性层之后添加了批归一化(BN),这是最近的自监督学习方法中的常见的过程[10,52,12,53, 17,48,44 ,6]。将解耦的特征 f ( 1 ) f^{(1)} f(1) f ( 2 ) f^{(2)} f(2)简单设置为具有相同的尺寸,即将表示 f f f分为两半。我们使用一层线性网络实现旋转分类器 F c ( ⋅ ; θ c ) F_c(\cdot;\theta_c) Fc(;θc)。在我们的模型中, γ \gamma γ τ \tau τ m m m分别设置为2,0.07和4096。我们简单的将用于损失平衡的参数 λ c \lambda_c λc λ r \lambda_r λr λ n \lambda_n λn都设置为1。我们在ILSVRC 2012训练集上将模型训练了总共200个epoch。最初将学习率设置为0.01,然后在前90个周期后每40个周期衰减10倍。训练网络使用0.9的动量,192的批量大小,权重 θ \theta θ L 2 L_2 L2惩罚为 5 ⋅ 1 0 − 4 5\cdot10^{-4} 5104

4.2 定性分析

最近邻居检索:自监督训练有望为语义相似的图像分配相似的特征。我们首先对ImageNet ILSVRC 2012验证集执行最近邻检索,以测试学习到的特征捕获语义信息的能力。我们将其与RotNet基线进行比较,以了解特征去耦的效果。 我们的模型从特征提取器网络 F f ( ⋅ ; θ f ) F_f(\cdot;\theta_f) Ff(;θf)输出的4,096维向量中获取特征。相应的,RogNet从 FC7层获取特征。我们使用余弦相似度计算特征之间的距离。

图3中从左到右按距离递增的顺序排列了一些样本的检索内容。RotNet和所提出的模型都能够捕获某些类别的图像中的语义。RotNet和我们的模型在包含显着对象并且旋转明确的随机选择图像上的结果都令人满意。我们的模型有时可以捕获更细粒度的相似性。例如,在第二行中,RotNet检索一些相似的背景植物,而不是前景对象鸟。在子弹头列车上,我们的模型成功找到了相同类别的图像,而不是普通的车辆。此外,对于某些旋转不可知的图像查询,RotNet无法提取图像中对象的潜在信息。 RotNet检索到的许多图像与查询完全无关(标有红色边框)。这可能是因为RotNet更加关注对象的形状,而对不同实例的判别却较少。相反,我们的模型可以针对这些查询返回语义上更相似的图像,这确认了我们模型在实例级别的区分能力。
Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第3张图片
图3:最近邻居检索结果。我们在ImageNet验证集中显示RotNet的七个最近邻居和功能去耦网络。查询包含随机选择的图像(上四行)和不可旋转的图像(下四行)。语义上不相关的检索标有红色边框。

滤波器可视化:为了更好地了解通过我们的方法学习到的滤波器和特征,我们使用了不同的网络可视化技术。图4示出了来自第一层[25]的滤波器,使每个卷积层的某个通道的某些激活最大化的合成图像[15、50]和最大激活的图像[51]。我们发现模型中的较深层似乎捕获了更复杂和抽象的纹理结构。
Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第4张图片
图4:过滤器可视化。我们绘制了来自conv1层的过滤器,并显示了可以最大程度地激活不同卷积层中某个通道的特定功能图的合成图像。对应于该通道的ImageNet训练集中的前9张激活的图像在右侧。

4.3激活的线性分类

仿照Zhanget等 [52],我们在不同卷积层提取的特征的顶部训练线性分类器。该分类结果表示所学习表示的特定于任务的能力,特别是对对象类别的判别能力。通常,我们会在ILSVRC 2012 [45]和Places数据集[54]上进行这项研究。冻结特征提取器网络的所有权重,并在空间上调整特征图的大小(使用自适应最大池),以具有约9,000个元素。结果分别记录在表1和2中。表中的所有方法均使用基于AlexNet的网络,并且在ImageNet上进行了预训练,除了ImageNet标签,Places标签和Random条目外,没有标签。(带有*标记的方法使用的是更大版本的AlexNet,但没有分组或通道数量减少,而卷积层中的参数将增加50%,通常会提高性能。 在本文中,我们还报告了该网络上的结果)我们在[36,39]中报告了每种方法的最佳编号。我们还在补充材料中在ImageNet上提供了非线性分类的结果。

在ImageNet上,我们的方法从conv3t到conv5取得了最先进的结果。我们在conv1和conv2上的结果与以前的结果和ImageNet标签条目相当。请注意,网络的较低层通常捕获图像中的低级信息(如边缘或轮廓),并且具有相对较低的迁移精度,因此通常很少直接使用这些特征。重要的是要注意,大多数先前工作的性能会沿神经网络深度降低。与之形成鲜明对比的是,我们成功缩小了I​​mageNet标签在更高层上的差距。最大的改进(7.8%)是在conv5层上实现的,该层通常提取抽象语义信息。这表明我们的方法提取的高级功能在实际应用中更有希望。

在Places数据集上,我们方法的结果呈现出与ImageNet相似的趋势。我们在Conv4和Conv5层取得了最大的精度,同时在Conv1到Conv3上也取得了可比较的精度。在Conv5层,我们取得了最先进的3.7%。
Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第5张图片

4.4 PASCAL VOC上的多标签分类,目标检测和语义分割

我们在PASCAL VOC数据集上测试了学习到的特征的可传递性[16]。我们使用无监督的训练网络 F f ( ⋅ ; θ f ) F_f(\cdot;\theta_f) Ff(;θf)作为PASCAL上任务的初始化模型。分类和检测的性能通过平均均值精度(mAP)进行测量,分割的性能则通过平均跨界联合(mIU)进行测量。在传输过程中,我们将批量归一化参数吸收到其先前的线性层中,并且在微调期间不使用BN层。 Kr̈ahenb̈uhlet等人提出的依赖数据的缩放方法[22]作为标准惯例,用于在所有实验中重新调整权重。表3总结了我们的方法与其他方法的比较。我们在所有这三个任务上都优于以前的方法。

PASCAL VOC 2007上的分类:我们使用Kr̈ahenb̈uhl(https://github.com/philkr/voc-classification)提供的开源协议执行多标签分类。我们在训练集上微调整个网络或仅fc6-8层,并在测试集上评估。我们的方法可以改进RotNet(目前分类的最佳方法)。可以观察到,更大的AlexNet模型将带来性能上的提升。

在PASCAL VOC 2007上的检测:对于物体检测,我们使用自监督训练的网络作为Fast-RCNN[18]的初始化。我们使用Girshick提供的公开测试框架[18],并使用多尺度训练和单尺度测试。第一层的权重在微调期间是固定的,因为它是Fast-RCNN中的默认设置。以57.5%的mAP,我们达到了最佳结果。补充材料中还提供了我们方法的每类检测性能。

在PASCAL VOC 2012上进行分割:我们使用FCN [33]在PASCAL VOC 2012训练集上微调模型并在测试集进行评估。我们的方法比最新技术高出2.7%。

4.5 讨论

消融研究:要查看模型中每个组件的影响,我们对具有固定特征的ImageNet线性分类进行消融研究。我们比较旋转预测任务(Rotation),旋转无关实例分类(Instance),这两个任务的组合(Rotation + Instance)和考虑未标记集中的嘈杂标签(PURotation +Instance)。表4的中间四行显示了不同组件的性能。当考虑旋转识别,噪声标签和实例识别时,该模型的效果最佳。

不同的配置:我们通过在ImageNet上的线性分类评估各种设计选择的效果。我们比较特征提取器网络 F f ( ⋅ ; θ f ) Ff(\cdot;\theta_f) Ff(;θf)的不同结构:AlexNet(conv5)的卷积层,conv5具有一个全连接层(fc6)的情况和conv5具有两个全连接层(fc7)的情况。结果总结在表4的下三行中。当高层的特征被解耦时,高层将学习到更好的特征。有趣的是,下层的性能趋于下降。这可能是因为将损失函数应用于较高层时,有效的梯度信息对较低层的帮助较小。

旋转特征评估:我们最终证明,当下游任务中的图像表现出旋转对称性时,解耦特征更适合。为此,我们将PASCAL VOC 2007中的图像旋转90度的倍数(即90、180和270),并在分类任务上评估。旋转后的数据集有20,044张用于训练的图像和19,808张用于测试的图像(是原始数据集的4倍)。具有不同旋转角度的每个实例共享相同的类标签。我们直接在上半部分(旋转相关)特征 f ( 1 ) f^{(1)} f(1),下半部分(旋转无关)特征 f ( 2 ) f^{(2)} f(2)和复合解耦特征的顶部训练线性分类器。我们生产ImageNet标签和基准RotNet的结果,并报告以作参考。我们还考虑针对三种不同的方法对fc6-8进行微调。如表5所示,RotNet学习到的特征以及我们模型中与旋转相关的那一半特征性能较差。原因是它们对于图像旋转具有区分性,并且在旋转的数据集中没有很好的泛化能力。该结果表明,考虑旋转相关特征和不相关特征都是有益的。我们的方法更适合于需要旋转不变的视觉任务。
Self-Supervised Representation Learning by Rotation Feature Decoupling (旋转特征解耦的自我监督表示学习)_第6张图片

5 结论

在本文中,我们提出了一种无监督的表示学习方法,该方法学习包含旋转相关部分和不相关部分的有意义的语义特征。我们的方法从区分单个实例中分离出图像旋转预测。与标准的自监督学习基准相比,特征的迁移可实现比最新方法更高的性能。解耦特征的优点在旋转不可知任务中得到进一步证明。我们相信,为自监督型学习引入更多分析特性的表示,对推广很有帮助,并且是一个有前途的未来方向。

参考文献

[1] Pulkit Agrawal, Joao Carreira, and Jitendra Malik. Learningto see by moving. InThe IEEE International Conference onComputer Vision (ICCV), December 2015.
[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and DeviParikh. Vqa: Visual question answering. InThe IEEE Inter-national Conference on Computer Vision (ICCV), December2015.
[3] Ignacio Arganda-Carreras, Srinivas C. Turaga, Daniel R.Berger, Dan Cires ̧an, Alessandro Giusti, Luca M. Gam-bardella, J ̈urgen Schmidhuber, Dmitry Laptev, SarveshDwivedi, Joachim M. Buhmann, Ting Liu, Mojtaba Seyed-hosseini, Tolga Tasdizen, Lee Kamentsky, Radim Burget,Vaclav Uher, Xiao Tan, Changming Sun, Tuan D. Pham,Erhan Bas, Mustafa G. Uzunbas, Albert Cardona, JohannesSchindelin, and H. Sebastian Seung. Crowdsourcing the cre-ation of image segmentation algorithms for connectomics.Frontiers in Neuroanatomy, 9:142, 2015.
[4] Jessa Bekker and Jesse Davis. Learning from positive andunlabeled data: A survey.arXiv:1811.04820, 2018.
[5] Y. Bengio, A. Courville, and P. Vincent. Representationlearning: A review and new perspectives.IEEE Transactionson Pattern Analysis and Machine Intelligence, 35(8):1798–1828, Aug 2013.
[6] Mathilde Caron, Piotr Bojanowski, Armand Joulin, andMatthijs Douze. Deep clustering for unsupervised learningof visual features. In Vittorio Ferrari, Martial Hebert, Cris-tian Sminchisescu, and Yair Weiss, editors,Computer Vision– ECCV 2018, pages 139–156, Cham, 2018. Springer Inter-national Publishing.
[7] Taco Cohen and Max Welling. Group equivariant convo-lutional networks. In Maria Florina Balcan and Kilian Q.Weinberger, editors,Proceedings of The 33rd InternationalConference on Machine Learning, volume 48 ofProceed-ings of Machine Learning Research, pages 2990–2999, NewYork, New York, USA, 20–22 Jun 2016. PMLR.
[8] Robert K Cowen, S Sponaugle, K Robinson, and J Luo.Planktonset 1.0: Plankton imagery data collected from fgwalton smith in straits of florida from 2014–06-03 to 2014–06-06 and used in the 2015 national data science bowl (nceiaccession 0127422).NOAA National Centers for Environ-mental Information, 2015.
[9] Sander Dieleman, Jeffrey De Fauw, and Koray Kavukcuoglu.Exploiting cyclic symmetry in convolutional neural net-works. In Maria Florina Balcan and Kilian Q. Weinberger,editors,Proceedings of The 33rd International Conferenceon Machine Learning, volume 48 ofProceedings of MachineLearning Research, pages 1889–1898, New York, New York,USA, 20–22 Jun 2016. PMLR.
[10] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsu-pervised visual representation learning by context prediction.InThe IEEE International Conference on Computer Vision(ICCV), December 2015.
[11] Carl Doersch and Andrew Zisserman. Multi-task self-supervised visual learning. InThe IEEE International Con-ference on Computer Vision (ICCV), Oct 2017.
[12] Jeff Donahue, Philipp Kr ̈ahenb ̈uhl, and Trevor Darrell. Ad-versarial feature learning. InInternational Conference onLearning Representations, 2017.
[13] Alexey Dosovitskiy, Jost Tobias Springenberg, Martin Ried-miller, and Thomas Brox. Discriminative unsupervised fea-ture learning with convolutional neural networks. In Z.Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, andK. Q. Weinberger, editors,Advances in Neural InformationProcessing Systems 27, pages 766–774. Curran Associates,Inc., 2014.
[14] Charles Elkan and Keith Noto. Learning classifiers from onlypositive and unlabeled data. InProceedings of the 14th ACMSIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’08, pages 213–220, New York, NY,USA, 2008. ACM.
[15] Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pas-cal Vincent. Visualizing higher-layer features of a deep net-work. Technical Report 1341, University of Montreal, June2009. Also presented at the ICML 2009 Workshop on Learn-ing Feature Hierarchies, Montr ́eal, Canada.
[16] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I.Williams, J. Winn, and A. Zisserman. The pascal visual ob-ject classes challenge: A retrospective.International Journalof Computer Vision, 111(1):98–136, Jan. 2015.
[17] Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Un-supervised representation learning by predicting image rota-tions. InInternational Conference on Learning Representa-tions, 2018.
[18] Ross Girshick. Fast r-cnn. InThe IEEE International Con-ference on Computer Vision (ICCV), December 2015.
[19] Fengxiang He, Tongliang Liu, Geoffrey I Webb, andDacheng Tao. Instance-dependent PU learning by bayesianoptimal relabeling.arXiv:1808.02180, 2018.
[20] Jo ̃ao F. Henriques and Andrea Vedaldi. Warped convolu-tions: Efficient invariance to spatial transformations. InDoina Precup and Yee Whye Teh, editors,Proceedings ofthe 34th International Conference on Machine Learning,volume 70 ofProceedings of Machine Learning Research,pages 1461–1469, International Convention Centre, Sydney,Australia, 06–11 Aug 2017. PMLR.
[21] Simon Jenni and Paolo Favaro. Self-supervised feature learn-ing by learning to spot artifacts. InThe IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR), June2018.
[22] Philipp Kr ̈ahenb ̈uhl, Carl Doersch, Jeff Donahue, and TrevorDarrell. Data-dependent initializations of convolutional neu-ral networks. InInternational Conference on Learning Rep-resentations, 2016.
[23] Jan Kremer, Fei Sha, and Christian Igel. Robust active la-bel correction. In Amos Storkey and Fernando Perez-Cruz,editors,Proceedings of the Twenty-First International Con-ference on Artificial Intelligence and Statistics, volume 84 ofProceedings of Machine Learning Research, pages 308–316,Playa Blanca, Lanzarote, Canary Islands, 09–11 Apr 2018.PMLR.
[24] Alex Krizhevsky. One weird trick for parallelizing convolu-tional neural networks.CoRR, abs/1404.5997, 2014.
[25] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.Imagenet classification with deep convolutional neural net-works. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q.Weinberger, editors,Advances in Neural Information Pro-cessing Systems 25, pages 1097–1105. Curran Associates,Inc., 2012.
[26] Dmitry Laptev, Nikolay Savinov, Joachim M. Buhmann, andMarc Pollefeys. Ti-pooling: Transformation-invariant pool-ing for feature learning in convolutional neural networks.InThe IEEE Conference on Computer Vision and PatternRecognition (CVPR), June 2016.
[27] Gustav Larsson, Michael Maire, and GregoryShakhnarovich. Learning representations for automaticcolorization. In Bastian Leibe, Jiri Matas, Nicu Sebe, andMax Welling, editors,Computer Vision – ECCV 2016, pages577–593, Cham, 2016. Springer International Publishing.
[28] Gustav Larsson, Michael Maire, and GregoryShakhnarovich. Colorization as a proxy task for visualunderstanding. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), July 2017.
[29] S. Lazebnik, C. Schmid, and Jean Ponce. Semi-localaffine parts for object recognition. InProceedings ofthe British Machine Vision Conference, pages 98.1–98.10.BMVA Press, 2004. doi:10.5244/C.18.98.
[30] Hsin-Ying Lee, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Unsupervised representation learning by sort-ing sequences. InThe IEEE International Conference onComputer Vision (ICCV), Oct 2017.
[31] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll ́ar, and C. LawrenceZitnick. Microsoft coco: Common objects in context. InDavid Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuyte-laars, editors,Computer Vision – ECCV 2014, pages 740–755, Cham, 2014. Springer International Publishing.
[32] T. Liu and D. Tao. Classification with noisy labels by impor-tance reweighting.IEEE Transactions on Pattern Analysisand Machine Intelligence, 38(3):447–461, March 2016.
[33] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. InTheIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), June 2015.
[34] David G. Lowe. Distinctive image features from scale-invariant keypoints.International Journal of Computer Vi-sion, 60(2):91–110, Nov 2004.
[35] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Raviku-mar, and Ambuj Tewari. Learning with noisy labels. InC. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani,and K. Q. Weinberger, editors,Advances in Neural Informa-tion Processing Systems 26, pages 1196–1204. Curran Asso-ciates, Inc., 2013.
[36] T. Nathan Mundhenk, Daniel Ho, and Barry Y. Chen. Im-provements to context based self-supervised learning. InTheIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), June 2018.
[37] Mehdi Noroozi and Paolo Favaro. Unsupervised learningof visual representations by solving jigsaw puzzles. In Bas-tian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors,Computer Vision – ECCV 2016, pages 69–84, Cham, 2016.Springer International Publishing.
[38] Mehdi Noroozi, Hamed Pirsiavash, and Paolo Favaro. Rep-resentation learning by learning to count. InThe IEEE Inter-national Conference on Computer Vision (ICCV), Oct 2017.
[39] Mehdi Noroozi, Ananth Vinjimoor, Paolo Favaro, andHamed Pirsiavash. Boosting self-supervised learning viaknowledge transfer. InThe IEEE Conference on ComputerVision and Pattern Recognition (CVPR), June 2018.
[40] Curtis G. Northcutt, Tailin Wu, and Isaac L. Chuang. Learn-ing with confident examples: Rank pruning for robust classi-fication with noisy labels. InProceedings of the Thirty-ThirdConference on Uncertainty in Artificial Intelligence, UAI’17.AUAI Press, 2017.
[41] Andrew Owens, Jiajun Wu, Josh H. McDermott, William T.Freeman, and Antonio Torralba. Ambient sound provides su-pervision for visual learning. In Bastian Leibe, Jiri Matas,Nicu Sebe, and Max Welling, editors,Computer Vision –ECCV 2016, pages 801–816, Cham, 2016. Springer Inter-national Publishing.
[42] Deepak Pathak, Ross Girshick, Piotr Dollar, Trevor Darrell,and Bharath Hariharan. Learning features by watching ob-jects move. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), July 2017.
[43] Deepak Pathak, Philipp Kr ̈ahenb ̈uhl, Jeff Donahue, TrevorDarrell, and Alexei A. Efros. Context encoders: Featurelearning by inpainting. InThe IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), June 2016.
[44] Zhongzheng Ren and Yong Jae Lee. Cross-domain self-supervised multi-task feature learning using synthetic im-agery. InThe IEEE Conference on Computer Vision andPattern Recognition (CVPR), June 2018.
[45] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, San-jeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy,Aditya Khosla, Michael Bernstein, Alexander C. Berg, andLi Fei-Fei. Imagenet large scale visual recognition challenge.International Journal of Computer Vision, 115(3):211–252,Dec 2015.
[46] Clayton Scott. A Rate of Convergence for Mixture Propor-tion Estimation, with Application to Learning from NoisyLabels. In Guy Lebanon and S. V. N. Vishwanathan, ed-itors,Proceedings of the Eighteenth International Confer-ence on Artificial Intelligence and Statistics, volume 38 ofProceedings of Machine Learning Research, pages 838–846,San Diego, California, USA, 09–12 May 2015. PMLR.
[47] Xiaolong Wang and Abhinav Gupta. Unsupervised learningof visual representations using videos. InThe IEEE Inter-national Conference on Computer Vision (ICCV), December2015.
[48] Zhirong Wu, Yuanjun Xiong, Stella X. Yu, and Dahua Lin.Unsupervised feature learning via non-parametric instancediscrimination. InThe IEEE Conference on Computer Visionand Pattern Recognition (CVPR), June 2018.
[49] Pengyi Yang, Wei Liu, and Jean Yang. Positive unlabeledlearning via wrapper-based adaptive sampling. InProceed-ings of the Twenty-Sixth International Joint Conference onArtificial Intelligence, IJCAI-17, pages 3273–3279, 2017.
[50] Jason Yosinski, Jeff Clune, Thomas Fuchs, and Hod Lipson.Understanding neural networks through deep visualization.InICML Workshop on Deep Learning, 2015.
[51] Matthew D. Zeiler and Rob Fergus. Visualizing and under-standing convolutional networks. In David Fleet, Tomas Pa-jdla, Bernt Schiele, and Tinne Tuytelaars, editors,ComputerVision – ECCV 2014, pages 818–833, Cham, 2014. SpringerInternational Publishing.
[52] Richard Zhang, Phillip Isola, and Alexei A. Efros. Color-ful image colorization. In Bastian Leibe, Jiri Matas, NicuSebe, and Max Welling, editors,Computer Vision – ECCV2016, pages 649–666, Cham, 2016. Springer InternationalPublishing.
[53] Richard Zhang, Phillip Isola, and Alexei A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channelprediction. InThe IEEE Conference on Computer Vision andPattern Recognition (CVPR), July 2017.
[54] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Tor-ralba, and Aude Oliva. Learning deep features for scenerecognition using places database. In Z. Ghahramani, M.Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger,editors,Advances in Neural Information Processing Systems27, pages 487–495. Curran Associates, Inc., 2014.

你可能感兴趣的:(计算机视觉)