无监督表示学习:通过预测图像旋转_Supervised Representation Learning By Predicting Image Rotations—2018(笔记)

Unsupervised Representation Learning By Predicting Image Rotations—2018

通过预测图像旋转实现无监督表示学习—2018(笔记)

摘要

  1. 文章提出,通过训练ConvNets来识别输入图像的2D旋转来学习图像特征。在质量和数量上证明了这个看似简单的任务,实际上为语义特征学习提供了非常强大的监督信号。

引言

  1. 文章遵循自监督的范例,通过训练ConvNets识别几何变换后的输入图像来学习图像表示。首先定义一小组离散几何变换,应用于数据集上的每个图像,馈送到训练并识别每个图像变换的ConvNet模型中。无监督表示学习:通过预测图像旋转_Supervised Representation Learning By Predicting Image Rotations—2018(笔记)_第1张图片

  2. 为了实现无监督的语义特征学习,正确选择那些几何变换至关重要。我们将几何变换定义为:图像旋转0度,90度,180度和270度。因此,ConvNet模型在4路图像分类任务上进行训练,即识别四个图像旋转中的一个(见图2)。无监督表示学习:通过预测图像旋转_Supervised Representation Learning By Predicting Image Rotations—2018(笔记)_第2张图片

  3. 我们认为,为了使ConvNet模型能够识别应用于图像的旋转变换,需要理解图像中描绘的对象的概念(参见图1),例如它们在图像中的位置,类型和姿态。

  4. 实验证明,尽管我们的自我监督方法很简单,但预测旋转变换的任务为特征学习提供了强大的替代监督信号,并导致相关基准的显着改进。

贡献:

(a) 提出了一个新的自我监督的任务,这个任务非常简单,同时,正如我们在本文中所展示的那样,它为语义特征学习提供了强大的监督信号。

(b) 我们在各种设置(例如半监督或转移学习设置)和各种视觉任务(即CIFAR-10,ImageNet,地方和PASCAL分类,检测或分割任务)中详尽地评估我们的自我监督方法。

(c) 在所有这些中,我们新颖的自我监督的配方展示了最先进的结果,并且有了显着的改进w.r.t.先前的无监督方法。

(d) 因此,我们表明,对于几个重要的视觉任务,我们的自我监督学习方法显着缩小了无监督和监督特征学习之间的差距。

方法

  1. 文章目标:以无监督的方式学习基于ConvNet的语义特征。需训练1个ConvNet模型F(.)估计输入图像的几何变形,定义1组K个离散几何变换G = {g(.|y)}Ky=1, g(.|y)是图像X进行几何变换的操作器,并带有标签y,得到变形图像Xy = g(X|y)。模型F(.)得到输入图像Xy∗,其中标签y*未知,得到关于各几何变形的概率分布:在这里插入图片描述,y是标签,θ是模型F(.)的可学习参数。

  2. 给定1组N个训练图像,D = {Xi}N i=0,需优化的目标函数:无监督表示学习:通过预测图像旋转_Supervised Representation Learning By Predicting Image Rotations—2018(笔记)_第3张图片

  3. 损失函数:无监督表示学习:通过预测图像旋转_Supervised Representation Learning By Predicting Image Rotations—2018(笔记)_第4张图片

选择几何变换:图像旋转

  1. 强制学习语义特征:使用这些图像旋转作为几何变换集合的核心直觉涉及一个简单的事实,即ConvNet模型基本上不可能有效地执行上述旋转识别任务,除非它首先学会识别并检测对象的类别以及它们在图像中的语义部分。更具体地说,为了成功预测图像的旋转,ConvNet模型必须学会定位图像中的显着对象,识别它们的方向和对象类型,然后将对象方向与主导方向联系起来,每种类型的对象都倾向于在可用的图像中被描述。

  2. 在图3b中,我们可视化由在旋转识别任务上训练的模型生成的一些注意力图。这些注意力图是基于卷积层的每个空间单元的激活幅度来计算的,并且基本上反映了网络放置其大部分焦点以便对输入图像进行分类的情况。实际上,我们观察到,为了使模型完成旋转预测任务,它学会专注于图像中的高级对象部分,例如眼睛,鼻子,尾巴和头部。通过将它们与以受监督方式训练在物体识别任务上的模型生成的注意力图进行比较(参见图3a),我们观察到两个模型似乎都集中在大致相同的图像区域上。此外,在图4中,我们可视化由建议的旋转识别任务训练的AlexNet模型学习的第一层滤波器。可以看出,它们似乎在多个方向和多个频率上具有多种边缘滤波器。值得注意的是,这些过滤器似乎比监督对象识别任务所学习的过滤器具有更多的变化。

讨论

  1. 简单表述自我监督任务的几个优点:
    (a) 它具有与监督学习相同的计算成本,类似的训练收敛速度(显着快于基于图像重建的方法;我们的AlexNet模型使用单个Titan X GPU在大约2天内训练),并且可以简单地采用设计的高效并行化方案 对于有监督的学习(Goyal等,2017),使其成为无人监督学习网络规模数据(即数十亿图像)的理想候选者。
    (b) 此外,我们的方法不需要任何特殊的图像预处理程序,以避免学习琐碎的特征,就像许多其他无监督或自我监督的方法那样。
    (c) 尽管我们自己监督的公式很简单,正如我们将在本文的实验部分中看到的那样,我们的方法学到的特征在无监督的特征学习基准上实现了显着的改进。

结论

文章提出了一种用于自我监督特征学习的新颖方法,通过训练ConvNet模型以便能够识别应用于其输入图像的4种(0°、90°、180°、270°)旋转。尽管监督任务很简单,但我们证明它成功地迫使在其上训练的ConvNet模型学习对于各种视觉感知任务有用的语义特征,例如对象识别,对象检测和对象分割。

你可能感兴趣的:(目标识别,计算机视觉,网络结构设计)