Feature_Space_Transfer_for_Data_Augmentation(译)

仅供参考,如有翻译不当的地方,敬请指出

标题:用于数据增强的特征空间迁移Feature Space Transfer for Data Augmentation

作者:Bo Liu  加州大学圣地亚哥分校

Mandar Dixit  微软研究院

Roland Kwitt  奥地利萨尔茨堡大学

Nuno Vasconcelos 加州大学圣地亚哥分校

 

摘要:

研究了特征空间中的数据增强[w1] 问题。提出了一种新的结构,即特征迁移

网络(FATTEN),用于描述物体姿态变化引起的运动轨迹变化。该体系结构利用了位姿流形的位姿和外观参数化。这就形成了一个深层的编码器/解码器[w2] 网络架构,其中编码器影响外观和姿态预测。与以前尝试的轨迹迁移不同,FATTEN可以被有效地端到端训练[w3] ,不需要训练单独的特征迁移函数。这是通过向解码器提供有关目标位姿的信息和使用多任务损失来实现的,这种损失会惩罚类别和姿态的错误匹配。因此,FATTEN可以阻止那些无法捕获位姿流形结构的不连续或非光滑轨迹,并且可以很好地推广到包含较大位姿变化的目标识别任务中。在人工模型网络数据库上的实验结果表明,该算法能够在保持类标识的同时,成功地将源特征映射到目标特征。最值得注意的是,通过使用SUN-RGBD对象上的特征空间转换过程(w.r.t.[w4] 姿态和深度),与当前最先进的方法相比,我们在迁移学习设置中对一个/几个样本对象识别表现出相当大的性能改进。

Feature_Space_Transfer_for_Data_Augmentation(译)_第1张图片

图1所示。姿态变化特征空间传递的示意图。输入特性和迁移特征被投影到外观空间上是相同的点,但在位姿空间中有不同的映射点。

1.引言:

基于大数据集(如ImageNet[2])的卷积神经网络(CNNs)在过去几年里在目标识别等问题上取得了巨大的进展。这些模型不仅可以在识别挑战中实现人类水平的性能,而且可以通过微调轻松地迁移到其他任务。近年来许多研究表明,ImageNet训练的CNNs,如AlexNet[14]、VGG[27]、GoogLeNet[32]、ResNet[9]等,都可以作为特征提取器,用于解决各种各样的问题,如目标检测[6,23]或生成图像标题[12,35]。一个限制是,现有的cnn处理姿态变化的能力仍然有限。这在一定程度上是由于现有数据集的局限性,这些数据集通常是在web上收集的,并且偏向于某种类型的图像。例如,具有明确的“正面视图”(如“沙发”或“时钟”)的对象,很少能够从与正面有显著差异的视角获得。

这对于机器人等应用程序来说是有问题的,因为机器人可能需要导航或操纵这些对象。当实时实现时,当前的cnn倾向于产生相对于视角不稳定的对象标签。所得到的目标识别结果在某些视图下几乎是完美的,而在邻近和非常相似的视图下则差得多。这个问题的一个潜在解决方案是依赖于更大的数据集,使用更密集的观察球采样。然而,由于许多原因,这并非易事。首先,对于许多类来说,在web上很难找到足够多的此类图像。其次,由于现有的识别方法在识别“off-view(离视点)”图像方面是最弱的,因此该过程不容易实现自动化。第三,在实验室收集这些图像的替代品是相当困难的。虽然在过去已经这样做了,例如线圈[17]、NORB[16]或Yale face数据集,但是按照现代标准,这些数据集太小了。通过使用机械表和几个摄像头或构建一个摄像头圆顶来收集数据的设置也不容易复制,也不适合分布式数据集创建工作,比如众包。最后,即使组装起来是可行的,这样的数据集也会非常庞大,因此很难处理。例如,NORB建议每个对象收集9个仰角、36个方位角和6个照明条件,结果得到每个对象1,944张图像。将这个标准应用于ImageNet将会得到一个接近20亿图像的数据集!

其中一些问题可以通过利用计算机生成的图像来解决。这已经成为解决需要多个对象视图的问题的一种既定实践,例如形状识别,合成图像数据集[19,31]经常使用。然而,将基于合成数据的网络应用到真实图像中提出了一个迁移学习的问题。虽然关于这一主题有大量的文献[28,15,24,33,36,26,22],但这些方法通常并不适合于物体姿态的迁移。特别是没有明确说明如图1所示,受位姿变化影响的物体跨越图像空间的低维流形,或CNN特征的对应空间。最近[3]提出了一种属性引导增强(AGA)方法来传递物体沿位姿流形的轨迹。除了学习对目标数据进行泛化的分类器,AGA传输学习系统还包括一个预测模型跨视图响应的模块。更准确地说,给定一个不可见对象的视图,它预测模型对该对象的一组其他视图的响应。这些可以用来增加一次性分类器的训练集,即每个对象需要一个单独的图像进行训练的分类器。虽然这被证明是对一般迁移学习方法的改进,AGA有一些局限性。例如,它将位姿角离散到多个容器中,并在每一对可能的位姿角之间学习独立的轨迹传递函数。虽然这简化了学习,但轨迹不一定是连续的。因此,建模未能捕获其中的一些位姿流形的核心特性,如连续性和平滑性。事实上,360度走动查看领域是不能保证有相同的开始和完成功能响应。根据我们的经验,这些选择损害了迁移的效力。

贡献:

     在这项工作中,我们提出了一个替代方案,特征迁移网络(FATTEN),以解决这些问题。本质上,这是一个编码器-解码器架构,其灵感来自图1[w5] 。我们利用了基于外观映射的姿态轨迹参数化,该参数化捕获了对象颜色和纹理等属性,并且对每个对象都是常数,以及依赖于姿态的姿态映射。编码器将CNN对目标图像的特征响应x映射为一对外观A (x)和位姿P(x)参数。然后解码器需要这些参数+一个目标姿态t = P(ˆx),并产生相应的特征向量ˆx。该网络是端到端训练的,使用多任务损失来解决分类错误和跨视图的特征迁移的准确性。

     研究了 FATTEN的两项性能指标。第一个是多视图检索任务,利用合成的特征向量按对象类和姿态检索图像。这些实验是在流行的ModelNet[37]形状数据集上进行的,实验结果表明,FATTEN可以为计算机图形图像应用生成高质量的特征。这可以用于现在的大型三维形状分类文献[37,20,30,21],在这些文献中此类数据集占主导地位。第二个任务是迁移学习。我们将该架构与通用迁移学习算法和AGA程序的性能进行了比较。我们的结果表明,显式地发展轨迹迁移的方法,以及强迫这些方法学习位姿流形中的连续轨迹,具有显著的好处。FATTEN的架构被证明可以实现最先进的姿态迁移性能。

结构:

在第2节中,我们回顾了相关研究;第3节介绍了所提出的FATTEN结构。第4节给出了ModelNet和SUNRGBD的实验结果,第5节给出了本文的结论,讨论了本文的主要观点,并对有待解决的问题进行了展望。

 

2.相关研究:

    由于物体在图像空间中描述光滑的轨迹,作为视角的函数,这些轨迹跨越图像空间中的三维流形,由视角参数化。因此,文献[25,1,34]中提出的许多流形建模方法,原则上可以用来开发轨迹迁移算法。然而,许多方法是转导性的,即它们不能产生对训练集之外的图像进行预测的功能,也不能利用深度学习的最新进展。虽然深度学习可以用来显式地对位姿流形建模,但这一目的很难依赖于在ImageNet上预先训练的CNNs。这是因为这些网络试图将流形压缩到一个线性分类的空间中。另一方面,响应姿态变化的特征轨迹是现成的。这些轨迹也更容易建模。例如,如果CNN成功地将给定对象的位姿流形映射到单个点,即,表示该对象的总位姿不变性,该问题已经解决,该对象的轨迹倾斜是微不足道的。

    迹迁移的主要目的之一是通过增加不可见物体姿态特征响应的数据集来“充实”特征空间。在这个意义上,这个问题与最近大量关于GANs[7]的文献有关,这些文献已经成功地用于生成图像、图像到图像的翻译[10]、inpainting[18]或styletransfer[5]。虽然我们的工作使用编码器-解码器架构,这在基于gan的图像生成文献中相当常见,但我们的目标是生成不同的CNN特征响应。这阻止了通过姿态流形访问“真实”特征响应的数据集,因为这些通常是未知的。虽然ImageNet CNN可以用来产生一些特征,但我们试图解决的问题正是ImageNet CNNs不能有效地建模位姿流形这一事实。因此,学习匹配“真实”分布的GAN形式主义并不容易适用于轨迹迁移。

相反,轨迹迁移与迁移学习的主题更加密切相关,目前在零样本[28,15,24]或多样本[33, 36, 26, 22]学习等问题上有广泛的研究。然而,这些方法往往是通用的。在某些情况下,它们利用通用语义属性,例如属性或可提供性[15,24],而在另一些情况下,它们仅仅依赖通用机器学习来进行领域适应[28]、迁移学习[36]或最近的元学习[26,4,22]。这些方法都没有利用位姿的特定属性,例如图1的参数化。引入执行这种参数化的网络是改进一般过程传输性能的一种正则化形式。这一点在AGA的工作[3]上得到了证实,并得到了我们的结果的证实,我们的结果显示,与最近的通用方法,如[8]中提出的特征幻觉,相比,我们获得了更大的收益。

最后,对涉及多视图识别的轨迹迁移问题进行了研究。由于多视图成像的成本增加,这些问题通常包括从计算机生成的图像中进行一定程度的学习。例如,这是形状识别文献中已经确立的一种实践,通常使用合成图像数据集[19,31]。这些人工数据集的出现,使得形状识别方法有了丰富的文献[13,37,30,20,21,11],并且已经得出了一些有趣的结论。例如,虽然已经提出了许多表示方法,但是有一些证据表明,使用当前CNNs[30]的简单多视图扩展,可以作为多视图识别的一种方法来解决这个问题。然而,这些方法或结论是如何推广到真实世界的图像,目前尚不清楚。我们的结果表明,在合成数据集(如ModelNet[37])上学习的FATTEN等特征轨迹迁移模型可以成功地迁移到真实图像数据集(如SUN-RGBD[29])上。

 

3.FATTEN的体系结构

        在本节中,我们将描述用于特征空间迁移的架构。

3.1 目的

     在这项研究中,我们假设一个带有姿态标注的训练集是可用的,即{(xn ,pn, yn)} n,其中xnRD是从一个图像中提取的特征向量(例如,CNN激活某一层) ,pn是相应的位姿值,yn是类别标签。位姿值可以是标量pn,例如,观察球面上的方位角,但更一般的是矢量,例如,也可以编码仰角,甚至到物体的距离(物体深度)。问题是学习的特性迁移函数F(xn,p)源特征向量xn映射到一个目标特征向量ˆxn对应于一个新的姿态p。

3.2 FATTEN的体系结构

    FATTEN的结构灵感来自于图1,图中描绘了一个物体在姿态变化下张成的流形。流形M嵌在RD中,由两个变量参数化。首先,是一个外表描述符aRA捕获对象属性,如颜色或纹理。该参数为位姿不变量,即,它对流形上的所有点都具有相同的值。它可以看作是一个对象标识符,用来区分由一个对象张成的流形和由其他对象张成的流形。第二个是pRN构成描述符, 描述流形上对应于特定位姿p的点x的特征。从概念上讲,特征点x可以被认为是一个映射的实现。

φ(a,p) |→ x ∈M .           (1)
 

    FATTEN架构模拟从对象图像提取的特征向量与相关的外观和姿态参数之间的关系和姿态p的参数。这与目标姿态参数t互补,该目标姿态参数t指定与期望特征向量x相关联的姿态。该特性由译码器产生,译码器作用于a、p、t的串联,即[a, p t]。原则上,它将足以依靠ˆx =φ(a,t),即利用编码器的逆作为解码器,经过以下修改,我们得到了最好的结果。

首先,为了阻止编码器/解码器对学习简单地“匹配”特征对的映射,FATTEN实现了[9]的剩余学习范式。特别是编码器-解码器仅用于学习目标特征向量与源特征向量之间的

F(x) = ˆ x−x      (2)

残差。其次,使用两个映射显式恢复外观a和姿态p,而不是使用单个单片编码器。这有助于学习,因为姿态预测器可以在完全监督下学习。第三,源p和目标t参数采用向量编码,而不是连续的值。这使得姿态参数的维数更接近于外观参数的维数,使得学习问题更加均衡。我们发现,学习算法会有忽略位姿参数的倾向,产生较小的目标特征向量多样性。最后,解码器不仅仅是a和t的函数,而是a、p和t的函数,这再次保证了中间表示是高维的,便于解码器的学习。接下来我们将讨论各种网络模块的细节。

3.3 网络模块细节

        编码器。编码器由姿态和外观预测器组成。位姿预测器实现了从特征向量x到位姿参数的映射p = p (x)。姿态首先在内部映射到与外观矢量a相当的维数的代码矢量c∈RN。在FATTEN的当前实现中,这通过三个步骤实现。首先,将姿态空间量化为质心mi的N个单元。然后将每个姿态分配给最近的代表m *的单元,并由识别m *的N维独热编码表示。姿态映射P最终用分类器实现,该分类器将x映射到N-1概率单纯形PN-1上的

p = [p(m1|x),...,p(mN|x)]      (3)

后验概率矢量。这是通过一个两层神经网络实现的,它由一个完全连接的层、批处理规范化和一个ReLU组成,然后是一个softmax层。

        外观预测器实现了从特征向量x到外观描述符a的映射a = A (x)。这是通过一个两层网络实现的,其中每一层由一个完全连接的层、批处理规范化和一个ELU层组成。位姿和外观预测器的输出与目标位姿的一个热编码连接在一起。假设该姿态属于质心mj的单元,则这是t = ej,其中ej是在位置j处具有1的所有零的向量。

 
 
 
 
  
如图2所示,它是一个编码器/解码器架构。编码器的主要目的是反转(1)的映射,给定一个特征向量x,它会生成一个外观估计值,如图2所示。FATTEN架构。这里,id表示身份快捷方式连接,D表示输入特征空间的维数,C表示外观空间的维数,PN−1 表示N−1概率单纯形。

       解码器。解码器将连接外观和姿态参数1的矢量映射到残差x-x中。它是由一个两层网络实现的,其中第一层包含一个全连通层序列、批处理规范化和ELU,第二层

[a ⊕ p ⊕ t]          (4)

是一个全连通层。解码器输出最终与输入特征向量x相加以产生目标特征向量^x。

注:⊕表示向量连接

3.4 训练

       网络是端到端的训练,以便优化导致两个目标的多任务损失。这是通过姿态损失来衡量的,姿态损失是通常用于分类的交叉熵损失,即,

Lp(xˆ,t) = −logρj(P(xˆ)) ,            (5)

其中Feature_Space_Transfer_for_Data_Augmentation(译)_第2张图片
是softmax函数,j是独热矢量t = ej的非零元素。 注意,如图2所示,这需要通过姿态预测器P传递目标特征向量x。 应该强调的是,这仅在训练期间需要,尽管在推理期间也可以测量方程(6)的损失,因为目标公式已知。 这可以作为FATTEN性能的诊断。

第二个目标是为生成的特征向量^x分配与源向量x相同的类标签y。 这有助于在原始对象识别问题上生成具有高识别精度的特征。识别精度取决于用于提取特征向量的网络,在图2中表示为CNN。注意,可以通过端到端方式对该网络进行微调以与FATTEN模块一起操作。 虽然FATTEN原则上可以应用于任何此类网络,但我们的实现基于[27]的VGG16模型。 更具体地说,我们依赖于调整后的VGG16网络的fc7激活作为源和目标特征。 图2的类别预测器是这个网络的fc8层。 该预测器的准确度用交叉熵损失来测量。

Lc(xˆ,y) = −logρy(xˆ) ,     (6)

其中ρ(v)是该网络的softmax输出。 然后将多任务损失定义为

L(xˆ,t,y) = La(xˆ,t) + Lc(xˆ,y) .   (7)

 

       通常,预先训练姿态预测器P(x)以及它的编码器 - 解码器结构是有益的。 这减少了网络的自由度数量,并且最小化了给定特征向量可以与多对姿态和外观参数一致的事实所固有的模糊性。 例如,虽然应该约束从同一对象的视图中提取的所有特征向量x以映射到相同的外观参数值p,但到目前为止我们认为不需要强制执行这样的约束。 由于遮挡等原因,这使得网络具有对外观描述符的小变化的鲁棒性。此外,当使用预训练的姿态预测器时,仅需要学习编码器/解码器的权重。 损失函数使用的子网络的权重是固定的。这最大限度地减少了FATTEN结构过拟合特定姿态值或对象类别的可能性。

 

4.实验

       我们首先在人工ModelNet[w6]  [37]数据集(第4.1节)上训练和评估FATTEN模型,然后评估其在[3](第4.2节)中引入的单样本物体识别任务的特征增强性能。

4.1.ModelNet

       数据集。 ModelNet [37]是一个带有3D体素网格的3D人工数据集。 它包含40个对象类别的4000个形状。 给定3D形状,可以从任何姿态渲染2D图像。 在我们的实验中,我们遵循[30]的渲染策略。 12个虚拟摄像机围绕物体放置,沿z轴增量为30度,高出地面30度。 几个渲染视图如图3所示。训练和测试部门与ModelNet基准测试相同,每个类别使用80个对象进行训练,20个进行测试。然而,该数据集包含一些类别的对称对象,如“bowl”,它们从所有视图生成相同的图像(见图3(b)),还有一些在视图之间缺乏任何独特信息,如“植物”(见图3(c))。对于训练,这些对象被淘汰,剩下的28个对象类别被使用。

图3.示例ModelNet [37]视图:(a)来自一个对象(飞机)的不同视图; (b) - (c)不同视角的对称物体(碗,植物); (d) - (e)四个视图(书架,桌子),差异为90度。

       实现。 所有特征向量x都是从调整好的VGG16网络的fc7激活中收集的。 姿态预测器以学习率0.01进行1000轮的迭代训练,并在测试语料库上进行评估。然后对完整的FATTEN模型进行10,000次的训练,学习率为0.01。 0°-360°的角度范围分为12个非重叠区间,每个区间大小为30°,标记为0-11。 然后,基于其所属的间隔,将任何给定的角度值转换为分类标签。

Feature_Space_Transfer_for_Data_Augmentation(译)_第3张图片

Feature_Space_Transfer_for_Data_Augmentation(译)_第4张图片

表1. ModelNet上的姿态预测错误。Perc 表示错误情况的百分比。

4.1.1特征迁移结果

       FATTEN的特征迁移性能分两步进行评估。 首先评估姿态预测器的准确性,结果列于表1中。绝大多数误差的幅度为180°。 这并不奇怪,因为ModelNet图像没有纹理。 如图3(d) - (e)所示,对于某些对象,180°相差的对象视图可能相似甚至相同。 但是,这不是迁移的实质性问题。 由于对应于180°差异的两个特征向量在特征空间中彼此接近,因此在损失无法清楚地区分它们的地方,FATTEN将生成靠近源的目标特征,这就是目标。 如果忽略这些误差,则姿态预测的准确度为90.8%。

       第二评估步骤,在给定预训练的姿态预测器的情况下,测量整个网络的特征迁移性能。 在训练期间,训练集中的每个特征都将迁移到所有12个视图(包括身份映射)。 在测试期间,对每个测试特征重复此操作。 在测试语料库中生成的特征的姿态和类别预测的准确性列于表2中。 注意,这里,category指的是对象类别或类。 很明显,在大型合成数据集(如ModelNet)上,FATTEN可以生成高质量的特征,如姿态预测准确度96.2%和类别预测准确度83.65%所示。

表2. ModelNet上生成的功能的姿态和类别准确度(以%为单位)。

 

4.1.2使用生成的特征检索

       在ModelNet上执行一组检索实验,以进一步评估FATTEN生成的特征的有效性。 这些实验解决了后者是否可用于检索(1)同一类或(2)相同姿态的实例的问题。 由于所有特征都是从VGG16 fc7层提取的欧几里德距离是x和y之间相似性的合理度量,用于检索相同

d1(x,y) = ||x−y||2      (8)

对象类别的图像。这是因为训练模型以将具有相同类别标签的特征映射到特征空间的相同分区(由类别损失Lc强制执行)。 但是,d1不适合姿态检索。 相反,检索基于姿态预测器P的第二完全连接层的激活,其被表示为γ(x)。姿态距离函数定义为

d2(x,y) = ||γ(x)−γ(y)||2 .           (9)

最后,联合类别和姿态检索的性能用组合距离来度量

dc(x,y) = d1(x,y) + λd2(x,y) .           (10)

要检索的所有查询和实例都基于ModelNet测试语料库中生成的特征。 对于每个生成的特征,执行三个查询:(1)类别,(2)姿态,以及(3)类别和姿态。 将其与在相同实验中从测试语料库中提取的真实特征的性能进行比较。

表3.对于距离函数d1,d2和dc,在测试部分ModelNet上的实际和生成特征的mAP [%]中的检索性能,参见Sec.4.1.2。

       检索结果列于表3中,一些检索示例如图4所示。生成的特征使得姿态检索的mAP[w7] 非常高,甚至高于真实特征的mAP。这是FATTEN成功编码迁移特征中的姿态信息的有力证据。生成的类别检索特征的mAP和两者的组合相对较低。但是,这些任务的实际功能表现也很差。这可能是由于将相同类别的特征映射到定义良好的邻域,或者用于检索的距离度量。当检索在这些度量下执行最近邻搜索时,网络优化图2的两个输出分支的softmax输出上的交叉熵损失。等式(10)的距离可能是特别差的方式在评估联合类别和姿态距离时。在下一节中,我们将看到在生成的特征上使用强分类器(例如,SVM)可以产生显着更好的结果。

图4. Sec.4.1.2实验的一些检索结果。 前两行指的是类别和姿态检索,第3-4行指向类别检索线5-6以构成检索。 错误用红色标出。 对于查询部分中的每对特征,左边的图像是原始图像,而右边的图像是与生成的特征相对应的真实图像。

4.2 单样本对象识别

       上面的实验没有提供关于FATTEN是否为涉及真实世界数据集的任务生成有意义的特征的见解。 在本节中,我们评估了单样本对象识别问题的特征迁移性能。 在此任务中,特征迁移用于特征空间“fatten”或数据增强。根据[3]的设置,从SUN-RGBD [29]收集数据集和基准。

       数据集。 整个SUN-RGBD数据集包含10335个图像及其对应的深度图。 另外,2D和3D边界框可用作对象检测的基础事实。 深度(距摄像机平面的距离)和姿态(围绕3D坐标系垂直轴的旋转)用作此任务中的姿态参数。 [0,5] m的深度范围被分成大小为0.5m的非重叠区间。 对于较大的深度值,包括附加间隔[5,+∞]。 对于姿态,0°-180°的角度范围分为12个非重叠间隔,每个间隔大小为15°。 这些间隔用于独热编码和系统训练。 然而,为了与AGA进行公平比较,在测试过程中,我们将所需的姿态t限制为采用[3]中规定的45°,70°,......,180°的值。 这主要是为了确保我们的系统沿着深度轨迹产生11个合成点,沿着类似于他们的姿态轨迹产生7个合成点。

       SUN-RGBD的第一个5335图像用于训练,其余5000个图像用于测试。 但是,如果仅使用地面实况边界框进行对象提取,则实例既不是平衡的,也不是w.r.t. 类别,也不是w.r.t. 姿态/深度值。 为了解决这个问题,在数据集上调整了Fast-RCNN [6]物体探测器,并且IoU> 0.5(对地面实况框)和检测分数> 0.7的选择性搜索提议用于提取用于训练的对象图像。 由于此策略可生成足够数量的数据,因此可以轻松地按类别平衡训练集,以及姿态和深度。 在测试集中,只有地面实况边界框用于精确对象。 对于来自训练和测试集的所有实例,所有源特征都是从经过调整的Fast-R-CNN检测器的倒数第二层(即fc7)中提取的。

       评估基于[3]中定义的源和目标对象类。 我们将S[w8] 表示为源数据集,并且让T1和T2表示两个不同的(不相交的)目标数据集; 此外,T3 =T1∪T2表示第三个数据集,它是前两个的并集。 表4列出了每个集合中的所有对象类别。 S中的实例仅从SUN-RGBD的训练部分收集,而T1和T2中的实例从测试集中收集。 此外,S不与保证FATTEN无法访问训练/测试图像或类之间的共享知识的任何Ti重叠。

       实现。 姿态和深度的属性预测器以学习率0.01进行1000次训练。 从Sec4.1的ModelNet实验获得的权重开始,对特征迁移网络进行微调,以学习率0.001进行2000次训练。 T1和T2上的分类问题是10类问题,而T3分别是20类问题。 作为单样本学习的基线,我们仅使用每个类的单个实例训练线性SVM。 然后,我们将这些相同的实例提供给特征迁移网络,以生成不同深度和姿态值的人工特征。 具体来说,我们使用11个不同的深度值和7个姿态值。 在特征合成之后,在现在增强(“fatten”)特征集(源和目标特征)上使用相同参数训练线性SVM。

Feature_Space_Transfer_for_Data_Augmentation(译)_第5张图片

表4.源S训练集中的对象类别列表以及两个目标/评估集T1和T2。

Feature_Space_Transfer_for_Data_Augmentation(译)_第6张图片

表5.从SUNRGBD数据集构建的三个不同的少量样本识别问题的单样本识别和五样本识别准确度。 识别准确度(%)平均超过500次随机重复的实验。 基线表示线性SVM实现的识别精度,仅针对每个类的单个实例进行训练。

4.2.1 结果

       表5列出了所有三个评估集的平均单样本识别准确度(超过500次随机重复)。为了进行比较,还报告了相同增强设置中的五样本结果。 表5还列出了最近提出的两种数据增强策略的识别精度,即[8]中引入的特征幻觉以及[3]的属性引导增强(AGA)。

       表5支持一些结论。 首先,与SVM基线相比,FATTEN在所有评估集上实现了大约10个百分点的显着且持续的改进。 这表明FATTEN实际上可以将姿态信息嵌入到特征中并有效地“增强(fitten)”用于训练线性SVM分类器的数据。 其次,最值得注意的是,FATTEN比AGA实现了显着的改善(约5个百分点),并且比[8]的特征幻觉方法有了更大的改进。 FATTEN相对于AGA和AGA在幻觉上的改进性能表明,重要的是1)利用姿态流形的结构(仅FATTEN和AGA),以及2)依赖于能够捕获该流形的定义性质的模型 ,例如特征轨迹的连续性和平滑性(AGA没有)。

       虽然特征幻觉策略在[8]中使用的ImageNet1k低样本设置中运行得非常好,但表5仅显示了基线上的边际增益(特别是在单样本情况下)。可能有几个原因导致它在此设置中失败的原因。首先,每个类别的示例数量([8]中的k)是通过交叉验证设置的超参数。为了使比较公平,我们选择在所有方法中使用相同的值,即k = 19.这可能不是[8]的最佳设置。其次,我们采用与训练生成器时作者使用的相同数量的聚类。但是,最佳值可能取决于数据集([8]中的ImageNet1k与此处的SUN-RGBD相比)。如果没有明确的如何设置此参数的指导原则,适当调整它似乎很有挑战性。第三,[8]的所有结果列出了前5精度,而我们使用前1精度。最后,FATTEN利用姿态和深度来生成更多特征,而幻觉特征生成器是非参数的,并且没有明确地将此信息用于合成。

       FATTEN相对于AGA的改善很可能归因于1)AGA使用单独的合成功能(独立训练)和2)姿态/深度预测器的失败情况,其确定使用哪个特定的合成功能。 在后者的情况下,生成的特征可能信息量较少,或甚至可能混淆任何后续分类

 

5.讨论

       所提出的特征空间中的数据增强体系结构FATTEN旨在学习由图像特性(例如姿态)的变化引起的特征响应的轨迹。然后可以通过一个学习的映射函数容易地遍历这些轨迹,当应用于新类的实例时,通过对应于期望变化的附加样本(例如,姿态)有效地增强了特征空间。在收集大量足够的训练数据以涵盖这些变化的情况下,特征空间的这种“fitten”是非常有益的,如果不是不可能的话。原则上,FATTEN可以用于任何类型的期望(连续)变化,只要可以从外部数据集学习轨迹即可。通过离散变化的空间,例如在姿态的情况下的旋转角度,我们还有效地减少了学习问题的维度并确保该方法有利地扩展到w.r.t.所需变化的不同分辨率。最后,值得指出的是,通过FATTEN的特征空间传输不仅限于对象图像;相反,它是一种通用架构,在某种意义上说,原则上可以学习和迁移任何变化。

 

 

 
       
 

 

 


 [w1]让有限的数据产生更多的等价数据。

假如我们输入网络的图片的分辨率大小是256*256,若采用随机裁剪成224*224的方式,那么一张图最多可以产生32*32张图,数据量扩充将近1000倍。但因许多图相似度太高,实际的效果并不等价。如果再辅助其他的数据增强方法,将获得更多的数据集,这就是数据增强的本质

 

 [w2]编码器(encoder)和解码器(decoder)分别对应着输入序列和输出序列的两个循环神经网络(RNN)编码器的作用是把一个不定长的输入序列转换成一个定长的背景向量c,该背景向量包含了输入序列的信息。解码器s1,s2,..,st',是通过c背景向量拿到编码器中的信息,然后可能再通过rnn进行传递输出y1,y2,...,yt'

 [w3]相对于深度学习,传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。

而深度学习模型在训练过程中,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这是端到端的。

两者相比,端到端的学习省去了在每一个独立学习任务执行之前所做的数据标注,为样本做标注的代价是昂贵的、易出错的

 

 [w4]with regard to  关于

 [w5]图1所示。姿态变化特征空间传递的示意图。输入特性和迁移特征被投影到外观空间上是相同的点,但在位姿空间中有不同的映射点。

Feature_Space_Transfer_for_Data_Augmentation(译)_第7张图片

 [w6]a large- scale 3D CAD model dataset.

 [w7]平均准确率

 [w8]SUN-RGBD数据集

 

你可能感兴趣的:(数字图像处理理论)