CVPR 2019的文章,作者自己根据Reid任务重新设计了一种新的网络结构,比较轻便,对比shuffleNet,mobileNet,SqueezeNet等具有更好的性能。
论文链接:《Omni-Scale Feature Learning for Person Re-Identification》
代码链接:https://github.com/KaiyangZhou/deep-person-reid
作为一个实例级的识别问题,行人再识别(ReID)依赖于具有识别能力的特征,它不仅能捕获不同的空间尺度,还能封装多个尺度的任意组合。我们称这些同构和异构尺度的特征为全尺度特征。本文设计了一种新颖的深度CNN,称为全尺度网络(OSNet),用于ReID的全尺度特征学习。这是通过设计一个由多个卷积特征流组成的残差块来实现的,每个残差块检测一定尺度的特征。重要的是,引入了一种新的统一聚合门用输入依赖的每个channel权重进行动态多尺度特征融合。为了有效地学习空间通道相关性,避免过度拟合,构建块同时使用点卷积和深度卷积。通过逐层叠加这些块,我们的OSNet是非常轻量级的,可以在现有的ReID基准上从零开始训练。尽管它的模型很小,我们的OSNet在6个Reid数据集上到达了state of the art的结果。
1 引言
人的再识别(ReID)是分布式多摄像头监控中的一项基本任务,其目的是匹配出现在不同非重叠摄像头视图中的人。person ReID作为一个实例级识别问题,面临着如图1所示的两大挑战。首先,类内(实例/标识)的变化通常很大,这是由于相机查看条件的变化造成的。例如,图1(a)和(b)中的人都背着背包;相机之间的视角变化(从正面到背面)会给背包区域带来巨大的外观变化,使得匹配同一个人变得困难。其次,类内之间也有小的差异——人们在公共场所经常穿相似的衣服;从远处看,就像在监控视频中常见的那样,他们看起来惊人地相似(见图1中四个人的冒名顶替者)。
图1所示。行人 ReID是一个很难的问题,正如上面的四张三联图所示。每个子图从左到右显示查询图像、真匹配和冒名/假匹配。
为了克服这两个挑战,ReID的关键是学习有区别能力的特性。我们认为,这些特征需要是全尺度的,定义为变量同构尺度和异构尺度的组合,每一个都由多个尺度的混合组成。从图1可以明显看出对全尺度特性的需求。为了匹配和区分人与冒名顶替者,与局部小区域(如鞋子、眼镜)和整体身体区域相对应的特征是很重要的。例如,给定图1(a)(左)中的查询图像,查看全局范围的特性(例如,年轻人,白t恤+灰色短裤组合)将搜索范围缩小到真正的匹配(中)和冒名顶替者(右)。现在,局部尺度(local-scale)特征开始发挥作用——鞋子区域暴露了右边的人是骗子的事实(运动鞋vs.凉鞋)。然而,对于更具挑战性的情况,即使是变量同构尺度的特征也不够。需要更复杂和更丰富的跨多个尺度的特性。例如,要消除图1(d)(右)中的冒名顶替者,需要在前面具有特定标识的白色T恤上添加一些特征。请注意,这个标志本身并没有什么特别之处——如果没有白色T恤作为背景,它可能会与许多其他图案混淆。同样,白色T恤在夏天随处可见(如图1(a))。它是独特的组合,由跨越小(标志尺寸)和中(上身尺寸)尺度的异构特性捕获,这使得这些特性最有效。(即,异构尺度用于捕获中,小目标的局部特征)
然而,现有的ReID模型都没有解决全尺度(omni-scale)特征学习问题。近年来,深度卷积神经网络(CNNs)被广泛应用于人体 ReID学习识别特征[1,2,3,4,5,6]。然而,大多数采用的CNNs,如ResNet[7],最初是为目标分类级识别任务而设计的,这些任务与ReID中的实例级识别任务有本质的不同。对于后者(Reid),如前所述,全尺度(omn-scale)特性更为重要。也存在一些学习多尺度特征的尝试[8,1]。然而,它们都没有能力同时学习同质和异构尺度的特性。
在本文中,我们提出了一种新的用于学习全尺度特征表示的CNN体系结构OSNet。托换构建块(building block)由多个感受野不同的卷积特征流组成(如图2所示),每个流所关注的特征尺度由指数(exponent)决定,指数是一个新的维度因子,跨流线性增加,以确保每个块中捕获不同尺度。关键的是,由统一聚合门(AG)生成的通道权值动态融合得到的多尺度特征图。AG是一种跨所有流共享参数的子网络,具有许多有效的模型训练所需的特性。在可训练的AG下,生成的信道权值依赖于输入,从而实现了动态尺度融合。这种新颖的AG设计为全尺度特征学习提供了极大的灵活性:根据特定的输入图像,门可以通过为特定的流/尺度分配主导权重来聚焦于单个尺度;或者,它可以选择和混合,从而产生异构的特征尺度。
图2。为OSNet提出的构建块的示意图。层的深度在不同的流之间递增,以实现不同的比例。对多尺度特征进行动态聚合,生成全尺度特征。
除了支持全尺度的特性学习,OSNet采用的另一个关键设计原则是设计一个轻量级网络。这带来了几个好处:(1)Reid数据集通常是中等大小,因为在收集跨相机匹配的人的图像时存在困难。因此,具有少量模型参数的轻量级网络不容易过度拟合。(2)在大规模的监控应用中(如全市范围内使用数千台摄像头进行监控),ReID唯一可行的方法就是在摄像头端进行特征提取。不需要将原始视频发送到中央服务器,只需要发送特征即可。对于设备上的处理,小型Reid网络显然是首选。为此,在构建块中,我们将标准卷积分解为点卷积和深度卷积[9,10]。因此,这项工作的贡献既包括全尺度特征学习的概念,也包括在OSNet2中有效地实现它。最终的结果是一个轻量级的ReID模型,它比流行的基于resnet50的模型要小一个数量级,但功能惊人:OSNet在6个人ReID数据集上实现了最先进的性能,远远超过了现有的更大的网络,而且通常优势明显。我们还演示了OSNet在目标类别识别任务(CIFAR[11]和ImageNet[12])和多标签人属性识别任务上的有效性。研究结果表明,全尺度特征学习不仅适用于实例识别,而且适用于大范围的视觉识别任务。
深度ReId结构:大多数现有的深度ReID CNNs[13,14,15,16,17,18,19]借鉴了为通用目标分类问题设计的体系结构,比如ImageNet 1K目标分类。最近,引入了一些架构修改,以反映ReID数据集中的图像只包含一个目标类别的实例(即(人)。他们大多站得笔直。为了利用直立的身体姿势,[5,20,21,22]将辅助监控信号添加到从最后的卷积特征图中水平汇聚的特征中。[4,23,2]设计注意机制,将特征学习集中在前景人物区域。在[24,25,6,26,27]中,通过现成的姿态检测器来学习身体部分特定的CNNs。在[28,29,30]中,CNNs被分支以学习全局和局部图像区域的表示。在[31,1,3,32]中,将不同层提取的多级特征进行组合。然而,这些ReID网络没有一个像我们的OSNet那样在网络的每一层都明确地学习多尺度特性——它们通常依赖于一个外部的位姿模型和/或手工挑选特定的层来进行多尺度学习。此外,不考虑由不同尺度的混合计算得到的非均匀尺度特征。
多尺度和多流深度特征学习:据我们所知,全尺度深度特征学习的概念从未被引入。然而,近年来,多尺度特征学习的重要性已被认识到,多流构件快设计也被采用。与许多具有多流构建块的ReID网络相比[1,8],OSNet存在显著差异。具体来说,[1]中的层设计基于ResNeXt[33],其中每个流以相同的尺度(scale)学习特性,而我们在每个块中的流具有不同的尺度(scale)。与[1]不同的是,[8]中的网络建立在Inception的基础上[34,35],其中多个流最初是为低计算成本而设计的,手工混合了卷积和池化层。相反,我们的构建块严格遵循一个尺度-增量模式(scale-incremental pattern)来捕获广泛的空间尺度。此外,[8]将多流特性与可学习但固定的一次性学习流权值融合在一起,只在最后一个块之后。相比之下,我们使用动态(依赖于输入)通道权值来融合每个构建块中的多尺度特征,从而学习多尺度模式的组合。因此,只要我们的OSNet能够学习全尺度的特征,每个特征通道都有可能捕获单个尺度或多个尺度加权组合的区别特征。我们的实验(见第4.1节)表明,OSNet的性能显著优于[1,8]中的模型。
轻量网络设计:随着嵌入式人工智能成为热门话题,轻量级CNN设计越来越受到关注。SqueezeNet[36]使用1*1卷积压缩特征尺寸。IGCNet[37]、ResNeXt[33]和CondenseNet[38]利用组卷积。Xception[39]和MobileNet系列[9,10]基于深度可分离卷积。在ShuffleNet[40]中,密集的1*1卷积与通道变换分组。在轻量级设计方面,我们的OSNet类似于MobileNet,它使用了分解卷积,并进行了一些修改,这些修改在经验上更适合于全尺度的特性学习。
在本节中,我们将介绍OSNet,它专门学习人体ReID任务的全尺度特性表示。首先对卷积层进行分解,然后引入全尺度残差块和统一聚合门。
分离卷积:为了减少参数的数量,我们采用了深度可分离卷积[9,39],将标准卷积分为两层:点卷积和深度卷积。标准卷积由4D张量,其中k为核大小,c为输入通道的深度,c'为输出通道的深度。为学习输入张量上的空间通道相关关系,其中h为高,w为宽,卷积运算可表示为,其中为非线性映射(ReLU),*表示卷积。为了清楚起见,省略了偏差(biases)。图3(a)描述了标准3*3卷积层的实际实现。
图3。(a)标准3*3卷积。(b)Lite 3*3卷积。DW:Depth-Wise。
设为一个密集连接通道维数的点卷积核,为一个深度卷积核,在每个feature map上用感受野 k 聚合局部信息。通过将 w 分解为,我们将空间-通道相关性的学习分解开来,得到x' = ,如图3(b)所示。计算量由减少到(笔者注:这里论文作者应该是笔误, 参数量应该是:h*w*(K^2 + c)*c' 才对,少作者少乘了一个C'),参数个数由减少到(因为没有偏置项)。当我们分解3*3的卷积时,我们把这样的层称为Lite 3*3。注意,我们的实现不同于原始的深度可分卷积[39],它在点卷积之前应用深度卷积。在实验中,我们发现我们的设计(pointwise-> depthwise)比原始版本(depthwise -> pointwise)更能有效地进行全尺度的特征学习。
图4。(a)baseline bottleneck。(b)提出的bottleneck。AG:聚合门。第一个 /最后个1*1卷积层用于减少/恢复特征维度。
全尺度残差块:我们架构中的构建块是残差瓶颈(bottleneck)[7],它配备了Lite 3*3层(见图4(a))。给定一个输入x,这个瓶颈的目标是学习一个带有映射函数 F 的残差。
其中 F 表示一个Lite 3*3层,它学习单尺度特征(scale=3),注意这里的1*1层在表示法中被忽略,因为它们用于操作特征维度,并且不参与空间信息的聚合[7,33]。
为了实现全尺度表示学习,我们引入一个新的维数指数 t 来扩展残差函数 F,该指数 t 表示特征的尺度。对于,使用 t > 1,我们叠加了t个 Lite 3*3层,这导致了一个大小为(2t+1)*(2t+1)的感受野。然后,待学习的残差,,为表示到 T 的增量尺度之和:
当 T = 1 时,Eq. 2降为Eq. 1。在本文中,我们的bottleneck设置为T = 4(即最大感受野为9*9),如图4(b)所示。这种shotcut连接允许在当前层中学习到的较小尺度的特性在下一层中有效地保存,从而使最终的特性能够捕获整个空间尺度范围。
统一聚合门:到目前为止,每个流都可以为我们提供特定尺度的特征,即,它们是尺度均匀的。为了学习全尺度特征,我们建议以动态的方式组合不同流的输出,即,不同的权重根据输入图像分配到不同的尺度,而不是经过训练后固定。更具体地说,动态尺度融合是通过一种新的聚合门(AG)实现的,它是一种可学习的神经网络。
其中是一个向量(vector),长度跨越的整个通道维数,G(.) 被实现为一个子网络,输出被 sigmoid 函数压扁。更具体地说,子网络G包含三个层:一个全局平均池化层,然后是两个全连接(FC)层。
值得指出的是,与使用单一尺度输出函数提供粗尺度融合相比,我们选择使用通道权值,即, AG子网络的输出,是一个向量,而不是第 t 个流的标量。这种设计产生了更细粒度的融合,可以对每个特性通道进行调优。此外,根据输入数据条件动态计算权重。这对于ReID来说是至关重要的,因为测试图像包含不同于训练中的人的身份,因此更需要一种自适应/输入相关的特征尺度融合策略。
注意,在我们的架构中,所有的特征流在同一个全尺度残差块中共享AG(图4(b)中的虚线框)。这与CNNs中卷积滤波器参数共享在本质上是相似的,因此具有许多优点。首先,参数的数量独立于 T (流的数量),因此模型变得更加可伸缩。其次,统一AG(跨流共享相同的AG模块)在执行反向传播时具有很好的特性。具体地说,假设网络由一个可微的损失函数 L 监督,梯度可以计算出来;梯度w.r.t G。根据式(3)为:
Eq. 4中的第二项表示所有流的监督信号被收集在一起来指导G的学习。当每个流都有自己的门时,这个理想的属性就消失了。
网络结构:OSNet是通过简单地将提出的的轻量级bottleneck逐层叠加而构建的,不需要在网络的不同深度(阶段)定制块。详细的网络架构如表1所示。相比之下,相同的网络结构与标准卷积有690万个参数和33.849亿个多添加(multi-add)操作,这比我们的OSNet与Lite 3*3卷积层设计大3x倍。表1中的标准OSNet在实践中可以很容易地伸缩,以平衡模型大小、计算成本和性能。为此,我们使用宽度multiplier和图像分辨率multiplier,同9,10,40]。
表 1 输入图片尺寸为256 * 128 的OSNet 结构
与之前结构的关系:在多流设计方面,OSNet与Inception[34]和ResNeXt[33]是相关的,但在几个方面有重要的区别。首先,OSNet中的多流设计严格遵循指数(Eq. 2)所规定的尺度-增量原则,即不同的流具有不同的感受野,但构建的Lite 3*3层是相同的(图4(b))。这样的设计可以更有效地捕捉大范围的尺度。相比之下,Inception最初的设计初衷是通过与多个流共享计算来降低计算成本。因此,它的结构,包括卷积和池化的混合运算,是手工制作的。ResNeXt具有多个等尺度流,因此可以在相同的尺度上学习表示。其次,Inception/ResNeXt通过级联(concatenation/)/添加(addition)来聚合特性,而OSNet使用统一的AG (Eq. 3),这有助于学习多尺度特性的组合。关键的是,这意味着融合是动态的,并适应于每个单独的输入图像。因此,OSNet的架构本质上不同于Inception/ResNeXt。第三,OSNet使用分离卷积,因此构建块和随后的整个网络是轻量级的。
数据集和设置:我们对6个广泛使用的person ReID数据集进行了实验:Market1501[41]、CUHK03[13]、DukeMTMC-reID (Duke)[42,43]、MSMT17[44]、VIPeR[45]和GRID[46]。表2提供了详细的数据集统计信息。前四个被认为是“大”数据集,即使它们的大小(最大的MSMT17的大约3万张训练图像)相当适中;而VIPeR和GRID通常太小,如果不使用这些大数据集进行训练,就无法进行训练。对于CUHK03,我们使用767/700划分[47]与检测到的图像。对于VIPeR和GRID,我们首先使用Market1501、CUHK03、Duke和MSMT17 (Mix4)中的训练图像从零开始训练单个OSNet,然后执行微调。在[28]之后,VIPeR和GRID上的结果平均超过10次随机分割。这种微调策略通常被其他深度学习方法采用[3,48,24,28,30]。采用累积匹配特征(CMC)rank-1精度和mAP作为评价指标。
表2 数据集统计。T:train。Q:query。G:gallery
数据增强:图像大小调整为256*128。采用了三种数据增强技术:(1)将图像随机裁剪出256*128的尺寸然后按1.25的因子重新缩放;(2)随机水平翻转;(3)随机擦除[57]。
实现细节:分类层(线性FC + softmax)安装在OSNet的顶部。训练遵循标准分类范式,其中每个人的身份都被视为一个独特的类。与[2,1]类似,采用与标签平滑正则化器[35]交叉熵损失进行监督。为了与现有模型进行公平的比较,我们实现了两个版本的OSNet。一个是从零开始训练,另一个是根据imagenet预训练的权重进行微调。人匹配基于从最后一个FC层提取的512-D特征向量的L2距离(见表1),batch size大小和重量衰减分别设置为64和5e-4。对于从零开始的训练,总共有350个epoch,学习率从0.065开始,在150、225和300个epoch时衰减0.1倍。为了进行微调,我们首先训练随机初始化的分类器(冻结较低的层)10个epoch,学习率为0.00065,然后打开所有层继续训练150个epoch,其中学习率在100个epoch衰减0.1倍。
表 3. 在大型ReID数据集上的结果(%)。很明显,OSNet在所有数据集上都取得了最好的性能,远远超过了已经发布的最先进的ReID方法。值得注意的是,OSNet只有220万个参数,远远低于目前性能最好的基于resnet的方法。- :不是可用的。:模型从零开始训练。:我们的结果。
大数据上的结果:从表3中,我们得到了以下观察结果。(1) OSNet在四个数据集上的性能都优于所有比较方法。具体来说,无论是Rank-1 (R1)的准确度还是mAP, OSNet在Market1501上比第二好的方法的高出约为2%,在CUHK03上为7%,在Duke上为4%。这些改进是显著的——从表 3 可以明显看出,ReID基准测试(尤其是Market1501和Duke)的性能最近已经饱和。至关重要的是,这些改进是通过更小的模型尺寸实现的——大多数现有的最先进的ReID模型使用了ResNet50 backbone,它有超过2400万个参数(考虑到它们定制的额外模块),而我们的OSNet只有220万个参数。这验证了通过一个非常紧凑的网络实现的ReID全尺度特征学习的有效性。(2)无论有没有ImageNet的预训练,OSNet都能产生良好的性能。在为数不多的可以从零开始训练的轻量级ReID模型中(HAN和BraidNet), OSNet显示了巨大的优势。在R1上,OSNet比HAN/BraidNet在Market1501上领先2.4%/9.9%,在Duke上领先4.2%/8.3%。mAP的差距更大。此外,还比较了没有经过ImageNet预训练的通用轻量级CNNs。表 3 显示,OSNet在所有数据集上都大大超过了流行的MobileNet V2和ShuffleNet。注意,这三个网络的模型大小相似。因此,这些结果证明了我们的OSNet的通用性:它支持从通用目标分类任务中进行有效的特性调优,并在从零开始对中等大小的数据集进行训练时,提供了对模型过拟合的鲁棒性。(3)与部署多尺度/多流架构的ReID模型相比,即使用Inception或ResNeXt骨干网的模型[2,25,51,48,1,4](见表3骨干网列),OSNet显然更优越。正如第3节所分析的,这是由于OSNet通过将多个均匀尺度特征与动态聚合门相结合来学习非均匀尺度特征的独特能力。
表 4. 与基于VIPeR和GRID的深度学习方法进行了比较。只报告了排名1的准确度(%)。-:不是可用的。
小数据集上的结果:VIPeR和GRID对于深度ReID方法来说是非常具有挑战性的数据集,因为它们只有数百个训练图像——因此需要在大型ReID数据集上进行训练并对其进行微调。表 4 比较了OSNet和六种最先进的deep ReID方法。在VIPeR上,可以观察到OSNet的性能明显优于其他备选方案—R1上超过11.4%。GRID比VIPeR更具挑战性,因为它只有125个训练标识(250张图像)和额外的干扰。此外,它还被安装在繁忙的公共场所的真实(可操作的)模拟闭路电视摄像机拍摄下来。JLML[28]是目前网格上最好的发布方法。值得注意的是,OSNet在网格上比JLML稍微好一些。总的来说,OSNet在这两个小数据集上的强大性能表明,它在收集大规模培训数据是不可伸缩的实际应用程序中的实用价值。
表 5. 网络结构设计的消融研究
消融研究:表5 评估了我们的体系结构设计选择,其中我们的主要模型是模型1。T 是式2中的流基数。(1)与标准卷积的对比:对卷积进行因子分解后,R1稍微降低了0.4%(模型2与模型1)。(2) vs. ResNeXt-like 设计:将OSNet转换成ResNeXt-like体系结构,使所有流在深度上都是均匀的,同时保留统一的AG,即模型3。我们观察到,该变量明显优于主模型,R1/mAP的差异为1.9%/3.1%。这进一步验证了我们进行全尺度设计的必要性。(3)多尺度融合策略:为了验证我们对统一AG的设计,我们通过改变不同尺度特征聚合的方式来进行实验。基线为连接(模型4)和附加(模型5),主模型在R1/mAP上优于两个基线1.6%/2.8%以上。(4)统一的AG相对于单独的AGs:当对每个特征流学习单独的AGs时,模型的尺寸增大,梯度计算的优良性质(式4)丢失。从经验上看,尽管参数较少,但在R1/mAP(模型1与模型6)上,AG的一致性提高了0.7%/0.8%。(5)channel-wise门vs.stream-wise门:通过将通channel-wise门转换为stream-wise门(model 7), R1和mAP都下降了1%。由于特征通道封装了复杂的相关性,可以表示许多视觉概念[58],因此使用特定于通道的权重是有利的。(6)动态门vs.静态门:在模型8中,特征流被静态(学习后再固定)通道型门融合,以模仿[8]中的设计。因此,R1/mAP与动态门(主模型)相比下降了2.0%/3.5%。因此,对单个输入图像进行尺度融合是非常必要的。(7)流基数评价:结果由T = 1(模型9)显著提高到T = 2(模型10),并逐步提高到T = 4(模型1)。
表 6. 结果(%)的变化宽度乘法器beta和分辨率乘法器gamma为OSNet。当gamma = 0.75时输入大小为192*96,当gamma = 0:5时输入大小为128* 64。
模型收缩超参数:通过调整宽度multiplier 和图像分辨率multiplier ,可以在模型大小、计算量和性能之间进行权衡。表6显示,通过固定一个乘数和收缩另一个乘数,R1平稳下降。值得注意的是,93.4%的R1精度是由OSNet的一个缩小版获得的,只有60万个参数(bata= 0.5)。与表3的结果相比,我们可以看到缩小后的OSNet相对于最新提出的模型仍然具有很强的竞争力,其中大多数模型的尺寸要大50个。这表明OSNet在资源受限的设备(如带有人工智能处理器的监视摄像头)中具有巨大的高效部署潜力。
统一聚合们的可视化:由于AG生成的门控向量本质上编码了全尺度特征流的聚合方式,因此我们可以通过可视化相似门控向量的图像来了解AG子网络的学习内容。为此,我们将最后一个bottleneck中的4个流的门向量串联起来,对Mix4的测试图像进行k-means聚类,并选取离聚类中心最近的前15幅图像。图5显示了六个示例集群,其中相同集群中的图像具有相似的模式,即,全局尺度和本地尺度外观的组合。
图 5. 相似门控向量的图像簇。可视化显示,我们的统一聚合门能够以动态的方式学习同构和异构尺度的组合。
学习到的特征的可视化:为了理解我们的设计如何帮助OSNet学习有区别的特征,我们可视化了上一个卷积特征图的激活,以研究网络在哪里集中精力提取特征。在[59]之后,激活映射被计算为沿着通道维度的绝对值特征映射的和,然后进行空间L2标准化。图6对比OSNet激活maps和单尺度base-line(模型9表5中)。很明显,OSNet可以捕捉人A的局部具有区分能力的模式(例如,服装商标)从而从person B中区分person A。相比之下,单尺度模型过于集中于人脸区域,Reid是不可靠的,因为监测的低分辨率图像。因此,这个定性的结果表明,我们的多尺度设计和统一的聚合门使得OSNet能够识别视觉上相似的人之间的细微差别——这对于准确的ReID是一个至关重要的要求。更多的例子可以在补充材料中找到。
图 6. 每个三元组由左至右分别包含原始图像、OSNet激活图和单尺度基线激活图。这些图像表明,OSNet可以检测到视觉相似的人之间的细微差别。
虽然人的属性识别是一个分类识别问题,但它与人体ReID问题密切相关,因为全尺度的特征学习也是至关重要的:“视角”等属性是全局的;其他的,如“戴眼镜”是局部的;识别“年龄”等属性也需要不同尺度的特征。
数据集设置:我们使用PA-100K[3],最大的人属性识别数据集。PA-100K包含80K训练图像和10K测试图像。每张图片都有26个属性标注,例如:男/女,戴眼镜,拿包。在[3]之后,我们采用了5个评价指标,包括平均准确率(mA)和4个基于实例的指标,即准确率(Acc)、准确率(Prec)、查全率(Rec)和F1-score (F1)。详细定义请参考[60]。执行情况详见补充资料。
结果:表7在PA-100K上比较了OSNet和两种最先进的方法[61,3]。可以看出,OSNet在所有五个评估指标上都优于这两个备选方案。图7给出了一些定性结果。这表明,OSNet在预测属性方面特别强,这些属性只能通过检查不同尺度的特征(如年龄和性别)来推断。
表 7. 行人属性识别结果(%)
图 7. OSNet预测的ground-truth属性的可能性。基于50%阈值的正确/错误分类用绿色/红色表示。
数据集和设置:CIFAR10/100[11]有50K训练图像和10K测试图像,每个图像的大小为32*32。OSNet是按照[62,63]中的设置进行训练的。除了表1中的默认OSNet外,还通过将阶段bottleneck的数量从2-2-2增加到3-8-6构建了一个更深的版本。错误率报告为度量指标。
结果:表8将OSNet与一些最先进的目标识别模型进行了比较。结果表明,虽然OSNet最初是为ReID中细粒度的目标实例识别任务而设计的,但它在目标类别识别任务上也具有很强的竞争力。请注意,CIFAR100比CIFAR10更难,因为它每类包含的训练图像比CIFAR10少十倍(500对5000)。然而,OSNet在CIFAR100上的性能更强,这表明它更善于用有限的数据捕获有用的模式,因此它在数据稀缺的ReID基准测试上的性能非常好。我们还对较大尺度的ImageNet 1K目标识别任务进行了实验。结果(参见补充材料)表明,我们的OSNet性能优于类似大小的轻量级模型,包括SqueezeNet[36]、ShuffleNet[40]和MobileNetV2[10]。总体结果表明,全域特征学习在Reid之外是有益的,应该被考虑用于广泛的视觉识别任务。
表 8 所示。CIFAR数据集的错误率(%)。这里的所有方法都使用translation和mirroring来增强数据。点卷积和深度卷积被视为独立的层。
消融研究:我们将主要模型与CIFAR10/100上的模型9(表5中的单尺度基线)和模型5(4个流+添加)进行比较。表9显示,全尺度特征学习和统一AG对OSNet的整体性能都有积极的贡献。
表 9. OSNet在CIFIR10/100上的消融研究