【论文笔记】Omni-Scale Feature Learning for Person Re-Identification

https://github.com/KaiyangZhou/deep-person-reid

作为实例级识别问题,人员重新识别(ReID)依赖于判别特征,其不仅捕获不同的空间尺度而且还封装多个尺度的任意组合。我们将这些特征称为同构和异构尺度的全尺度特征。在这篇论文中,一部新颖的深刻CNN被设计为全称网络(Omni-Scale Network  OSNet),用于ReID中的全方位特征学习。这是通过设计由多个卷积特征流组成的残差块来实现的,每个卷积特征流检测特定尺度的特征。重要的是,引入了一种新颖的统一聚合门,以动态融合多尺度特征和输入相关的信道方向权重。为了有效地学习空间通道相关性并避免过度拟合,构建块使用逐点和深度卷积。通过逐层堆叠这些块,我们的OSNet非常轻量级,可以在现有的ReID基准测试中从头开始进行训练。尽管模型尺寸较小,但我们的OSNet在六个ReID数据集上实现了最先进的性能

挑战:1)相机视角的变化带来的行人变化

           2)类间差异小 公共场合不同的人穿着类似的衣服

解决方法:学习判别特征

omni-scales 同构和异构尺度的全尺度特征

全局特征和局部特征同样重要

还需要一些独特的组合:比如白t恤+上面的logo

由跨越小(徽标大小)和中(上半身)大小的异构功能捕获,使功能最有效

现有的reid模型没有全尺度特征学习的,同构和异构

OSNet:学习全尺度特征表示

      结构: 基础构建块由多个卷积特征流组成,具有不同的感知域(参见图2)。每个流关注的特征尺度由指数确定,指数是一个新的维度因子,它在流中线性增加以确保这一点在每个区块中捕获各种比例。

关键的是,得到的多尺度特征图通过由统一聚合门(AG)生成的信道方向权重动态融合。 AG是跨所有流共享参数的子网,具有用于有效模型训练的许多期望属性。利用可训练的AG,生成的通道方向权重变得依赖于输入,因此动态标度融合。这种新颖的AG设计为全方位特征学习提供了极大的灵活性:根据特定的输入图像,门可以通过为特定流/比例分配显性权重来集中在单个比例上;或者它可以挑选和混合,从而产生异构的特征尺度

【论文笔记】Omni-Scale Feature Learning for Person Re-Identification_第1张图片

 

设计了一个轻量级的网络:

带来的好处:中小型数据集(reid数据集一般都不大)不至于过拟合;大规模监控应用中reid在设备端提取特征

效果:比流行的基于ResNet50的模型小一个数量级,但却非常强大

      在6个reid数据集上实现先进性能

 

OS 特征学习

在本节中,我们介绍了OSNet,它专门研究人ReID任务的全方位特征表示。 我们从分解卷积层开始,然后引入全尺寸残差块和统一聚合门

 

分解卷积:为了减少参数的数量,我们采用深度可分离的卷积,将标准卷积分成两个单独的层:逐点卷积和深度卷积。标准卷积由4D张量w 2 Rk×k×c×c0参数化,其中k是内核大小,c是输入通道的深度,c0是输出通道的深度。 为了学习输入张量x 2 Rh×w×c的空间通道相关性,其中h是高度,w是宽度,卷积运算可以表示为x0 =φ(w * x),其中φ是非线性的 映射(ReLU)*表示卷积。 为清楚起见,省略了偏差。图3(a)描绘了标准的实际实现3×3卷积层

【论文笔记】Omni-Scale Feature Learning for Person Re-Identification_第2张图片

设u 2 R1×1×c×c0是一个逐点卷积核,密集地连接到信道维,v 2 Rk×k×1×c0是深度卷积核,它将每个feature map的局部信息与感知域k聚合在一起。我们通过将w分解为v u来解开空间信道相关性的学习,导致x0 =φ((v◦u)* x),如图3(b)所示。 结果,计算成本从h·w·k2·c·c0减小到h·w·(k2 + c)·c0,以及参数的数量k2·c·c0至(k2 + c)·c0。 当我们分解3×3卷积时,我们将这些层称为Lite 3×3。请注意,我们的实现不同于原始的深度可分离卷积[39],它在逐点卷积之前应用深度卷积。 根据经验,我们发现与原始版本(深度方向->逐点)相比,我们的设计(逐点->深度)对于全方位特征学习更有效。

 

OS残差块

为了实现全方位表示学习,我们通过引入表示特征尺度的新维度指数t来扩展残差函数F. 对于F t,当t> 1时,我们堆叠t Lite 3×3层,这导致大小(2t + 1)×(2t + 1)的感受野。 然后,要学习的残差x~是直到T的表示的增量比例的总和

【论文笔记】Omni-Scale Feature Learning for Person Re-Identification_第3张图片

 

统一聚合门

每个流可以为我们提供特定比例的特征,即它们是规模均匀的。 为了学习全尺寸特征,我们提出以动态方式组合不同流的输出,即根据输入图像将不同的权重分配给不同的尺度,而不是在训练之后固定。 更具体地说,动态规模融合是通过新颖的方式实现的聚合门(AG),这是一个可学习的神经网络

值得指出的是,与使用提供粗尺度融合的单个标量输出函数相比,我们选择使用通道方向权重,即AG子网G(xt)的输出,αt 是第t个流的向量而不是标量。 这种设计可以产生更精细的融合,可以调整每个特征通道。 另外,通过调节来动态地计算权重输入数据。 这对于ReID作为测试图像至关重要包含与培训中不同身份的人;因此,更期望自适应/输入相关的特征尺度融合策略。

网络结构:

【论文笔记】Omni-Scale Feature Learning for Person Re-Identification_第4张图片

结论

我们介绍了OSNet,一种轻量级CNN架构,能够学习全方位的特征表示。 对六个ReID数据集进行的大量实验表明,尽管OSNet具有轻量级设计,但仍能实现最先进的性能。 我们还在单标签对象分类任务和多标签属性识别任务上评估了OSNet。 OSNet在这些任务上的卓越性能表明,OSNet对ReID之外的视觉识别问题具有广泛的兴趣。

你可能感兴趣的:(Re-id,论文笔记)