获取定位置信度实现精准目标识别-论文笔记
“本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载” (内容来源为机器之心)
作者:Borui Jiang、Ruixuan Luo等
机器之心编译:almosthuman2014
参与:Panda
原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650746037&idx=3&sn=f8d0efeb1c1c4f08f6dfd2fa72d3ea9f&chksm=871ae8cbb06d61ddb5c0fc4a84cc580d4fe4aabb061051f4bd2193d8c62f250188b7f25cfdfc&mpshare=1&scene=1&srcid=08023ePcwSR5AY5TP7eVHxEh#rd
目标检测简介
目标检测是很多下游应用的基础,如实力分割,人体骨架绘制,人脸识别,和高级目标推理等。
目标检测结合了目标分类和目标定位两个任务。
当前大多数目标检测器的框架是two-stage。
目标检测是一个多任务学习问题:1)区分前景物体框与背景并为他们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其他指标;3)最后,通过一个 NMS 过程移除冗余的边界框(移除对同一目标的重复检测)。
传统流程中定位置信度的缺失
在这个流程中,分类和定位用不同方法解决。一般来说流程如下,给定一系列的提议框(proposal),对每个提议框进行分类得到各类别标签的概率,这个概率可以用来做该提议框的 [分类置信度],而边界框的回归模块却只是预测针对该提议框的变换系数,以拟合目标物体的位置。在这个流程中缺失了 [定位置信度]。
定位置信度的缺失带来了两个缺点:1)为了抑制重复检测,会给检测框进行排名。由于定位置信度的缺失,分类分数通常被用作给检测狂排名的指标。如图1(a)中的案例所示,绿色边框相比红色边框拥有更高的分类置信度,然而相比红色边框却拥有比绿色边框更高的重叠度。因此就像 Gresham 著名的 [劣币驱逐良币] 理论一样,分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在NMS过程中反而被相对不准确的边界框抑制了。2)定位置信度的缺失使得广泛使用的边界框回归方法缺少可解释性。例如,在之前的某研究中发现,如果多次应用边界框回归,可能有损输入边界框的定位效果。
IoU-Net
在这篇论文中,研究者使用 IoU-Net 预测检测到的边界框和他们对应的真实目标框之间的 IoU。这使得该网络能对检测框的定位精确程度有所掌握。
预测IoU值得方法可以提供前述问题的新解决方案:
1. IoU 是定位准确度的标准,可以用来代替分类置信度作为NMS的排名依据。这种方法被称为 IoU 引导式 NMS (IoU-guided NMS),可以消除误导性的分类置信度造成的错误。
2. 研究者提出一种基于优化的边界框修正流程,效果可比传统的基于回归的边界框修正方法。在推理期间,预测得到的IoU可以作为定位置信度的指标量,也可作为优化目标。研究者提出的精准 RoI 池化层 (Precise RoI Pooling layer) 使得可以通过梯度上升求解 IoU 优化。研究表明,相比于基于回归的方法,基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法可以兼容并整合进各种不同的基于 CNN 的检测器。
边界框修正示例:传统方法与该文提出方法比较
深入目标定位
分类准确度和定位准确度不匹配
基于优化和基于回归的 BBox 优化
IoU-Net 详解
1. 训练 IoU 预测器的方法
2. IoU 引导式 NMS
3. 将边界框修正当作一个优化过程
精准 RoI 池化(Precise RoI Pooling)
研究者引入了精准 RoI 池化(简写成:PrRoI 池化)来助力研究者的边界框修正。其没有任何坐标量化,而且在边界框坐标上有连续梯度。给定 RoI/PrRoI 池化前的特征图 F(比如,来自 ResNet-50 中的 Conv4),设 wi,j 是该特征图上一个离散位置 (i,j) 处的特征。使用双线性插值,这个离散的特征图可以被视为在任意连续坐标 (x,y) 处都是连续的:
为更便于理解,研究者在图 6 中可视化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在传统的 RoI 池化中,连续坐标首先需要被量化(quantization),以计算该 bin 中激活的和;为了消除量化误差,在 RoI Align 中,会采样该 bin 中 N=4 个连续点,表示成 (a_i,b_i),而池化就是在这些采样的点上执行的。RoI Align 中的 N 是预定义的,而且不能根据 bin 的大小进行调整;与此不同,研究者提出的 PrRoI 池化是直接基于连续特征图计算二阶积分。
4. 联合训练
这种 IoU 预测器可集成到标准的 FPN 流程中,以进行端到端的训练和推理。为了清楚说明,研究者将用于图像特征提取的 CNN 架构称为骨干(backbone),将应用于各个 RoI 的模块称为头(head)。
如图 5 所示,这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络,其架构是自上而下的,可构建特征金字塔(feature pyramid)。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI 池化层。至于该网络的头,这个 IoU 预测器根据来自骨干网络的同一视觉特征而与 R-CNN 分支(包括分类和边界框回归)并行工作。
研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001 的零均值高斯分布进行初始化。研究者使用了平滑 L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的,详见 1 节。IoU 标签进行了归一化,因此其值分布在 [-1,1]。
输入图像的大小进行了调节,短边长度为 800 像素,长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了 16 的批大小进行训练。网络为 16 万次迭代进行了优化,学习率设置为 0.01,并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了 0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.
在推理过程中,研究者首先对初始坐标应用边界框回归。为了加快推理速度,研究者首先在所有检测到的边界框上应用 IoU 引导式 NMS。然后,使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5,早停阈值为 Ω1=0.001,定位衰减容限 Ω2=−0.01,迭代次数 T=5。
实验
研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16],研究者在 8 万张训练图像和 3.5 万张验证图像的并集(trainval35k)上训练了模型,并在包含 5000 张验证图像的集合(minival)上评估了模型。为验证该方法,在 1 节和 2 节,研究者与目标检测器分开而训练了一个独立的 IoU-Net(没有 R-CNN 模块)。IoU-Net 助力的 IoU 引导式 NMS 和基于优化的边界框修正被应用在了检测结果上。
1. IoU 引导式 NMS
表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框(其中没有真正的「抑制」),但 IoU 引导式 NMS 还能通过改善检测到的边界框的定位来提升结果。因此,在高 IoU 指标(比如 AP_90)上,IoU 引导式 NMS 显著优于基准方法。
2. 基于优化的边界框修正
研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容,如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN,这种改进方法能进一步将 AP_90 提升 2.8%,将整体 AP 提升 0.8%。
3. 联合优化
IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现,将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征,这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基准为 38.5%,提升了 2.1%。表 4 给出了推理速度,表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。
总结
本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的「定位置信度」,实现一种 IoU 引导式 NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。
从学术研究的角度,本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步,研究者将边界框修正问题重定义为一个全新的优化问题,并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。