ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection

HoughNet

  • 1 Introduction
  • 2 Approach
    • 2.1 The log-polar “vote field”
    • 2.2 Voting module
    • 2.3 Network architecture
  • 3 Experiments
  • 4 Conclusion

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第1张图片

论文地址:https://arxiv.org/abs/2007.02355

开源代码:https://github.com/nerminsamet/houghnet

其他解读:https://mp.weixin.qq.com/s/d-Kz-8KqcB9Afyzva56Ijg

本文亮点:

  1. 一种基于anchor-free和投票voting机制一阶段自下而上的目标检测方法——HoughNet。
  2. 这个模型的投票模块能同时使用短距离和长距离的证据进行目标检测。

1 Introduction

  • 本文提出了一种基于anchor-free和投票voting机制一阶段自下而上的目标检测方法。
    ——HoughNet变换时基于投票的方法,最初时用于检测分析线条、圆形、椭圆形等特征,通用霍夫变换用于检测任意形状。
  • 受到通用Hough Transform(霍夫变换) 的启发,HoughNet通过在某个位置上投票的总和来确定某个位置上某个目标对象是否存在,同时根据对数极坐标投票机制,从近距离和远距离位置收集选票。
  • 基于这种投票机制,HoughNet能够集成近距离和远距离的class-conditional evidence(类条件证据) 进行视觉识别,并推广和增强了目前基于local evidence的目标检测方法。
  • 在另一个任务中,即通过将HoughNet的投票模块集成到两个不同的GAN模型中,可以生成“照片标签”图像,并显示在两种情况下准确性显著提高了。——具体来说,就是将投票模块集成到两个不同的GAN模型中(CycleGAN和Pix2Pix)。
  • 当前方法分为两类:自顶向下和自底向上
  • 自顶向下的方法中,将以矩形框的形式检测目标,并基于这些框以整体方式预测目标
  • 另一方面,在自底向上的方法中,目标是通过检测部分结构(或子对象结构)而出现的。例如,在CornerNet 中,首先检测到目标的左上角和右下角,然后再检测它们配对形成整个目标。
  • 本文的HoughNet遵循自底向上的基于投票策略的方法:从广泛的区域(包括short and long-range evidence)来投票获得object presence score。
  • 自底向上的方法是主要的研究重点,例如基于投票vote的方法(隐式形状模型)和基于part的方法(可变形part模型)。目前,自底向上的方法有CornerNet ,ExtremeNet。

  • 在HoughNet中,属于某个类别的对象在特定位置的存在由在该位置上的映射的类条件投票的总和确定的。
  • HoughNet使用CNN处理输入图像以生成每个类别的中间分数map,这些map中的分数表示存在的视觉结构,该视觉结构将支持目标检测。这些结构可以是object parts\partial objects\属于相同或其他类的部分,将这些分数图命名为“视觉证据”图。
  • 视觉证据图中的每个空间位置都会对可能包含目标对象的目标区域进行投票。目标区域是通过放置一个以对数极点网格( log-polar grid)为中心来确定的,其中心位于选民的位置。
  • 使用对数极点投票区域的目的是随着投票者位置和目标区域之间的距离增加而降低投票的空间精度。这是受自然界的foveated vision systems(不断移动的视觉系统)启发的,在这些系统中,空间分辨率从中央向周边迅速降低。
  • 一旦所有视觉证据都通过投票处理后,累积的投票将记录在目标所存在特征图中,其中的峰值(即局部最大值)表示目标实例的存在。

  • 目前目标检测器依靠局部(短距离)的视觉证据(如自上而下的方法),或者重点的关键点如角点(如自下而上的方法)来确定该位置是否有目标。
  • HoughNet是使用投票的方法来整合短距离和长距离的视觉证据。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第2张图片
图解:

  • 如上图所示,左图是HoughNet的例子——鼠标检测(鼠标有黄色框)。右图是对该检测投票的位置,颜色表示投票强度。
  • 上图可以看到,除了来自鼠标自身的局部投票外,还有来自”两个键盘”附近的高强度投票,这表明了HoughNet能够利用短时和长期证据进行检测。

2 Approach

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第3张图片
图解:
上图描述的具体过程是:

  • 输入图片先经过主干网,其主要输出连接到三个不同的分支:(1)进行视觉证据分数的预测,(2)目标bbox尺寸的预测,(3)目标中心点位置偏移的预测。其中,第一个分支是进行投票的位置。

参数说明:

  • R R R表示vote区域中的区域数量;
  • D D D表示特征图通道数;(待考察)

2.1 The log-polar “vote field”

这部分使用标准的对数极坐标中的区域集来定义收集投票的区域。

  • 在实验中,使用了不同的vote ∆ r ( i ) ∆r(i) r(i) 表示第 i i i个像素的相对空间坐标。
  • 将vote域作为一个固定权重(不可学习型)的转置卷积来实现的。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第4张图片
图解:

  • 如上图所示,这是HoughNet的投票模块中使用的对数极坐标。一个对数极坐标系是由偏心轴(或者称为环)的数量和半径以及角度轴的数量来定义的,这种坐标系中形成的单元或者区域集称为“vote field”。
  • 数字表示ID,vote field的参数是angle bins(角度bins),eccentricity bins(偏心bins)的数量和半径
  • 在上图的投票区域中,共有13个区域,6个angle bins和3个环,环的半径分别为2、8、16。

2.2 Voting module

投票模块的流程:

  1. 输入图片通过主干网和视觉证据预测分支后,HoughNet的投票模块将接收到C个张量 E 1 , E 2 , … … , E C E_{1},E_{2},……,E_{C} E1,E2,,EC(它们的维度是 H × W × R H×W×R H×W×R,其中 C C C表示类别数, R R R表示区域数)。
    ——这些张量中的每个张量均包含类条件(针对特定类)的视觉证据分数。
  2. 将上述的张量输入到投票模块中,生成 C C C个“Object Presence Maps”(目标存在特征图),每个特征图的大小为 H × W H×W H×W
    ——这些特征图的峰值表示目标实例是存在的。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第5张图片
图解:

  • 上面是投票模块的伪代码。投票过程是将视觉证据张量转换为目标存在特征图。
  • 工作原理:
  • 假设要在视觉证据张量 E E E的第 i i i行,第 j j j列和第三个通道上处理视觉证据,将投票字段放置在以位置 ( i , j ) (i,j) (i,j)为中心的2D特征图上,区域标记要投票的目标区域,可以通过将坐标偏移量 ∆ r ( ⋅ ) ∆r(\cdot) r()加到 ( i , j ) (i,j) (i,j)来计算其坐标。
  • 然后将视觉证据分数 E ( i , j , r ) E(i,j,r) E(i,j,r)添加到目标存在特征图的目标区域中,同时处理来自 ( i , j ) (i,j) (i,j)以外位置的视觉证据分数,在目标存在特征图下积累分数。
  • 上面伪代码的过程是以视觉证据张量作为输入,输出是生成的目标存在特征图。注意,由于for循环的存在,导致了实现上述算法的效率比较低,因此需要使用“转置卷积”操作来实现它

参数说明:

  • K r Kr Kr表示某一特定区域 r r r中的像素数;
  • ∆ r ( i ) ∆r(i) r(i)表示相对于vote域中心的第 i i i个像素的相对空间坐标。

2.3 Network architecture

网络结构是以“目标作为点”(OAP)来设计的。HoughNet包含了主干网和三个预测子网络,(1)进行视觉证据分数的预测,(2)目标bbox尺寸的预测,(3)目标中心点位置偏移的预测。

  • 主干网使用了CenterNet。由输入大小为 4 H × 4 W × 3 4H×4W×3 4H×4W×3图像经过主干网后,输出大小为 H × W × D H×W×D H×W×D的特征图。主干网的输出被送到所有三个分支中,每一个分支都有一个 3 × 3 3×3 3×3的卷积层 + ReLU层 + 1 × 1 1×1 1×1的卷积层 。
  • 这些层的权重不共享,是使用独立的权重。
  • 视觉证据分支输出的大小为 H × W × C × R H×W×C×R H×W×C×R的特征图,其中 C C C R R R分别对应于类别数和投票字段区域数。
  • 宽度和高度预测分支输出大小为 H × W × 2 H×W×2 H×W×2的特征图,该输出预测每个可能的目标中心的高度和宽度。
  • 目标中心位置偏移预测分支可以预测中心位置在空间轴上的相对位移,输出大小为 H × W × 2 H×W×2 H×W×2的特征图。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第6张图片

目标函数:

  • 为了优化视觉证据分支,使用了CornerNet中引入了修改后的focal loss
  • 为了恢复通过网络进行下采样操作而导致中心点精度的损失,中心偏移预测分支输出与目标中心类无关的位置偏移,并像其他自下而上的检测器一样,使用L1 loss来优化这个分支。
  • 最后,宽度和高度预测分支输出目标的类无关的宽度和高度值,按照CenterNet所建议的那样,使用L1 loss通过将损失缩放0.1。
  • 总体损失是所有分支的损失之和。

3 Experiments

  • backbone: 104-Hourglass
  • 数据集: MS-COCO
  • 框架: Pytorch

Table-1:投票模块的消融实验
ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第7张图片
图解:

  • 上图是消融实验结果。
  • (a)中展示了不同角度bins的对比实验。使用60°,90°和360°的效果都不错,均可以在实验中采用。
  • (b)中展示了中心和外围投票的有效性。非中心环的投票比较有效,AP达到了24.4。
  • (c)中展示了不同环数量的对比实验。可以看出,三个环效果优于其他两种情况,AP达到了24.8。
  • 从上面实验中得到,使用5环和90°作为我们基本的网络;3环和90°表示最小的网络。

Table-2: 将我们的投票模块与COCOVAL2017集上的等效(参数数量和空间滤波器大小)扩展卷积滤波器进行比较
ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第8张图片
图解:

  • 上图是在COCO 2017数据集上,将baseline分别加入可扩展卷积和投票模块的实验结果。
  • baseline: 考虑到以ResNet-101-DCN主干作为基线的OAP。OAP中心预测分支的最后1×1卷积层接收 H × W × D H×W×D H×W×D张量,输出 H × W × C H×W×C H×W×C张量的目标中心heatmaps。
  • baseline + voting module: 首先对基线中的最后一层中心预测分支进行调整,输出 H × W × C × R H×W×C×R H×W×C×R张量,然后将投票模块附加到中心预测分支的顶部。加入投票模块后,该层的参数增加了 R R R倍。对数极投票场为65×65,有5个环(90°)。在5个环和90°处,得到R=17个区域。
  • baseline + dilated conv: 对基线中心预测分支的最后一层使用核大小为4×4、扩张率为22的扩张卷积。在baseline + voting module中,使用4×4核函数将参数增加16倍,近似等于 R R R。采用扩张率为22,滤波器尺寸变为67×67,接近65×65对数极投票场。
  • 实验表明,加入投票模块和可扩展卷积后,使网络的效果提高到了37.3。
  • 上图所有实验中都使用Resnet-101-DCN作为主干网。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第9张图片
图解:

  • 上图中使用不同的主干网路、初始化参数进行对比。
  • 实验表明,light-model使用了R-101-DCN是最快的,达到了14.3 FPS,37.2 AP和56.5 AP50。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第10张图片
图解:

  • 上图表明,HoughNet对小目标特别有效,将baseline提高了分别2.1(R-101-DCN)和2.2(HG-104)。
  • 实验中,引入了moLRP度量结果,该度量在单个度量中结合了局部化、精确度和召回率,该值越低越好。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第11张图片
图解:

  • 上图是和其他SOTA模型的对比实验结果。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第12张图片
图解:

  • 比较城市景观数据集上“标签到照片”任务的FCN得分。
  • 在上图中,给出了有投票模块和无投票模块的CycleGAN和Pix2Pix的FCN得分。


图解:

  • 上图是HoughNet及其投票图的样本检测可视化的结果。
  • 在检测列中,显示了对感兴趣目标的正确检测,并标上黄色框。
  • 在投票列中,显示了为检测投票的位置。
  • 颜色表示基于标准颜色图的投票强度,其中红色对应最高值,蓝色表示最低值。
  • 在第一行中,有三个鼠标检测。在所有情况下,除了位置投票(鼠标本身)之外,还有来自附件“键盘”对象的强大投票。考虑到鼠标和键盘经常同时出现,这种投票方式是合理的。
  • 在第二行中,是棒球拍、棒球手套和网球拍的检测中观察到类似的行为。这些对象从遥远的“球”对象中获得了强投票。
  • 在第三行中,花瓶检测得到了鲜花的强支持。
  • 在第四行中,第一个示例中“餐桌”检测从蜡烛对象中获得了强烈的支持,因为这经常同时存在。第二个示例的“餐桌”具有来自标准客厅的对象和部分的强烈支持。在最后一个示例中,遮挡的鸟从树枝上得到了比较高的投票数(强于鸟本身的票数)。

ECCV2020 | 论文阅读——HoughNet: Integrating near and long-range evidence for bottom-up object detection_第13张图片
图解:

  • 上图是迁移实验可视化的结果。

4 Conclusion

  1. 一种基于anchor-free和投票voting机制一阶段自下而上的目标检测方法——HoughNet。
  2. 这个模型的投票模块能同时使用短距离和长距离的证据进行目标检测。
  3. 这种投票模块在“标签到照片”任务中显著提高了两个GAN模型的性能。

你可能感兴趣的:(#,论文阅读)