2019 CVPR 目标检测 论文简述整理

2019 CVPR (40篇)

题目

发表单位

针对问题

创新点

性能

Activity Driven Weakly Supervised Object Detection

 

活动驱动的弱监督目标检测

南加利福尼亚大学

视频目标检测

利用视频或者图片中的动作信息为目标的位置提供线索。

我们尝试不仅利用对象类标签,而且利用与数据关联的操作标签。我们证明,图像/视频中描述的动作可以提供有关关联对象位置的强提示。我们学习了依赖于动作的物体的空间先验(例如“球”在“踢球”中更接近“人的腿”),并在同时训练关节物体检测和动作分类模型之前将其合并。

在Charades视频数据集上,我们的方法比目前最先进的(SOTA)方法在mAP上的性能提高了6%以上。

A Simple Pooling-Based Design for Real-Time Salient Object Detection

 

一种简单的基于池化的实时显著目标检测设计

南开大学

深圳大学

显著性目标检测

通过扩大卷积神经网络中的池化的作用解决显著目标检测问题。基于U形结构,我们首先在自底向上的路径上建立了一个全局导航模块(GGM),目的是在不同的特征层次上提供潜在显著目标的位置信息。进一步设计了一个特征聚合模块(FAM),使粗层次语义信息与自上而下的细层次特征很好地融合。通过在自顶向下路径中的融合操作之后添加FAMs,GGM中的粗层次特征可以与不同尺度的特征无缝融合。这两个基于池的模块允许高级语义特征逐步细化,从而生成细节丰富的显著性映射。

实验结果表明,与现有方法相比,本文提出的方法能够更准确地定位细节锐化的显著目标,从而大大提高了定位性能。              我们的方法速度也很快,在处理300×400的图像时可以以超过30fps的速度运行

MLM---

A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision

大连理工

显著性目标检测

一个新的互动式学习模型(MLM)利用显著目标检测、前景轮廓检测和边缘检测的监督来训练显著性检测网络

首先,我们以一种交织的方式利用显著目标检测和前景轮廓检测任务来生成具有均匀高光的显著地图。其次,前景轮廓和边缘检测任务相互引导,从而实现精确的前景轮廓预测,降低边缘预测的局部噪声。此外,我们还开发了一个新的相互学习模块(MLM),作为我们方法的基础。每个MLM模块由多个网络分支组成,以相互学习的方式进行训练,大大提高了性能。

 

CPFE---

Pyramid Feature Attention Network for Saliency detection

(金字塔特征注意网络)

哈工大

(显著性目标检测)

针对“CNNs的不同特征映射和同一映射中的不同特征在显著性检测中应发挥不同的作用”问题

提出了PFAN,以增强高层次的上下文特征和低层次的空间结构特征。针对多尺度高层次特征映射,设计了一个上下文感知金字塔特征提取(CPFE)模块来获取上下文特征。对CPFE特征图和低层特征图分别采用通道注意(CA)模型和空间注意(SA)模型进行融合,检测出显著区域。最后,提出了一种边缘保持损失来获得显著区域的精确边界。

 

Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

快速准确检测显著目标的级联局部译码器

中科院

显著性目标检测

一种新的级联部分解码器框架,抛弃较浅层的特征,对较深层的特征进行细化。本文提出了一种新的级联部分解码器(CPD)框架,用于快速、准确地检测显著目标。一方面,该框架构造部分解码器,丢弃较浅层的较大分辨率特征,以加速。另一方面,我们观察到,结合较深层的特征,可以得到相对精确的显著性图。因此,我们直接利用生成的显著图来细化骨干网的特征。 该策略有效地抑制了特征中的干扰,显著地提高了特征的表示能力。

在五个基准数据集上的实验表明,提出的模型不仅达到了最先进的性能,而且运行速度比现有模型快得多。此外,所提出的框架进一步应用于改进现有的多层次特征聚合模型,并显著提高了它们的效率和准确性。

BASNet: Boundary-Aware Salient Object Detection

加拿大阿尔伯塔大学

显著性目标检测

在本文中,我们提出了一个预测-精炼架构,BASNet,以及一个新的边界感知显著目标检测混合损失函数。

具体地说,该体系结构由一个密集监督的编解码网络和一个分别负责显著性预测和显著性映射求精的残差求精模块组成。

混合损失通过融合二元交叉熵(BCE)、结构相似性(SSIM)和交并损失(IoU),引导网络在像素级、块级和map级三个层次上学习输入图像和真实框之间的转换。该预测-细化结构能够有效分割目标的显著区域,准确预测边界清晰的精细结构。

 

在6个公共数据集上的实验结果表明,该方法在区域和边界评价方面均优于最新方法。我们的方法在一个GPU上运行速度超过25fps。

Diversify and Match: A Domain Adaptive Representation Learning Paradigm for Object Detection

一种面向对象检测的领域自适应表示学习范式

韩国先进科学技术学院

(域自适应方法)

旨在同时解决像素级自适应的不完全平移问题和特征级自适应的源偏判别问题

提出的新方法分为两个阶段,域多样化(DD)和多域不变表示学习(MRL)。在DD阶段,我们通过从源域生成各种不同的移位域,使标记数据的分布多样化。在MRL阶段,我们使用多域判别器进行对抗性学习,以鼓励特征在域之间不可区分。 DD解决了源偏判别问题,而MRL则减轻了不完美的图像翻译。我们为我们的学习范式构建了一个结构化的领域适应框架,并介绍了一种实用的DD实现方法。

 

我们的方法在不同数据集上的平均精度(mAP)比最新方法高出3%∼12%。

Automatic adaptation of object detectors to new domains using self-training

基于自训练的目标检测器自动适应新领域

马萨诸塞大学阿默斯特分校

这项工作针对于解决现有的对象检测器到新的目标域的无监督自适应问题

我们假设这个域中有大量未标记的视频随时可用。我们通过使用现有检测器的高置信度检测来自动地获得目标数据上的标签,并通过使用跟踪器利用时间线索获取的困难(错误分类)示例来增强。这些自动获取的标签随后用于重新训练原始模型。提出了一种改进的知识蒸馏损失,并研究了从目标域给训练样本分配软标签的几种方法。

 

 

Few-shot Adaptive Faster R-CNN

新加坡国立大学、华为诺亚方舟实验室

小样本学习

为了减轻由域转换引起的检测性能下降,我们开发一种新的少镜头自适应方法,这种方法只需要少量的目标区域图像和有限的边界框注释。

我们观察的重大挑战:首先,目标域数据是高度不足的,使得大多数现有的域适配方法无效。其次,目标检测涉及同时定位和分类,进一步复杂化了模型的适应过程。第三,该模型存在过度适应和不稳定风险,这可能导致目标域的检测性能下降。为了解决这些挑战,我们首先在源和目标特性上引入一种配对机制,以缓解目标域样本不足的问题。然后我们提出了一个两级模块来适应源训练检测器对目标域的要求:1)基于分割池的图像级自适应模块在不同尺度和长宽比的情况下,均匀地提取和对齐多个位置上的成对局部补丁特征;2)实例级自适应模块在语义上对齐成对的对象特征,同时避免类间混淆。同时,采用源模型特征正则化(SMFR)来稳定两个模块的自适应过程。结合这些贡献,提出了一种新的多镜头自适应快速RCNN框架FAFRCNN,该框架通过少量标记样本有效地适应目标区域。结果取得了最优性能     

Moving Object Detection under Discontinuous Change in Illumination Using Tensor Low-Rank and Invariant Sparse Decomposition

基于张量低秩不变稀疏分解的光照不连续变化下运动目标检测

阿尔伯塔大学

针对多线性低秩框架下运动目标检测问题,解决了光照和目标位置的不连续变化问题

 

我们的方法依赖于多线性(张量)数据低秩和稀疏分解框架,以解决现有方法的弱点。我们提出的方法的关键是首先建立一组先验地图,可以描述由于光照引起的图像序列的变化。我们证明它们可以用k支持范数来检测。为了处理同时发生的两种变化,我们在张量低秩稀疏分解公式中使用了两个正则化项,一个用于检测运动对象,另一个用于考虑光照变化。

通过对具有挑战性的数据集的综合实验,我们证明了我们的方法在光照不连续变化的情况下具有显著的运动目标检测能力,并且优于目前解决这一挑战性问题的最新方法。

Unsupervised Moving Object Detection via Contextual Information Separation

基于上下文信息分离的无监督运动目标检测

加州大学洛杉矶分校

运动目标检测

提出一种用于检测图像中运动目标的对抗性上下文的模型。一个深度神经网络被训练来预测一个区域中的光流,使用的信息来自除该区域以外的任何地方,而另一个网络则试图使这种上下文尽可能不具信息性。结果是一个模型,其中的假设自然竞争,不需要显式正则化或超参数调整。尽管我们的方法不需要任何监督,但它优于在大型带注释数据集上预先训练的几种方法。我们的模型可以看作是经典的基于变分生成区域的分割的推广,但是在某种程度上避免了在运行时显式正则化或偏微分方程的解。

Towards Universal Object Detection by Domain Attention

基于领域注意的通用目标检测

加州大学圣地亚哥分校

多域目标检测

与多域模型不同,这种通用模型不需要事先了解感兴趣的域。这是通过引入一个新的适应层家族,基于挤压和激发(squeeze and excitation)原理,以及一个新的领域注意机制来实现的。在提出的通用检测器中,所有的参数和计算都是跨域共享的,并且一个网络始终处理所有的域。     

实验表明,该检测器的性能优于一组独立检测器、多域检测器和基线通用检测器,其参数比单域基线检测器增加了1.3倍。

  1. MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection

 

中科院

弱监督目标检测

 

 

(题目:弱监督目标检测的连续多实例学习)

在本文中,我们将连续优化方法引入到MIL中,从而创建连续多实例学习(C-MIL),以系统地减轻非凸性问题。我们将实例划分为空间相关和类相关子集,并用子集中定义的一系列平滑损失函数逼近原始损失函数。优化平滑损失函数可以防止训练过程过早陷入局部极小值,并有助于发现稳定的语义极值区域(sser),以指示整个对象范围。

Dissimilarity Coefficient based Weakly Supervised Object Detection

基于相异系数的弱监督目标检测

牛津大学

弱监督目标检测

使用深层生成模型,即离散 DISCO 网络,对复杂的不可分解的条件分布建模。

为了对目标位置的不确定性进行建模,我们采用了基于不同系数的概率学习目标。学习目标最小化了注释不可知的预测分布和注释感知的条件分布之间的差异。计算上的主要挑战是条件分布的复杂性,条件分布由成百上千个变量组成。条件分布的复杂性排除了对其进行显式建模的可能性。相反,我们利用了一个事实,即深度学习框架依赖于随机优化。这允许我们使用最先进的离散生成模型,该模型可以从条件分布中提供注释一致的样本。

You reap what you sow:Using Videos to Generate High Precision Object Proposals for Weakly-supervised Object Detection

加州大学戴维斯分校

(弱监督目标检测)

针对如何找到少数相关对象区域(推荐框)

提出一种利用视频获取高精度弱监督目标检测的新方法。

利用运动线索自动估计对象的范围来训练弱监督区域建议网络(W-RPN)。我们使用W-RPN生成高精度的目标建议,然后根据它们的空间重叠对边缘框或选择性搜索等高召回建议重新排序。

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

学习可伸缩特征金字塔结构用于目标检测

Google Brain

本文旨在研究一种更好的用于目标检测的特征金字塔网络结构

在一个覆盖所有跨尺度连接的可扩展搜索空间中,采用神经网络结构搜索,发现了一种新的特征金字塔结构。发现的架构名为NAS-FPN,由自顶向下和自下而上的连接组合而成,用于跨规模融合功能。与目前最先进的目标检测模型相比,NAS-FPN与RetinaNet框架中的各种骨干模型相结合,实现了更好的准确性和延迟权衡。

与采用MobileNetV2模型的最新SSDLite相比,NAS-FPN将移动检测精度提高了2 AP,达到了48.3 AP,以更少的计算时间超过了掩模R-CNN的检测精度。

 

Generalized Intersection over Union

斯坦福

针对IOU存在的问题提出改进(例如,IoU有一个瓶颈,使得在非重叠边界框的情况下不可能进行优化)

提出新的 GIoU 来代替 L1、L2损失函数,提升 regression 效果。

在本文中,我们通过引入一个广义的版本作为一个新的损失和一个新的度量来解决IoU的弱点。通过将这种通用的IoU(GIoU)作为一种损失纳入最先进的对象检测框架,获得了性能的提升。

Region Proposal by Guided Anchoring

香港中文大学、新加坡南

洋理工大学

 

针对锚框的密集问题提出改进办法

提出一种新的 anchor 生成方法—通过图像特征来指导 anchor 的生成。通过预测 anchor 的位置和形状,来生成稀疏而且形状任意的anchor。

 

Adaptive NMS: Refifining Pedestrian Detection in a Crowd

自适应NMS:改进人群中的行人检测

北京航空航天大学

 

在行人识别问题上,针对NMS提出改进

一种新的 NMS 算法——自适应 NMS 算法有效地处理人群中的行人检测问题,更好地细化拥挤场景中的边界框

贡献:根据目标密度,提出了一种动态抑制阈值的自适应NMS算法;设计了一种有效的学习密度分数的子网络,可以方便地嵌入到单级和两级检测器中;我们在城市类型和人群基准上取得了最新的成果。

 

 

Exploring the Bounds of the Utility of Context for Object Detection

以色列 Ben-Gurion University

探索上下文在目标检测中的应用范围

 

 

Locating Objects Without Bounding Boxes

普渡大学

 

在本文中,我们处理的任务是估计对象的位置,而不带注释的边界框,这是典型的手工绘制和耗时的标签。我们提出了一个损失函数,可用于任何完全卷积网络(FCN)估计目标位置。这个损失函数是两个无序点集之间平均Haus-dorff距离的修正。提出的方法没有边界框、区域建议或滑动窗口的概念。

我们使用三个数据集来评估我们的方法,这三个数据集设计用于定位人的头部、瞳孔中心和植物中心。我们的性能优于最先进的通用目标检测器和用于瞳孔跟踪的微调方法。

Sampling Techniques for Large-Scale Object Detection from Sparsely Annotated Objects

基于稀疏标注对象的大规模目标检测采样技术

Preferred Networks, Inc.

(首选网络)

关于目标探测器的训练与数据集之间的问题(比如,验证数据集的不完整性)

提出了部分感知抽样方法,利用人的直觉对目标之间的层次关系进行识别。

在本研究中,我们提出部份知觉取样法,这是一种利用人类直觉来处理物件之间层级关系的方法。简而言之,我们的方法是通过类似假设“汽车的边界框应该包含轮胎的边界框”来工作的

 

 

Adapting Object Detectors via Selective Cross-Domain Alignment

基于选择性跨域对齐的自适应目标检测器

香港中文大学、浙江大学、商汤科技

针对域转换中的问题提出改进办法

传统的域自适应方法努力将图像作为一个整体对齐,而目标检测本质上侧重于可能包含感兴趣对象的局部区域。基于此,我们提出了一种新的目标检测领域自适应方法来解决“看哪里”和“如何对齐”的问题。我们的关键思想是挖掘有区别的区域,即那些与目标检测直接相关的区域,并集中在跨两个域对齐它们。

所提出的方法比现有的方法具有更好的性能,在不同的域移位场景下,在保持良好的可扩展性的情况下,改进了约4%-6%。

 

Fully Quantized Network for Object Detection

用于目标检测的全量化网络

上海科技大学、商汤科技

在保持网络精度的同时设计有效的量化方案

提出三个有效的改进现有的量化感知微调方案

将我们的技术应用到基于RetinaNet和更快的R-CNN的全量化4位检测器的制作中,并证明了这些技术对于量化检测器达到了最先进的性能。使用我们的方法量化的mAP损失比现有方法的损失要低3.8×以上。

 

Object detection with location-aware deformable convolution and backward attention filtering

基于位置感知可变形卷积和后向注意滤波的目标检测

伊利诺斯理工学院

 

背景信息和高分辨率特征是实现多尺度目标检测的关键。然而,上下文信息通常分布不均,高分辨率特征图也包含分散注意力的低层特征。

提出了一种基于位置感知的可变形卷积方法和一种利用深层特征对浅层特征图进行过滤的后向注意过滤模块。

位置感知的可变形卷积通过在输入采样来提取不均匀分布的上下文特征。与原始的可变形卷积不同,该方法在每个输入采样网格位置应用一个单独的卷积层,以获得一个宽且唯一的接收场,从而获得更好的偏移估计。同时,后向注意过滤模块通过突出信息特征和利用深层语义特征抑制干扰特征来过滤高分辨率特征图。

在KITTI目标检测和PASCAL VOC 2007数据集上进行了广泛的实验。该方法在R-CNN基线上的平均性能提高了6%,在KITTI排行榜上以最快的处理速度位居前三。

 

Effificient Featurized Image Pyramid Network for Single Shot Detector

单目探测器的高效特征化图像金字塔网络

天津大学

降低单阶段金字塔检测器的复杂度

本文介绍了一种在单级检测框架下高效生成特征化图像金字塔的轻量级结构。然后使用注意模块将得到的多尺度特征注入到检测器的预测层中。

在PASCAL-VOC和MS-COCO两个基准上验证了探测器的性能。对于300×300的输入,我们的检测器在Titan X GPU上以每秒111帧(FPS)的速度工作,在PASCAL VOC 2007测试集上提供最先进的检测精度。在MS Coco TestSub上,我们的检测器在单尺度推断的情况下达到了超越现有的单级方法的最先进的结果。

 

SGRN:Spatial-aware Graph Relation Network for Large-scale Object Detection

大规模目标检测的空间感知图关系网络

华为诺亚方舟实验室、中山大学

利用共现(co-occurrence)和对象位置之间的信息进行更好的推理

引入空间感知图关系网络(SGRN)来自适应发现和合并关键的语义和空间关系,用于大规模目标检测

具体来说,我们的SGRN集成了一个图形学习模块来学习一个可互操作的稀疏图形结构来编码相关的上下文区域,以及一个具有可学习的空间高斯核的空间图形推理模块来执行具有空间感知的图形推理。

Bi-Directional Cascade Network for Perceptual Edge Detection

感知边缘检测的双向级联网络

北京大学

边缘检测

 

 

 

 

 

 

 

为了在显著不同的尺度上提取边缘,我们提出了一种双向级联网络(BDCN)结构,在BDCN结构中,单个层在其特定尺度上由标记边缘进行监督,而不是直接将相同的监督应用于所有CNN输出。此外,为了丰富BDCN学习到的多尺度表示,我们引入了一个尺度增强模块(SEM),它利用扩展卷积来生成多尺度特征,而不是使用更深层次的cnn或显式地融合多尺度边缘映射。这些新方法鼓励学习不同层中的多尺度表示,并检测由其尺度很好地描绘的边缘。专用层的学习规模也导致了具有少量参数的紧凑网络。

Strong-Weak Distribution Alignment for Adaptive Object Detection

 

波士顿大学

无监督目标检测

提出了一种无监督的方法,将目标检测器从标签丰富的区域自适应到标签贫乏的区域,这可以显著降低与检测相关的注释成本。我们提出了一种基于强局部对齐和弱全局对齐的检测器自适应方法。我们的主要贡献是弱对齐模型,该模型将对抗性对齐损失集中在全局相似的图像上,而较少关注全局不同的图像的对齐。另外,我们设计了强域对齐模型来只观察特征映射的局部接受域。

 

An Iterative and Cooperative Top-down and Bottom-up Inference Network for Salient Object Detection

一种迭代协作的自顶向下和自下而上的显著目标检测推理网络

 

 

 

阿联酋国际人工智能研究所

显著目标估计

一种用于显著目标检测的统一框架——迭代式自顶向下和自底向上显著性相结合的过程

采用自顶向下的方法进行粗到细的显著性估计,其中高层显著性与较细的下层特征逐渐结合,以获得细粒度的结果。自下而上的过程通过逐步使用上层语义丰富的特征来推断高层,但粗糙的显著性。这两个过程交替执行,其中自下而上过程使用从自上而下过程获得的细粒度显著性来产生增强的高层显著性估计,而自上而下过程又进一步受益于改进的高层信息。自下而上/自上而下流程中的网络层配备了按层逐步优化的递归机制。因此,显著性信息被有效地鼓励以自下而上、自上而下和层内的方式流动。

 

我们证明了基于完全卷积网络的显著性模型本质上是我们模型的变体。在几个著名的基准上进行的大量实验表明,我们提出的显著性推理框架具有优越的性能、良好的泛化能力和强大的学习能力。

Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection

基于对比度先验和流体金字塔的RGBD显著目标检测

南开大学

针对“由于RGB与深度信息的内在差异,利用预先训练的ImageNet骨干网模型从深度信道中提取特征并直接与RGB特征融合是次优的”提出改进

在本文中,我们利用对比先验作为非深度学习的显著目标检测方法的主要线索,将其应用到基于CNNs的结构中,以增强深度信息。利用一种新的流体金字塔集成方法,将增强后的深度线索与RGB特征进一步集成,可以更好地利用多尺度交叉模态特征。

在5个具有挑战性的基准数据集上进行的综合实验表明,该体系结构CPFP优于9种最新的替代方法。

RepMet: Representative based metric learning for classifification and few shot object detection

基于代表性度量学习的分类与少镜头目标检测

 

IBM

小样本学习

在这项工作中,我们提出了一种新的DML方法,它可以在一个端到端的训练过程中同时学习骨干网参数、嵌入空间以及该空间中每个训练类别的多模态分布。对于基于DML的对象分类,我们的方法在各种标准细粒度数据集上都优于最新的方法。此外,我们通过将所提出的DML架构作为分类头合并到一个标准的目标检测模型中,证明了我们的方法在少镜头目标检测问题上的有效性。

 

Salient Object Detection with Pyramid Attention and Salient Edges

基于金字塔注意力和显著边缘的显著目标检测

阿联酋国际人工智能研究所

显著目标检测

提出了一种显著目标检测的新方法。该算法网络被命名为PASE-NET。首先,设计了一种用于显著目标检测的金字塔型注意结构,使得网络在利用多尺度显著信息的同时,能够更加集中于显著区域。这种叠加注意设计提供了一种有效地增强相应的网络层的表示能力的强大方法。第二,提出了一个显著边缘检测模块,该模块强调显著边缘信息的重要性,因为它为更好地分割显著对象和细化对象边界提供了强有力的线索。这种显著边缘检测模块学习精确的显著边界估计,从而鼓励更好的边缘保持显著对象分割。

 

详尽的实验表明,所提出的金字塔注意和显著边缘对显著目标检测都是有效的,并且我们的页面网络在几个流行的基准上以快速的推理速度(单个GPU上25FPS)优于最新的方法。

Attentive Feedback Network for Boundary-Aware Salient Object Detection

基于注意反馈网络的边界感知显著目标检测

大连理工

基于深度学习的显著目标检测方法在完全卷积神经网络(FCNs)的基础上取得了很好的的性能。但还是受到边界问题的挑战

在本文中,我们设计了注意反馈模块(AFMs),以更好地探索对象的结构。利用边界增强损失(BEL)进一步学习精细边界。

该deep模型在目标边界上产生了令人满意的结果,并在五个广泛测试的显著目标检测基准上取得了最先进的性能。该网络以完全卷积的方式以26 FPS的速度运行。

Multi-task Self-

supervised Object Detection via Recycling of Bounding Box Annotations

基于包围盒标注循环的多任务自监督目标检测

国立首尔大学

为了更好地利用给定的有限标签

提出了一种利用多任务学习(MTL)和自监督学习(SSL)的目标检测方法。我们提出了一组辅助任务,有助于提高目标检测的准确性。它们通过以SSL方式回收边界框标签(即主任务的注释)来创建自己的标签,并以MTL方式与对象检测模型联合训练。我们的方法与任何基于区域建议的检测模型都是可积的。        

该方法有效地提高了对不同体系结构和数据集的检测性能

 

 

 

High-level Semantic Feature Detection:A New Perspective for Pedestrian Detection

高级语义特征检测:行人检测的新视角

 

 

国防科技大学

本文以行人检测为例,提出了一种将目标检测作为一种高级语义特征检测任务的新思路。与边缘、角点、斑点和其他特征检测器一样,该检测器可以扫描图像上的所有特征点,而卷积算法自然适用于这些特征点。然而,与这些传统的低层特征不同,本文提出的检测器追求更高层次的抽象,即寻找有行人的中心点,而现代的深层模型已经能够实现这样的高层次语义抽象。此外,与blob检测一样,我们还预测了行人点的尺度,这也是一种直接的卷积。因此,本文通过卷积将行人检测简化为一个简单的中心和尺度预测任务。这样,所提出的方法具有无锚设置。虽然结构简单,但它在挑战行人检测基准时具有竞争性的准确性和良好的速度,因此产生了一种新的有吸引力的行人检测器。

 

FA-RPN: Floating Region Proposals for Face Detection

 

 

FA-RPN:人脸检测的浮动区域方案

 

 

提出了一种新的人脸检测区域建议生成方法。我们不使用卷积特征图中像素的特征来分类锚定盒,而是采用基于池的方法来生成区域建议。然而,在推理过程中,将数十万个锚集中起来以生成建议成为计算瓶颈。为此,提出了一种减少锚箱数量的有效锚布置策略。然后,我们证明由我们的网络生成的建议(浮动锚定区域建议网络,FA-RPN)在生成用于人脸检测的区域建议方面优于RPN。我们讨论了FA-RPN方案的几个有益特点(无需重新训练即可启用),如迭代求精、分数锚的布置和改变锚的大小/形状。

 

 

我们基于FARPN的人脸检测系统在更宽的数据集上获得了ResNet-50主干的89.4%的图像。

Mask Scoring R-CNN

 

华中科技大学

图像分割问题

让深层网络意识到自己预测的质量是一个有趣但重要的问题。在实例分割任务中,大多数实例分割框架都将实例分类的可信度作为掩码质量分数。然而,被量化为实例掩码和它的基本事实之间的IoU的掩码质量通常与分类分数没有很好的相关性。本文对此问题进行了研究,提出了一种包含网络块的掩码评分R-CNN方法来学习预测实例掩码的质量。提出的网络块将实例特征和相应的预测掩码结合起来,对掩码IoU进行回归。在COCO-AP评估过程中,mask评分策略校准了mask质量和mask评分之间的偏差,并通过优先考虑更准确的mask预测来提高实例分割性能。

 

通过对COCO数据集的评估,Mask Scoring R-CNN在不同的模型下带来了一致且显著的增益,并且优于最新Mask-RCNN。

Towards Optimal Structured CNN Pruning via Generative Adversarial Learning

基于生成性对抗学习的最优结构CNN剪枝

厦门大学

CNN剪枝问题

滤波器或神经元的结构化剪枝在压缩卷积神经网络方面受到越来越多的关注。大多数现有的方法依赖于分层优化的分层优化迭代修剪和再培训,这可能不是最优的,并且可能是计算密集型的。此外,这些方法是为修剪特定的结构而设计的,例如过滤器或块结构,而不需要联合修剪异构结构。本文提出了一种有效的结构化剪枝方法,该方法将滤波器和其他结构以端到端的方式联合剪枝。为此,我们首先引入一个软掩模来调整这些结构的输出,通过定义一个具有稀疏正则化的新目标函数来调整基线和网络的输出。然后,我们通过生成性对抗学习(GAL)有效地解决了优化问题,GAL以无标签和端到端的方式学习稀疏软掩模。通过将软掩模中更多的尺度因子强制为零,可以利用快速迭代收缩阈值算法(FISTA)快速可靠地去除相应的结构。

Grid R-CNN

香港中文大学

 

提出了一种新的目标检测框架Grid-R-CNN,该框架采用网格引导定位机制进行精确的目标检测。与传统的基于回归的方法不同,Grid-R-CNN能够显式地捕捉空间信息,具有完全卷积结构的位置敏感特性。我们设计了一个多点监控公式,不再只使用两个独立的点,而是对更多的线索进行编码,以减少对特定点的不准确预测带来的影响。为了充分利用网格中各点之间的相关性,提出了一种两阶段信息融合策略来融合相邻网格点的特征图。网格引导定位方法易于扩展到不同的最新检测框架。

Grid R-CNN实现了高质量的目标定位,实验表明,与Res50骨干网和FPN结构的R-CNN相比,它在IoU=0.8时的AP增益为4.1%,在IoU=0.9时的AP增益为10.0%。

 

你可能感兴趣的:(计算机视觉,目标检测)