2019 ICCV 目标检测 论文简述整理

2019 ICCV  (43篇)

题目

发表单位

针对问题

创新点

性能

ThunderNet: Towards Real-time Generic Object Detection

(实现实时通用对象检测)

旷视

改善目标检测器的实时性

提出了一个轻量级的二阶段检测器ThunderNet;提出了一种用于对象检测的轻量级骨干;在检测部分,采用了非常高效的RPN和检测头设计;为了生成更具区分性的特征表示,设计了两个有效的架构模块:上下文增强模块和空间注意模块;最后,研究了输入分辨率,主干和检测头之间的平衡。

与轻量级的一阶段检测器相比,ThunderNet仅以PASCAL VOC和COCO基准的计算成本的40%即可实现卓越的性能。在基于ARM的设备上以24.1 fps的速度运行。

Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection

 

数据标记问题

建立了一个对象检测器,使图像与伴随的标题(句子)配对。该模型将人类书写的自由形式文本和视觉对象连接起来,并在图像中的对象上生成精确的边界框。     

 

Towards Adversarially Robust Object Detection

百度

致力于提高目标检测的鲁棒性

论文首先从模型稳健性的角度重新审视和系统分析了目标检测器和许多最近发展起来的攻击。后提出了多任务学习视角下的目标检测方法,并确定了任务损失的不对称作用。然后进一步提出了一种对抗性训练方法,可以利用多个攻击源来提高检测模型的鲁棒性。

 

Few-shot Object Detection via Feature Reweighting

(基于特征重加权的少镜头目标检测)

伯克利

针对CNN框架需要的大量数据问题提出改善方法

开发了一个few-shot目标检测器,可以学习如何从少数注释示例中检测新的目标。

提出的模型利用了完全标记的基类,并使用元特征学习器和在一阶段检测架构中的重加权模块快速适应新的类。              特征学习器利用具有足够样本的基类训练数据,提取出可概括的元特征来检测新的对象类。 重加权模块将新类中的一些支持示例转换为全局向量,该全局向量指示元特征对于检测相应对象的重要性或相关性。

这两个模块和一个检测预测模块是进行端到端训练的,基于一个幕式(episodic)的少量镜头学习方案和一个精心设计的损失函数

 

 

Optimizing the F-measure for Threshold-free Salient Object Detection

约翰·霍普金斯大学

 

提出了一种新的loss函数FLoss。与传统的交叉熵损失(在饱和区的梯度明显减小)相比,即使在激活接近目标时,它也具有相当大的梯度。因此,FLoss可以持续地使网络产生极化激活。    对几个流行数据集的综合基准表明,FLoss的表现优于最新技术。

 

 

 

Depth-induced Multi-scale Recurrent Attention Network for Saliency Detection

(显著性检测)

大连理工

显著性检测

提出了一种新的深度诱导多尺度递归注意网络,用于显著性检测。贡献包括:

设计了一个有效的深度细化块,利用残差连接从RGB和深度流中充分提取和融合多级成对互补线索。

其次,创新性地将具有丰富空间信息的深度线索与多尺度上下文特征相结合,实现显著目标的精确定位。              

  • 我们在人脑内部生成机制的启发下,设计了一个新的重复注意模块,提高了模型的性能。该模块通过综合学习融合特征的内部语义关系,利用面向记忆的场景理解,逐步优化局部细节,生成更准确的显著性结果。

此外,我们还创建了一个包含更复杂场景的大规模RGB-D数据集,这有助于全面评估显著性模型。

 

Towards High-Resolution Salient Object Detection

大连理工

在显著目标检测方面,针对训练深层神经网络直接处理超高分辨率图像

提出了一种高分辨率显著性检测方法,并给出了一个新的数据集:高分辨率显著性目标检测(HRSOD)。

提出了一种新的方法,结合全局语义信息和局部高分辨率细节,以解决这一挑战性的任务。更具体地说,我们的方法由全局语义网络(GSN)、局部细化网络(LRN)和全局局部融合网络(GLFN)组成。其中GSN基于下采样图像提取全局语义信息。在GSN结果的指导下,LRN将重点放在局部区域,并逐步产生高分辨率的预测结果。为了增强空间一致性和提高性能,进一步提出了GLFN。

该方法优于现有的最先进的方法在高分辨率显著性数据集的大幅度,并取得了相当或甚至更好的性能比他们广泛使用的显著性基准。

Temporally-Aggregating Spatial Encoder-Decoder for Video Saliency Detection

密歇根

视频中的显著目标检测

TASED网是一种用于视频显著性检测的三维全卷积网络结构。它由两个组成部分组成:首先,编码器网络从多个连续帧的输入片段中提取低分辨率的时空特征,然后,下面的预测网络在聚集所有时间信息的同时对编码的特征进行空间解码。结果,从多个帧的输入片段生成单个预测映射。通过将TASED网以滑动窗口的方式应用于视频,可以预测帧显著性映射。该方法假设任何帧的显著图都可以通过考虑有限的过去帧来预测。我们在视频显著性检测方面的大量实验结果验证了这一假设,并证明了我们采用时间聚集方法的完全卷积模型是有效的。

 

 

 

 

SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

中科院

旨在解决小的、旋转的、混乱的物体检测问题

设计了一种采样融合网络,该融合网络将多层特征与有效的锚点采样融合在一起,以提高对小物体的灵敏度。同时,通过抑制噪声并突出物体特征,共同探索了监督像素注意力网络和通道注意力网络,用于小而杂乱的物体检测。为了更准确地估算旋转角度,将IoU常数因子添加到平滑L1损耗中,以解决旋转边界框的边界问题。

 

Relation Distillation Networks for Video Object Detection(用于视频对象检测的关联蒸馏网络)

中国科学技术大学

旨在提高视频目标检测的性能

提出了关系蒸馏网络(RDN),即一种新的体系结构,该体系结构聚合并传播对象关系以增强对象特征以进行检测。技术上,对象建议首先通过区域建议网络(RPN)生成。然后,RDN 一方面通过多阶段推理对对象关系建模,另一方面,通过以级联方式细化具有高对象得分的支持性对象建议,逐步提取关系。所学习的关系验证了在改善每个帧中的对象检测和跨帧链接的框上的功效。

在ImageNet VID数据集上,RDN使用ResNet-101和ResNeXt-101分别达到了81.8%和83.2%的mAP。进一步配备链接和评分功能后,我们得出的迄今为止最佳的mAP分别为83.8%和84.7%。

Scaling Object Detection by Transferring Classification Weights

通过转移分类权值来缩放对象检测

南洋理工大学

无监督目标检测

最先进的目标检测模型是以有监督的方式训练的,这限制了它们可以检测的对象类的数量。本文提出了一种新的权值转移网络(WTN),可以有效地将分类网络权值中的知识转移到检测网络权值中,使新类的检测无需框监督。

 

WSOD^2: Learning Bottom-up and Top-down Objectness Distillation for Weakly-supervised Object Detection

中山大学

弱监督目标检测

本文通过设计一种适用于弱监督目标检测的训练机制,提出了一种基于对象蒸馏的WSOD框架(WSOD2)。              多元回归目标是由低层测量的自下而上(BU)和自上而下(TD)的目标性和CNN的置信度通过自适应线性组合共同确定的。             

由于包围盒回归有助于区域建议学习在训练过程中以高目标性接近其回归目标,因此通过优化,可以将从自底向上证据中学习到的深层目标表示逐步提炼到CNN。  

      

 

POD: Practical Object Detection with Scale-Sensitive Network

中国科学院大学

悉尼大学

针对尺度敏感物体的检测问题提出改进办法

提出了一种实用的基于尺度敏感网络的目标检测方法。该方法首先为每个网络阶段的卷积滤波器预测一个由所有位置共享的全局连续尺度。              为了有效地学习尺度,我们对空间特征进行平均,并从通道中提取尺度。              为了实现快速部署,我们提出了一种尺度分解方法,该方法利用扩展卷积,将稳健的分数尺度分解为每个卷积滤波器的固定积分尺度组合。

在COCO数据集上,该模型在ResNet-101的基础上实现41.5map的一阶段检测器42.1 map的二阶段检测器,在不增加触发器的情况下分别比基线性能提高了2.4和2.1的百分点。

Efficient Neural Architecture Transformation Search in Channel-Level for Object Detection(NIPS神经信息处理)

加州洛杉矶

针对网络训练提出改进。

提出了一种实用的神经结构变换搜索(NATS)目标检测算法,它不是搜索和构建一个完整的网络,而是在现存网络结构和权值复用的基础上探索结构空间。

提出了一种新的神经网络结构的搜索策略,在通道层而不是路径层,并设计了一个专门针对目标检测的搜索空间。              将这两种设计结合起来,可以发现一种结构转换方案,使设计用于图像分类的网络适应目标检测的任务。由于该方法是基于梯度的,并且只搜索一个转换方案,因此在ImageNet预先训练的权值可以用于搜索和再训练阶段,使得整个过程非常高效。转换后的网络不需要额外的参数和触发器,便于硬件优化,具有实际应用价值。       

           

 

我们的转换网络,结合各种检测框架,在保持快速的同时,在COCO数据集上实现了性能的显著提升。

A Robust Learning Approach to Domain Adaptive Object Detection

Quadrant

NVIDIA

目标检测中的域转移问题

本文从鲁棒学习的角度研究了领域适应问题,并证明了该问题可以表述为带噪声标签的训练问题。然后,提出了一个鲁棒的目标检测框架,该框架能在包围盒类标签、位置和尺寸标注中抵抗噪声。为了适应区域移动,该模型使用一组噪声对象边界盒在目标区域上进行训练,这些噪声对象边界盒由仅在源区域训练的检测模型获得。

 

 

 

Employing Deep Part-Object Relationships for Salient Object Detection

 

西安电子科技大学

卷积得到的局部特征各自决定图像各部分显著强度的内在机制对于同一显著目标内部的各部分的不一致,           而导致的检测显著对象的形状不完整。

为了解决这一问题,该论文深入研究了部分目标关系,并采取了前所未有的尝试,将胶囊(Capsule)网络赋予的这些关系用于显著目标检测。              整个显著目标检测系统直接建立在由三个算法步骤组成的两流部分目标分配网络(TSPOANet,Two-Stream Part-Object Assignment Network )上。在第一步中,将所学习到的输入图像的深度特征映射转换为一组原始胶囊。在第二步中,我们将初级胶囊送入两个相同的流中,每个流中的低级胶囊(部件)将通过本地连接的路由分配给它们熟悉的高级胶囊(对象)。最后一步中,两个流以完全连接层的形式集成,其中相关部分可以聚集在一起形成完整的显著对象。

 

 

 

Learning Rich Features at High

Speed for Single

Shot Object Detection

 

天津大学

针对网络的训练给与改进办法(一阶段网络)

最近的研究表明,从头开始训练有助于减少分类和定位之间的任务差距,特别是在高重叠阈值下。然而,与典型的基于精细调整的模型相比,从头开始训练的检测模型需要更长的训练时间。              我们介绍了一个单阶段检测框架,它结合了微调预训练模型和从头开始训练的优点。我们的框架构成了一个标准网络,它使用一个预先训练的骨干网和一个从头开始训练的并行轻量级辅助网络。此外,我们认为,常用的自顶向下的金字塔表示只专注于将高层语义从顶层传递到底层。在检测框架中,我们引入了一个双向网络,它能有效地循环低-中-高级语义信息。

与基线相比,采用VGG骨干网的MS-COCO和UAVDT数据集的平均精度(AP)分别提高了7.4%和4.2%(SSD、YOLOv3、Retinanet)

Selectivity or Invariance: Boundary-aware Salient Object Detection

(选择性或不变性:边界感知显著目标检测)

北航

显著目标检测

通常,显著目标检测(SOD)模型在处理对象内部和边界时面临相反的要求。内部特征要对强烈的外观变化保持不变性,使突出物整体突出,而边界特征要对轻微的外观变化有选择性,以区分突出物和背景。 为了解决这种选择性不变性的难题,我们提出了一种基于图像的显著目标检测的连续扩张边界感知网络。在该网络中,通过引入边界定位流,提高了边界特征的选择性,而在复杂的内部感知流中,保证了内部特征的不变性。        此外,还采用了过渡补偿流来修正内部与边界过渡区域的可能失效。特别地,为了增强图像内部和过渡区域的特征不变性,提出了一种集成的连续膨胀模型。

得到了最优性能(胜过最新的显著目标检测器)

Progressive Sparse Local Attention for Video Object Detection

中科院

视频中的目标检测

该文提出了一种新的渐进稀疏局部注意(PSLA)模型,该模型不依赖于光流,而是在步幅逐渐稀疏的局部区域内建立帧间特征的空间对应关系,并利用这种对应关系来传播特征。在PSLA的基础上,提出了递归特征更新(RFU)和稠密特征变换(DenseFT)方法,分别对视频对象检测框架中的时间外观进行建模和丰富特征表示。

在IVIENET VID数据集上的实验表明,我们的方法与现有的方法相比,具有更小的模型尺寸和可接受的运行速度达到了最佳精度。

Minimum Delay Object Detection From Video

 

阿卜杜拉国王科技大学

最小化目标检测的延时

提供了第一个实时解决方案,在可接受的检测精度水平下,保证最小化延迟,即从目标进入视野到声明的检测时间之间的时间。              该方法利用基于现代CNN的单帧目标检测器,将检测结果聚合到多帧上,以保证最小的延迟,以用户指定的速率提供可靠的检测。

 

              

 

Scale-Aware Trident Networks for Object Detection

中科院

针对目标检测中的尺度问题提出新的网络结构

提出了一种新的三叉戟网络(TridentNet),其目的是生成具有统一表示能力的特定尺度特征图。我们构造了一个并行的多分支体系结构,其中每个分支共享相同的转换参数,但具有不同的接收区域。然后,采用一种尺度感知的训练方案,通过选取合适尺度的对象实例进行训练,使各分支专业化。              

在COCO数据集上,我们的带有ResNet-101主干网的TridentNet实现了48.4map的最新单模型结果

Object-Aware Instance Labeling for Weakly Supervised Object Detection

(弱监督目标检测中的目标感知实例标记)

东京大学

弱监督目标检测,主要关注实例标记问题

与其简单地将得分最高的区域及其高度重叠的区域标记为正,其他区域标记为负,我们提出了更有效的实例标记方法如下。首先,为了解决只覆盖物体某些部分的区域容易被标记为正的问题,我们发现覆盖整个对象的区域集中在上下文分类丢失上。其次,考虑到图像中包含的其他对象可以标记为负的情况,我们对标记为负的区域施加空间限制。

使用这些实例标记方法,我们在PASCAL VOC 2007和2012上对检测器进行了训练,与其他最新方法相比,获得了显著的改进结果。

Generative Modeling for Small-Data Object Detection

小数据对象检测的生成模型

密歇根

针对小数据对象检测问题

我们从生成建模的角度来探索这个问题,学习生成带有关联边界框的新图像,并使用这些图像来训练对象检测器。我们证明,简单地训练先前提出的生成模型并不能产生令人满意的性能,因为它们优化了图像真实性而不是目标检测精度。为此,我们开发了一种新的模型,该模型采用了一种新的展开机制,该展开机制可以联合优化生成模型和检测器,从而使生成的图像提高检测器的性能。

结果表明,该方法在疾病检测和小数据行人检测两个具有挑战性的数据集上均优于现有方法,提高了NIH胸部X线片的平均精度20%,定位精度50%。

CenterNet: Keypoint Triplets for Object Detection

 

 

CenterNet:用于对象检测的Keypoint三元组

中科院

“基于关键点的方法通常会遇到大量不正确的对象边界框的缺点,这可以说是由于在裁剪区域内缺乏额外的评估”针对这一缺点提出改进

我们在一个具有代表性的一级基于关键点的检测器CornerNet上构建了我们的框架。              我们的方法名为中心网,它将每个对象检测为一个三元组,而不是一对关键点,从而提高了精确度和召回率。因此,我们设计了两个定制模块,层叠角池和中心池,它们丰富了左上角和右下角收集的信息,并提供了来自中心区域的更易识别的信息。

在MS-COCO数据集上,CCNET实现了AP的47%,优于现有的一级检测器至少4.9%。此外,与排名第一的两级检测器相比,中心网具有更快的推理速度,显示出与这些检测器相当的性能。

Dynamic Anchor Feature Selection for Single-Shot Object Detection

 

一阶段目标检测中的动态锚特征选择

香港中文大学

 

文中提出了一个动态的特征选择操作,为从ARM(anchor refinement module)接收到的每个提炼的锚点选择特征地图中的新像素。              根据新的锚点位置和大小来选择像素,使得这些像素的接收区域能够很好地拟合锚点区域,这使得检测器,特别是回归部分更容易优化。此外,为了提高特征像素的表现能力,我们设计了一个双向特征融合模块,将浅层和深层特征融合在一起。

 

在PASCAL-VOC和COCO上的实验证明了动态锚特征选择(DAFS)操作的有效性。 对于IoU阈值较高的情况,DAF可以大幅度地改进mAP。

Auto-FPN: Automatic Network Architecture Adaptation for Object Detection Beyond Classification

一种适用于超分类目标检测的自动网络体系结构

 

华为诺亚方舟实验室

针对于检测问题的神经结构搜索(NAS)问题(现有的工作重点是将搜索到的体系结构从分类任务转移到检测器骨干,而检测器的其余部分保持不变。然而,这种流水线不是特定于任务或面向数据的网络搜索,不能保证对任何数据集的最佳适应。)

提出了一个架构搜索框架Auto-FPN,专为检测而设计,不只是简单地搜索分类主干网。              具体来说,我们提出了两个自动搜索模块来进行检测:自动融合,以搜索到更好的多层次特征融合;自动头搜索更好的结构分类和包围盒回归。我们不再搜索一个可重复的单元结构,而是放松约束,允许不同的单元。              这两个模块的搜索空间涵盖了许多流行的检测器设计,并允许在资源受限的情况下进行高效的基于梯度的架构搜索。

在Pascal VOC、COCO、BDD、Visual Genome和ADE上进行的大量实验证明了该方法的有效性,例如在mAP方面比FPN提高了5%左右,而在搜索模块上所需的参数减少了50%左右。

ThunderNet:面向移动设备的实时通用目标检测

国防科技大学

在两阶段网络的实时性上提出改进

本文研究了两级检测器在实时通用检测中的有效性,提出了一种轻量级的两级检测器ThunderNet。在骨干网部分,分析了以往轻量级骨干网的不足,提出了一种用于目标检测的轻量级骨干网。在检测部分,我们开发了一个非常有效的RPN和检测头设计。    为了产生更具区分性的特征表示,我们设计了两个有效的架构模块:上下文增强模块和空间注意模块。最后,我们研究了输入分辨率、骨干网和检测头之间的平衡。

得益于高效的主干网和检测部件设计,ThunderNet超越了以前的轻量级单级检测器,仅占PASCAL VOC和COCO基准计算成本的40%。在没有铃铛和口哨的情况下,ThunderNet在基于ARM的设备上以24.1 fps的速度运行,COCO上有19.2 AP。

Stacked Cross Refifinement Network for Edge

Aware Salient Object Detection

基于叠层交叉求精网络的边缘感知显著目标检测

中科院

一些研究人员尝试利用边缘信息进行辅助训练。然而,现有的边缘感知模型设计了仅使用边缘特征来改善分割特征的单向框架。

基于二值分割和边缘映射之间的逻辑关系,本文提出了一种新的用于显著目标检测的叠层交叉求精网络(SCRN)。我们的框架旨在通过叠加交叉细化单元(CRU)同时细化显著目标检测和边缘检测的多层次特征。 根据逻辑关系,CRU设计了两个特定于方向的集成操作,并在两个任务之间双向传递消息。将改进的边缘保持特征与典型的U-Net相结合,实现了对显著目标的精确检测。

在六个基准数据集上进行的大量实验表明,我们的方法在精度和效率上优于现有的最先进的算法。

Semi-Supervised Video Salient Object Detection Using Pseudo-Labels

基于伪标签的半监督视频显著目标检测

中山大学

训练中的目标标记问题

本文提出了一种基于伪标签的半监督视频显著目标检测方法。具体地说,我们提出了一种有效的视频显著性检测器,它由一个空间细化网络和一个时空模块组成。 基于相同的细化网络和光流方面的运动信息,我们进一步提出了一种从稀疏标注帧生成像素级伪标签的新方法。 通过将生成的伪标签与部分人工标注结合使用,我们的视频显著性检测器学习用于对比推断和相关增强的空间和时间线索,从而生成准确的显著性map。

 

实验结果表明,我们提出的半监督方法在VOS、DAVIS和FBMS三个公共基准点上的性能甚至大大优于所有最新的完全监督方法。

Learning to Rank Proposals for Object Detection

 

阿里研究院

NMS是现代对象检测模型去除重复候选的必要步骤,其有效性严重影响最终的检测结果。之前的研究依赖于目标的分类和回归的定位,而这两个准则都是启发式设计的,不能与抑制排序显式地联系起来。为解决这一问题提出改进。

本文提出了一种新的学习排序(LTR)模型,通过学习过程产生抑制排序,从而方便了候选生成,提高了检测性能。特别地,我们定义了一个基于IoU的排名分数,用来表示在NMS步骤中的候选框的排名,在NMS步骤中,高排名分数的候选框将被保留,低排名分数的候选框将被淘汰。我们设计了一个轻量级网络来预测排名得分。我们引入一个排名损失来监督这些排名分数的产生,这使得拥有高IoU的候选框有更高的排名。为了简化训练过程,我们设计了一种新的抽样策略,将候选框分成不同的层次,并选择训练中要采用的困难对。在推理阶段,该模块可以作为当前对象检测器的插件使用。整个框架的训练和推理是端到端的。

PASCAL VOC和MS COCO基准测试的综合实验证明了我们的模型的普遍性和有效性,以促进现有的目标检测器达到最先进的精度。

Clustered Object Detection in Aerial Images

航空图像中的簇状目标检测

坦普尔大学

针对航空图像中的两大问题:              (1)行人等目标物体像素很小,与周围背景很难区分;              (2)目标一般稀疏且非均匀分布,使得检测效率很低。

我们通过观察(航拍)发现这些目标通常是聚集的,以此来解决这两个问题。我们提出了一个在端到端框架中将对象聚类和检测结合起来的聚类检测(clustet)网络。

clustet中的关键组件包括一个集群提议子网(CPNet)、一个规模估计子网(ScaleNet)和一个专用检测网络(DetecNet)。              给定输入图像,CPNet生成对象簇区域,ScaleNet估计这些区域的对象比例。然后,将每个尺度归一化的聚类区域送入检测网进行目标检测。

 

Towards Precise End to end Weakly Supervised Object Detection Network

国防科技大学

针对弱监督目标检测的精确性问题

设计了一个具有多实例学习和边界盒回归分支的单一网络,这些分支共享同一主干。              同时,在骨干网中加入分类损失的引导注意模块,有效提取特征中的隐含位置信息。

达到了最先进的性能

EG-NET:Edge Guidance Network for SOD(用于显著目标检测的边引导网络)

南开大学

针对“大多数现有的基于FCNS的方法仍然遭受粗(coarse)对象边界”问题

本文重点研究了显著边缘信息和显著目标信息之间的互补性。因此,我们提出了一种用于显著目标检测的边缘引导网络(EGNet),该网络分三步同时对这两种互补信息进行建模。在第一步中,我们采用渐进式融合的方法来提取目标的显著特征。在第二步中,我们将局部边缘信息和全局位置信息结合起来,得到显著的边缘特征。最后,为了充分利用这些互补特征,我们将相同的显著边缘特征与不同分辨率的显著对象特征相结合。              融合后的特征可以利用边缘特征中丰富的边缘信息和位置信息,更准确地定位显著目标,尤其是其边界。

该方法在6个广泛使用的数据集上,无需任何前处理和后处理,与现有方法相比,具有良好的性能

NOTE-RCNN: NOise Tolerant Ensemble RCNN for Semi-

Supervised Object

Detection

 

半监督目标检测中的噪声容限集成RCNN

南加利福尼亚

试图改善样本标注问题

为了减少对昂贵的包围盒标注的依赖性,我们提出了一种新的半监督目标检测公式,其中使用少量的seed box标注和大量的图像级标注来训练检测器。我们采用了一种训练挖掘框架,广泛应用于弱监督目标检测任务中。              然而,挖掘过程固有地引入了各种标记噪声:假阴性、假阳性和不准确的边界,这对训练标准的目标检测器(例如更快的RCNN)是有害的。我们提出了一种新的抗噪声集合RCNN(NOTE-RCNN)目标检测器来处理这种噪声标签。与标准的快速RCNN相比,该方法有三个亮点:两个分类头和一个蒸馏头的组合,避免了对噪声标签的过度拟合,提高了挖掘精度;屏蔽了盒内负样本损失预测器,避免了假负标签的危害;训练盒回归只针对seed标注,消除了挖掘边界盒边界不准确的危害。

我们在ILSVRC 2013和MSCOCO 2017数据集上的进行了评估;我们观察到,当我们在挖掘和训练步骤之间迭代时,检测精度持续提高,并且达到了最先进的性能。

Leveraging Long-Range Temporal Reletionships Between Proposals For video Object Detection

利用视频对象检测方案之间的长时间关系

 

通过考虑长距离时间相关性来改进视频对象检测

在本文中,我们提出了对视频中任意长依赖的单帧检测器的一种轻量修正。它显著地提高了单帧检测器的精度,计算开销可以忽略不计。我们的方法的关键部分是一个新的时态关系模块,它基于对象提议,从不同的框架中学习提议之间的相似性,并从过去和/或未来中选择提议以支持当前提议。我们的最终“因果”模型,没有任何离线后处理步骤,运行速度与单帧检测器相似,并在ImageNet VID数据集上实现了最先进的视频对象检测。

 

Enriched Feature Guided Refifinement Network for Object Detection

 

面向目标检测的丰富特征引导细化网络

 

天津大学

针对类别不平衡和多尺度问题

提出了一个单阶段检测框架,共同解决多尺度目标检测和类不平衡的问题。我们没有设计更深层的网络,而是引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征。我们进一步提出了一种级联改进方案,该方案首先在单级检测器的预测层中加入多尺度上下文特征,以增强其对多尺度检测的分辨能力。第二,级联细化方案通过细化锚和丰富特征来改善分类和回归,解决了类不平衡问题。

当输入为320×320时,COCO AP为33.2,同时在Titan XP GPU上以21毫秒的速度运行。当输入为512×512,与最好的单级结果相比,我们的方法在COCO-AP方面获得了1.6%的绝对增益。

RepPoints: Point Set Representation for Object Detection

 

北京大学

更加精确的定位

在本文中,我们提出了RepPoints(代表点),一种新的更精细的对象表示方法,作为一组可用于定位和识别的样本点。给定训练的定位和类别,RepPoints学习以一种限定对象空间范围并指示语义上重要的局部区域的方式自动排列自己。此外,它们不需要使用锚来采样边界框空间。

我们使用ResNet-101模型,在COCO Dev数据集上,获得了46.5ap和67.4ap50的实验结果,证明了基于RepPoints的无锚目标检测方法可以与最新的基于锚的检测方法一样有效。

Weakly Supervised Object Detection With Segmentation Collaboration

 

基于分割协作的弱监督目标检测

中科院

弱监督目标检测

本文提出了一种新的端到端弱监督检测方法,其中新引入的生成性对抗性分割模块与传统的检测模块在协作循环中进行交互。协作机制充分利用了弱监督定位任务(检测和分割任务)的互补解释,形成了一个更加全面的解决方案。 因此,我们的方法得到更精确的对象边界框,而不是部分或无关的背景。

该方法在PASCAL VOC 2007数据集上的检测精度达到了53.7%,达到了目前的水平,证明了该方法在弱监督目标检测中的优越性。

Detecting 11K Classes: Large Scale Object Detection without Fine-Grained

Bounding Boxes

无细粒度包围盒的大规模对象检测

亚马逊

弱监督目标检测

本文提出了一种半监督的大规模细粒度检测方法,该方法只需要少量粗粒度类的包围盒标注和大规模细粒度类的图像级标签,就可以在几乎完全监督的精度下检测所有类。我们通过利用粗粒度和细粒度类之间的关联来实现这一点,粗粒度和细粒度类具有共享主干网、基于软注意的建议重新排序和一个双层内存模块。

在ImageNet和OpenImages两个大规模数据集上,我们的方法与目前最先进的完全监督方法相比,只需少量的完全注释类,就可以达到很高的目标检测精度。

Objects365: A Large scale, High

quality Dataset for Object Detection

旷视

用于目标检测的大规模高质量数据集

 

 

Bridging the Gap Between Detection and Tracking: A Unifified Approach

缩小检测和跟踪之间的差距:一种统一的方法

中科院

探索一种在几乎所有先进的目标检测器上直接构建跟踪系统的通用框架

要实现这一点,必须弥合三个关键差距:(1)对象检测器是类特定的,而跟踪器是类不可知的。(2)对象检测器不区分类内实例,而这是跟踪器的关键能力。(3)在静止图像检测器中不考虑时间线索的情况下,时间线索对稳定的长期跟踪很重要。为了解决上述问题,我们首先提出了一个简单的目标引导模块,用于引导探测器定位与目标相关的物体。然后采用元学习器对检测器进行快速学习,并在线调整目标分心分类器。我们进一步引入锚定更新策略来缓解过度拟合的问题。

该框架分别在典型的一级和两级检测器SSD和FasterRCNN上实现。在OTB、UAV123和NfS上的实验已经验证了我们的框架,并表明我们的跟踪器可以从更深层的骨干网络中受益,而不是最近的许多跟踪器。

Active Learning for Deep Detection Neural Networks

 

巴塞罗那自治大学

图像标记

主动学习的目的是通过只选择那些信息量大的图像来降低标记的成本,从而提高检测网络的准确性。本文提出了一种基于卷积神经网络的目标检测器主动学习方法。我们提出了一种新的图像等级评分方法来对未标记的图像进行自动选择排序,明显优于经典评分。

 

O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks

一种简单的深神经网络噪声标签检测方法

阿里研究院

用于抗声噪

不同于以往的工作需要专门设计的抗噪声损失函数或网络,O2U网络易于实现但有效。它只需要调整深网络的超参数,使其状态由过拟合周期性地向欠拟合周期性地转变。在迭代过程中记录每个样本的损失。 样本的归一化平均损失越高,被噪声标签的概率就越高。O2U网络与主动学习和其他人类注释方法自然兼容。

 

下面内容是深度卷积网络相关

深度卷积网络

Co-Evolutionary Compression for Unpaired Image Translation

 

 

该论文首次提出针对GAN中生成网络的剪枝算法,在图像迁移任务中,可以在保持迁移效果的情况下,网络参数量和计算量压缩四倍以上,实测推理时间压缩三倍以上。

 

MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

 

 

Meta learning 论文是旷世研究院提出的一种神经网络压缩方法。通道剪枝 [1] 作为一种神经网络的压缩方法被广泛的实现和应用,一般剪枝算法通过对预训练的大网络裁剪次要的通道,之后微调,得到最终的剪枝网络。随着 AutoML[2] 的发展,metapruning 利用 autoML 的自动寻找最优结构的特点,脱离了人工设计的局限以及弥补剪枝算法的依赖数据的不足。本文从元学习的角度出发,直接用元学习得到剪枝网络(pruned networks)的结构以及自生成权重,而不是保留原始网络的重要参数。

 

Data-Free Learning of Student Networks

 

 

该篇论文是华为提出的一篇蒸馏方向的论文,其主要的创新点是提出的蒸馏过程不需要原始训练数据的参与。

 

 

Correlation Congruence for Knowledge Distillation

 

 

这篇论文是由商汤提出的一篇蒸馏方向论文,其主要的亮点在于研究样本之间的相关性,利用这种相关性作为蒸馏的知识输出。

 

你可能感兴趣的:(目标检测,计算机视觉)