计算机视觉最新进展概览(2021年4月18日到2021年4月24日)

1、VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous Driving

运动目标检测(MOD)是自动驾驶中的一项关键任务,需要准确检测出自我车辆周围的运动主体,以进行安全的轨迹规划。它还能基于运动线索对物体进行外观无关性检测。还有一些几何上的挑战,比如运动视差模糊,这让它成为一个难题。在本研究中,我们的目标是利用车辆运动信息,并将其输入模型,以获得一个基于自我运动的自适应机制。其动机是使模型能够隐式地进行自我运动补偿以提高性能。我们将六自由度的车辆运动转换为一个像素级张量,可以作为CNN模型的输入。采用车辆运动张量(Vehicle Motion Tensor, VMT)方法建立的模型在mIoU中比基线体系结构提高了5.6%。我们还在公共KITTI_MoSeg_Extended数据集上取得了最先进的结果,甚至与利用LiDAR和额外输入帧的方法相比。我们的模型也是轻量级的,在TitanX GPU上以85帧每秒的速度运行。

2、FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

单目三维目标检测具有成本低的优点,是自动驾驶的一项重要任务。由于其固有的病态性,主要体现在深度信息的缺乏,使其比传统的二维情况更具挑战性。二维检测的最新进展为更好地解决这一问题提供了机会。然而,让一个通用的适应2D检测器在这个3D任务中工作是不平凡的。在本技术报告中,我们通过建立在全卷积单级检测器上的实践来研究这个问题,并提出了一个通用框架FCOS3D。具体而言,首先将一般定义的7自由度三维目标变换到图像域,将其解耦为二维和三维属性。然后根据目标的二维尺度将其分布到不同的特征层次,仅根据投影的三维中心进行训练。此外,中心性被重新定义为一个二维高斯分布的基础上的3D中心,以适应3D目标的公式。所有这些都使这个框架既简单又有效,消除了任何2D检测或2D- 3d对应的先验。在NeurIPS 2020的nuScenes 3D检测挑战中,我们的解决方案在所有纯视觉方法中获得了第一名。

3、Exploring 2D Data Augmentation for 3D Monocular Object Detection

数据增强是基于CNN的图像识别任务的关键组成部分,如目标检测。然而,在三维物体检测方面的探索相对较少。许多标准的二维目标检测数据增强技术不能扩展到三维盒。将这些数据扩展到3D目标检测需要对输入场景的3D几何形状进行适应,并合成新的视点。这需要准确的场景深度信息,而这些信息可能并不总是可用的。在这篇论文中,我们评估了现有的2D数据增强,并提出了两种新的用于单目3D检测的增强,不需要新的视图合成。我们首先评估了RTM3D检测模型上的这些增强效果,因为其训练时间较短。我们获得了汽车的3D AP (@IoU=0.7)的持续改善4%,行人和骑自行车的3D AP (@IoU=0.25)的分数~1.8%,超过了KITTI汽车检测数据集的基线。我们还将考虑到KITTI验证数据集中的类不平衡,通过重新加权mAP分数来证明对mAP分数的严格评估。

4、BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object Detection for Autonomous Driving

基于激光雷达的三维目标检测是自动驾驶技术中的一个重要模块,特别是远程目标检测。大多数的研究集中在实现更高的精度,这些模型没有从延迟和功率效率的角度优化部署在嵌入式系统上。对于高速驾驶场景,延迟是一个关键参数,因为它提供了更多的时间来应对危险的情况。该模块通常采用基于体素或点云的三维卷积方法。首先,它们在嵌入式平台上是低效的,因为它们不适合高效的并行化。其次,由于场景的稀疏程度与安全系统所需的确定性相违背,它们具有可变的运行时间。在这项工作中,我们的目标是开发一个非常低的延迟算法与固定的运行时间。我们提出了一种新的语义分割体系结构,作为一个单一统一的模型,利用关键点检测目标中心,盒预测和方向预测使用装箱分类在一个更简单的鸟瞰图(BEV) 2D表示。提出的体系结构可以简单地扩展到包括语义分割类,如道路,而不需要任何额外的计算。该模型在Nvidia Xavier嵌入式平台上的延迟为4ms。该模型比其他顶级精度模型快5倍,在KITTI数据集上,IoU=0.5的平均精度最小退化2%。

5、A Fully Spiking Hybrid Neural Network for Energy-Efficient Object Detection

本文提出了一种全峰值混合神经网络(FSHNN),用于资源受限平台下的高效鲁棒目标检测。该网络体系结构基于卷积SNN,使用泄漏集成火神经元模型。该模型结合了无监督Spike Time-Dependent可塑性(STDP)学习和反向传播(STBP)学习方法,并使用Monte Carlo Dropout对不确定性误差进行了估计。与基于DNN的目标探测器相比,FSHNN提供了更好的精度,同时具有150X的能效。它也优于这些目标检测器,当受到噪声输入数据和标记较少的训练数据与较低的不确定性误差。

6、Guided Table Structure Recognition through Anchor Optimization

本文提出了一种利用导向锚点识别表结构的新方法。这个概念不同于目前最先进的表结构识别方法,后者单纯地应用对象检测方法。与之前的技术相比,首先,我们估计了表结构识别的可行锚点。随后,利用这些锚来定位表格图像中的行和列。此外,本文还介绍了一种简单有效的方法,即在实际场景中使用表格布局来提高结果。在ICDAR-2013和TabStructDB这两个公开的表结构识别数据集上,对所提方法进行了详尽的评价。我们在icdar2013数据集上取得了最先进的结果,平均F-Measure为95.05%(行为94.6%,列为96.32%),超过了TabStructDB数据集的基线结果,平均F-Measure为94.17%(行为94.08%,列为95.06%)。

7、Camouflaged Object Segmentation with Distraction Mining

伪装目标分割(COS)旨在识别与周围环境“完美”融合的目标,具有广泛的应用价值。COS的关键挑战在于候选目标与噪声背景之间存在较高的内在相似性。在本文中,我们努力迎接挑战,有效和高效的COS。为此,我们开发了一个仿生框架,称为定位和焦点网络(PFNet),它模拟了自然界中的捕食过程。具体来说,我们的PFNet包含两个关键模块,即定位模块(PM)和聚焦模块(FM)。PM被设计用来模仿捕食中的检测过程,从全局角度定位潜在目标对象,然后FM被用来执行捕食中的识别过程,通过聚焦于模糊区域逐步细化粗预测。值得注意的是,在FM中,我们开发了一种新的分心挖掘策略来发现和消除分心,以提高估计的性能。大量的实验表明,我们的PFNet实时运行(72帧/秒),并且在四个标准度量下,在三个具有挑战性的数据集上显著优于18个前沿模型。

8、Fourier Contour Embedding for Arbitrary-Shaped Text Detection

任意形状文本检测的主要挑战之一是设计一个好的文本实例表示,允许网络学习不同的文本几何变化。现有的方法大多采用直角坐标系或极坐标下的掩模或轮廓点序列对图像空间域的文本实例进行建模。然而,掩模表示可能导致昂贵的后处理,而点序列一个可能有有限的能力建模文本与高度弯曲的形状。为了解决这些问题,我们在傅里叶域对文本实例进行建模,并提出一种新的傅里叶轮廓嵌入(FCE)方法来表示任意形状的文本轮廓。我们进一步构造了一个骨干、特征金字塔网络(FPN)和一个简单的后处理与反傅立叶变换(IFT)和非最大抑制(NMS)。与以往的方法不同,FCENet首先预测文本实例的紧凑傅里叶签名,然后在测试过程中通过IFT和NMS重构文本轮廓。大量实验表明,FCENet能够准确和鲁棒地拟合高弯曲形状的场景文本轮廓,也验证了FCENet在任意形状文本检测中的有效性和良好的泛化效果。此外,实验结果表明,我们的FCENet优于先进的(SOTA) CTW1500和totaltext方法,特别是在具有挑战性的高弯曲文本子集。

9、Sparse-Shot Learning for Extremely Many Localisations

对象定位通常是在常规图像的背景下考虑的,例如描绘人像或汽车等对象。在这些图像中,每个类的每个图像的实例数量通常相对较少,通常可以进行注释。然而,在常规图像的领域之外,我们经常面临不同的情况。在计算病理学中,数字化的组织切片是非常大的图像,其尺寸很快就会超过25 '000x25 '000像素,相关的物体,如肿瘤细胞或淋巴细胞,可以迅速数到数百万。注释所有的内容实际上是不可能的,而在众多的内容中,只注释少量的内容是唯一的可能。不幸的是,从稀疏注释中学习,或稀疏镜头学习,与标准监督学习冲突,因为没有注释的东西被视为负面的。然而,给真正的积极的东西分配消极的标签会导致梯度的混乱和有偏见的学习。为此,我们提出了唯一的交叉熵,它通过检查二阶损失导数来减缓有偏学习,从而减少与可能有偏项相对应的损失项。对9个数据集和两种不同的定位任务(用YOLLO检测和用Unet分割)的实验表明,与交叉熵或焦损失相比,我们获得了相当大的改进,而通常只有10-40个注释的模型达到了最佳性能。

10、Boundary-Aware 3D Object Detection from Point Clouds

目前,现有的最先进的3D物体探测器处于两阶段模式。这些方法通常包括两个步骤:1)利用区域提议网络以自底向上的方式提出一小部分高质量的提议。2)调整大小和集合语义特征,从提出的区域总结roi的表示,以进一步细化。请注意,在第2步)中,这些roi表示在提供给以下检测报头时被单独视为一个不相关的条目。然而,我们观察到由步骤1)产生的这些建议以某种方式偏离了ground truth,以潜在的概率密集地出现在局部邻域中。在现有网络缺乏相应的信息补偿机制的情况下,一个方案由于坐标偏移而在很大程度上放弃了边界信息,这是一个挑战。本文提出了基于BANet的点云三维目标检测方法。具体来说,我们没有像以前的工作那样独立地细化每个提案,而是在给定的截止阈值内将每个提案表示为图构造的一个节点,以局部邻域图的形式将提案关联起来,并显式地利用对象的边界相关性。此外,我们设计了一个轻量级的区域特征聚合网络来充分利用体素级、像素级和点级特征,并扩展接受域以获得更多信息的roi级表示。截至2021年4月17日,我们的BANet在KITTI 3D检测排行榜上取得了相当的成绩,在KITTI BEV检测排行榜上中等难度的Car类别中排名第一。源代码将在论文被接受后发布。

11、Transformer Transforms Salient Object Detection and Camouflaged Object Detection

来自机器翻译的变压器网络特别擅长在长序列中建模长期依赖关系。目前,变压器网络在从高级分类任务到低级密集预测任务等各种视觉任务上都取得了革命性的进展。在本文中,我们对变压器网络应用于显著目标检测(SOD)进行了研究。具体来说,我们采用密集变压器主干网,用于全监督RGB图像的SOD,基于RGB- d图像对的SOD,以及弱监督的通过涂鸦监督的SOD。作为扩展,我们也将我们的完全监督模型应用于伪装目标检测(COD)任务的伪装目标分割。对于完全监督模型,我们将密集变压器主干定义为特征编码器,并设计了一个非常简单的解码器来产生一个单通道显著图(或COD任务的伪装图)。对于弱监督模型,由于在涂鸦标注中不存在结构信息,我们首先采用最近提出的gate - crf损失来有效地建模成对关系,以实现准确的模型预测。然后,我们引入了自监督学习策略来推动模型产生尺度不变的预测,这被证明对弱监督模型和在小训练数据集上训练的模型是有效的。在各种SOD和COD任务(完全监督RGB图像基于SOD,完全监督RGB- d图像对基于SOD,弱监督通过涂鸦监督SOD,以及完全监督RGB图像基于COD)上的大量实验结果表明,变压器网络可以转换显著目标检测和伪装目标检测,为每个相关的任务建立新的基准。

12、SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud

本文提出了一种基于自集成单级目标检测器(SE-SSD)的室外点云三维目标检测方法。我们的重点是利用我们的公式约束开发软目标和硬目标来联合优化模型,而不引入额外的计算在推理中。具体来说,SE-SSD包含一对教师和学生ssd,其中我们设计了一个有效的基于借据的匹配策略,从教师中过滤软目标,并制定一致性损失对齐学生的预测与他们。此外,为了最大限度地利用提炼出来的知识来集成教师,我们设计了一种新的增强方案来产生形状感知的增强样本来训练学生,目的是鼓励学生推断出完整的物体形状。最后,为了更好地利用硬目标,我们设计了一个ODIoU损失来监督学生与预测盒中心和方向的约束。我们的SE-SSD达到顶级性能相比之前所有出版的作品。此外,它还以超高的推理速度在KITTI基准测试中获得了最高的汽车检测精度(在BEV和3D排行榜上分别排名第一和第二)。

13、Few-Shot Model Adaptation for Customized Facial Landmark Detection, Segmentation, Stylization and Shadow Removal

尽管已经取得了很好的进展,但基于深度学习的算法的性能仍然严重依赖于特定的数据集,由于劳动密集型的标注,难以扩展。此外,由于新应用程序的发展,数据注释的初始定义可能并不总是满足新功能的需求。因此,对自定义数据注释的需求一直很大。为了解决上述问题,我们提出了少射模型适应(FSMA)框架,并展示了其在Faces上几个重要任务上的潜力。FSMA首先通过使用大规模的无标记数据训练对抗自动编码器来获得鲁棒的人脸图像嵌入。然后,该模型配备特征自适应和融合层,以最小数量的标注图像有效地适应目标任务。FSMA框架在广泛的面部图像应用中具有通用性。FSMA实现了最先进的少镜头地标检测性能,首次为少镜头人脸分割、风格化和去除面部阴影等任务提供了令人满意的解决方案。

14、A Competitive Method to VIPriors Object Detection Challenge

在这份报告中,我们介绍了我们提交的vi先验目标检测挑战的技术细节。我们的解决方案是基于mmdetection的一个强大的基线开源检测工具箱。首先,我们引入了一种有效的数据增强方法来解决缺少数据的问题,包括box-jitter、grid-mask和mixed。其次,我们提出了一种鲁棒感兴趣区域提取方法,通过嵌入全局上下文特征来学习更重要的感兴趣区域特征。第三,我们提出了一种多模型集成策略来细化预测盒,即加权盒融合(WBF)。实验结果表明,该方法能够显著提高COCO2017数据集子集的目标检测平均精度(AP)。

15、Lidar Point Cloud Guided Monocular 3D Object Detection

单目3D物体检测越来越受到社区的关注,因为它可以让汽车用一个单一的摄像头感知3D世界。然而,与基于激光雷达的方法相比,单眼三维检测的检测率极低,限制了其应用。由于单目图像的病态性质,缺乏准确的深度线索是导致精度不高的主要原因。激光雷达点云可以提供精确的深度测量,为单眼方法的训练提供有益的信息。以往的工作仅使用激光雷达点云训练深度估计器。这种隐式方法没有充分利用激光雷达点云,导致性能不佳。为了有效利用激光雷达点云,本文提出了一种通用的、简单而有效的单目方法框架。具体来说,我们利用LiDAR点云直接指导单目三维探测器的训练,使其在学习预期目标的同时,省去了额外的标注成本。由于设计的通用性,我们的方法可以插入到任何单目3D检测方法中,显著提高了性能。综上所述,我们在KITTI单眼3D检测基准上取得了第一名,并将BEV/3D AP从11.88/8.65增加到22.06/16.80。该代码将很快向公众公开。

16、Motion Vector Extrapolation for Video Object Detection

尽管计算效率高的深度神经网络体系结构不断成功地用于视频对象检测,但性能不断达到速度、准确性和计算资源的三难困境(选择2)。目前试图利用视频数据中的时间信息来克服这三难困境的尝试被最先进的目标检测模型所阻碍。我们提出了一种技术,通过使用现成的对象检测器和现有的基于光流的运动估计技术并行执行视频对象检测。通过对基准mott20数据集的一组实验,我们证明了我们的方法在不牺牲任何精度的情况下显著降低了任何给定目标检测器的基线延迟。进一步减少延迟,比原来的延迟降低25倍,可以以最小的精度损失实现。MOVEX在普通基于CPU的系统上支持低延迟的视频对象检测,从而允许超越GPU计算领域的高性能视频对象检测。

17、MonoGRNet: A General Framework for Monocular 3D Object Detection

在真实的三维空间中,目标的检测和定位在场景理解中起着至关重要的作用,但由于图像投影过程中几何信息的丢失,在单目图像中尤其具有挑战性。我们提出MonoGRNet,通过几何推理从观察到的二维投影和未观察到的深度维数从单目图像的模态三维目标检测。MonoGRNet将单目三维目标检测任务分解为4个子任务,包括二维目标检测、实例级深度估计、投影三维中心估计和局部角点回归。任务分解极大地促进了单目三维目标检测,允许在一次前向过程中有效地预测目标的三维包围盒,而不需要使用目标建议、后处理或以往方法所使用的昂贵的像素级深度估计。此外,MonoGRNet灵活地适应了完全监督学习和弱监督学习,提高了我们的框架在不同设置下的可行性。在KITTI、Cityscapes和MS COCO数据集上进行了实验。结果显示了我们的框架在各种场景下的良好性能。

18、OSKDet: Towards Orientation-sensitive Keypoint Localization for Rotated Object Detection

旋转目标检测是计算机视觉领域的一个具有挑战性的问题。空间信息的丢失和参数阶数的混乱一直是影响旋转检测精度的瓶颈。本文提出了一种基于方向敏感关键点的旋转检测器OSKDet。我们采用一组关键点来表征目标,并在ROI上预测关键点热图来形成旋转目标。OSKDet通过提出对方向敏感的热图,隐式学习旋转目标的形状和方向,对目标表示具有较强的建模能力,提高了定位精度,获得了高质量的检测结果。为了高效提取边界区域的特征,我们设计了一个旋转感知的变形卷积模块。进一步提出了一种新的关键点排序算法和基于角度分布的特征融合模块,消除了关键点排序的混乱。在几个公共基准测试上的实验结果显示了OSKDet最先进的性能。具体来说,我们在DOTA上实现了77.81%的AP,在HRSC2016上实现了89.91%的AP,在UCAS-AOD上实现了97.18%的AP。

19、Robust Object Detection via Instance-Level Temporal Cycle Confusion

构建可靠的、对领域变化(如上下文、视角和对象外观的各种变化)具有健壮性的对象检测器,对于现实世界的应用程序是至关重要的。在这项工作中,我们研究了辅助自我监督任务的有效性,以改善目标探测器的非分布泛化。在最大熵原理的启发下,我们引入了一种新的自监督任务,实例级时间周期混淆(CycConf),该任务基于目标检测器的区域特征。对于每个对象,任务是在视频的相邻帧中找到最不同的对象提案,然后循环回到自身进行自我监督。CycConf鼓励对象检测器在不同的运动下探索实例之间的不变结构,这在测试时提高了不可见域的模型鲁棒性。我们观察到,在大规模视频数据集(BDD100K和Waymo开放数据)上,与自我监督任务一起训练目标检测器时,会有一致的域外性能改进。联合训练框架还在标准的无监督域自适应检测基准(Cityscapes、Foggy Cityscapes和Sim10K)上建立了一个新的最先进水平。项目页面可通过此https URL访问。

你可能感兴趣的:(计算机视觉,计算机视觉,人工智能,深度学习)