三维检测在环境感知中起着不可或缺的作用。 由于常用的激光雷达传感器成本较高,基于立体视觉的三维检测作为一种经济而有效的设置受到了越来越多的关注。 对于这些基于二维图像的方法,准确的深度信息是实现三维检测的关键,现有的方法大多都是在初步阶段进行深度估计。 它们主要关注全局深度,而忽略了在这个特定任务中深度信息的稀疏性和局域性,其中仅对这些三维包围盒需要精确的深度。 基于这一发现,我们提出了一种基于立体图像的无锚三维检测方法,称为结构感知立体三维检测器(称为SIDE),其中我们通过从每个对象的roi构建代价体积来探索实例级深度信息。 由于局部代价量的信息稀疏性,我们进一步引入匹配调整权重和结构感知注意,使深度信息更加集中。 在KITTI数据集上进行的实验表明,与没有深度图监控的现有方法相比,我们的方法达到了最先进的性能。
深度神经网络(DNNs)的成功促进了人再识别(ReID)技术的广泛应用。 然而,ReID系统继承了dnn的漏洞,容易受到视觉上不明显的对抗干扰的恶意攻击。 因此,对抗攻击的检测是鲁棒ReID系统的基本要求。 在本文中,我们提出了一种多专家对抗攻击检测(MEAAD)方法,通过检查上下文不一致来实现这一目标,该方法适用于任何基于dnn的ReID系统。 具体来说,三种上下文不一致性造成对抗性的攻击是用来学习的探测器区分摄动的例子,例如,一个)嵌入摄动查询的人之间的距离图像及其top-K检索通常比那些之间良性的查询图像及其top-K检索, (2)受扰动的查询图像的top-K检索结果之间的嵌入距离大于良性查询图像的嵌入距离;(3)使用多个专家ReID模型得到的良性查询图像的top-K检索结果趋于一致,在攻击存在时不保持一致。 在Market1501和DukeMTMC-ReID数据集上进行的大量实验表明,MEAAD作为ReID的第一种对抗性攻击检测方法,能够有效检测各种对抗性攻击,并实现较高的ROC-AUC(超过97.5%)。
在三维中定位物体并估计其范围是实现高水平三维场景理解的重要一步,在增强现实和机器人技术中有很多应用。 我们提出了ODAM,一个使用摆姿势的RGB视频进行三维目标检测、关联和映射的系统。 该系统依靠深度学习前端从给定的RGB帧检测3D对象,并使用图神经网络(GNN)将其与基于对象的全局地图关联。 基于这些帧到模型的关联,我们的后端优化目标的边界体积,表示为超二次曲面,在多视图几何约束和对象尺度优先。 我们在ScanNet上验证了提出的系统,在此系统中,我们显示了比现有的仅RGB方法有显著的改进。
实例识别是随着各种深度卷积神经网络的发展而迅速发展起来的。 与网络体系结构相比,对检测器的成功也至关重要的训练过程受到的关注相对较少。 在本工作中,我们仔细回顾了检测器的标准训练实践,发现在训练过程中,检测性能往往受到不平衡的限制,这种不平衡一般分为三个层次:样本层次、特征层次和目标层次。 为了减轻由此造成的不利影响,我们提出Libra R-CNN,一个简单而有效的框架,用于平衡学习,例如识别。 它将iou平衡采样、平衡特征金字塔和客观重权分别集成在一起,以减少样本、特征和客观层面的不平衡。 在MS COCO、LVIS和Pascal VOC数据集上进行的大量实验证明了整体平衡设计的有效性。
激光雷达点云中的三维多目标跟踪是自动驾驶汽车的关键组成部分。 现有的方法主要基于检测跟踪流水线,不可避免地需要启发式匹配步骤来进行检测关联。 在本文中,我们提出了SimTrack来简化手工跟踪范式,它提出了一个端到端可训练的模型,用于从原始点云进行联合检测和跟踪。 我们的关键设计是预测每个对象在给定片段中首次出现的位置,以获得跟踪身份,然后基于运动估计更新位置。 在推理中,通过一个简单的读取操作,可以完全放弃启发式匹配步骤。 SimTrack将跟踪对象关联、新生对象检测和死轨迹消除集成到一个统一的模型中。 我们对两个大规模数据集:nuScenes和Waymo Open Dataset进行了广泛的评估。 实验结果表明,在排除启发式匹配规则的同时,我们的简单方法优于最先进的方法。
尽管近年来点云三维物体检测取得了快速进展,但缺乏灵活和高性能的建议细化仍然是现有最先进的两级检测器的一大障碍。 之前的3D提案精炼工作依赖于人为设计的组件,如关键点采样、集合抽象和多尺度特征融合,以产生强大的3D目标表示。 然而,这些方法捕获点之间丰富的上下文依赖关系的能力有限。 在本文中,我们利用高质量的区域提议网络和一个Channel-wise Transformer架构,以最少的手工设计构成了我们的两阶段3D目标检测框架(CT3D)。 提议的CT3D同时对每个提议中的点特征执行提议感知的嵌入和信道上下文聚合。 具体来说,CT3D利用建议的关键点进行空间情境建模,并在编码模块中学习注意力传播,将提案映射到点嵌入。 接下来,一个新的信道译码模块通过信道重加权有效地合并多级上下文来丰富查询键交互,这有助于实现更准确的目标预测。 大量实验表明,我们的CT3D方法具有良好的性能和可扩展性。 值得一提的是,在KITTI测试3D检测基准上,CT3D在中型车类别中实现了81.77%的AP,优于最先进的3D检测器。
由于缺乏有效的目标区域,在微光条件下,图像融合、行人检测和图像间的转换等视觉任务都面临着很大的挑战。 在这种情况下,红外和可见光图像可以一起使用,提供丰富的细节信息和有效的目标区域。 在本文中,我们提出了微光视觉的可见光-红外配对数据集LLVIP。 该数据集包含33672张图像,或16836对,其中大部分是在非常黑暗的场景中拍摄的,所有的图像在时间和空间上都严格对齐。 数据集中的行人被标记。 我们将该数据集与其他可见光-红外数据集进行了比较,并评价了一些流行的视觉算法,包括图像融合、行人检测和图像-图像平移在该数据集上的性能。 实验结果表明,融合算法对图像信息具有互补作用,并发现了在微光条件下三种视觉任务现有算法的不足之处。 我们相信,LLVIP数据集将通过在微光应用中促进图像融合、行人检测和图像到图像转换,为计算机视觉领域做出贡献。
尽管针对各种任务的专门模型训练取得了快速进展,但对于计算机视觉来说,学习一个适用于许多任务的通用模型仍然具有挑战性。 这里我们介绍了多任务自我训练(MuST),它利用独立专业教师模型(如ImageNet分类模型)中的知识来训练单一的普通学生模型。 我们的方法有三个步骤。 首先,我们在标记的数据集上独立培训专业教师。 然后,我们使用专业教师对未标记的数据集进行标记,以创建多任务伪标记数据集。 最后,数据集包含了来自不同数据集/任务训练的教师模型的伪标签,然后使用该数据集训练具有多任务学习的学生模型。 我们评估了学生模型在6个视觉任务中的特征表示,包括图像识别(分类、检测、分割)和三维几何估计(深度和表面法向估计)。 MuST在未标记或部分标记的数据集上是可伸缩的,在大规模数据集上训练时,其性能优于专门的监督模型和自监督模型。 最后,我们展示了MuST可以改进已经通过无数例子训练出来的强大检查点。 结果表明,自训练是一个很有前途的方向,以聚合有标记和无标记训练数据学习一般特征表示。
动作检测在高级视频理解和媒体解释中起着重要的作用。 现有的许多研究通过对背景建模、捕捉演员、物体和场景之间的关系来实现这种时空定位。 然而,他们往往普遍地对待所有行动者,而不考虑个体之间的一致性和差异性,留有很大的改进空间。 在本文中,我们通过一个图记忆网络,即身份感知图记忆网络(IGMN),明确强调了行动者在长期和短期上下文中的身份信息。 我们提出了层次图神经网络(hierarchical graph neural network, HGNN),综合进行同一身份内以及不同身份之间的长期关系建模。 对于短期情境,我们开发了一个双重注意模块(DAM)来产生身份感知约束,以减少不同身份行为者的干扰影响。 在具有挑战性的AVA数据集上的大量实验证明了我们的方法的有效性,在AVA v2.1和v2.2上取得了最先进的结果。
目标检测和语义/实例分割等计算机视觉任务依赖于大量训练数据集的精心标注。 在本文中,我们提出了LocTex,它利用低成本的本地化文本注释(即标题和同步鼠标移动手势)来减少注释工作。 我们引入了一个图像和字幕的对比训练框架,并提出用渲染的鼠标轨迹来监督跨模式的注意地图,以提供粗定位信号。 我们学习的视觉特征捕获丰富的语义(从自由形式的标题)和精确的定位(从鼠标轨迹),这是非常有效的,当转移到各种下游视觉任务。 与ImageNet监督的预训练相比,LocTex可以将预训练数据集的大小减少10倍,或将目标数据集的大小减少2倍,同时在COCO实例分割上取得相当甚至更好的性能。 当提供相同数量的标注时,LocTex在PASCAL VOC图像分类任务上的准确率比以往最先进的“视觉+语言”预训练方法高出约4%。
QQ:战、血舞皇朝、2125364717