FROD:免费的稳健目标检测
https://arxiv.org/abs/2308.01888
目标检测是计算机视觉中的一项重要任务,并且已成为许多关键系统的组成部分。 然而,最先进的物体检测器,与它们的分类对应物类似,很容易受到小的对抗性扰动的影响,从而显着改变它们的正常行为。 与分类不同,目标检测器的鲁棒性尚未得到彻底探索。 在这项工作中,我们通过利用对抗性训练的分类模型,迈出了弥合分类鲁棒性和对象检测之间差距的第一步。 仅仅利用对抗性训练的模型作为目标检测的骨干并不能带来鲁棒性。 我们建议对基于分类的主干进行有效修改,以增强对象检测的鲁棒性,而不会产生任何计算开销。 为了进一步增强所提出的修改主干网所实现的鲁棒性,我们引入了两个轻量级组件:模仿损失和延迟对抗训练。 在 MS-COCO 和 Pascal VOC 数据集上进行了大量实验,以证明我们提出的方法的有效性。
用于心电异常检测的多尺度交叉恢复框架
https://arxiv.org/abs/2308.01639
心电图 (ECG) 是一种广泛使用的用于检测心脏病的诊断工具。 考虑到没有训练数据集可以穷尽所有可能的心脏疾病,使用传统的心电图分析可能无法诊断罕见的心脏病。 本文建议使用异常检测来识别任何不健康状态,而正常心电图仅用于训练。 然而,由于个体间存在显着差异以及整体节律和局部形态都存在异常,检测心电图异常可能具有挑战性。 为了应对这一挑战,本文引入了一种新颖的多尺度交叉恢复框架,用于心电图异常检测和定位,该框架考虑了局部和全局心电图特征。 所提出的框架采用两分支自动编码器,通过掩蔽和恢复过程促进多尺度特征学习,其中一个分支专注于整个心电图的全局特征,另一个分支专注于心跳级别细节的局部特征,模仿诊断过程 心脏病专家。 异常通过其高恢复误差来识别。 为了评估大量个体的表现,本文引入了一个新的具有挑战性的基准,其中包含由经验丰富的心脏病专家注释的信号点级基本事实。 所提出的方法在该基准测试和其他两个众所周知的心电图数据集上展示了最先进的性能。
基于擦除的RGBT视频对象检测交互网络及统一基准
https://arxiv.org/abs/2308.01630
近年来,视频目标检测(VOD)领域取得了许多突破,但由于 RGB 传感器在不利光照条件下的成像限制,性能仍然受到限制。 为了缓解这个问题,这项工作引入了一种新的计算机视觉任务,称为 RGB 热 (RGBT) VOD,通过引入对不利照明条件不敏感的热模态。 为了促进RGBT VOD的研究和发展,我们设计了一种新颖的基于擦除的交互网络(EINet),并为此任务建立了全面的基准数据集(VT-VOD50)。 传统的VOD方法通常通过使用许多辅助帧来利用时间信息,因此具有较大的计算负担。 考虑到热图像比 RGB 图像表现出更少的噪声,我们开发了一种负激活函数,用于借助热图像特征来消除 RGB 特征的噪声。 此外,借助热图像的优势,我们仅依靠一个小的时间窗口来对时空信息进行建模,从而在保持检测精度的同时大大提高效率。
VT-VOD50数据集由50对具有复杂背景、各种物体和不同照明的具有挑战性的RGBT视频序列组成,这些视频序列是在真实交通场景中收集的。 在 VT-VOD50 数据集上的大量实验证明了我们提出的方法相对于现有主流 VOD 方法的有效性和效率。 EINet的代码和数据集将向公众免费开放供学术使用。
基于深度学习的时空动作检测研究综述
https://arxiv.org/abs/2308.01618
时空动作检测(STAD)旨在对视频中出现的动作进行分类,并在空间和时间上定位它们。 由于其在现实世界中的爆炸性应用,例如自动驾驶、视觉监控、娱乐等,它已成为计算机视觉研究中特别活跃的领域。近年来,人们致力于构建一个强大而有效的框架 斯塔德。 本文全面回顾了最先进的基于深度学习的 STAD 方法。 首先,开发一个分类法来组织这些方法。 接下来,回顾了链接算法,其目的是将帧级或剪辑级检测结果关联在一起以形成动作管。 然后,介绍常用的基准数据集和评估指标,并对最先进模型的性能进行比较。 最后对本文进行总结,并讨论了STAD的一系列潜在研究方向。
对比式多面取证:一种端到端的双粒度对比式学习方法
https://arxiv.org/abs/2308.01520
DeepFakes 引起了严重的社会关注,导致近年来基于检测的取证方法激增。 人脸伪造识别是传统的检测方法,通常遵循两阶段流程:首先提取人脸,然后通过分类确定其真实性。 由于 DeepFakes 在野外通常包含多个人脸,因此使用人脸伪造检测方法只是实用的,因为它们必须在后续过程中处理人脸,即同时只处理一张人脸。 解决此问题的一种直接方法是通过采用先进的对象检测架构,以端到端的方式集成面部提取和伪造检测。 然而,由于这些对象检测架构旨在捕获不同对象类别的语义信息,而不是面部之间微妙的伪造痕迹,因此直接适应远非最佳。 在本文中,我们描述了一种新的端到端框架,对比多脸取证(COMICS),以增强多脸伪造检测。 所提出的框架的核心是一种新颖的双粒度对比学习方法,该方法在粗粒度和细粒度级别上探索有效的人脸伪造痕迹。 具体来说,粗粒度级别对比学习在提议生成器的指导下捕获多个尺度的正负提议对之间的判别特征,而细粒度级别对比学习捕获伪造区域和原始区域之间的像素级差异 同一张脸的图像以及不同人脸之间的像素级内容不一致。 对 OpenForensics 数据集的大量实验表明,我们的方法大大优于其他同行(约 18.5%),并显示出集成到各种架构中的巨大潜力。
提高医学图像面向对象检测的难度合成异常
https://arxiv.org/abs/2308.01412
我们的方法建立在之前的医疗分布外(MOOD)挑战获胜者的基础上,这些获胜者凭经验表明,复制/内插外国补丁生成的合成局部异常对于训练能够泛化到未见过的异常类型的分割网络很有用。 在合成异常生成过程方面,我们的贡献通过 1)使用随机形状而不是正方形以及 2)平滑异常的插值边缘,使合成异常变得更加异构和具有挑战性,因此网络不能依赖于图像 - 外部补丁之间的高梯度 识别异常情况。 我们使用 2020 年 MOOD 获奖者的验证集进行的实验表明,这两项贡献都显着提高了方法性能。 我们使用标准 3D U-Net 架构作为分割网络,在大脑和腹部数据集中进行补丁式训练。 我们提交的最终挑战包括 10 个 U-Net,它们经过 5 个数据折叠的训练,具有不同的异常生成过程配置。 在 MICCAI 举办的 2022 年版医疗分布外竞赛中,我们的方法在样本任务和像素任务中均获得了第一名。
用优化的单次多盒检测和强化学习跟踪士兵
https://arxiv.org/abs/2308.01389
如今,自动驾驶汽车因其在战场上的众多潜在应用以及解决各种其他现实世界挑战而受到关注。 我们项目的主要目标是使用 DeepRacer 构建一个自主系统,该系统将跟随特定的人(对于我们的项目,是一名士兵),当他们向任何方向移动时。 完成该项目的两个主要组件是优化的单次多盒检测 (SSD) 对象检测模型和强化学习 (RL) 模型。 我们使用 SSD Lite 代替 SSD 完成了任务,最后比较了 SSD、带有神经计算棒 (NCS) 的 SSD 和 SSD Lite 之间的结果。 实验结果表明,SSD Lite 在这三种技术中提供了更好的性能,并且在不影响准确性的情况下,推理速度显着提升(约 2-3 倍)。
将帧图像配准作为标志性检测问题以更好地代表临床相关性
https://arxiv.org/abs/2308.01318
如今,配准方法通常根据亚分辨率跟踪误差差异进行评估。 为了将这一评估过程与临床相关性重新融合,我们建议将图像配准重新定义为地标检测问题。 理想情况下,特定地标的检测阈值来自评估者间的分析。 为了近似这个昂贵的过程,我们建议根据子样本评估者间分析的误差分布来计算命中率曲线。 因此,我们建议使用以下公式从误差分布中导出阈值:中值 + 增量 * 中值绝对偏差。 该方法有望区分以前无法区分的配准算法,并进一步能够评估算法开发中的临床意义。