基于透视感知卷积的单目三维目标检测
https://arxiv.org/abs/2308.12938
单目3D目标检测是自动驾驶车辆的一项关键且具有挑战性的任务,而它仅使用单个摄像机图像来推断场景中的3D目标。为了解决仅使用图像线索预测深度的困难,我们提出了一种新颖的视角感知卷积层,它可以捕获图像中的长程依赖关系。通过执行卷积核来提取每个图像像素的深度轴特征,我们将透视信息纳入网络架构。我们将透视感知卷积层集成到3D对象检测器中,并在KITTI3D数据集上展示了改进的性能,在简单的基准测试中实现了23.9%的平均精度。这些结果强调了建模场景线索的重要性,准确的深度推断,并突出了将场景结构在网络设计的好处。我们的视角感知卷积层有可能通过提供更精确和上下文感知的特征提取来提高对象检测的准确性。
基于文本扩充数据的主语-条件关系检测
https://arxiv.org/abs/2308.12910
我们提出了主观条件关系检测SCoRD,其中条件下的输入主题,目标是预测其所有的关系,其他对象在一个场景中的位置。基于Open Images数据集,我们提出了一个具有挑战性的OIv 6-SCoRD基准测试,使得训练和测试分裂在 ⟨ \langle ⟨subject,relation,object ⟩ \rangle ⟩triplet的发生统计方面具有分布偏移。为了解决这个问题,我们提出了一个自回归模型,给定一个主题,它预测它的关系,对象和对象的位置,通过铸造这个输出作为一个令牌序列。首先,我们表明,以前的场景图预测方法未能产生详尽的关系对象对的枚举时,在这个基准上的一个主题的条件。特别是,我们获得了83.8%的关系对象预测相比,最近的场景图检测器获得的49.75%的recall@3。然后,我们展示了改进的泛化关系对象和对象框预测利用训练过程中自动获得的关系对象对文本字幕,没有对象框注释可用。特别是,对于 ⟨ \langle ⟨subject,relation,object ⟩ \rangle ⟩triplet,在训练期间没有对象位置可用,我们能够获得关系对象对的recall@3为42.59%,其框位置为32.27%。
跳越网:用于道路检测的自适应跳越融合
https://arxiv.org/abs/2308.12863
多模态融合越来越多地用于自动驾驶任务,因为来自不同模态的图像提供了用于特征提取的独特信息。然而,现有的双流网络仅在特定的网络层融合,这需要大量的人工尝试来建立。随着CNN的深入,两种模态特征变得越来越高级和抽象,融合发生在特征层,差距很大,这很容易损害性能。在这项研究中,我们提出了一种新的融合架构,称为跳跃交叉网络(SkipcrossNets),它结合自适应LiDAR点云和相机图像,而不被绑定到一定的融合时期。具体地,跳跃交叉以前馈方式将每个层连接到每个层,并且对于每个层,所有先前层的特征图被用作输入,并且其自己的特征图被用作其他模态的所有后续层的输入,从而增强特征传播和多模态特征融合。该策略有助于从两个数据管道中选择最相似的特征层,在融合过程中为稀疏点云特征提供互补效果。网络也被划分为几个块,以减少特征融合的复杂性和模型参数的数量。通过应用于KITTI和A2D2数据集,证明了跳跃交叉融合的优势,在KITTI上实现了96.85%的MaxF评分,在A2D2上实现了84.84%的F1评分。模型参数仅需要2.33 MB的内存,速度为68.24 FPS,这对于移动终端和嵌入式设备来说是可行的。
FaceTouch:通过有监督的对比学习检测手与脸的接触,以帮助追踪传染病
https://arxiv.org/abs/2308.12840
通过我们的呼吸系统,许多病毒和疾病经常在一个人之间传播和传递。新型冠状病毒病就是一个例子,说明追踪和减少接触以阻止其传播是多么重要。在寻找能够在复杂的城市场景或室内检测手与脸接触的自动方法方面存在明显的差距。在本文中,我们介绍了一个计算机视觉框架,称为FaceTouch,基于深度学习。它包括深度子模型,用于检测人类并分析他们的行为。FaceTouch试图检测野外的手对脸的触摸,例如通过视频聊天,巴士镜头或闭路电视馈送。尽管面部的部分遮挡,引入的系统学习检测面部触摸从给定场景的RGB表示通过利用身体姿势的表示,如手臂移动。这已经被证明是有用的复杂的城市场景,不仅仅是简单地识别手的运动和它的接近脸。依赖于监督对比学习,引入的模型在我们收集的数据集上训练,考虑到没有其他基准数据集。该框架在看不见的数据集中显示出强大的验证,为潜在的部署打开了大门。
MixNet:走向对野外具有挑战性的场景文本的准确检测
https://arxiv.org/abs/2308.12817
在野外检测小场景文本实例尤其具有挑战性,其中不规则位置和非理想照明的影响经常导致检测错误。我们提出了MixNet,一种混合架构,结合了CNN和Transformers的优势,能够准确地检测小文本,从具有挑战性的自然场景,无论方向,风格和照明条件。MixNet包含两个关键模块:(1)特征混洗网络(FSNet)用作骨干,以及(2)中央Transformer块(CTBlock)用于利用场景文本的1D流形约束。我们首先介绍了一种新的功能洗牌策略,在FSNet,以促进跨多个尺度的功能交换,生成高分辨率的功能优于流行的ResNet和HRNet。FSNet骨干网已经实现了对许多现有文本检测方法的显著改进,包括PAN、DB和FAST。然后,我们设计了一个互补的CTBlock来利用基于中心线的功能,类似于文本区域的中轴,并表明它可以优于基于轮廓的方法在具有挑战性的情况下,小场景文本出现密切。大量的实验结果表明,混合FSNet和CTBlock的MixNet,实现了国家的最先进的多场景文本检测数据集的结果。
自动驾驶中三维目标检测的离线评估研究
https://arxiv.org/abs/2308.12779
3D对象检测中的先前工作使用平均精度等离线指标来评估模型,因为下游驾驶任务的闭环在线评估成本高昂。然而,目前尚不清楚离线结果如何指示驾驶性能。在这项工作中,我们进行了第一次实证评估,测量当检测器集成到一个完整的自动驾驶堆栈中时,不同的检测指标对驾驶性能的预测性如何。我们在CARLA模拟器中使用16个对象检测模型对城市驾驶进行了广泛的实验。我们发现nuScenes检测分数与驾驶性能的相关性高于广泛使用的平均精度度量。此外,我们的研究结果呼吁谨慎的独家依赖新兴类的“规划师为中心”的指标。
用于水下目标检测的重退化先验学习方法
https://arxiv.org/abs/2308.12738
水下目标检测遭受低检测性能,因为距离和波长相关的成像过程产生明显的图像质量劣化,例如雾状效应、低可见度和颜色失真。因此,我们致力于解决复杂环境退化的水下物体探测问题。典型的方法尝试开发复杂的深度架构以生成高质量图像或特征。然而,这些方法仅适用于有限的范围,因为成像因子不稳定、太敏感或复合。与这些方法迎合高质量的图像或功能,本文寻求可转移的先验知识检测器友好的图像。现有技术引导检测器去除干扰检测的劣化。基于统计观测发现,探测器友好(DFUI)图像和水下图像的严重退化区域具有明显的特征分布间隙,而轻度退化区域则相互重叠。因此,我们提出了一个残差特征传递模块(RFTM)学习深度表示的严重退化的补丁DFUI和水下图像之间的映射,并使映射作为一个严重退化的先验(HDP)水下检测。由于统计特性独立于图像内容,HDP可以在没有语义标签的监督下学习,并插入到流行的基于CNN的特征提取网络中,以提高其在水下目标检测上的性能。在没有花里胡哨的情况下,对URPC2020和UODD的评估表明,我们的方法大大优于基于CNN的检测器。我们的方法具有更高的速度和更少的参数仍然比基于变压器的检测器表现更好。我们的代码和DFUI数据集可以在https://github.com/xiaoDetection/Learning-Heavily-Degraed-Prior中找到。
REB:减少工业异常检测表示中的偏差
https://arxiv.org/abs/2308.12577
现有的基于K近邻(KNN)检索的方法通常分两个阶段进行工业异常检测:使用预先训练的CNN模型获得特征表示,并执行用于缺陷检测的距离测量。然而,这些特征没有被充分利用,因为它们忽略了域偏差和特征空间中的局部密度差异,这限制了检测性能。在本文中,我们提出了减少偏见(REB)的代表性,通过考虑预训练模型的领域偏见,并建立一个自我监督的学习任务,以更好的领域适应与缺陷生成策略(DefectMaker)模仿自然缺陷。此外,我们提出了一个局部密度KNN(LDKNN),以减少局部密度偏差,并获得有效的异常检测。在广泛使用的MVTec AD基准测试中,我们实现了99.5% AUROC的有希望的结果。我们还在具有挑战性的MVTec LOCO AD数据集上实现了88.0%的AUROC,并使最先进的结果提高了4.7%的AUROC。所有结果都是在较小的骨干网络(如Vgg11和Resnet18)上获得的,这表明REB在实际工业应用中的有效性和效率。
I3DOD:基于提示的增量式3D目标检测
https://arxiv.org/abs/2308.12512
3D对象检测已经在许多领域中实现了显著的性能,例如,机器人系统、自动驾驶和增强现实。然而,大多数现有的方法可能会导致灾难性的遗忘旧类时,类增量的情况下执行。同时,现有的类增量式三维目标检测方法忽略了目标定位信息和类别语义信息之间的关系,并假设旧模型的所有知识都是可靠的。为了解决上述挑战,我们提出了一种新颖的具有提示指导的增量式3D对象检测框架,即,I3DOD。具体来说,我们提出了一个任务共享的提示机制,学习对象的本地化信息和类别语义信息之间的匹配关系。在当前任务上训练后,这些提示将存储在我们的提示池中,并在下一个任务中执行旧类的关系。此外,我们设计了一个可靠的蒸馏策略,从两个方面传递知识:提出了一种可靠的动态蒸馏方法,过滤掉负面知识,将可靠的三维知识转化为新的检测模型;提出了关系特征,以捕捉特征空间中的响应关系,并在学习新的3D类时保护模型的可塑性。最后,我们在两个基准数据集上进行了全面的实验,我们的方法在[email protected]方面优于最先进的对象检测方法0.6% - 2.7%。
BaDExpert:提取后门功能以进行准确的后门输入检测
https://arxiv.org/abs/2308.12439
我们提出了一种新的防御方法,针对深度神经网络(DNN)的后门攻击,其中对手秘密地将恶意行为(后门)植入DNN。我们的防御属于开发后防御的范畴,这些防御独立于模型的生成方式。所提出的防御是建立在一种新的逆向工程方法,可以直接提取后门功能的一个给定的后门模型的后门专家模型。该方法很简单–在一小组故意错误标记的干净样本上对后门模型进行微调,使得它在仍然保留后门功能的同时取消正常功能,从而产生只能识别后门输入的模型(称为后门专家模型)。提取的后门专家模型的基础上,我们展示了设计高精度的后门输入检测器,过滤出后门输入模型推理过程中的可行性。进一步增强了集成策略与微调的辅助模型,我们的防御,BaDExpert(后门输入检测与后门专家),有效地减轻了16 SOTA后门攻击,同时最小限度地影响清洁效用。BaDExpert的有效性已经在各种模型架构(ResNet,VGG,MobileNetV 2和Vision Transformer)的多个数据集(CIFAR 10,GTSRB和ImageNet)上得到了验证。
FG-Net:具有泛化金字塔特征的人脸动作单元检测
https://arxiv.org/abs/2308.12380
面部动作单元(AU)的自动检测允许客观的面部表情分析。由于AU标记的高成本和现有基准的有限大小,先前的AU检测方法倾向于过拟合数据集,从而在跨语料库评估时导致显著的性能损失。为了解决这个问题,我们提出了FG-Net用于可推广的面部动作单元检测。具体来说,FG-Net从在大型且多样化的人脸图像数据集上预训练的StyleGAN 2模型中提取特征图。然后,这些特征被用于使用Pyramid CNN解释器来检测AU,从而使训练高效并捕获必要的局部特征。所提出的FG-Net实现了基于热图的AU检测的强大泛化能力,这要归功于从预训练的生成模型中提取的可泛化和语义丰富的特征。广泛的实验进行评估内和跨语料库AU检测与广泛使用的DISFA和BP 4D数据集。与现有技术相比,该方法在保持域内性能的同时,实现了优异的跨域性能。此外,FG-Net具有数据效率,即使在1000个样本上训练也能达到有竞争力的性能。我们的代码将在\url{https://github.com/ihp-lab/FG-Net}发布