基于多通道大语言模型的上下文对象检测
论文地址:
https://arxiv.org/abs/2305.18279
最近的多模态大语言模型(MLLM)在视觉语言任务(例如图像字幕和问答)中是显著的,但是缺乏必要的感知能力,即,物体检测在这项工作中,我们通过引入上下文对象检测的新研究问题来解决这一限制-在不同的人类-AI交互上下文中理解可见对象。三个有代表性的场景,包括语言完形填空,视觉字幕,和问答。此外,我们提出了ContextDET,一个统一的多模态模型,能够端到端的视觉语言上下文的可区分建模,以便定位,识别和关联视觉对象与语言输入的人与人工智能的互动。我们的ContextDET涉及三个关键子模型:(i)用于提取视觉表示的视觉编码器,(ii)用于多模态上下文解码的预训练LLM,以及(iii)用于预测给定上下文对象词的边界框的视觉解码器。新的生成然后检测框架使我们能够检测人类词汇中的对象词。大量的实验表明,我们提出的代码基准,开放词汇检测,并参考图像分割的ContextDET的优势。Github:https://github.com/yuhangzang/ContextDET。
使变形攻击的努力最小化–用于变形对选择的深度嵌入和改进的变形攻击检测
论文地址:
https://arxiv.org/abs/2305.18216
人脸变形攻击对身份证件的安全性构成威胁,特别是对于随后的访问控制过程,因为它使所涉及的两个人都能够利用同一个文件。在这项研究中,人脸嵌入有两个目的:预先选择用于大规模变形攻击生成的图像并检测潜在的变形攻击。我们建立在以前的嵌入研究在这两个用例中使用MagFace模型。对于第一个目标,我们采用了预先选择算法,对个人的基础上,面对嵌入相似性。我们量化了不同变形的人脸图像的攻击潜力,以比较自动生成许多成功的变形攻击中预选的可用性。关于第二个目标,我们比较嵌入从两个国家的最先进的人脸识别系统的检测变形攻击的能力。我们的研究结果表明,ArcFace和MagFace提供了有价值的人脸嵌入图像预选。开源和COTS人脸识别系统都容易受到生成攻击的影响,特别是当预选是基于嵌入而不是随机配对时,随机配对仅受软生物特征的约束。更准确的人脸识别系统表现出更大的攻击脆弱性,COTS系统是最容易受到攻击的。此外,与以前使用的ArcFace嵌入相比,MagFace嵌入可以作为检测变形人脸图像的强大替代方案。实验结果证实了人脸嵌入在人脸变形图像预选择和变形后人脸图像检测方面的优势。对各种设计攻击的广泛分析支持了这一点。MagFace模型被证明是一个强大的替代常用的ArcFace模型的目标,预选和攻击检测。
实时超声病变检测中用于假阳性抑制的负时间上下文挖掘
论文地址:
https://arxiv.org/abs/2305.18060
在超声扫描过程中,实时病变检测可以帮助放射科医生进行准确的癌症诊断。然而,这一重要任务仍然具有挑战性,而且探索不足。通用实时对象检测模型在应用于超声视频时可能会错误地报告明显的假阳性(FP),这可能会误导初级放射科医生。一个关键问题是它们未能利用先前帧中的阴性症状,表示为阴性时间上下文(NTC)。为了解决这个问题,我们建议提取上下文从以前的帧,包括NTC,与反向光流的指导。通过聚合提取的上下文,我们赋予该模型的能力,以抑制FP利用NTC。我们将生成的模型称为UltraDet。所提出的UltraDet表现出显着的改进,比以前的国家的最先进的,并实现实时推理速度。为了方便未来的研究,我们将发布实验中使用的CVA-BUS数据集的代码,检查点和高质量标签。
利用高分辨率事件摄像机进行行人检测
论文地址:
https://arxiv.org/abs/2305.18008
尽管计算机视觉算法不断发展,但无人机和自动驾驶汽车等自动驾驶车辆的感知和控制系统的实现仍然面临许多挑战。由传统相机捕获的视频流通常易于出现诸如运动模糊或由于挑战性的照明条件而导致的图像质量下降的问题。此外,帧速率(通常为每秒30或60帧)在某些场景中可能是限制因素。事件摄像机(DVS -动态视觉传感器)是解决上述问题的潜在有趣技术。在本文中,我们比较了两种通过深度学习处理事件数据的方法,以用于行人检测的任务。我们使用视频帧、卷积神经网络和异步稀疏卷积神经网络形式的表示。所获得的结果说明事件摄像机的潜力,并允许评估用于高分辨率(1280 × 720像素)镜头的方法的准确性和效率。
视图到标签:自监督三维目标检测的多视点一致性
论文地址:
https://arxiv.org/abs/2305.17972
对于自动驾驶汽车,安全驾驶高度依赖于正确感知3D空间环境的能力,因此3D物体检测的任务代表了感知的基本方面。虽然3D传感器提供精确的度量感知,但单眼方法享有成本和可用性优势,这在广泛的应用中是有价值的。不幸的是,训练单眼方法需要大量的注释数据。有趣的是,自我监督的方法最近已经成功地应用于简化训练过程,并解锁对广泛可用的未标记数据的访问。虽然相关研究利用了包括LIDAR扫描和立体图像的不同先验,但是这样的先验再次限制了可用性。因此,在这项工作中,我们提出了一种新的方法来自我监督3D对象检测纯粹从RGB序列,利用多视图约束和弱标签。我们在KITTI 3D数据集上的实验表明,性能与使用LIDAR扫描或立体图像的最先进的自我监督方法相当。
伪装扩散:基于条件扩散模型的伪装目标检测
论文地址:
https://arxiv.org/abs/2305.17932
伪装目标检测是计算机视觉中的一个具有挑战性的任务,因为伪装目标与其周围环境具有高度的相似性。现有的COD方法主要采用语义分割,其遭受过度自信的不正确预测。在本文中,我们提出了一个新的范式,把COD作为一个有条件的掩模生成任务,利用扩散模型。我们的方法,被称为CamoDiffusion,采用扩散模型的去噪过程来迭代地降低掩模的噪声。由于扩散的随机采样过程,我们的模型能够从掩模分布中采样多个可能的预测,避免了过度自信的点估计问题。此外,我们还开发了专门的学习策略,其中包括用于生成强大预测的创新集成方法和用于高效训练的定制前向扩散方法,特别是COD任务。在三个COD数据集上进行的广泛实验证明,与现有的最先进的方法相比,我们的模型具有优异的性能,特别是在最具挑战性的COD10K数据集上,我们的方法在MAE方面达到了0.019。
T2FNorm:面向OOD检测的极其简单的列车时间尺度特征归一化
论文地址:
https://arxiv.org/abs/2305.17797
神经网络因过度自信的预测器而臭名昭着,这对其在现实世界应用中的安全部署构成了重大挑战。虽然特征归一化在深度学习文献中获得了相当大的关注,但目前用于分布外(OOD)检测的训练时间正则化方法尚未充分利用这一潜力。事实上,神经网络内的特征归一化的天真的合并并不能保证OOD检测性能的改善。在这项工作中,我们引入了T2FNorm,这是一种训练神经网络的新方法,它通过归一化将特征转换到超球面空间,同时采用非转换空间进行OOD评分。该方法在不损害分布(ID)中的模型准确性的情况下产生OOD检测能力的令人惊讶的增强。我们的调查表明,所提出的技术大大减少了所有样本的特征的规范,更是在分布外的样本的情况下,从而解决了神经网络中的过度自信的普遍关注。所提出的方法也显着改善各种事后OOD检测方法。
实时目标检测:YOLOv1在PyTorch中的重新实现
论文地址:
https://arxiv.org/abs/2305.17786
实时目标检测是计算机视觉系统需要解决的一个关键问题,它需要根据检测结果及时做出适当的决策。我选择了YOLO v1架构来使用PyTorch框架实现它,目的是熟悉整个对象检测管道,我尝试了不同的技术来修改原始架构以改善结果。最后,我将我的实现的指标与原始的进行比较。
基于YOLOv5的光照和旋转不变实时车轮检测仪
论文地址:
https://arxiv.org/abs/2305.17785
在计算机视觉中,创建对象检测器在最初基于卷积神经网络(CNN)架构开发时具有一些常见的挑战。当创建需要适应由各种相机方向、照明条件和环境变化捕获的图像的模型时,这些挑战更加明显。覆盖所有这些条件的初始训练样本的可用性可能是具有时间和成本负担的巨大挑战。虽然在创建任何类型的对象检测时都可能存在这个问题,但有些类型不太常见,并且没有公开存在的预标记图像数据集。有时,公共数据集对于稀有对象类型既不可靠也不全面。车轮是被选择来演示基于YOLOv5架构创建照明和旋转不变实时检测器的方法的示例之一。我们的目标是提供一个简单的方法,可以用作开发其他类型的实时目标检测器的参考。
用于篡改检测的图像散列最小化算法
论文地址:
https://arxiv.org/abs/2305.17748
使用图像散列的篡改检测是当今非常常见的问题。已经进行了一些研究和进步来解决这个问题。然而,大多数现有的方法缺乏篡改检测的准确性时,篡改区域是低的,以及需要长的图像哈希。在本文中,我们提出了一种新的方法,客观地最大限度地减少哈希长度,同时提高在低篡改区域的性能。
K-NNN:用于异常检测的邻域最近邻
论文地址:
https://arxiv.org/abs/2305.17695
异常检测的目的是识别明显偏离标准的图像。我们专注于算法,在空间中嵌入正常的训练样本,当给定一个测试图像,检测异常的特征距离的k-最近的训练邻居的基础上。我们提出了一个新的运营商,考虑到不同的结构和嵌入空间中的功能的重要性。有趣的是,这不仅要考虑最近的邻居,还要考虑这些邻居的邻居(k-NNN)。我们表明,通过简单地取代我们的k-NNN算子在现有的算法中的最近邻组件,而其余的算法不变,每个算法自己的结果得到改善。对于常见的同构数据集(如特定类型的花或坚果)以及更多样化的数据集,都是如此
基于深度学习的指纹呈现攻击检测研究综述
论文地址:
https://arxiv.org/abs/2305.17522
指纹认证系统的弱点,提出了安全问题时,使他们适应高度安全的访问控制应用程序。因此,指纹呈现攻击检测(FPAD)方法对于确保指纹认证的可靠性至关重要。由于传统的基于手工的方法缺乏生成能力,基于深度学习的FPAD已经成为主流,并在过去十年中取得了显着的表现。现有的评论更多地关注手工制作,而不是基于深度学习的方法,后者已经过时。为了促进未来的研究,我们将只关注最近基于深度学习的FPAD方法。在本文中,我们首先简要介绍了最常见的呈现攻击工具(PAI)和公开可用的指纹呈现攻击(PA)数据集。然后,我们将现有的深度学习FPAD分为接触式、非接触式和基于智能手机的方法。最后,我们通过讨论当前阶段面临的挑战并强调潜在的未来前景来总结本文。
FishEye8K:鱼眼摄像机目标检测的基准和数据集
论文地址:
https://arxiv.org/abs/2305.17449
随着人工智能的发展,道路对象检测已经成为计算机视觉中的一个突出主题,主要使用透视相机。鱼眼镜头提供了全方位的广泛覆盖,使用较少的摄像机来监控道路交叉口,但与视图失真。据我们所知,目前还没有为鱼眼摄像机上的交通监控准备的开放数据集。本文介绍了一个用于道路对象检测任务的开放式FishEye8K基准数据集,该数据集包括五个类别(行人,自行车,汽车,公共汽车和卡车)的157K边界框。此外,我们还展示了最先进的(SoTA)模型的基准测试结果,包括YOLOv5、YOLOR、YOLO7和YOLOv8的变体。该数据集包括使用18个鱼眼摄像机在台湾新竹进行交通监控的22个视频中记录的8,000张图像,分辨率为1080 × \times × 1080和 1280 × \times × 1280。由于超宽全景和半球形鱼眼相机图像具有较大的失真和众多的道路参与者,特别是骑摩托车的人,数据注释和验证过程是艰巨和耗时的。为了避免偏差,来自特定相机的帧被分配到训练集或测试集,每个类别中的图像和边界框的数量保持约70:30的比例。实验结果表明,YOLOv8和YOLOR分别在输入大小为640 × \times × 640和1280 × \times × 1280时表现出色。该数据集将在GitHub上提供PASCAL VOC,MS COCO和YOLO注释格式。FishEye8K基准测试将为鱼眼视频分析和智慧城市应用做出重大贡献。
通过使用掩蔽顺序自动编码器进行自我预训练和使用定制PolyLoss进行微调来实现稳健的车道检测
论文地址:
https://arxiv.org/abs/2305.17271
车道线检测是车辆定位的关键,是自动驾驶和许多智能和先进的驾驶辅助系统的基础。现有的基于视觉的车道检测方法没有充分利用有价值的特征和聚合上下文信息,特别是车道线和连续帧中图像的其他区域之间的相互关系。为了填补这一研究空白并提升车道检测性能,本文提出了一种流水线,包括使用掩码顺序自编码器进行自预训练和使用多连续图像帧对端到端神经网络模型进行自定义PolyLoss微调。该算法采用掩码序列自编码器对神经网络模型进行预训练,以恢复随机掩码图像中丢失的像素点为目标。然后,在执行车道检测分割的微调分割阶段中,将连续图像帧用作输入,并且使用反向传播机制传输并进一步更新预训练的模型权重,其中定制的PolyLoss计算输出车道检测结果与标记的地面实况之间的加权误差。大量的实验结果表明,与所提出的管道,车道检测模型的性能在正常和具有挑战性的场景可以先进的超越国家的最先进的,提供最好的测试准确度(98.38%),精度(0.937),和F1-措施(0.924)的正常场景测试集,以及最好的整体准确度(98.36%)和精度(0.844)在具有挑战性的场景测试集,而训练时间可以大大缩短。
VoxDet:用于新实例检测的体素学习
论文地址:
https://arxiv.org/abs/2305.17220
基于多视图模板检测未见过的实例是一个具有挑战性的问题,由于其开放世界的性质。主要依赖于2D表示和匹配技术的传统方法往往不足以处理姿态变化和遮挡。为了解决这个问题,我们介绍了VoxDet,一个先锋的3D几何感知框架,充分利用强大的3D体素表示和可靠的体素匹配机制。VoxDet首次巧妙地提出模板体素聚合(TVA)模块,有效地将多视图2D图像转换为3D体素特征。通过利用相关联的相机姿态,这些特征被聚合成紧凑的3D模板体素。在新颖的实例检测中,该体素表示展示了对遮挡和姿势变化的增强的弹性。我们还发现,3D重建目标有助于预训练TVA中的2D-3D映射。其次,为了快速与模板体素对齐,VoxDet结合了查询体素匹配(QVM)模块。首先利用学习的2D-3D映射将2D查询转换成它们的体素表示。我们发现,由于3D体素表示编码的几何形状,我们可以首先估计相对旋转,然后比较对齐的体素,导致提高的准确性和效率。在苛刻的LineMod-Occlusion,YCB视频和新建成的RoboTools基准测试上进行了详尽的实验,其中VoxDet显著优于各种2D基线,召回率高20%,速度更快。据我们所知,VoxDet是第一个将隐式3D知识用于2D任务。
构建针对任何事物的单类检测器:使用文本-图像模型的开放词汇表Zero-ShotOOD检测
论文地址:
https://arxiv.org/abs/2305.17207
我们专注于深度学习模型中的分布外(OOD)检测的挑战,这是确保可靠性的一个关键方面。尽管付出了相当大的努力,但由于深度学习模型倾向于输出对OOD输入的过度自信预测,因此该问题在深度学习模型中仍然具有重大挑战性。我们提出了一种新的一类开放集OOD检测器,它利用文本图像预训练的模型在一个zero-shot的方式,并结合了各种描述的域和OOD。我们的方法旨在检测任何不在域中,并提供了灵活性,以检测各种各样的OOD,定义通过细粒度或粗粒度的标签,甚至在自然语言。我们评估我们的方法具有挑战性的基准,包括大规模的数据集包含细粒度,语义相似的类,分布移位图像,多对象图像包含混合的域和OOD对象。我们的方法在所有基准测试中显示出优于以前的方法的性能。代码可在www.example.com上获得。