开放世界中的半监督目标检测
https://arxiv.org/abs/2307.15710
用于半监督对象检测的现有方法假设存在于训练和未标记数据集中的固定类集合,即,分发(ID)数据。当这些技术部署在开放世界中时,这些技术的性能显著降低,这是由于未标记数据和测试数据可能包含在训练期间未看到的对象,即,分布外(OOD)数据。我们在本文中探讨的两个关键问题是:我们能发现这些OOD样本吗?如果能,我们能从中学习吗?考虑到这些因素,我们提出了开放世界半监督检测框架(OWSSD),它可以有效地检测OOD数据以及从ID和OOD数据中学习的半监督学习管道。我们介绍了一个集成的OOD检测器组成的轻量级自动编码器网络只训练ID数据。通过广泛的评估,我们证明了我们的方法与最先进的OOD检测算法相比具有竞争力,并且还显着提高了开放世界场景中的半监督学习性能。
多层聚合是基于特征的OOD检测的关键
https://arxiv.org/abs/2307.15647
深度学习模型很容易受到在训练阶段未观察到的输入图像变化的干扰,从而导致不可预测的预测。检测这样的分布外(OOD)图像在医学图像分析的背景下是特别关键的,其中可能的异常的范围是非常宽的。最近,出现了一类新的方法,基于对训练模型的中间特征的分析。这些方法可分为2组:单层方法,其考虑在固定的、仔细选择的层处获得的特征图,以及多层方法,其考虑由模型生成的特征图的集合。虽然有希望,这些算法的适当比较仍然缺乏。在这项工作中,我们比较了各种基于特征的OOD检测方法的OOD(20种)的大光谱,代表约7800三维MRI。我们的实验揭示了两种现象。首先,多层方法始终优于单层方法,其倾向于具有取决于异常类型的不一致行为。第二,OOD检测性能高度依赖于底层神经网络的架构。
基于Gabor滤波的糖尿病无创检测:不同摄像机的对比分析
https://arxiv.org/abs/2307.15480
本文比较和探讨了移动终端的相机和笔记本电脑相机的性能作为方便的工具,用于捕获图像的非侵入性检测糖尿病(DM)使用面部块纹理特征。年龄在20至79岁之间的参与者被选择用于数据集。使用12 MP和7 MP移动相机以及笔记本电脑相机在正常照明条件下拍摄照片。提取的面部块进行分类,使用k-最近邻(k-NN)和支持向量机(SVM)。捕获100个图像,预处理,使用Gabor滤波,并迭代。该系统的性能进行了测量的准确性,特异性和灵敏度。使用具有100个图像的SVM,从12 mp后置摄像头实现了96.7%准确度、100%灵敏度和93%特异性的最佳性能。
轨道障碍物检测中的局部信息和全局信息
https://arxiv.org/abs/2307.15478
铁路上可靠的障碍物检测可以帮助防止导致受伤和潜在损坏或训练的碰撞。不幸的是,通用对象检测器没有足够的类来考虑所有可能的场景,并且以铁路上的对象为特征的数据集很难获得。我们建议利用浅层网络学习铁路分割正常铁路图像。网络的有限接受域防止了过度自信的预测,并允许网络专注于铁路环境的局部非常独特和重复的模式。此外,我们通过学习幻觉无障碍图像来探索全局信息的受控包含。我们评估我们的方法在一个自定义的数据集,具有人工增强的障碍物的铁路图像。我们提出的方法优于其他基于学习的基线方法。
用于变化检测的隐式神经表示法
https://arxiv.org/abs/2307.15428
由于不匹配的空间支持和采集系统噪声,检测在同一地理区域在两个不同时间采集的一对3D机载LiDAR点云中发生的变化是一项具有挑战性的任务。最近尝试检测点云的变化是基于监督的方法,这需要大量的标记数据在现实世界中的应用程序中不可用。为了解决这些问题,我们提出了一种无监督的方法,包括两个部分:用于连续形状重建的神经场(NF)和用于分类变化的高斯混合模型。NF提供了一种网格不可知的表示,以编码具有不匹配的空间支持的双时间点云,其可以被正则化以增加高频细节并减少噪声。在任意空间尺度下比较每个时间戳处的重建,导致检测能力的显著增加。我们将我们的方法应用于城市蔓延的模拟LiDAR点云的基准数据集。该数据集提供了具有不同分辨率,输入模式和噪声水平的不同挑战性场景,允许将我们的方法与当前最先进的方法进行多场景比较。我们在这个数据集上拥有以前的方法,在联合度量的交集中有10%的保证金。此外,我们将我们的方法应用于现实世界的情况下,以确定非法挖掘(抢劫)的考古遗址,并确认他们从现场专家的调查结果相匹配。
隐式站分层在胸部CT解剖感知淋巴结检测中的应用
https://arxiv.org/abs/2307.15271
在放射学图像中发现异常淋巴结对于诸如癌症转移分期和放射治疗计划的各种医疗任务是非常重要的。淋巴结(LN)是散布在全身的小腺体。它们根据其解剖位置被分组或定义到各种LN站。不同站点中的LN的CT成像外观和背景显著不同,这对自动化检测,特别是对病理性LN提出了挑战。出于这种观察,我们提出了一种新的端到端的框架,以提高LN检测性能,利用他们的站信息。我们设计了一个多头探测器,使每个头专注于区分某些站点的LN和非LN结构。伪站标签由LN站分类器生成,作为训练期间的多任务学习的形式,因此我们在推断期间不需要另一个显式LN站预测模型。我们的算法进行了评估82例肺癌和91例食管癌患者。所提出的隐式站分层方法在两个数据集上分别将每名患者2个假阳性的胸部淋巴结的检测灵敏度从65.1%提高到71.4%和从80.3%提高到85.5%,这显著优于各种现有的最先进的基线技术,例如nnUNet、nnDetection和LENS。
小,但重要:用于检测小交通灯和更远的交通灯的交通灯建议
https://arxiv.org/abs/2307.15191
交通灯检测是自动驾驶汽车和驾驶员辅助系统背景下的一个具有挑战性的问题。虽然大多数现有的系统在大型交通灯上产生了良好的效果,但检测小型和小型交通灯往往被忽视。这里的一个关键问题是CNN中固有的下采样,导致用于检测的低分辨率特征。为了缓解这个问题,我们提出了一个新的交通灯检测系统,包括一个新的交通灯建议生成器,利用一般对象的建议生成,细粒度的多尺度功能的结果,并注意有效的处理。此外,我们设计了一个新的检测头分类和细化我们的建议。我们评估我们的系统上三个具有挑战性的,公开可用的数据集,并将其与六种方法进行比较。结果显示,小型和微型交通灯至少有12.6美元的大幅改善,以及所有大小的交通灯的强劲结果。
自然灾害未配准双时相图像端到端遥感变化检测
https://arxiv.org/abs/2307.15128
基于遥感图像的变化检测是遥感领域的一个重要研究方向。深度网络在检测双时遥感图像的变化方面取得了显著的成功,并在各个领域得到了应用。在自然环境日益恶化、自然灾害频繁发生的情况下,利用遥感图像准确、快速地识别灾区受损建筑物具有重要意义。本文的目的是研究变化检测专门为自然灾害。考虑到变化检测研究中使用的现有公共数据集是注册的,这与双时间图像不匹配的实际场景不一致,本文介绍了一种未注册的端到端变化检测合成数据集,称为xBD-E2 ECD。此外,我们提出了一个端到端的变化检测网络命名为E2 ECDNet,它采取未注册的双时间图像对作为输入,并同时产生流场预测结果和变化检测预测结果。值得注意的是,我们的E2 ECDNet还支持注册图像对的变化检测,因为注册可以被视为非注册的特殊情况。此外,本文重新定义了正确预测一个积极的情况下,并引入了基于邻域的变化检测评估指标的标准。实验结果表明,显着的改善。
通过连续增量训练检测变形攻击
https://arxiv.org/abs/2307.15105
数据传输和存储的限制限制了组成单个数据集(也利用不同的数据源)以执行基于批处理的训练过程的可能性的场景,使得鲁棒模型的开发特别具有挑战性。我们假设,最近的持续学习(CL)范式可能是一个有效的解决方案,使增量训练,甚至通过多个网站。实际上,CL的一个基本假设是,一旦模型被训练,旧数据就不能再用于连续的训练迭代,原则上可以删除。因此,在本文中,我们研究了在这种情况下不同的持续学习方法的性能,模拟了每次有新的数据块(即使是可变大小的数据块)可用时都会更新的学习模型。实验结果表明,一个特定的CL方法,即学习不忘记(LwF),是一个最好的性能算法。然后,我们研究了它在变形攻击检测和对象分类任务中的使用和参数化,特别是关于可用的新训练数据量。
OAFuser:面向全口径融合的道路场景光场语义分割
https://arxiv.org/abs/2307.15588
光场摄像机可以提供丰富的角度和空间信息,以增强图像语义分割,用于自动驾驶领域的场景理解。然而,光场摄像机广泛的角度信息包含了大量冗余数据,这对于智能汽车有限的硬件资源来说是压倒性的。此外,不适当的压缩导致信息损坏和数据丢失。为了挖掘有代表性的信息,我们提出了一个全孔径融合模型(OAFuser),它利用密集的上下文从中心视图和发现的角度信息,从子孔径图像生成一个语义一致的结果。为了避免网络传播过程中的特征丢失,同时简化光场相机的冗余信息,我们提出了一个简单而非常有效的子孔径融合模块(SAFM),以嵌入子孔径图像到角度特征,而无需任何额外的存储器成本。此外,为了解决视点间空间信息不匹配的问题,我们提出了中心角校正模块(CARM)实现了特征再排序,防止了由于信息不对称而造成的特征遮挡。我们提出的OAFuser在UrbanLF-Real和-Syn数据集上实现了最先进的性能,并在UrbanLF-Real Extended数据集上在mIoU中创造了84.93%的新记录,增益为+4.53%。OAFuser的源代码将在https://github.com/FeiBryantkit/OAFuser公开。
神经影像数据的一次联合提取、配准和分割
https://arxiv.org/abs/2307.15198
脑图像的提取、配准和分割是神经影像学研究中必不可少的预处理步骤。目的是从原始成像扫描中提取大脑(即,提取步骤),将其与目标脑图像(即,配准步骤)并标记解剖脑区域(即,分段步骤)。传统的研究通常集中在开发单独的方法,在监督设置中的提取,配准和分割任务。这些方法的性能在很大程度上取决于训练样本的数量和专家进行目视检查以进行纠错的程度。然而,收集体素级标签并对高维神经图像(例如,3D MRI)在许多医学研究中昂贵且耗时。在本文中,我们研究了问题的一次性联合提取,注册和分割的神经影像数据,它只利用一个标记的模板图像(又名。图谱)和一些未标记的原始图像用于训练。我们提出了一个统一的端到端的框架,称为JERS,共同优化的提取,注册和分割任务,允许他们之间的反馈。具体来说,我们使用一组提取,注册和分割模块来学习提取掩码,变换和分割掩码,其中模块通过自我监督相互连接和相互加强。在真实世界数据集上的实验结果表明,我们提出的方法在提取,配准和分割任务中表现出色。我们的代码和数据可以在https://github.com/Anonymous4545/JERS上找到
用于肺结节和肿块分割的尺度感知测试时间点击自适应
https://arxiv.org/abs/2307.15645
肺结节和肿块是肺癌筛查中的重要影像学特征,在临床诊断中需要仔细处理。尽管基于深度学习的医学图像分割取得了成功,但对各种大小的结节和肿块病变的鲁棒性能仍然具有挑战性。在本文中,我们提出了一个多尺度神经网络与规模意识的测试时间适应,以解决这一挑战。具体来说,我们引入了一个自适应的规模意识的测试时间点击适应方法的基础上毫不费力地获得病变点击测试时间线索,以提高分割性能,特别是对于大病变。所提出的方法可以无缝集成到现有的网络。在开源和内部数据集上的广泛实验一致地证明了所提出的方法在一些CNN和基于Transformer的分割方法上的有效性。我们的代码可在https://github.com/SplinterLi/SaTTCA上获得。