先解开再解析:光照解缠的夜间语义分割
https://arxiv.org/abs/2307.09362
大多数现有的语义分割方法都是针对白天场景开发的,但由于照明条件不足且复杂,在夜间场景中通常表现不佳。 在这项工作中,我们通过提出一种新颖的夜间语义分割范例来应对这一挑战,即解开然后解析(DTP)。 DTP 明确地将夜间图像分解为光不变的反射率和特定于光的照明分量,然后基于它们的自适应融合来识别语义。 具体来说,所提出的 DTP 包括两个关键组成部分:1)我们的面向语义的解缠结(SOD)框架不是像以前的工作那样处理光照纠缠特征,而是能够不受光照阻碍地提取反射分量,从而使网络能够在变化和复杂的光照条件下一致地识别语义。 2)基于照明组件可以作为一些语义混淆区域的线索的观察,我们进一步引入照明感知解析器(IAParser)来明确学习语义和照明之间的相关性,并聚合照明特征以产生更精确的预测。 对各种设置的夜间分割任务进行的大量实验表明,DTP 显着优于最先进的方法。 此外,由于附加参数可以忽略不计,DTP 可以直接用于使现有的白天夜间分割方法受益。
OnlineRefer:一种参考视频对象分割的简单在线基线
https://arxiv.org/abs/2307.09356
参考视频对象分割(RVOS)旨在按照人类指令分割视频中的对象。 当前最先进的方法属于离线模式,其中每个剪辑独立地与文本嵌入交互以实现跨模式理解。 他们通常表示离线模式对于 RVOS 是必要的,但对每个剪辑内的有限时间关联进行建模。 在这项工作中,我们打破了以前的离线信念,并提出了一种使用显式查询传播的简单而有效的在线模型,名为 OnlineRefer。 具体来说,我们的方法利用目标线索来收集语义信息和位置,以提高当前帧的引用预测的准确性和易用性。 此外,我们将在线模型概括为半在线框架,以与基于视频的主干网兼容。 为了展示我们方法的有效性,我们在四个基准上对其进行评估,即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences。 没有花里胡哨的东西,我们的具有 Swin-L 主干的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上达到了 63.5 J&F 和 64.8 J&F,优于所有其他离线方法。
MarS3D:一种即插即用的多扫描三维点云语义分割模型
https://arxiv.org/abs/2307.09316
多扫描大规模点云上的 3D 语义分割在自治系统中发挥着重要作用。 与基于单扫描的语义分割任务不同,该任务除了需要区分点的语义类别之外,还需要区分点的运动状态。 然而,由于缺乏有效的方法来整合时间信息,为基于单扫描的分割任务设计的方法在多扫描任务上表现不佳。 我们提出了 MarS3D,这是一种即插即用的运动感知模块,用于多扫描 3D 点云上的语义分割。 该模块可以与单扫描模型灵活结合,使其具备多扫描感知能力。 该模型包含两个关键设计:用于丰富表示学习的跨帧特征嵌入模块和用于增强运动感知的运动感知特征学习模块。 大量实验表明,MarS3D 可以大幅提高基线模型的性能。 该代码可从此 https URL 获取。
弱监督3D视觉奠基中粗精语义匹配知识的提取
https://arxiv.org/abs/2307.09267
3D 视觉基础涉及在 3D 场景中查找与给定句子查询相对应的目标对象。 尽管已经提出了许多方法并取得了令人印象深刻的性能,但它们都需要在 3D 点云中进行密集的对象-句子对注释,这既耗时又昂贵。 为了解决细粒度标注数据难以获得的问题,我们建议利用弱监督标注来学习3D视觉基础模型,即仅使用粗略的场景-句子对应来学习宾语-句子链接。 为了实现这一目标,我们设计了一种新颖的语义匹配模型,以从粗到细的方式分析对象提案和句子之间的语义相似性。 具体来说,我们首先提取对象建议,并根据特征和类相似度矩阵粗略地选择前 K 个候选者。 接下来,我们使用每个候选者一一重建句子的屏蔽关键词,重建的准确性很好地反映了每个候选者与查询的语义相似度。 此外,我们将粗到精的语义匹配知识提炼成典型的两阶段 3D 视觉基础模型,通过充分利用现有架构的充分研究的结构来降低推理成本并提高性能。 我们对 ScanRefer、Nr3D 和 Sr3D 进行了广泛的实验,证明了我们提出的方法的有效性。
CG-Fusion CAM:大口径光学元件激光损伤的在线分割
https://arxiv.org/abs/2307.09161
高功率激光设施中大口径光学器件激光损伤的在线分割面临着复杂的损伤形态、光照不均匀和杂散光干扰的挑战。 完全监督的语义分割算法已经实现了最先进的性能,但依赖于大量的像素级标签,这些标签的生成既费时又费力。 LayerCAM 是一种先进的弱监督语义分割算法,可以仅使用图像级标签生成像素精确的结果,但其分散且部分未激活的类激活区域会降低分割性能。 在本文中,我们提出了一种使用连续梯度 CAM 及其非线性多尺度融合(CG-fusion CAM)的弱监督语义分割方法。 该方法重新设计了反向传播梯度的方式,非线性激活多尺度融合热图,针对不同大小的损伤部位生成具有适当激活程度的更细粒度的类激活图。 在我们的数据集上的实验表明,所提出的方法可以实现与完全监督算法相当的分割性能。
基于主动学习的语义切分单类挖掘
https://arxiv.org/abs/2307.09109
一些主动学习 (AL) 策略需要多次重新训练目标模型,以便识别信息最丰富的样本,并且很少提供专注于从代表性不足的类别中获取样本的选项。 这里引入了主动学习挖掘单类(MiSiCAL)范式,其中通过深度强化学习构建 AL 策略,并利用数量精度相关性来构建数据集,在该数据集上可以针对特定类训练高性能模型。 MiSiCAL 在批量大小非常大的情况下特别有用,因为它不需要像其他 AL 方法中常见的重复模型训练课程。 这要归功于它利用候选数据点的固定表示的能力。 我们发现 MiSiCAL 在 171 个 COCO10k 类别中的 150 个类别上能够优于随机策略,而最强基线仅在 101 个类别上优于随机策略。
算子分裂方法与深度神经网络的关系及其在图像分割中的应用
https://arxiv.org/abs/2307.09052
深度神经网络是完成许多任务的强大工具。 理解它为何如此成功并提供数学解释是一个重要的问题,也是过去几年的一个热门研究方向。 在深度神经网络的数学分析文献中,很多工作致力于建立表示理论。 如何在深度神经网络和数学算法之间建立联系仍在开发中。 在本文中,我们给出了深度神经网络的算法解释,特别是它们与算子分裂和多重网格方法的联系。 我们证明,通过某些分裂策略,算子分裂方法具有与网络相同的结构。 利用这种连接和 Potts 模型进行图像分割,提出了两个受算子分割方法启发的网络。 这两个网络本质上是求解 Potts 模型的两个算子分割算法。 数值实验证明了所提出的网络的有效性。
飞行器在线自监督热水分割
https://arxiv.org/abs/2307.09027
我们提出了一种新方法,通过利用纹理和运动线索作为监督信号,使用在线自我监督将 RGB 训练的水分割网络适应目标域航空热图像。 这种新的热功能使当前在近岸环境中运行的自主飞行机器人能够在夜间执行视觉导航、测深和流量跟踪等任务。 我们的方法克服了近岸热数据稀缺且难以获取的问题,阻碍了传统监督和无监督方法的应用。 在这项工作中,我们策划了第一个近岸航空热数据集,表明我们的方法优于在有限目标域热数据上训练的完全监督分割模型,并演示了 Nvidia Jetson 嵌入式计算平台上的实时功能。
基于证据推理学习的可信半监督医学图像分割
https://arxiv.org/abs/2307.08988
最近,不确定性感知方法在半监督医学图像分割中引起了越来越多的关注。 然而,当前的方法通常存在难以在统一框架中平衡计算成本、估计精度和理论支持的缺点。 为了缓解这个问题,我们将 Dempster-Shafer 证据理论 (DST) 引入半监督医学图像分割,称为证据推理学习 (EVIL)。 EVIL 提供了理论上有保证的解决方案,可以在单次前向传递中推断出准确的不确定性量化。 不确定性估计后会生成未标记数据上的可信伪标签。 我们的框架采用了最近提出的基于一致性正则化的训练范式,它强制扰动预测的一致性,以增强少量标记数据的泛化能力。 实验结果表明,与公共数据集上的几种最先进的方法相比,EVIL 取得了有竞争力的性能。
基于自我拼贴的语义统计
https://arxiv.org/abs/2307.08727
虽然最近基于参考的对象计数的监督方法继续提高基准数据集的性能,但由于手动注释图像中的数十个对象所需的成本,它们必须依赖于小型数据集。 我们提出了无监督计数器(UnCo),这是一种可以学习此任务而无需任何手动注释的模型。 为此,我们构建了“SelfCollages”,即以各种粘贴对象作为训练样本的图像,提供了涵盖任意对象类型和计数的丰富学习信号。 我们的方法建立在现有的无监督表示和分割技术的基础上,成功地展示了在没有人工监督的情况下对对象进行计数的能力。 我们的实验表明,我们的方法不仅优于简单基线和 FasterRCNN 等通用模型,而且在某些领域与监督计数模型的性能相匹配。
U网精调策略在胎头超声图像分割中的评价
https://arxiv.org/abs/2307.09067
胎头分割是妊娠期间测量胎儿头围 (HC) 的关键步骤,是产科监测胎儿生长的重要生物特征。 然而,手动生成生物特征非常耗时,并且会导致准确性不一致。 为了解决这个问题,卷积神经网络(CNN)模型被用来提高医学生物测量的效率。 但是从头开始训练 CNN 网络是一项具有挑战性的任务,我们提出了迁移学习(TL)方法。 我们的方法涉及使用轻量级 MobileNet 作为编码器对 U-Net 网络进行微调 (FT),从而以有限的努力对一组胎儿头部超声 (US) 图像执行分割。 该方法解决了与从头开始训练 CNN 网络相关的挑战。 这表明我们提出的 FT 策略产生的分割性能与使用减少 85.8% 的参数数量进行训练时相当。 我们提出的 FT 策略优于其他可训练参数大小低于 440 万的策略。 因此,我们认为它可以作为一种可靠的 FT 方法来减小医学图像分析中模型的大小。 我们的主要发现强调了通过 TL 方法开发人工智能 (AI) 应用程序时模型性能和规模之间的平衡的重要性。
用于医学图像分割的混频单源域泛化算法
https://arxiv.org/abs/2307.09005
医学图像分割的注释稀缺给深度学习模型收集足够的训练数据带来了挑战。 具体来说,在有限数据上训练的模型可能无法很好地推广到其他看不见的数据域,从而导致域转移问题。 因此,域泛化(DG)被开发来提高分割模型在未知域上的性能。 然而,DG 设置需要多个源域,这阻碍了分割算法在临床场景中的有效部署。 为了应对这一挑战并提高分割模型的泛化性,我们提出了一种称为频率混合单源域泛化方法(FreeSDG)的新方法。 通过分析频率对域差异的影响,FreeSDG 利用混合频谱来增强单源域。 此外,在域增强中构建自我监督,以学习分割任务的鲁棒上下文感知表示。 三种模式的五个数据集的实验结果证明了所提出算法的有效性。 FreeSDG 的性能优于最先进的方法,并显着提高了分割模型的通用性。 因此,FreeSDG 为增强医学图像分割模型的泛化性提供了一种有前途的解决方案,特别是在注释数据稀缺的情况下。