【AI视野·今日CV 计算机视觉论文速览 第266期】Thu, 12 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 12 Oct 2023
Totally 100 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第266期】Thu, 12 Oct 2023_第1张图片

Daily Computer Vision Papers

PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection
Authors Qiang Zhou, Weize Li, Lihan Jiang, Guoliang Wang, Guyue Zhou, Shanghang Zhang, Hao Zhao
物体异常检测是机器视觉领域的一个重要问题,近年来取得了显着的进展。然而,两个重大挑战阻碍了其研究和应用。首先,现有数据集缺乏各种姿势角度的全面视觉信息。他们通常有一个不切实际的假设,即无异常训练数据集是姿势对齐的,并且测试样本与训练数据具有相同的姿势。然而,在实践中,异常可能存在于对象的任何区域,训练样本和查询样本可能具有不同的姿势,需要对姿势无关的异常检测进行研究。其次,对姿势不可知异常检测的实验协议缺乏共识,导致不同方法之间的不公平比较,阻碍了姿势不可知异常检测的研究。为了解决这些问题,我们开发了多姿势异常检测 MAD 数据集和姿势无关异常检测 PAD 基准,这是解决姿势无关异常检测问题的第一步。具体来说,我们使用 20 个复杂形状的乐高玩具构建 MAD,包括具有各种姿势的 4K 视图,以及模拟和真实环境中的高质量和多样化的 3D 异常。此外,我们提出了一种新方法 OmniposeAD,使用 MAD 进行训练,专门用于姿势不可知的异常检测。通过综合评估,我们证明了我们的数据集和方法的相关性。此外,我们还提供了一个开源基准库,包括涵盖 8 种异常检测范例的数据集和基线方法,以促进该领域的未来研究和应用。

Ferret: Refer and Ground Anything Anywhere at Any Granularity
Authors Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih Fu Chang, Yinfei Yang
我们引入了 Ferret,一种新的多模态大语言模型 MLLM,能够理解图像中任何形状或粒度的空间指代,并准确地建立开放词汇描述。为了统一 LLM 范式中的引用和基础,Ferret 采用了一种新颖且强大的混合区域表示,将离散坐标和连续特征联合集成来表示图像中的区域。为了提取多功能区域的连续特征,我们提出了一种空间感知视觉采样器,擅长处理不同形状的不同稀疏性。因此,Ferret 可以接受不同的区域输入,例如点、边界框和自由形状。为了增强 Ferret 的所需功能,我们策划了 GRIT,这是一个全面的参考和地面指令调整数据集,其中包括 110 万个样本,其中包含丰富的分层空间知识,并具有 95K 硬负数据以提高模型的鲁棒性。由此产生的模型不仅在经典的参考和基础任务中实现了卓越的性能,而且在基于区域和本地化要求的多模态聊天中大大优于现有的 MLLM。我们的评估还表明,描述图像细节的能力显着提高,物体幻觉也显着减轻。

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models
Authors Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia, Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, Ying Shan
在这项工作中,我们研究了从预训练的扩散模型生成图像的能力,其分辨率比训练图像大小高得多。此外,生成的图像应具有任意的图像长宽比。当直接以更高分辨率(1024 x 1024)生成图像时,使用分辨率为 512 x 512 的训练图像进行预训练的稳定扩散,我们观察到对象重复和不合理的对象结构的持续问题。现有的高分辨率生成工作,例如基于注意力和联合扩散方法,不能很好地解决这些问题。作为一个新的视角,我们研究了扩散模型中 U Net 的结构组件,并将其关键原因确定为卷积核的有限感知场。基于这一关键观察,我们提出了一种简单而有效的重扩张,可以在推理过程中动态调整卷积感知场。我们进一步提出了分散卷积和噪声阻尼分类器免费指导,它可以生成超高分辨率图像,例如 4096 x 4096。值得注意的是,我们的方法不需要任何培训或优化。大量的实验表明,我们的方法可以很好地解决重复问题,并在更高分辨率的图像合成上实现最先进的性能,特别是在纹理细节方面。

From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched Captions
Authors Zhengfeng Lai, Haotian Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen Nee Chuah, Yinfei Yang, Meng Cao
网络爬取数据集对于预训练视觉语言模型的成功至关重要,例如 CLIP。然而,网络抓取的 AltText 可能会很嘈杂,并且可能与图像无关,从而破坏了关键的图像文本对齐。使用大型语言模型重写字幕的现有方法 LLM 已在 CC3M 和 CC12M 等小型精选数据集上显示出前景。然而,它们对大量网络捕获的字幕的功效受到此类数据中固有的噪声和随机性的限制。在本研究中,我们通过关注数据质量和数据多样性两个关键方面来解决这一限制。与最近的法学硕士重写技术不同,我们强调利用视觉概念并将其集成到标题中以提高数据质量。对于数据多样性,我们提出了一种新颖的混合训练方案,该方案可以最佳地利用 AltTexts 以及新生成的视觉丰富的字幕 VeC 。我们以 CLIP 为例,采用一种在大规模网络爬取数据集上进行 CLIP 训练的方法,命名为 VeCLIP。我们对小、中、大范围的原始数据进行了全面的 VeCLIP 评估。我们的结果显示了图像文本对齐和整体模型性能的显着优势,强调了 VeCLIP 在改进 CLIP 训练方面的有效性。例如,VeCLIP 在 12M 设置下在 COCO 和 Flickr30k 检索任务上取得了超过 20 倍的显着提升。

ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation
Authors Bo Peng, Xinyuan Chen, Yaohui Wang, Chaochao Lu, Yu Qiao
最近的工作已经成功地将大规模文本到图像模型扩展到视频领域,产生了有希望的结果,但计算成本很高并且需要大量视频数据。在这项工作中,我们引入了 ConditionVideo,这是一种基于提供的条件、视频和输入文本的文本到视频生成的免训练方法,利用现成的文本到图像生成方法(例如稳定扩散)的功能。 ConditionVideo 从随机噪声或给定场景视频生成逼真的动态视频。我们的方法明确地将运动表示分解为条件引导和场景运动分量。为此,ConditionVideo模型设计有UNet分支和控制分支。为了提高时间一致性,我们引入稀疏双向时空注意力 sBiST Attn 。 3D 控制网络扩展了传统的 2D 控制网络模型,旨在通过额外利用时域中的双向帧来增强条件生成精度。

Prediction of MET Overexpression in Non-Small Cell Lung Adenocarcinomas from Hematoxylin and Eosin Images
Authors Kshitij Ingale, Sun Hae Hong, Josh S.K. Bell, Abbas Rizvi, Amy Welch, Lingdao Sha, Irvin Ho, Kunal Nagpal, Aicha BenTaieb, Rohan P Joshi, Martin C Stumpe
MET 蛋白过度表达是非小细胞肺癌 NSCLC 中的一个可靶向事件,也是积极药物开发的主题。在确定接受这些疗法的患者时面临的挑战包括缺乏经过验证的测试,例如标准化的免疫组织化学 IHC 评估,以及消耗有价值的组织进行单基因蛋白测定。使用常规可用的数字化苏木精和曙红 HE 染色载玻片来开发预筛选算法来预测 MET 过度表达,可以促进对那些受益最大的人进行检测。虽然目前在 NSCLC 中并未常规使用 IHC 评估 MET 表达,但下一代测序很常见,并且在某些情况下包括 RNA 表达面板测试。在这项工作中,我们利用匹配的 HE 幻灯片和 RNA 表达数据的大型数据库来训练弱监督模型,以直接从 HE 图像预测 MET RNA 过度表达。该模型在由 300 名过度表达患者和 289 名正常患者组成的独立保留测试集上进行评估,证明 ROC AUC 为 0.70 第 95 个百分位区间 0.66 0.74,在不同患者临床变量中具有稳定的性能特征,并且对测试集上的合成噪声具有鲁棒性。

Explainable Image Similarity: Integrating Siamese Networks and Grad-CAM
Authors Ioannis E. Livieris, Emmanuel Pintelas, Niki Kiriakidou, Panagiotis Pintelas
随着基于图像的应用在各个领域的激增,对准确且可解释的图像相似性测量的需求变得越来越重要。现有的图像相似度模型通常缺乏透明度,因此很难理解两幅图像被认为相似的原因。在本文中,我们提出了可解释的图像相似性的概念,其目标是开发一种方法,该方法能够提供相似性分数以及视觉事实和反事实解释。沿着这个思路,我们提出了一个新的框架,它集成了 Siamese Networks 和 Grad CAM,以提供可解释的图像相似性,并讨论了采用这种方法的潜在好处和挑战。此外,我们还对拟议的协助决策框架提供的事实和反事实解释进行了全面的讨论。所提出的方法有可能增强现实世界图像相似性应用中基于图像的系统的可解释性、可信度和用户接受度。

HaarNet: Large-scale Linear-Morphological Hybrid Network for RGB-D Semantic Segmentation
Authors Rick Groenendijk, Leo Dorst, Theo Gevers
来自不同模态的信号都有自己的组合代数,这会影响它们的采样处理。 RGB主要是线性深度,是遵循数学形态学运算的几何信号。如果获得 RGB D 输入的网络在其层中具有可用的两种运算符,则它应该能够以更少的参数提供有效的输出。在本文中,形态学元素与更熟悉的线性模块相结合,用于构建称为 HaarNet 的混合线性形态学网络。这是第一个大规模线性形态混合体,在一组相当大的现实世界数据集上进行了评估。在网络中,形态学 Haar 采样应用于多个层中的两个特征通道,它将极值和高频信息分开,以便可以对两者进行处理以改进两种模态。此外,使用形态学参数化的 ReLU,并应用形态学声音上采样以获得全分辨率输出。

Accelerating Vision Transformers Based on Heterogeneous Attention Patterns
Authors Deli Yu, Teng Xi, Jianwei Li, Baopu Li, Gang Zhang, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang
最近,Vision Transformers ViTs 在计算机视觉领域引起了广泛关注。一般来说,ViT强大的表示能力主要得益于自注意力机制,该机制具有较高的计算复杂度。为了加速 ViT,我们提出了一种基于观察到的跨层异构注意力模式的集成压缩管道。一方面,不同的图像在早期层中比后面层中具有更多相似的注意力模式,这表明关键自注意力矩阵的动态查询可以被早期层中的静态自注意力矩阵取代。然后,我们提出了一种动态引导静态自注意力DGSSA方法,其中矩阵从替换的动态自注意力中继承自注意力信息,以有效提高ViT的特征表示能力。另一方面,注意力图在后面的层中比在早期的层中具有更多的低等级模式,这反映了令牌冗余。从线性降维的角度来看,我们进一步提出了一种全局聚合金字塔GLAD的方法,以减少ViT后面层的token数量,例如Deit。

Context-Enhanced Detector For Building Detection From Remote Sensing Images
Authors Ziyue Huang, Mingming Zhang, Qingjie Liu, Wei Wang, Zhe Dong, Yunhong Wang
遥感图像建筑物检测领域取得了显着进展,但由于建筑物外观的多样性和海量场景的复杂性,在实现高精度检测方面面临挑战。为了应对这些挑战,我们提出了一种称为上下文增强检测器 CEDet 的新颖方法。我们的方法利用三级级联结构来增强上下文信息的提取并提高建筑物检测的准确性。具体来说,我们引入了两个模块:语义引导上下文挖掘 SGCM 模块,它聚合多尺度上下文并结合注意机制来捕获长距离交互;以及实例上下文挖掘模块 ICMM,它通过构建空间关系图来捕获实例级关系上下文并聚合实例特征。此外,我们引入了基于伪掩码的语义分割损失来指导上下文信息提取。

Dual Radar: A Multi-modal Dataset with Dual 4D Radar for Autononous Driving
Authors Xinyu Zhang, Li Wang, Jian Chen, Cheng Fang, Lei Yang, Ziying Song, Guangqi Yang, Yichen Wang, Xiaofei Zhang, Jun Li
与广泛采用的摄像头和激光雷达相比,雷达对自动驾驶环境感知的恶劣场景具有更强的适应性。与常用的3D雷达相比,最新的4D雷达具有精确的垂直分辨率和更高的点云密度,使其成为复杂环境感知自动驾驶中极具前景的传感器。然而,由于噪声比激光雷达高得多,制造商选择不同的滤波策略,导致噪声水平与点云密度成反比。对于哪种方法有利于自动驾驶中基于深度学习的感知算法,目前还缺乏比较分析。主要原因之一是当前数据集仅采用一种类型的4D雷达,难以在同一场景中比较不同的4D雷达。因此,在本文中,我们介绍了一种新颖的大规模多模态数据集,首次同时捕获两种类型的 4D 雷达。该数据集可以进一步研究有效的 4D 雷达感知算法。我们的数据集由 151 个连续序列组成,其中大部分持续 20 秒,包含 10,007 个精心同步和注释的帧。此外,我们的数据集捕获了各种具有挑战性的驾驶场景,包括许多道路条件、天气条件、不同照明强度和时段的夜间和白天。我们的数据集注释了连续帧,可应用于 3D 对象检测和跟踪,并且还支持多模态任务的研究。我们通过实验验证了我们的数据集,为研究不同类型的 4D 雷达提供了有价值的结果。

PeP: a Point enhanced Painting method for unified point cloud tasks
Authors Zichao Dong, Hang Ji, Xufeng Huang, Weikun Zhang, Xin Zhan, Junbo Chen
点编码器对于点云识别至关重要。作为整个模型管道的开始步骤,添加来自不同来源的特征并提供更强的特征编码机制将为下游模块提供更好的输入。在我们的工作中,我们提出了一种新颖的 PeP 模块来解决上述问题。 PeP 包含两个主要部分,一个精炼的点绘制方法和一个基于 LM 的点编码器。 nuScenes 和 KITTI 数据集上的实验结果验证了我们的 PeP 的卓越性能。这些优势使得在激光雷达和多模态设置中语义分割和对象检测都具有强大的性能。值得注意的是,我们的 PeP 模块与模型无关并且即插即用。

A Discrepancy Aware Framework for Robust Anomaly Detection
Authors Yuxuan Cai, Dingkang Liang, Dongliang Luo, Xinwei He, Xin Yang, Xiang Bai
缺陷检测是人工智能的一个重要研究领域。最近,基于合成数据的自监督学习在这项任务上显示出了巨大的潜力。尽管存在许多复杂的综合策略,但很少有研究来调查模型在面对不同策略时的稳健性。在本文中,我们关注这个问题,发现现有方法对它们高度敏感。为了缓解这个问题,我们提出了一个差异感知框架 DAF,它在不同的异常检测基准中通过简单且廉价的策略展示了一致的稳健性能。我们假设现有自监督方法对合成数据的高敏感性源于它们在解码过程中严重依赖合成数据的视觉外观。相比之下,我们的方法利用外观不可知的线索来指导解码器识别缺陷,从而减轻其对合成外观的依赖。为此,受现有知识蒸馏方法的启发,我们采用基于合成异常值进行训练的师生网络来计算差异图作为线索。对两个具有挑战性的数据集的广泛实验证明了我们方法的稳健性。在简单的合成策略下,它大大优于现有方法。此外,它还实现了最先进的本地化性能。

Centrality of the Fingerprint Core Location
Authors Laurenz Ruzicka, Bernhard Strobl, Bernhard Kohn, Clemens Heitzinger
指纹长期以来被认为是一种独特且可靠的个人身份识别手段。指纹分析和增强的核心是指纹核心的概念。尽管核心的位置在许多应用中都有使用,但据我们所知,这项研究是第一个研究核心在滚动指纹记录和普通指纹记录的大型组合数据集上的经验分布的研究。我们识别并研究滚动指纹采集过程中不完全滚动的程度,并研究核心的中心性。校正不完全滚动后,我们发现核心偏离指纹中心 5.7 pm 5.2 到 7.6 pm 6.9 ,具体取决于手指。此外,我们发现,普通指纹记录核心位置的正态分布假设不能被拒绝,但对于卷状指纹记录可以。因此,我们使用多步骤过程来查找滚动指纹记录的分布。该过程包括安德森·达林正态性检验、用于减少可能候选分布数量的贝叶斯信息准则,以及最后用于找到最佳拟合分布的广义蒙特卡罗拟合优度过程。我们发现非中心费希尔分布最能描述核心的水平位置。

Relational Prior Knowledge Graphs for Detection and Instance Segmentation
Authors Osman lger, Yu Wang, Ysbrand Galama, Sezer Karaoglu, Theo Gevers, Martin R. Oswald
人类具有通过理解物体之间的关系来感知和推理周围世界的非凡能力。在本文中,我们研究了使用这种关系进行对象检测和实例分割的有效性。为此,我们提出了一种基于关系先验的特征增强模型 RP FEM,这是一种使用关系先验增强对象提议特征的图转换器。所提出的架构在从初始提案获得的场景图之上运行,旨在同时学习用于对象检测和实例分割的关系上下文建模。对 COCO 的实验评估表明,场景图的使用,加上相关先验的增强,为对象检测和实例分割带来了好处。

Impact of Label Types on Training SWIN Models with Overhead Imagery
Authors Ryan Ford, Kenneth Hutchison, Nicholas Felts, Benjamin Cheng, Jesse Lew, Kyle Jackson
了解数据集设计对模型训练和性能的影响有助于降低与生成遥感和开销标记数据相关的成本。这项工作检查了使用边界框和分割标签训练移位窗口变换器的影响,其中后者的生产成本更高。我们通过将使用目标和背景训练的模型与仅使用由分割标签提取的目标像素训练的模型进行比较来检查分类任务。对于对象检测模型,我们在训练时比较了使用任一标签类型的性能。我们发现仅针对目标像素训练的模型并未显示出分类任务的性能改进,似乎将评估集中的背景像素与目标像素混为一谈。对于对象检测,我们发现使用任一标签类型训练的模型在测试中表现出相同的性能。我们发现边界框似乎足以完成不需要更复杂标签的任务,例如对象分割。

Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape
Authors Ziqi Wen, Tianqin Li, Tai Sing Lee
众所周知,深度学习模型表现出强烈的纹理偏差,而人类往往严重依赖全局形状来识别物体。当前评估模型形状偏差的基准是一组风格转移图像,假设对风格转移攻击的抵抗力与模型中形状敏感性的发展有关。在这项工作中,我们表明使用风格迁移图像训练的网络确实学会了忽略风格,但其形状偏差主要来自局部形状。我们提供扭曲形状测试台 DiST 作为全局形状敏感性的替代测量。我们的测试包括来自 ImageNet 1K 的 2400 张原始图像,每张图像都附有两张图像,原始图像的全局形状发生扭曲,同时通过纹理合成程序保留其纹理。我们发现 1 在之前的形状偏差评估中表现良好的模型在提出的 DiST 中表现不佳 2 尽管 ViT 在之前的形状上排名较高,但广泛采用的 ViT 模型在此基准上并未表现出比卷积神经网络 CNN 显着的优势偏见测试。 3 使用 DiST 图像进行训练弥合了人类和现有 SOTA 模型性能之间的显着差距,同时保留了模型在标准图像分类任务上的准确性。使用 DiST 图像进行训练和风格转移图像是互补的,并且可以结合起来一起训练网络,以增强全局性能和网络的局部形状敏感性。

ProtoHPE: Prototype-guided High-frequency Patch Enhancement for Visible-Infrared Person Re-identification
Authors Guiwei Zhang, Yongfei Zhang, Zichang Tan
由于模态差距较大,可见红外人员重新识别具有挑战性。为了弥补这一差距,大多数研究严重依赖可见红外整体人物图像的相关性,这在严重的分布变化下可能表现不佳。相比之下,我们发现一些跨模态相关的高频分量包含有区别的视觉模式,并且与整体图像相比,受波长、姿势和背景杂波等变化的影响较小。因此,我们有动力弥合基于此类高频组件的模态差距,并提出具有两个核心设计的textbf原型引导textbf高频textbf补丁textbf增强ProtoHPE。首先,为了增强跨模态相关高频分量的表示能力,我们通过小波变换和指数移动平均视觉变换器 ViT 将这些分量分割为 patch,然后授权 ViT 将分割后的 patch 作为辅助输入。其次,为了获得同一身份的语义紧凑且有区别的高频表示,我们提出了多模态原型对比。具体来说,它分层捕获不同模态实例的综合语义,促进属于同一身份的高频表示的聚合。有了它,ViT 可以在推理过程中捕获关键的高频成分,而无需依赖 ProtoHPE,从而不会带来额外的复杂性。

Attribute Localization and Revision Network for Zero-Shot Learning
Authors Junzhe Xu, Suling Duan, Chenwei Tang, Zhenan He, Jiancheng Lv
零样本学习使模型能够借助属性等辅助语义信息来识别看不见的类别。当前的工作提出从局部图像区域检测属性并将提取的特征与类级别语义对齐。在本文中,我们发现局部特征和全局特征之间的选择并不是零和游戏,全局特征也可以有助于属性的理解。此外,将属性特征与类级别语义对齐会忽略潜在的类内属性变化。为了减轻这些缺点,我们在本文中提出了属性本地化和修订网络。首先,我们设计属性定位模块 ALM 来捕获图像区域的局部和全局特征,并结合一个名为“比例控制单元”的新颖模块来融合全局和局部表示。其次,我们提出了属性修正模块 ARM,它通过修正每个属性的真实值来生成图像级语义,补偿由于忽略类内变异而导致的性能下降。最后,ALM 的输出将与 ARM 生成的修订语义保持一致,以实现训练过程。

S4C: Self-Supervised Semantic Scene Completion with Neural Fields
Authors Adrian Hayler, Felix Wimbauer, Dominik Muhle, Christian Rupprecht, Daniel Cremers
3D 语义场景理解是计算机视觉中的一个基本挑战。它使移动代理能够自主规划和导航任意环境。 SSC 将这一挑战形式化为从场景的稀疏观察中联合估计密集的几何和语义信息。当前的 SSC 方法通常基于聚合 LiDAR 扫描进行 3D 地面实况训练。该过程依赖于特殊的传感器和手工注释,成本高昂且扩展性不佳。为了克服这个问题,我们的工作提出了第一个自我监督的 SSC 方法,称为 S4C,它不依赖于 3D 地面实况数据。我们提出的方法可以从单个图像重建场景,并且仅依赖于训练期间从现成图像分割网络生成的视频和伪分割地面实况。与使用离散体素网格的现有方法不同,我们将场景表示为隐式语义场。该公式允许查询相机视锥体内的任何点的占用情况和语义类别。我们的架构是通过基于渲染的自监督损失进行训练的。尽管如此,我们的方法实现了接近完全监督的最先进方法的性能。

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing
Authors Yaru Chen, Ruohao Guo, Xubo Liu, Peipei Wu, Guangyao Li, Zhenbo Li, Wenwu Wang
视听视频解析是在片段级别上对具有弱标签的视频进行分类,并将其预测为可听或可见事件的任务。该任务的最新方法利用注意力机制来捕获跨视听模式的整个视频之间的语义相关性。然而,这些方法忽略了视频中各个片段的重要性以及它们之间的关系,并且在学习特征时往往依赖于单一模式。在本文中,我们提出了一种新颖的交互式增强跨模态感知方法 CM PIE,它可以通过应用基于分段的注意模块来学习细粒度特征。此外,引入了跨模态聚合块,通过增强模间交互来联合优化音频和视觉信号的语义表示。

A Unified Remote Sensing Anomaly Detector Across Modalities and Scenes via Deviation Relationship Learning
Authors Jingtao Li, Xinyu Wang, Hengwei Zhao, Liangpei Zhang, Yanfei Zhong
遥感异常探测器可以发现偏离背景的物体作为潜在目标。考虑到地球异常类型的多样性,跨模式和场景的统一异常检测器应该具有成本效益,并且对于新的地球观测源和异常类型具有灵活性。然而,当前的异常检测器仅限于单一模态和单一场景,因为它们的目标是学习变化的背景分布。受普遍异常偏差模式的启发,由于异常表现出与其本地环境的偏差,我们利用这一特性来构建统一的异常检测器。首先,我们基于偏差关系将异常检测任务重新表述为无向双层图,其中给定背景和正常对象的模式,异常得分被建模为条件概率。然后将学习目标表示为条件概率排序问题。此外,我们在数据、架构和优化方面设计了重新制定的实例。模拟的光谱和空间异常驱动实例化的架构。该模型直接针对条件概率排名进行优化。

Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning
Authors Zhiming Qian
为了模仿人类视觉来识别多样化和开放的世界,基础视觉模型至关重要。虽然最近的自监督学习技术显示了这项任务的巨大潜力,但我们认为来自标记数据的信号对于常识识别也很重要,并且正确选择的文本前任务可以提高视觉表示学习的效率。为此,我们提出了一种新颖的预训练框架,以多任务方式采用自监督和监督视觉预文本任务。具体来说,给定图像,我们采用启发式方法,考虑其内在风格属性、内部对象及其位置和相关性,以及它在 3D 空间中的外观,以实现基本的视觉理解。然而,大规模对象边界框和相关性通常很难实现。或者,我们通过利用多标签分类和自我监督学习来开发一种混合方法。一方面,在多标签监督下,预训练模型可以探索图像的详细信息,例如图像类型、对象和部分语义关系。另一方面,关于蒙版图像建模 MIM 和对比学习的自监督学习任务可以帮助模型学习像素细节和块相关性。结果表明,我们预先训练的模型可以在多个视觉任务上提供与最先进的 SOTA 结果相当或更好的结果。例如,使用普通的 Swin B 主干网,我们在 ImageNet 1K 分类上实现了 85.3 top 1 准确率,在 Mask R CNN 的 COCO 对象检测上实现了 47.9 框 AP,在使用 Upernet 时在 ADE 20K 语义分割上实现了 50.6 mIoU。

Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation
Authors Haizhong Zheng, Jiachen Sun, Shutong Wu, Bhavya Kailkhura, Zhuoqing Mao, Chaowei Xiao, Atul Prakash
给定一个真实世界的数据集,数据压缩 DC 旨在合成一个小得多的数据集,捕获该数据集的知识,以进行高性能的模型训练。最近的工作提出通过数据参数化来增强 DC,即将数据压缩到参数化数据容器而不是像素空间中。数据参数化背后的直觉是对图像的共享特征进行编码,以避免额外的存储成本。在本文中,我们认识到由于分类系统固有的层次结构,图像以层次方式共享共同特征,而当前的数据参数化方法忽略了这一点。为了更好地使 DC 与这种分层性质保持一致并鼓励数据容器内更有效的信息共享,我们提出了一种新颖的数据参数化架构:分层内存网络 HMN。 HMN 将压缩数据存储在三层结构中,分别表示数据集级别、类级别和实例级别特征。分层架构的另一个有用的特性是,尽管实现了信息共享,HMN 自然地确保了图像之间良好的独立性。这使得 HMN 的实例级修剪能够减少冗余信息,从而进一步最小化冗余并提高性能。我们在四个公共数据集 SVHN、CIFAR10、CIFAR100 和 Tiny ImageNet 上评估 HMN,并将 HMN 与八个 DC 基线进行比较。

Boosting Black-box Attack to Deep Neural Networks with Conditional Diffusion Models
Authors Renyang Liu, Wei Zhou, Tianwei Zhang, Kangjie Chen, Jun Zhao, Kwok Yan Lam
现有的黑盒攻击在创建对抗性示例 AE 来欺骗深度学习模型方面表现出了巨大的潜力。这些攻击大多数需要处理巨大的优化空间并需要大量查询,因此在现实场景中表现出的实际影响有限。在本文中,我们提出了一种新颖的黑盒攻击策略——条件扩散模型攻击CDMA,以提高在查询有限的情况下生成AE的查询效率。 CDMA的关键见解是将AE合成的任务表述为分布变换问题,即良性示例及其相应的AE可以被视为来自两个不同的分布,并且可以通过特定的转换器相互变换。与传统的 textit 查询和优化方法不同,我们使用上述数据转换器通过直接条件转换生成合格的 AE,这可以显着减少所需的查询数量。 CDMA采用条件去噪扩散概率模型作为转换器,可以学习从干净样本到AE的变换,保证抗扰动噪声抵御各种防御策略的顺利发展。我们通过将 CDMA 与三个基准数据集上的九种最先进的黑盒攻击进行比较,证明了 CDMA 的有效性和效率。平均而言,CDMA可以将查询次数减少到很少的次数,大多数情况下查询次数仅为1次。

FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation
Authors Xinyu Sun, Peihao Chen, Jugang Fan, Thomas H. Li, Jian Chen, Mingkui Tan
对于自主系统来说,学习导航到图像指定的目标是一项重要但具有挑战性的任务。智能体需要推断出拍摄照片的目标位置。现有的方法试图通过学习导航策略来解决这个问题,该策略独立地捕获目标图像和观察图像的语义特征,最后将它们融合以预测一系列导航动作。然而,这些方法有两个主要限制。 1 他们可能会错过目标图像中的详细信息,从而无法推断出目标位置。 2 更关键的是,很难关注观察图像中与目标相关的区域,因为它们试图在没有目标调节的情况下理解观察。在本文中,我们旨在通过设计一种用于图像目标导航的细粒度目标提示 FGPrompt 方法来克服这些限制。特别是,我们利用目标图像中的细粒度和高分辨率特征图作为执行条件嵌入的提示,这保留了目标图像中的详细信息并引导观察编码器关注目标相关区域。与图像目标导航基准上的现有方法相比,我们的方法在 Gibson、MP3D 和 HM3D 3 个基准数据集上带来了显着的性能改进。特别是在 Gibson 上,我们仅用 1 50 个模型大小就将最先进的成功率提高了 8 倍。

PoRF: Pose Residual Field for Accurate Neural Surface Reconstruction
Authors Jia Wang Bian, Wenjing Bian, Victor Adrian Prisacariu, Philip Torr
即使使用 COLMAP 或 ARKit 等最先进的姿势估计器,神经表面重建对相机姿势噪声也很敏感。更重要的是,现有的 Pose NeRF 联合优化方法一直难以在具有挑战性的现实场景中提高姿势精度。为了克服这些挑战,我们引入了姿态残差场 textbf PoRF,这是一种新颖的隐式表示,它使用 MLP 来回归姿态更新。由于参数共享利用了整个序列的全局信息,这比传统的位姿参数优化更加稳健。此外,我们提出了对极几何损失来增强监督,利用从 COLMAP 结果导出的对应关系,而无需额外的计算开销。我们的方法产生了有希望的结果。在 DTU 数据集上,我们将 COLMAP 姿势的旋转误差减少了 78,导致重建倒角距离从 3.48 毫米减少到 0.85 毫米。在包含随意捕获的无界 360 度视频的 MobileBrick 数据集上,我们的方法改进了 ARKit 姿势,并将重建 F1 分数从 69.18 提高到 75.67,优于提供地面真实姿势 75.14 的数据集。

Distance-based Weighted Transformer Network for Image Completion
Authors Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Xuelong Li, Yue Lu
图像生成的挑战已被有效地建模为结构先验或转换问题。然而,由于特定的固有特征(例如局部归纳先验),现有模型在理解全局输入图像结构方面的性能并不令人满意。最近的研究表明,自注意力是图像补全问题的一种有效建模技术。在本文中,我们提出了一种新的架构,它依赖于基于距离的加权变换器 DWT 来更好地理解图像组件之间的关系。在我们的模型中,我们利用卷积神经网络 CNN 和 DWT 模块的优势来增强图像补全过程。具体来说,CNN 用于增强粗略先验的局部纹理信息,DWT 块用于恢复某些粗纹理和连贯的视觉结构。与当前通常使用 CNN 创建特征图的方法不同,我们使用 DWT 来编码全局依赖关系并计算基于距离的加权特征图,这大大减少了视觉模糊问题。同时,为了更好地生成重复纹理,我们引入了残差快速傅立叶卷积 Res FFC 块,将编码器的跳跃特征与生成器提供的粗略特征结合起来。此外,提出了一种简单而有效的技术来归一化卷积的非零值,并微调网络层以对梯度范数进行正则化,以提供有效的训练稳定器。

DESTINE: Dynamic Goal Queries with Temporal Transductive Alignment for Trajectory Prediction
Authors Rezaul Karim, Soheil Mohamad Alizadeh Shabestary, Amir Rasouli
由于代理的未知特征及其不同的意图,在多代理设置中预测时间一致的道路使用者轨迹是一项具有挑战性的任务。除了使用语义图信息和建模交互之外,建立一种能够推理不同粒度级别的行为的有效机制也很重要。为此,我们提出了具有时间转换对齐目标方法的动态目标查询。与过去的技术不同,我们的方法 1 动态预测智能体目标,而不考虑特定的道路结构(例如车道),从而使该方法能够对目的地进行更准确的估计 2 通过以粗略到精细的方式生成未来轨迹来实现符合地图的预测,其中较低帧速率下的较粗略预测作为中间目标,3 使用一个注意力模块,旨在通过屏蔽注意力暂时对齐预测轨迹。

Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else
Authors Hazarapet Tunanyan, Dejia Xu, Shant Navasardyan, Zhangyang Wang, Humphrey Shi
文本到图像扩散模型的最新进展使得能够根据文本提示生成逼真的图像。尽管取得了巨大进步,现有模型仍然难以自然地生成组合的多概念图像,限制了它们可视化人类想象力的能力。虽然最近的几项工作试图解决这个问题,但它们要么引入额外的训练,要么在推理时采用指导。在这项工作中,我们考虑使用预先训练的扩散模型来实现更雄心勃勃的目标自然多概念生成,并且几乎没有额外的成本。为了实现这一目标,我们确定了用于预训练文本到图像扩散模型的文本嵌入的局限性。具体来说,我们观察到概念主导和非本地化贡献严重降低了多概念生成性能。我们进一步设计了一个最小的低成本解决方案,通过调整而不是重新训练文本嵌入来克服上述问题,以实现更真实的多概念文本到图像的生成。我们的相似性校正方法通过从最相似的标记中收集语义特征来调整概念的嵌入以本地化贡献。为了避免混合概念的特征,我们还应用了交叉令牌非最大抑制,它排除了不同概念贡献的重叠。

A Novel Voronoi-based Convolutional Neural Network Framework for Pushing Person Detection in Crowd Videos
Authors Ahmed Alia, Mohammed Maree, Mohcine Chraibi, Armin Seyfried
分析人群中推动行为的微观动态可以为人群模式和互动提供有价值的见解。通过识别人群视频中的推送实例,可以更深入地了解此类行为发生的时间、地点和原因。这些知识对于制定更有效的人群管理策略、优化人群流动和增强整体人群体验至关重要。然而,在微观层面手动识别推动行为具有挑战性,现有的自动方法无法检测这种微观行为。因此,本文介绍了一种新颖的自动框架,用于在微观层面上识别人群视频中的推送。该框架包括两个主要组件:i 特征提取和 ii 视频标记。在特征提取组件中,开发了一种新的基于 Voronoi 的方法,用于确定与输入视频中每个人相关的局部区域。随后,这些区域被输入 EfficientNetV1B0 卷积神经网络,以随着时间的推移提取每个人的深层特征。在第二个组件中,采用全连接层与 Sigmoid 激活函数的组合来分析这些深层特征并注释视频中参与推送的个体。该框架在使用六个现实世界实验创建的新数据集(包括其相应的基本事实)上进行训练和评估。

CLIP for Lightweight Semantic Segmentation
Authors Ke Jin, Wankou Yang
大规模预训练模型 CLIP 经过 4 亿个图像文本对的训练,为处理视觉任务(尽管是在图像级别)提供了一个有前途的范例。后来的工作,如 DenseCLIP 和 LSeg,将这种范式扩展到密集预测,包括语义分割,并取得了优异的结果。然而,上述方法要么依赖于 CLIP 预训练的视觉主干,要么使用未预训练但较重的主干(例如 Swin),而在应用于轻量级主干时效果不佳。其原因是轻量级网络的特征提取能力相对有限,难以完美地嵌入与文本嵌入对齐的图像特征。在这项工作中,我们提出了一种新的特征融合模块,它可以解决这个问题,并使语言引导范式能够应用于轻量级网络。具体来说,该模块是 CNN 和 Transformer 的并行设计,中间有一个双向桥,其中 CNN 从图像编码器中提取特征图的空间信息和视觉上下文,而 Transformer 则从文本编码器向前传播文本嵌入。该模块的核心是视觉和文本特征跨桥的双向融合,促使它们在嵌入空间中的接近和对齐。该模块与模型无关,不仅可以使语言引导的轻量级语义分割变得实用,而且可以充分利用语言先验的预训练知识,并获得比以前的 SOTA 工作(例如 DenseCLIP)更好的性能,无论视觉主干是什么。

Causal Unsupervised Semantic Segmentation
Authors Junho Kim, Byung Kwan Lee, Yong Man Ro
无监督语义分割旨在实现高质量语义分组,无需人工标记注释。随着自监督预训练的出现,各种框架利用预训练的特征来训练预测头以进行无监督密集预测。然而,这种无监督设置中的一个重大挑战是确定分割概念所需的适当聚类级别。为了解决这个问题,我们提出了一个新颖的框架,因果无监督语义分割 CAUSE ,它利用了因果推理的见解。具体来说,我们桥接面向干预的方法,即前门调整来定义适合无监督预测的两步任务。第一步涉及构建一个概念簇簿作为中介,它以离散形式表示不同粒度级别的可能概念原型。然后,中介者为像素级分组建立与后续概念明智的自监督学习的明确链接。

Point Cloud Denoising and Outlier Detection with Local Geometric Structure by Dynamic Graph CNN
Authors Kosuke Nakayama, Hiroto Fukuta, Hiroshi Watanabe
社会的数字化正朝着数字孪生和元宇宙的实现快速发展。特别是,点云作为 3D 空间的媒体格式引起了人们的关注。由于测量误差,点云数据受到噪声和异常值的污染。因此,点云处理需要去噪和异常值检测。其中,PointCleanNet是点云去噪和离群点检测的有效方法。然而,它没有考虑斑块的局部几何结构。我们通过应用基于动态图 CNN 设计的两种类型的图卷积层来解决这个问题。

Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters
Authors Mateusz Michalkiewicz, Masoud Faraki, Xiang Yu, Manmohan Chandraker, Mahsa Baktashmotlagh
对源域的过度拟合是基于梯度的深度神经网络训练中的常见问题。为了补偿过度参数化的模型,引入了许多正则化技术,例如基于 dropout 的正则化技术。虽然这些方法在 ImageNet 等经典基准测试上取得了显着改进,但它们的性能随着测试集中域转移的引入而下降,即当看不见的数据来自显着不同的分布时。在本文中,我们放弃了伯努利采样丢失掩模构造的经典方法,并提出基于网络参数的梯度信噪比 GSNR 进行选择。具体来说,在每个训练步骤中,具有高 GSNR 的参数将被丢弃。此外,我们通过利用元学习方法减轻了手动搜索最佳辍学率的负担。

IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
Authors Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci
在医学视觉语言预训练 VLP 领域,人们致力于从临床报告和相关医学图像中获取文本和图像特征。然而,大多数现有方法可能忽视了利用临床报告固有的层次结构的机会,临床报告通常分为描述性内容的发现和结论性观察的印象。当前的医疗 VLP 方法通常将报告简化为统一的实体或碎片化的标记,而不是利用这种丰富的结构化格式。在这项工作中,我们提出了一种名为 IMITATE 的新型临床先验引导 VLP 框架,用于通过分层视觉语言对齐从医学报告中学习结构信息。该框架从胸部 X 射线 CXR 图像中得出多级视觉特征,并将这些特征与分层医疗报告中编码的描述性和结论性文本分别对齐。此外,为跨模式学习引入了一种新的临床知情对比损失,它解释了在对比学习中制定样本相关性时的临床先验知识。所提出的模型 IMITATE 在六个不同的数据集上优于基线 VLP 方法,涵盖五个医学成像下游任务。

Guided Attention for Interpretable Motion Captioning
Authors Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
虽然人们在从文本生成人体动作方面投入了大量精力,但相对较少的研究致力于相反的方向,即从动作生成文本。许多研究都集中在最大化生成质量,而不考虑架构的可解释性,特别是关于生成中特定身体部位的影响以及单词与特定动作和动作的时间同步。这项研究探索了运动编码器与时空注意力模型的结合,并提出了在训练过程中引导注意力的策略,以及时突出骨骼的感知相关区域。我们证明,与更高参数数量的不可解释 SOTA 系统相比,通过自适应门添加引导注意力可以实现可解释的字幕,同时提高性能。在 KIT MLD 数据集上,我们获得的 BLEU 4 为 24.4 SOTA 6 ,ROUGE L 为 58.30 SOTA 14.1 ,CIDEr 为 112.10 SOTA 32.6 ,Bertscore 为 41.20 SOTA 18.20 。在 HumanML3D 上,我们获得的 BLEU 4 为 25.00 SOTA 2.7 ,ROUGE L 得分为 55.4 SOTA 6.1 ,CIDEr 为 61.6 SOTA 10.9 ,Bertscore 为 40.3 SOTA 2.5 。

Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine Learning in Epigraphy
Authors Andrei C. Aioanei, Regine Hunziker Rodewald, Konstantin Klein, Dominik L. Michels
金石学越来越多地转向现代人工智能 AI 技术,例如机器学习 ML,以从古代铭文中提取见解。然而,用于训练 ML 算法的标记数据稀缺严重限制了当前的技术,尤其是对于古阿拉姆语等古代文字。我们的研究开创了一种创新方法,用于生成针对古阿拉姆语字母的合成训练数据。我们的管道合成照片逼真的阿拉姆字母数据集,结合纹理特征、照明、损坏和增强来模仿现实世界的铭文多样性。尽管真实示例很少,我们还是设计了一个包含 250,000 个训练图像和 25,000 个验证图像的数据集,涵盖阿拉姆语字母表中的 22 个字母类别。这个综合语料库提供了大量数据,用于训练残差神经网络 ResNet,以对高度退化的阿拉姆语字母进行分类。 ResNet 模型在对公元前 8 世纪哈达雕像铭文的真实图像进行分类方面表现出很高的准确性。其他实验验证了不同材料和样式的性能,证明了有效的概括。我们的结果验证了模型处理各种现实世界场景的能力,证明了我们的合成数据方法的可行性,并避免了对限制铭文分析的稀缺训练数据的依赖。

Distilling Efficient Vision Transformers from CNNs for Semantic Segmentation
Authors Xu Zheng, Yunhao Luo, Pengyuan Zhou, Lin Wang
在本文中,我们解决了一个新问题,如何从预先训练的繁琐但性能良好的基于​​ CNN 的模型中转移知识,以学习基于 Vision Transformer ViT 的模型,同时保持其学习能力。知识蒸馏KD中教师和学生模型之间存在长期的能力差距,直接迁移跨模型知识并非易事。为此,我们巧妙地利用 ViT(即学生)的视觉和语言兼容特征以及其与 CNN(即教师)的能力差距,提出了一种新颖的 CNN 到 ViT KD 框架,称为 C2VKD。重要的是,由于教师的特征与学生的特征不同,我们首先提出了一种新颖的视觉语言特征蒸馏 VLFD 模块,该模块探索对齐的视觉和语言兼容表示之间的有效 KD。此外,由于教师和学生之间的巨大容量差距以及教师不可避免的预测误差,我们提出了一种像素级解耦蒸馏PDD模块,以结合标签和教师对解耦目标的预测来监督学生非目标类。

Uncovering Hidden Connections: Iterative Tracking and Reasoning for Video-grounded Dialog
Authors Haoyu Zhang, Meng Liu, Yaowei Wang, Da Cao, Weili Guan, Liqiang Nie
与传统的视觉问答相比,基于视频的对话需要对对话历史和视频内容有深刻的了解,才能生成准确的响应。尽管现有方法取得了值得称赞的进步,但它们经常面临逐步理解复杂对话历史和吸收视频信息的挑战。针对这一差距,我们提出了一种迭代跟踪和推理策略,该策略合并了文本编码器、视觉编码器和生成器。我们的文本编码器的核心是路径跟踪和聚合机制,擅长从对话历史中收集细微差别,这对于破译所提出的问题至关重要。同时,我们的视觉编码器利用精心设计的迭代推理网络来提取和强调视频中的关键视觉标记,从而增强视觉理解的深度。为了丰富这些丰富的信息,我们采用预先训练的 GPT 2 模型作为我们的响应生成器,将连贯且上下文恰当的答案拼接在一起。

ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and Multispectral Data Fusion
Authors Jinghui Qin, Lihuang Fang, Ruitao Lu, Liang Lin, Yukai Shi
基于深度学习的高光谱图像 HSI 超分辨率,旨在通过将高光谱图像 HSI 和多光谱图像 MSI 与深度神经网络 DNN 融合来生成高空间分辨率 HSI HR HSI,引起了广泛的关注。然而,神经网络需要大量的训练数据,这阻碍了它们在现实场景中的应用。在这封信中,我们提出了一种新颖的对抗性自动数据增强框架 ADASR,它可以自动优化和增强 HSI MSI 样本对,以丰富 HSI MSI 融合的数据多样性。我们的框架具有样本感知能力,并通过对抗性学习联合优化增强网络和两个下采样网络,以便我们可以学习更强大的下采样网络来训练上采样网络。

A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation
Authors Rashid Khan, Bingding Huang, Haseeb Hassan, Asim Zaman, Zhongfu Ye
图像字幕是一项具有挑战性的任务,涉及使用计算机视觉和自然语言处理技术生成图像的文本描述。本文提出了一种使用基于 GRU 的注意力机制来生成图像标题的深度神经框架。我们的方法采用多个预先训练的卷积神经网络作为编码器从图像中提取特征,并使用基于 GRU 的语言模型作为解码器来生成描述性句子。为了提高性能,我们将 Bahdanau 注意力模型与 GRU 解码器集成,使学习能够专注于特定图像部分。我们使用 MSCOCO 和 Flickr30k 数据集评估我们的方法,并表明与最先进的方法相比,它取得了有竞争力的分数。

IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors
Authors Zhiwei Wang, Qiang Hu, Hongkuan Shi, Li He, Man He, Wenxuan Dai, Ting Li, Yitong Zhang, Dun Li, Mei Liu, Qiang Li
盒式监督息肉分割因其成本效益潜力而受到越来越多的关注。现有的解决方案通常依赖于学习免费方法或预训练模型来费力地生成伪掩模,从而随后触发 Dice 约束。在本文中,我们发现由最简单的框填充掩模引导的模型可以准确预测息肉位置大小,但会遭受形状崩溃的影响。为此,我们提出了两种创新的学习方式,即改进的盒子骰子 IBox 和对比潜在锚 CLA ,并将它们结合起来训练鲁棒的盒子监督模型 IBoxCLA。 IBoxCLA 背后的核心思想是解耦位置大小和形状的学习,允许对每个位置进行集中约束。具体来说,IBox 使用形状解耦和混淆区域交换顺序将分割图转换为代理图。在代理地图中,形状被解开,而位置大小被编码为盒状响应。通过约束代理图而不是原始预测,框填充掩模可以很好地监督 IBoxCLA,而不会误导其形状学习。此外,CLA 通过生成两种类型的潜在锚点来促进形状学习,这些锚点使用动量和分段息肉进行学习和更新,以稳定地表示息肉和背景特征。潜在锚点有助于 IBoxCLA 以对比方式捕获框内和框外的判别特征,从而产生更清晰的边界。我们在五个公共息肉数据集上对 IBoxCLA 进行了基准测试。

Optimizing the Placement of Roadside LiDARs for Autonomous Driving
Authors Wentao Jiang, Hao Xiang, Xinyu Cai, Runsheng Xu, Jiaqi Ma, Yikang Li, Gim Hee Lee, Si Liu
多智能体协同感知是自动驾驶领域日益热门的话题,其中路边激光雷达发挥着至关重要的作用。然而,如何优化路边激光雷达的放置是一个至关重要但经常被忽视的问题。本文提出了一种通过选择场景内的优化位置来优化路边激光雷达放置的方法,以获得更好的感知性能。为了有效地获得最佳位置组合,提出了一种基于感知增益的贪心算法,依次选择能够最大化感知增益的位置。我们将感知增益定义为放置新激光雷达时感知能力的增强。为了获得感知能力,我们提出了一种感知预测器,它学习仅使用单个点云帧来评估 LiDAR 的放置。

Crowd Counting in Harsh Weather using Image Denoising with Pix2Pix GANs
Authors Muhammad Asif Khan, Hamid Menouar, Ridha Hamila
视觉人群计数使用卷积神经网络 CNN 等深度学习模型来估计人群密度。模型的性能很大程度上依赖于构成人群图像的训练数据的质量。在雾、灰尘、弱光等恶劣天气下,噪声和模糊图像的推理性能可能会严重下降。在本文中,我们建议使用 Pix2Pix 生成对抗网络 GAN 首先对人群图像进行去噪,然后再将其传递给计数模型。使用从原始人群图像生成的合成噪声图像来训练 Pix2Pix 网络,然后在推理引擎中使用预训练的生成器来估计看不见的噪声人群图像中的人群密度。

AdaMesh: Personalized Facial Expressions and Head Poses for Speech-Driven 3D Facial Animation
Authors Liyang Chen, Weihong Bao, Shun Lei, Boshi Tang, Zhiyong Wu, Shiyin Kang, Haozhi Huang
语音驱动的 3D 面部动画旨在生成与驾驶语音同步的面部动作,最近得到了广泛的探索。现有的作品大多忽视了生成时特定于人的说话风格,包括面部表情和头部姿势风格。有几部作品试图通过微调模块来捕捉个性。然而,训练数据有限导致缺乏生动性。在这项工作中,我们提出了 AdaMesh,一种新颖的自适应语音驱动的面部动画方法,它从大约 10 秒的参考视频中学习个性化的谈话风格,并生成生动的面部表情和头部姿势。具体来说,我们提出低等级适应 MoLoRA 的混合来微调表情适配器,从而有效地捕捉面部表情风格。对于个性化姿势风格,我们通过先构建离散姿势并使用语义感知姿势风格矩阵检索适当的风格嵌入来提出姿势适配器,而无需进行微调。大量的实验结果表明,我们的方法优于最先进的方法,保留了参考视频中的谈话风格,并生成了生动的面部动画。

Deep Learning for blind spectral unmixing of LULC classes with MODIS multispectral time series and ancillary data
Authors Jos Rodr guez Ortega 1 and 2 , Rohaifa Khaldi 2 , Domingo Alcaraz Segura 3 , Siham Tabik 1 1 Department of Computer Science and Artificial Intelligence, DaSCI, University of Granada, Granada, Spain, 2 LifeWatch ERIC ICT Core, Seville, Spain, 3 Department of Botany, Faculty of Science, University of Granada, Granada, Spain
遥感数据以混合土地利用和土地覆盖 LULC 类型为主。光谱分解是一种将混合像素的信息提取为其组成的 LULC 类型和相应丰度分数的技术。传统上,解决此任务依赖于需要端元先验知识的经典方法或避免显式端元计算的机器学习方法,也称为盲谱解混 BSU。大多数基于深度学习 DL 的 BSU 研究都集中在单步高光谱数据上,但与多光谱数据相比,其获取成本仍然相当高。据我们所知,我们在这里首次使用多光谱时间序列数据和 DL 模型对 LULC 类的 BSU 进行研究。我们通过结合地理和地形地理地形和气候辅助信息,进一步提高基于长短期记忆 LSTM 的模型的性能。我们的实验表明,将光谱时间输入数据与地理地形和气候信息相结合,可以大大提高混合像素中 LULC 类的丰度估计。为了开展这项研究,我们为西班牙安达卢西亚地区构建了一个新的标记数据集,其中包含来自 MODIS 的 2013 年 460m 分辨率的月度多光谱时间序列像素,用于 LULC 类的两个层次级别,名为 Andalusia MultiSpectral MultiTemporal Unmixing Andalusia MSMTU 。该数据集在像素级别提供多光谱时间序列以及用每个像素内每个 LULC 类的丰度注释的辅助信息。

Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model
Authors Shiyuan Yang, Xiaodong Chen, Jing Liao
最近,文本到图像去噪扩散概率模型 DDPM 已经展示了令人印象深刻的图像生成能力,并且也已成功应用于图像修复。然而,在实践中,用户通常需要对文本指导之外的修复过程进行更多控制,特别是当他们想要组合具有自定义外观、颜色、形状和布局的对象时。不幸的是,现有的基于扩散的修复方法仅限于单模态指导,并且需要特定于任务的训练,从而阻碍了它们的跨模态可扩展性。为了解决这些限制,我们提出了 Uni Paint,这是一个多模式修复的统一框架,它提供了各种指导模式,包括无条件、文本驱动、笔画驱动、示例驱动修复以及这些模式的组合。此外,我们的 Uni 绘画基于预训练的稳定扩散,不需要对特定数据集进行特定任务的训练,从而能够将少量镜头推广到定制图像。我们进行了广泛的定性和定量评估,表明我们的方法取得了与现有单模态方法相当的结果,同时提供了其他方法所不具备的多模态修复功能。

Multi-Task Learning-Enabled Automatic Vessel Draft Reading for Intelligent Maritime Surveillance
Authors Jingxiang Qu, Ryan Wen Liu, Chenjie Zhao, Yu Guo, Sendren Sheng Dong Xu, Fenghua Zhu, Yisheng Lv
准确、高效的船舶吃水读数VDR是智能海事监控的重要组成部分,可用于辅助判断船舶是否正常装载或超载。计算机视觉技术以其优异的性价比已成为估计船舶吃水深度的流行媒介。然而,传统的估计方法很容易受到一些限制,例如对低质量图像的敏感性、高计算成本等。在这项工作中,我们提出了一种称为 MTL VDR 的多任务学习计算方法,用于生成高度可靠的 VDR。具体来说,我们的MTL VDR主要由四个部分组成,即吃水标记检测、吃水比例识别、船舶水体分割和最终吃水深度估计。我们首先构建与草稿标记检测相关的基准数据集,并采用强大而高效的卷积神经网络来准确执行检测任务。然后提出了用于同时吃水尺度识别和船舶水域分割的多任务学习方法。为了在尺度受损、污损等复杂条件下获得更鲁棒的VDR,根据尺度的空间分布规律,通过自动校正方法生成准确的尺度。最后,利用自适应计算方法来产生准确且稳健的拔模深度。我们在真实的数据集上进行了大量的实验,以将我们的 MTL VDR 与最先进的方法进行比较。结果证明了其在准确性、鲁棒性和效率方面的卓越性能。

Multi-task Explainable Skin Lesion Classification
Authors Mahapara Khurshid, Mayank Vatsa, Richa Singh
皮肤癌是最致命的疾病之一,如果不及时治疗,死亡率很高。诊断通常从目视筛查开始,然后进行活检或组织病理学检查。早期发现有助于降低死亡率。视觉筛查可能会受到医生经验的限制。由于皮肤病学数据集的长尾分布和类别之间显着的内部变异性,利用计算机辅助方法进行自动分类变得具有挑战性。在这项工作中,我们提出了一种基于多任务、少镜头的皮肤损伤方法,该方法可以用很少的标记数据很好地概括,以解决小样本空间的挑战。所提出的方法包括充当注意力模块的分割网络和分类网络的融合。分割网络的输出有助于在分类网络做出决策时关注最具辨别力的特征。为了进一步提高分类性能,我们以加权方式将分割和分类损失结合起来。我们还提供了解释算法决策的可视化结果。使用三个皮肤病学数据集来彻底评估所提出的方法。我们还进行了跨数据库实验,以确保所提出的方法可以在相似的数据集上推广。

DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via Physics Simulation
Authors Rong Wang, Wei Mao, Hongdong Li
本文解决了通过单个图像观察来估计与物体交互的手的 3D 姿态的任务。在对手部物体交互进行建模时,以前的工作主要利用邻近线索,而忽略了手必须稳定地抓住物体以抵消重力并从而防止物体滑动或掉落的动态性质。这些工作未能在估计中利用动态约束,因此经常产生不稳定的结果。与此同时,由于接触动力学的复杂性以及数据驱动学习框架中缺乏有效且高效的物理推理,用基于物理的推理来完善不稳定配置仍然具有挑战性。为了解决这两个问题,我们提出了 DeepSimHO 一种新颖的深度学习管道,它将前向物理模拟和后向梯度近似与神经网络相结合。具体来说,对于由基础网络估计的初始手部物体姿势,我们将其转发到物理模拟器以评估其稳定性。然而,由于非光滑的接触几何形状和渗透,现有的可微分模拟器无法提供可靠的状态梯度。为了解决这个问题,我们进一步引入了一个深度网络来从模拟器中学习稳定性评估过程,同时平滑地逼近其梯度,从而实现有效的反向传播。大量的实验表明,我们的方法显着提高了估计的稳定性,并实现了比测试时间优化更高的效率。

SpikePoint: An Efficient Point-based Spiking Neural Network for Event Cameras Action Recognition
Authors Hongwei Ren, Yue Zhou, Yulong Huang, Haotian Fu, Xiaopeng Lin, Jie Song, Bojun Cheng
事件摄像机是受生物启发的传感器,可响应局部光强度变化,并具有低延迟、高能效和高动态范围的特点。与此同时,尖峰神经网络 SNN 因其卓越的效率和容错能力而受到广泛关注。通过协同利用事件摄像机固有的能源效率和 SNN 的基于尖峰的处理能力,它们的集成可以实现超低功耗应用场景,例如动作识别任务。然而,现有方法通常需要将异步事件转换为传统帧,导致额外的数据映射工作和稀疏性损失,这与 SNN 和事件相机的设计理念相矛盾。为了应对这一挑战,我们提出了 SpikePoint,一种新颖的基于端到端的 SNN 架构。 SpikePoint 擅长处理稀疏事件云数据,通过单一阶段结构有效提取全局和局部特征。利用代理训练方法,SpikePoint 用很少的参数实现了高精度,并保持了低功耗,特别是在不同的数据集上使用了身份映射特征提取器。 SpikePoint 仅使用 16 个时间步就在四个基于事件的动作识别数据集上实现了最先进的 SOTA 性能,超越了其他 SNN 方法。此外,它还在三个数据集上的所有方法中实现了 SOTA 性能,利用了人工神经网络 ANN 所使用的大约 0.3 的参数和 0.5 的功耗。

Multiview Transformer: Rethinking Spatial Information in Hyperspectral Image Classification
Authors Jie Zhang, Yongshan Zhang, Yicong Zhou
识别高光谱图像 HSI 中每个像素的土地覆盖类别依赖于光谱和空间信息。利用具有特定块大小的 HSI 长方体来提取中心像素的空间光谱特征表示。在本文中,我们研究了 HSI 长方体中可能记录场景特定但非本质的相关性。这些附加信息提高了现有 HSI 数据集上的模型性能,并使正确评估模型的能力变得困难。我们将此问题称为空间过度拟合问题,并利用严格的实验设置来避免它。我们进一步提出了一种用于 HSI 分类的多视图变换器,它由多视图主成分分析 MPCA、频谱编码器解码器 SED 和空间池标记化变换器 SPTT 组成。 MPCA 通过构建光谱多视图观测并对每个视图数据应用 PCA 以提取低维视图表示来对 HSI 执行降维。视图表示的组合,称为多视图表示,是 MPCA 的降维输出。为了聚合多视图信息,引入了光谱维度为 U 形的全卷积 SED 来提取多视图特征图。 SPTT 使用空间池标记化策略将多视图特征转换为标记,并学习鲁棒性和辨别性的空间光谱特征以进行土地覆盖识别。使用线性分类器进行分类。

NeuroInspect: Interpretable Neuron-based Debugging Framework through Class-conditional Visualizations
Authors Yeong Joon Ju, Ji Hoon Park, Seong Whan Lee
尽管深度学习 DL 在各个领域取得了显着的进步,但 DL 模型仍然容易出错。这个问题需要深度学习从业者使用有效的调试工具来解释网络内的决策过程。然而,现有的调试方法通常需要额外的数据或对决策过程进行调整,限制了它们的适用性。为了解决这个问题,我们提出了 NeuroInspect,一个基于可解释神经元的调试框架,具有三个关键阶段的反事实解释、特征可视化和错误相关性缓解。我们的调试框架首先查明导致网络错误的神经元,然后将神经元中嵌入的特征可视化为人类可解释的。为了提供这些解释,我们引入了 CLIP Illusion,这是一种新颖的特征可视化方法,它生成表示以类为条件的特征的图像,以检查神经元和决策层之间的连接。我们通过使用类信息来减轻传统可视化方法的复杂解释,从而隔离混合属性。此过程为模型错误提供了更多人类可解释的解释,而无需更改经过训练的网络或需要额外的数据。此外,我们的框架减轻了从随机角度下从数据集中学到的错误相关性,修改了被视为主要原因的神经元的决策。我们通过解决错误相关性并改进对现实环境中性能最差的类的推理来验证我们框架的有效性。此外,我们还证明 NeuroInspect 通过评估人类理解能力来帮助调试 DL 模型的错误。

rpcPRF: Generalizable MPI Neural Radiance Field for Satellite Camera
Authors Tongtong Zhang, Yuanxiang Li
卫星图像的新颖视图合成具有广泛的实际应用。虽然神经辐射领域的最新进展主要针对针孔相机,但卫星相机的模型通常需要足够的输入视图。本文介绍了 rpcPRF,一种用于有理多项式相机 RPC 的基于多平面图像 MPI 的平面神经辐射场。与需要一个场景的足够视图的基于坐标的神经辐射场不同,我们的模型适用于单个或少量输入,并且在来自未见过场景的图像上表现良好。为了实现跨场景的泛化,我们建议使用重投影监督来诱导预测的 MPI 学习 3D 坐标和图像之间的正确几何形状。此外,我们通过引入辐射场渲染技术,消除了基于深度多视图立体方法的密集深度监督的严格要求。 rpcPRF结合了隐式表示的优越性和RPC模型的优点,在学习3D结构的同时捕获连续的高度空间。给定 RGB 图像及其相应的 RPC,端到端模型学习用新的 RPC 合成新颖的视图并重建场景的高度。当提供多个视图作为输入时,rpcPRF 会施加额外视图提供的额外监督。在 ZY 3 的 TLC 数据集和 WV 3 的包含城市场景的 SatMVS3D 数据集上,无论是单视图还是多视图,rpcPRF 在图像保真度、重建精度和效率方面均明显优于最先进的基于 nerf 的方法

Improving mitosis detection on histopathology images using large vision-language models
Authors Ruiwen Ding, James Hall, Neil Tenenholtz, Kristen Severson
在某些类型的癌组织中,有丝分裂计数已被证明与肿瘤增殖、不良预后和治疗耐药性相关。由于病理学家对有丝分裂计数的评分者间差异较大,因此已采用卷积神经网络 CNN 来减少苏木精和伊红 HE 染色的整个载玻片图像中有丝分裂检测的主观性。然而,大多数现有模型的性能落后于专家小组的审查,并且仅包含视觉信息。在这项工作中,我们证明了利用视觉特征和自然语言的预训练大规模视觉语言模型可以提高有丝分裂检测的准确性。我们通过将肿瘤和​​扫描仪类型等元数据作为上下文,将有丝分裂检测任务制定为图像字幕任务和视觉问答 VQA 任务。

Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent
Authors Qiyuan Ou, Siwei Wang, Pei Zhang, Sihang Zhou, En Zhu
多视图聚类由于其聚合各种来源信息的能力以及在公共事务中的广阔前景而受到越来越多的关注。到目前为止,最近的文献中已经提出了许多先进的方法。然而,还有一些持续存在的困难需要解决。当尝试对齐不同视图的特征时,会出现一种常见的困境。我们通过分层特征下降挖掘并部署视图之间的依赖关系,这导致了公共潜在空间 STAGE 1 。这种潜在空间首次被视为相似空间,因为它揭示了不同观点的某些相关性和依赖性。准确地说,类别的单热编码也可以称为其终结阶段的相似空间。此外,由于大多数现有多视图聚类算法源于 k 均值聚类和谱聚类这一内在事实,这导致了立方时间复杂度。对象的数量。然而,我们提出了基于锚点的多视图子空间聚类与分层特征下降MVSC HFD,通过相似空间中的统一采样策略进一步将计算复杂度降低到线性时间成本STAGE 2,然后通过子空间聚类来学习集体表示STAGE 3。

Robust Unsupervised Domain Adaptation by Retaining Confident Entropy via Edge Concatenation
Authors Hye Seong Hong, Abhishek Kumar, Dong Gyu Lee
无监督域适应的泛化能力可以通过将合成数据作为计算机生成注释的源来训练模型,从而减轻对广泛像素级注释来训练语义分割网络的需求。基于熵的对抗网络被提出来改进源域预测,然而,它们忽略了重要的外部信息,例如边缘,这些信息有可能准确地识别和区分图像中的各种对象。为了解决这个问题,我们引入了一种新的领域适应方法,利用基于熵的对抗网络中内部和外部信息的协同作用。在这种方法中,我们在这个创新框架内用边缘预测概率值丰富了鉴别器网络,以增强类边界的清晰度。此外,我们设计了一个概率共享网络,它集成了不同的信息以实现更有效的分割。合并对象边缘解决了无监督域适应的一个关键方面,在过去,对象边界的精确描绘经常被忽视。传统的无监督域适应方法通常以对齐特征分布为中心,并且可能不会显式地对对象边界进行建模。我们的方法通过提供有关对象边界的清晰指导,有效地弥合了这一差距,从而提高了领域适应的质量。我们的方法对已建立的无监督域适应基准进行了严格的评估,特别是在适应 SYNTHIA rightarrow Cityscapes 和 SYNTHIA rightarrow Mapillary 方面。实验结果表明,所提出的模型比最先进的方法获得了更好的性能。

Denoising Task Routing for Diffusion Models
Authors Byeongjun Park, Sangmin Woo, Hyojun Go, Jin Young Kim, Changick Kim
扩散模型通过学习多步去噪过程生成高度逼真的图像,自然体现了多任务学习 MTL 的原理。尽管扩散模型和 MTL 之间存在固有的联系,但在设计将 MTL 明确纳入扩散模型框架的神经架构方面仍然存在未开发的领域。在本文中,我们提出了去噪任务路由 DTR,这是现有扩散模型架构的一个简单附加策略,通过有选择地激活模型中的通道子集,为单个架构中的各个任务建立不同的信息路径。 DTR 特别引人注目的地方在于它将去噪任务的先验知识无缝集成到框架中。 1 任务亲和性 DTR 为相邻时间步长的任务激活相似的通道,并通过时间步长的滑动窗口移动激活的通道,利用相邻任务之间固有的强亲和力时间步长。 2 任务权重 在去噪过程的早期阶段较高的时间步长中,DTR 分配了更多数量的任务特定通道,利用扩散模型在早期阶段优先考虑重建全局结构和感知丰富内容的洞察力,并在后期专注于简单的噪声去除阶段。我们的实验表明,DTR 能够持续增强各种评估方案中扩散模型的性能,而且无需引入额外的参数。此外,DTR 有助于加速训练期间的收敛。

Deformation Monitoring of Tunnel using Phase-based Motion Magnification and Optical Flow
Authors Kecheng Chen, Hiroshi Kogi, Kenichi Soga
在施工过程中,对地下隧道的持续监测可以减轻潜在的危险,并有助于深入了解地面隧道的相互作用行为。传统的基于视觉的监控可以直接捕获大范围的运动,但无法分离隧道的振动和变形模式。基于相位的运动放大是放大目标频带中的运动并识别系统动态的技术之一。光流是计算机视觉中计算图像强度运动的流行方法,其计算成本比数字图像相关低得多。本研究结合 PMM 和 OF 来量化地下隧道场景的放大变形模式像素位移。由于运动放大伪影可能导致量化不准确,因此使用 2D 维纳滤波器来平滑高频内容。通过GPU加速,采用密集OF算法计算每个像素的位移来推导整个场景的运动。

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions
Authors Chengyang Zhao, Yikang Shen, Zhenfang Chen, Mingyu Ding, Chuang Gan
最近提出了全景场景图来实现全面的场景理解。然而,以前的工作采用完全监督的学习方式,需要大量像素级的密集注释数据,获取起来总是繁琐且昂贵。为了解决这个限制,我们研究了从纯文本描述标题到 PSG 的全景场景图生成的新问题。关键思想是仅利用网络上大量的免费图像标题数据来生成全景场景图。对于三个约束,该问题非常具有挑战性:1 没有位置先验;2 视觉区域和文本实体之间没有明确的链接;3 没有预定义的概念集。为了解决这个问题,我们提出了一个新的框架 TextPSG,它由四个模块组成,即区域分组器、实体基础器、分段合并器和标签生成器,并采用了多种新技术。区域分组器首先将图像像素分组为不同的片段,然后实体基础器根据所引用片段的文本描述将视觉片段与语言实体对齐。因此,基础结果可以充当伪标签,使片段合并能够学习片段相似性,并指导标签生成器学习对象语义和关系谓词,从而产生细粒度的结构化场景理解。我们的框架是有效的,显着优于基线,并实现了强大的分布稳健性。我们进行全面的消融研究,以证实我们设计选择的有效性,并提供深入的分析以突出未来的方向。

Computational Pathology at Health System Scale -- Self-Supervised Foundation Models from Three Billion Images
Authors Gabriele Campanella, Ricky Kwan, Eugene Fluder, Jennifer Zeng, Aryeh Stock, Brandon Veremis, Alexandros D. Polydorides, Cyrus Hedvat, Adam Schoenfeld, Chad Vanderbilt, Patricia Kovatch, Carlos Cordon Cardo, Thomas J. Fuchs
自监督学习的最新突破使得能够使用大型未标记数据集来训练视觉基础模型,这些模型可以推广到各种下游任务。虽然这种训练范例非常适合注释稀缺的医学领域,但医学领域(特别是病理学)的大规模预训练尚未得到广泛研究。病理学自监督学习之前的工作利用较小的数据集进行预训练和评估下游性能。该项目的目的是通过预训练和评估大型临床病理数据集的下游性能来训练最大的学术基础模型并基准化最突出的自监督学习算法。我们收集了迄今为止最大的病理数据集,其中包含来自超过 42.3 万张显微镜载玻片的超过 30 亿张图像。我们比较了使用屏蔽自动编码器 MAE 和 DINO 算法对视觉 Transformer 模型的预训练。我们评估了来自三个解剖部位和两个机构的六项临床相关任务的表现:乳腺癌检测、炎症性肠病检测、乳腺癌雌激素受体预测、肺腺癌 EGFR 突变预测和肺癌免疫治疗反应预测。我们的结果表明,与自然图像的预训练相比,病理数据的预训练有利于下游性能。此外,DINO 算法在所有测试任务中都取得了更好的泛化性能。

Facial Forgery-based Deepfake Detection using Fine-Grained Features
Authors Aakash Varma Nadimpalli, Ajita Rattani
深度造假造成的面部伪造造成了重大安全风险,并引发了严重的社会担忧。作为对策,人们提出了多种深度伪造检测方法。他们中的大多数使用针对该任务预训练的主干卷积神经网络 CNN 架构,将 Deepfake 检测建模为二元分类问题。这些基于 CNN 的方法在 Deepfake 检测中表现出了非常高的效率,曲线下面积 AUC 高达 0.99。然而,当跨数据集和深度伪造操作技术进行评估时,这些方法的性能会显着下降。这吸引了我们的注意力去学习更微妙、局部和有区别的特征来进行深度伪造检测。在本文中,我们将深度伪造检测制定为细粒度分类问题,并提出了一种新的细粒度解决方案。具体来说,我们的方法基于通过有效抑制背景噪声来学习微妙和可概括的特征,并学习各种尺度的判别特征以进行深度伪造检测。

Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images
Authors Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci
医学视觉语言预训练 VLP 从医学图像和配对放射学报告中共同学习表示。它通常需要大规模的配对图像文本数据集来实现图像编码器和文本编码器的有效预训练。文本引导生成模型的出现提出了一个引人注目的问题:VLP 是否可以仅通过真实放射学报告生成的合成图像来实现,从而减轻对广泛配对和整理图像文本数据集的需求在这项工作中,我们通过检查可行性来仔细研究这个问题以及使用合成图像进行医学 VLP 的有效性。我们将真实的医学图像替换为根据真实医学报告生成的合成图像。我们利用三种最先进的 VLP 算法专门对这些合成样本进行训练。我们对三个后续任务(即图像分类、语义分割和对象检测)的实证评估表明,通过合成数据实现的性能与真实图像获得的性能相当甚至超过。作为对该领域的开创性贡献,我们引入了大规模合成医学图像数据集,并配有匿名的真实放射学报告。这减轻了共享医学图像的需要,而这些图像在实践中并不容易管理和共享。

Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models
Authors Wen Hsuan Chu, Adam W. Harley, Pavel Tokmakov, Achal Dave, Leonidas Guibas, Katerina Fragkiadaki
对象跟踪是机器人感知和场景理解的核心。通过检测进行跟踪长期以来一直是特定对象类别的对象跟踪的主导范例。最近,大规模预训练模型在野外检测和分割 2D 静态图像中的对象和部分方面显示出了有希望的进展。这就引出了一个问题:我们是否可以将这些大规模预训练静态图像模型重新用于开放词汇视频跟踪。在本文中,我们将开放词汇检测器、分割器和密集光流估计器重新用于跟踪和分割物体的模型。 2D 视频中的任何类别。我们的方法使用单目视频中的相关语言描述来预测对象和部分轨迹,使用现代大型预训练模型重建 Tractor 的管道以进行静态图像检测和分割,我们检测开放词汇对象实例并使用基于流的方法将它们的框从帧传播到帧运动模型,使用视觉检测器的框回归模块细化传播的框,并提示开放世界分割器使用细化的框来分割对象。我们根据传播框的对象性得分以及前向后向光流一致性来决定对象跟踪的终止。我们使用深度特征匹配重新识别跨遮挡的对象。我们表明,我们的模型在多个已建立的视频对象分割和跟踪基准上实现了强大的性能,并且可以在操作数据中产生合理的跟踪。特别是,我们的模型在 UVO 和 BURST(开放世界对象跟踪和分割的基准)方面优于以前的最先进技术,尽管从未接受过明确的跟踪训练。

Leveraging Neural Radiance Fields for Uncertainty-Aware Visual Localization
Authors Le Chen, Weirong Chen, Rui Wang, Marc Pollefeys
作为一种有前途的视觉定位方式,场景坐标回归 SCR 在过去十年中取得了巨大的进步。最近的方法通常采用神经网络来学习从图像像素到 3D 场景坐标的映射,这需要大量带注释的训练数据。我们建议利用神经辐射场 NeRF 生成 SCR 训练样本。尽管 NeRF 的渲染效率很高,但许多渲染数据受到伪影污染或仅包含最小的信息增益,这可能会阻碍回归精度或因冗余数据带来不必要的计算成本。本文从三个方面解决了这些挑战 1 NeRF 旨在分别预测渲染的颜色和深度图像的不确定性,从而揭示像素级别的数据可靠性。 2 SCR被表述为具有认知不确定性的深度证据学习,用于评估信息增益和场景坐标质量。 3 基于不确定性的三种艺术,形成了一种新颖的视图选择策略,可显着提高数据效率。

Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality
Authors Xuxi Chen, Yu Yang, Zhangyang Wang, Baharan Mirzasoleiman
数据集蒸馏的目的是通过创建一小组具有与完整数据集相似的泛化性能的合成图像,最大限度地减少在大型数据集上训练深度网络所需的时间和内存。然而,当前的数据集蒸馏技术存在不足,与原始数据的训练相比,表现出显着的性能差距。在这项工作中,我们第一个认为仅使用一个合成子集进行蒸馏不会产生最佳的泛化性能。这是因为深度网络的训练动态在训练过程中发生了巨大的变化。因此,需要多个合成子集来捕获训练不同阶段的训练动态。为了解决这个问题,我们提出了渐进式数据集蒸馏 PDD 。 PDD 合成多个小型合成图像集,每个合成图像集都以之前的集合为条件,并根据这些子集的累积并集来训练模型,而无需额外的训练时间。我们大量的实验表明,PDD 可以有效地将现有数据集蒸馏方法的性能提高高达 4.3 倍。

ObjectComposer: Consistent Generation of Multiple Objects Without Fine-tuning
Authors Alec Helbling, Evan Montoya, Duen Horng Chau
最近的文本到图像生成模型可以根据文本提示生成高保真度图像。然而,这些模型很难在不同的上下文中一致地生成具有相同外观的相同对象。一致的对象生成对于许多下游任务非常重要,例如生成具有一致角色和设置的漫画书插图。许多方法试图通过微调扩展扩散模型的词汇量来解决这个问题。然而,即使是轻量级的微调方法,大规模实时运行的成本也可能非常昂贵。我们引入了一种称为 ObjectComposer 的方法,用于生成类似于用户指定图像的多个对象的组合。我们的方法是免费训练,利用现有模型的能力。我们以最近的 BLIP 扩散模型为基础,该模型可以生成由参考图像指定的单个对象的图像。

On the Interpretability of Part-Prototype Based Classifiers: A Human Centric Analysis
Authors Omid Davoodi, Shayan Mohammadizadehsamakosh, Majid Komeili
零件原型网络最近已成为人们感兴趣的方法,作为许多当前黑盒图像分类器的可解释替代方案。然而,从人类用户的角度来看,这些方法的可解释性尚未得到充分探索。在这项工作中,我们设计了一个框架,用于从人类的角度评估基于零件原型的模型的可解释性。所提出的框架由三个可操作的指标和实验组成。为了证明我们的框架的实用性,我们使用 Amazon Mechanical Turk 进行了一系列广泛的实验。

Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks
Authors Anastasia Antsiferova, Khaled Abud, Aleksandr Gushchin, Sergey Lavrushkin, Ekaterina Shumitskaya, Maksim Velikanov, Dmitriy Vatolin
如今,与传统方法相比,基于神经网络的图像和视频质量指标显示出更好的性能。然而,它们也变得更容易受到对抗性攻击,这些攻击会在不提高视觉质量的情况下提高指标分数。现有的质量指标基准比较了它们与主观质量和计算时间的相关性。然而,图像质量指标的对抗鲁棒性也是一个值得研究的领域。在本文中,我们分析了现代指标对不同对抗性攻击的鲁棒性。我们采用了来自计算机视觉任务的对抗性攻击,并将攻击效率与 15 个无参考图像视频质量指标进行了比较。一些指标表现出对对抗性攻击的高度抵抗力,这使得它们在基准测试中的使用比易受攻击的指标更安全。该基准测试接受研究人员提交的新指标,这些研究人员希望使其指标对攻击更加稳健,或找到满足其需求的指标。

Self-supervised Object-Centric Learning for Videos
Authors G rkay Aydemir, Weidi Xie, Fatma G ney
通过利用从自监督预训练中学到的强大语义,无监督多对象分割在图像上显示出了令人印象深刻的结果。通常使用深度或运动等附加模态来促进视频序列的分割。然而,在合成序列中观察到的性能改进依赖于附加线索的稳健性,并不能转化为更具挑战性的现实世界场景。在本文中,我们提出了第一个完全无监督的方法来分割现实世界序列中的多个对象。我们的以对象为中心的学习框架在空间上将对象绑定到每个帧上的槽,然后跨帧关联这些槽。根据这些时间感知槽,训练目标是在高级语义特征空间中重建中间帧。我们提出了一种屏蔽策略,通过在特征空间中删除大部分标记来提高效率和正则化。此外,我们通过基于相似性合并槽来解决过度聚类问题。

Distillation Improves Visual Place Recognition for Low-Quality Queries
Authors Anbang Yang, Yao Wang, John Ross Rizzo, Chen Feng
实时视觉定位向在线计算的转变通常需要将查询图像视频流式传输到服务器以进行视觉位置识别 VPR,其中快速视频传输可能会导致分辨率降低或量化增加。这会损害全局图像描述符的质量,导致 VPR 性能下降。为了提高低质量查询图像的低召回率,我们提出了一种简单而有效的方法,仅在训练期间使用高质量查询来为基于深度学习的 VPR(例如 NetVLAD)提取更好的特征表示。具体来说,我们使用不同质量的查询的全局描述符之间的均方误差 MSE 损失,以及相应中间特征的通道间相关知识蒸馏 ICKD 损失。我们使用匹兹堡 250k 数据集和我们自己的具有不同量化级别的室内数据集来验证我们的方法。通过使用我们的蒸馏增强损失来微调 NetVLAD 参数,我们在低质量查询上实现了显着的 VPR 召回率改进,正如我们大量的实验结果所证明的那样。

Mitigating stereotypical biases in text to image generative systems
Authors Piero Esposito, Parmida Atighehchian, Anastasis Germanidis, Deepti Ghadiyaram
众所周知,最先进的生成文本到图像模型会表现出社会偏见,并且在其结果中过度代表某些群体,例如肤色较浅的人和男性。在这项工作中,我们提出了一种方法来减轻这种偏见,并确保不同群体的结果是公平的。我们通过根据合成数据对文本到图像模型进行微调来做到这一点,这些数据的感知肤色和性别是根据不同的文本提示构建的。这些文本提示是由种族、性别、职业、年龄组等的乘法组合构成的,从而产生不同的合成数据。我们的多样性微调 DFT 模型将感知肤色的群体公平性指标提高了 150,将感知性别的群体公平性指标提高了 97.7。与基线相比,DFT 模型生成了更多肤色较深的人和更多的女性。

The Solution for the CVPR2023 NICE Image Captioning Challenge
Authors Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu
在本文中,我们提出了零镜头图像字幕挑战新领域的解决方案。与传统的图像字幕数据集不同,这一挑战包括来自许多领域的更多新的视觉概念,例如 COVID 19 以及各种图像类型的照片、插图、图形。对于数据级别,我们从大型 CLIP 过滤图像文本数据集 Laion 5B 收集外部训练数据。对于模型级别,我们使用 OFA(一种基于手工模板的大规模视觉语言预训练模型)来执行图像字幕任务。此外,我们引入对比学习来对齐图像文本对,以在预训练阶段学习新的视觉概念。然后,我们提出了一种相似度桶策略,并将该策略合并到模板中,以迫使模型生成更高质量和更多匹配的字幕。最后,通过检索增强策略,我们构建了一个内容丰富的模板,其中包含其他图像文本对中最相关的前 k 个标题,以指导模型生成语义丰富的标题。

Learning with Noisy Labels for Human Fall Events Classification: Joint Cooperative Training with Trinity Networks
Authors Leiyu Xie, Yang Sun, Syed Mohsen Naqvi
随着人口老龄化的加剧,跌倒事件分类引起了广泛的研究关注。在深度学习的发展中,数据标签的质量至关重要。大多数数据集都是自动或半自动标记的,样本可能被错误标记,这限制了深度神经网络DNN的性能。最近关于噪声标签学习的研究证实,神经网络首先关注干净和简单的实例,然后在训练阶段跟踪噪声和困难的实例。为了解决带有噪声标签的学习问题并保护人类受试者的隐私,我们提出了一种简单但有效的方法,称为与 Trinity Networks JoCoT 的联合合作训练。为了缓解隐私问题,使用人体骨骼数据。通过在所提出的 JoCoT 中使用两个教师模块和一个学生模块,提高了噪声标签学习框架的鲁棒性和性能。为了减少错误的选择,教师模块的预测采用基于共识的方法来指导学生模块的训练。对广泛使用的 UP Fall 数据集的性能评估以及与现有技术的比较,证实了所提出的 JoCoT 在高噪声率下的有效性。

BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer
Authors Kunkun Pang, Dafei Qin, Yingruo Fan, Julian Habekost, Takaaki Shiratori, Junichi Yamagishi, Taku Komura
从语音自动合成手势是一个吸引研究人员在远程通信、视频游戏和元宇宙中应用的主题。由于问题的随机性以及缺乏训练所需的丰富的跨模态数据集,学习语音和 3D 全身手势之间的映射很困难。在本文中,我们提出了一种基于 Transformer 的新型框架,用于从语音自动合成 3D 身体手势。为了了解语音期间身体姿势的随机性质,我们提出了一种变分变换器来有效地对姿势的概率分布进行建模,这可以在推理过程中产生不同的姿势。此外,我们引入了模式位置嵌入层来捕获不同说话模式下的不同运动速度。为了应对数据稀缺的问题,我们设计了一种模态内预训练方案,可以从有限的数据中学习语音和 3D 手势之间的复杂映射。我们的系统使用 Trinity 语音手势数据集或 Talking With Hands 16.2M 数据集进行训练。

DeepTriNet: A Tri-Level Attention Based DeepLabv3+ Architecture for Semantic Segmentation of Satellite Images
Authors Tareque Bashar Ovi, Shakil Mosharrof, Nomaiya Bashree, Md Shofiqul Islam, Muhammad Nazrul Islam
卫星图像分割在遥感应用中至关重要。现有方法在识别卫星图像中的小尺度物体以进行语义分割方面面临挑战,这主要是由于忽略了底层网络的低级特征以及不同特征图包含不同数量的信息。因此,在本研究中,提出了一种基于三级注意力的 DeepLabv3 架构 DeepTriNet,用于卫星图像的语义分割。所提出的混合方法将挤压和激励网络 SENet 以及三级注意力单元 TAU 与普通 DeepLabv3 架构相结合,其中 TAU 用于弥合编码器输出之间的语义特征差距,而 SENet 用于对相关特征给予更多权重。所提出的 DeepTriNet 通过自我监督来发现哪些特征更相关、更通用,而不是我们注释它们。

Performance Analysis of Various EfficientNet Based U-Net++ Architecture for Automatic Building Extraction from High Resolution Satellite Images
Authors Tareque Bashar Ovi, Nomaiya Bashree, Protik Mukherjee, Shakil Mosharrof, Masuma Anjum Parthima
建筑物提取是遥感科学研究的重要组成部分,建筑物提取的应用在很大程度上依赖于高分辨率遥感图像的语义分割。然而,当前基于深度学习的方法中的语义信息提取差距限制可能会导致分割结果不足。为了解决这个问题并高精度地提取建筑物,本研究提出了各种基于 U Net 的高效网络骨干网。基于U Net设计的网络可以通过深度监督、大量重新设计的跳跃连接来提高模型的灵敏度,从而减少背景中不相关特征区域的影响。在训练网络时,采用了各种基于 effcientNet 主干的编码器,以增强模型提取更多相关特征的能力。根据实验结果,建议的模型明显优于以前的前沿方法。在基于 effectiveb4 的 5 个 effectiveNet 变体中,Unet 取得了最佳结果,在公开的马萨诸塞州建筑数据集上获得了平均准确度 92.23、平均 iou 为 88.32、平均精度 93.2,从而显示了该模型在从高数据中自动提取建筑物的前景。

Computational models of object motion detectors accelerated using FPGA technology
Authors Pedro Machado

MatFormer: Nested Transformer for Elastic Inference
Authors Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain
Transformer 模型部署在各种环境中,从多加速器集群到独立移动电话。这些场景中不同的推理约束要求从业者将 PaLM 2、Llama、ViTs 等基础模型训练为一系列不同规模的模型。由于训练成本高昂,只有少数几个模型大小得到训练和支持,限制了对相关权衡的更细粒度的控制,包括延迟、成本和准确性。这项工作引入了 MatFormer,这是一种嵌套 Transformer 架构,旨在在各种部署约束中提供弹性。 MatFormer 模型的每个前馈网络 FFN 块都与一些嵌套的较小 FFN 块联合优化。该训练过程允许跨层混合匹配模型粒度,即经过训练的通用 MatFormer 模型可以提取数百个精确的较小模型,而这些模型从未明确优化过。我们凭经验证明了 MatFormer 在不同模型类、解码器、编码器、模态语言视觉以及扩展到 2.6B 参数方面的有效性。我们发现仅 2.6B 解码器 MatFormer 语言模型 MatLM 允许我们提取跨度从 1.5B 到 2.6B 的较小模型,每个模型都表现出与独立训练的对应模型相当的验证损失和一次性下游评估。此外,我们观察到从基于 ViT MatViT 编码器的通用 MatFormer 中提取的较小编码器保留了自适应大规模检索的度量空间结构。

Orbital Polarimetric Tomography of a Flare Near the Sagittarius A* Supermassive Black Hole
Authors Aviad Levis, Andrew A. Chael, Katherine L. Bouman, Maciek Wielgus, Pratul P. Srinivasan
银河系中心的超大质量黑洞人马座 A 与其吸积盘之间的相互作用偶尔会产生 X 射线、红外线和射电中可见的高能耀斑。观测到耀斑的一种机制是形成紧凑的明亮区域,这些区域出现在吸积盘内并靠近事件视界。了解这些耀斑可以为了解黑洞吸积过程提供一个窗口。尽管复杂的模拟预测了这些耀斑的形成,但它们的结构尚未通过观测来恢复。在这里,我们展示了从 2017 年 4 月 11 日观测到的 ALMA 光变曲线恢复的轨道发射耀斑的首次三维 3D 重建。我们的恢复结果显示,在距离事件视界大约 6 倍的地方有紧凑的明亮区域。此外,我们的恢复表明在低倾角轨道平面中顺时针旋转,这一结果与 EHT 和 GRAVITY 合作的先前研究一致。为了恢复这种发射结构,我们通过将神经 3D 表示(一种用于 3D 重建的新兴人工智能方法)与黑洞引力模型相结合来解决高度不适定的断层扫描问题。尽管恢复的 3D 结构受模型假设的影响,有时甚至很敏感,但在物理激励的选择下,我们发现我们的结果是稳定的,并且我们的方法在模拟数据上是成功的。

Deep Video Inpainting Guided by Audio-Visual Self-Supervision
Authors Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung Eui Yoon
人类可以根据他们对视听事件的先验知识,轻松地从听觉信息中想象出场景。在本文中,我们在深度学习模型中模仿人类这种与生俱来的能力,以提高视频修复的质量。为了实现先验知识,我们首先训练视听网络,该网络学习听觉和视觉信息之间的对应关系。然后,视听网络被用作引导器,将视听对应的先验知识传递给视频修复网络。这种先验知识通过我们提出的两种新颖的损失来转移:视听注意力损失和视听伪类一致性损失。这两种损失通过鼓励修复结果与其同步音频具有高度对应性,进一步提高了视频修复的性能。

Attention-Map Augmentation for Hypercomplex Breast Cancer Classification
Authors Eleonora Lopez, Filippo Betello, Federico Carmignani, Eleonora Grassucci, Danilo Comminiello
乳腺癌是女性中最常见的肿瘤,早期发现这种疾病至关重要。深度学习技术对于提高诊断性能引起了极大的兴趣。尽管如此,从整个乳房 X 光照片中区分恶性和良性肿块仍然具有挑战性,因为它们与未经训练的眼睛几乎相同,并且感兴趣区域 ROI 占据整个图像的很小一部分。在本文中,我们提出了一个框架,参数化超复杂注意力图 PHAM 来克服这些问题。具体来说,我们部署基于计算注意力图的增强步骤。然后,通过构建由原始乳腺癌图像和相应的关注图组成的多维输入,使用关注图来调节分类步骤。在此步骤中,采用参数化超复杂神经网络 PHNN 来执行乳腺癌分类。该框架有两个主要优点。首先,注意力图提供有关 ROI 的关键信息,并允许神经模型专注于它。其次,由于超复杂代数规则,超复杂架构能够对输入维度之间的局部关系进行建模,从而正确利用注意力图提供的信息。我们证明了所提出的框架对乳房X线摄影图像以及组织病理学图像的有效性,超越了基于注意力的最先进网络和我们方法的真正有价值的对应物。

Prompt Backdoors in Visual Prompt Learning
Authors Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang
对于资源有限的用户来说,微调大型预训练计算机视觉模型是不可行的。因此,视觉提示学习 VPL 的出现,通过视觉提示即服务 VPPTaaS 为模型微调提供了一种高效、灵活的替代方案。具体来说,VPPTaaS提供商在给定下游数据的情况下优化了视觉提示,下游用户可以使用该提示与大型预训练模型一起进行预测。然而,当 VPPTaaS 提供商提供恶意视觉提示时,这种新的学习范式也可能会带来安全风险。在本文中,我们迈出了第一步,通过后门攻击的视角探讨此类风险。具体来说,我们提出了 BadVisualPrompt,这是一种针对 VPL 的简单而有效的后门攻击。例如,中毒 5 个 CIFAR10 训练数据会导致攻击成功率超过 99,而模型精度仅下降 1.5,可以忽略不计。特别是,我们识别并解决了与后门触发器和视觉提示之间的交互相关的新技术挑战,这在传统的模型级后门中不存在。此外,我们从模型、提示和输入层面对七种后门防御进行了深入分析。

Dual Quaternion Rotational and Translational Equivariance in 3D Rigid Motion Modelling
Authors Guilherme Vieira, Eleonora Grassucci, Marcos Eduardo Valle, Danilo Comminiello
3D 空间中的物体刚性运动是通过一组高度相关的点的旋转和平移来描述的,每个点都具有相关的 x、y、z 坐标,实值网络将其视为单独的实体,从而丢失信息。之前的作品利用了四元数代数及其在 3D 空间中建模旋转的能力。然而,这些代数无法正确编码翻译,导致 3D 学习任务的性能不佳。为了克服这些限制,我们采用 3D 空间中刚性运动的双四元数表示,联合描述点集的旋转和平移,将每个点作为单个实体处理。我们的方法是平移和旋转等变的,因此它不会受到数据变化的影响,并且可以更好地学习对象轨迹,正如我们在实验评估中所验证的那样。

Human-Centered Evaluation of XAI Methods
Authors Karam Dawoud, Wojciech Samek, Sebastian Lapuschkin, Sebastian Bosse
在不断发展的人工智能领域,一个关键的挑战是破译深度学习中所谓的黑匣子内的决策过程。近年来,出现了大量的方法,致力于解释不同任务中的决策。特别是在图像分类等任务中,这些方法通常会识别并强调对分类器预测影响最大的关键像素。有趣的是,这种方法反映了人类的行为,当被要求解释我们对图像进行分类的理由时,我们经常指出最显着的特征或方面。利用这种相似之处,我们的研究开始了一项以用户为中心的研究。我们试图客观地衡量三种主要解释方法的可解释性:1 原型部分网络、2 遮挡和 3 分层相关性传播。有趣的是,我们的结果强调,虽然这些方法所关注的区域可能差异很大,但它们都为人类提供了几乎相同的理解深度。

PtychoDV: Vision Transformer-Based Deep Unrolling Network for Ptychographic Image Reconstruction
Authors Weijie Gan, Qiuchen Zhai, Michael Thompson McCann, Cristina Garcia Cardona, Ulugbek S. Kamilov, Brendt Wohlberg
叠层照相术是一种成像技术,可捕获样本的多个重叠快照,并由移动的局部探针进行连贯照明。从叠层记录数据中恢复图像通常是通过迭代算法来实现的,该算法解决了从测量的衍射图导出的非线性相场问题。然而,这些方法的计算成本很高。在本文中,我们介绍了 PtychoDV,这是一种新型的基于深度模型的网络,专为高效、高质量的叠印图像重建而设计。 PtychoDV 包含一个视觉转换器,它根据一组原始测量结果生成初始图像,同时考虑它们的相互相关性。接下来是深度展开网络,该网络使用可学习的卷积先验和叠图测量模型来细化初始图像。

Diagnosing Bipolar Disorder from 3-D Structural Magnetic Resonance Images Using a Hybrid GAN-CNN Method
Authors Masood Hamed Saghayan, Mohammad Hossein Zolfagharnasab, Ali Khadem, Farzam Matinfar, Hassan Rashidi
双相情感障碍 BD 是一种通过轻躁狂和抑郁的重复循环来诊断的精神疾病。由于双相情感障碍的诊断依赖于长期的主观行为评估,因此基于客观标准的可靠诊断并不简单。当前的研究通过提出一种混合 GAN CNN 模型来从 3D 结构 MRI 图像 sMRI 诊断 BD 来应对所描述的障碍。这项研究的新颖性源于从 sMRI 样本诊断 BD,而不是传统的数据集,如功能性 MRI fMRI、脑电图 EEG 和行为症状,同时消除了处理 sMRI 样本时通常遇到的数据不足的问题。还使用 5 倍交叉验证测试了各种增强比率的影响。基于结果,本研究在使用少于 6 个样本的情况下获得了 75.8 的准确率、60.3 的灵敏度和 82.5 的特异性,比先前的工作高出 3 5 。接下来,证明基于 2D 层的 GAN 生成器可以有效地再现复杂的 3D 大脑样本,这是一种比手动图像处理更简单的技术。最后,当前研究使用 172 个 sMRI 样本的最佳增强阈值是 50,显示了所描述的方法对于更大的 sMRI 数据集的适用性。

A webcam-based machine learning approach for three-dimensional range of motion evaluation
Authors Xiaoye Michael Wang, Derek T. Smith, Qin Zhu
背景。关节活动范围 ROM 是物理治疗的重要定量指标。通常依靠测角仪,准确可靠的 ROM 测量需要大量的培训和实践。

Synthesizing Missing MRI Sequences from Available Modalities using Generative Adversarial Networks in BraTS Dataset
Authors Ibrahim Ethem Hamamci
胶质母细胞瘤是一种高度侵袭性和致命性的脑癌。磁共振成像 MRI 由于其非侵入性和无辐射的性质,在胶质母细胞瘤患者的诊断、治疗计划和随访中发挥着重要作用。国际脑肿瘤分割 BraTS 挑战赛有助于生成大量 AI 算法,以使用四种结构 T1、T1Gd、T2、T2 FLAIR MRI 扫描准确有效地分割胶质母细胞瘤亚区。然而,这四个 MRI 序列可能并不总是可用。为了解决这个问题,生成对抗网络 GAN 可用于合成缺失的 MRI 序列。在本文中,我们实现并利用了一种开源 GAN 方法,该方法将任意三个 MRI 序列作为输入来生成缺失的第四个结构序列。

SAGE-ICP: Semantic Information-Assisted ICP
Authors Jiaming Cui, Jiming Chen, Liang Li
未知环境中稳健且准确的姿态估计是机器人应用的重要组成部分。我们专注于基于LiDAR的点对点ICP结合有效的语义信息。本文提出了一种新颖的语义信息辅助 ICP 方法,名为 SAGE ICP,该方法利用了里程计中的语义。整个扫描的语义信息由3D卷积网络及时有效地提取,这些逐点标签深入参与配准的每个部分,包括语义体素下采样、数据关联、自适应局部地图和动态车辆去除。与之前的语义辅助方法不同,即使语义信息存在一定误差,所提出的方法也可以提高大规模场景中的定位精度。

Echocardiography video synthesis from end diastolic semantic map via diffusion model
Authors Phi Nguyen Van, Duc Tran Minh, Hieu Pham Huy, Long Tran Quoc
去噪扩散概率模型 DDPM 在各种图像和视频生成任务(包括医学成像领域)中取得了显着的成就。然而,基于语义解剖信息生成超声心动图视频仍然是一个尚未探索的研究领域。这主要是由于当前可用数据集的限制,这些数据集缺乏针对每个心动周期的足够的尺度和全面的逐帧注释。本文旨在通过扩展现有的视频扩散模型以实现心脏视频合成来解决上述挑战。更具体地说,我们的重点在于使用心动周期(通常称为舒张末期)期间初始帧的语义图来生成视频。为了进一步改进合成过程,我们将空间自适应归一化集成到多尺度特征图中。这使得在合成过程中包含语义指导成为可能,从而增强了所得视频序列的真实感和连贯性。实验在 CAMUS 数据集上进行,该数据集是超声心动图领域广泛使用的数据集。

BeSt-LeS: Benchmarking Stroke Lesion Segmentation using Deep Supervision
Authors Prantik Deb, Lalith Bharadwaj Baru, Kamalaker Dadi, Bapi Raju S
脑中风已成为全球健康的重大负担,因此我们需要补救措施和预防策略来克服这一挑战。为此,立即识别卒中和危险分层是临床医生的首要任务。为了帮助专业临床医生,自动分割模型至关重要。在这项工作中,我们考虑公开可用的数据集 ATLAS v2.0 来对各种端到端监督 U Net 风格模型进行基准测试。具体来说,我们对 2D 和 3D 大脑图像的模型进行了基准测试,并使用标准指标对其进行了评估。我们在基于 2D Transformer 的模型上获得了最高的 Dice 分数 0.583,在 3D 残差 U Net 上获得了 0.504 的最高 Dice 分数。我们对 3D 模型进行了 Wilcoxon 测试,以关联预测每搏输出量和实际每搏输出量之间的关系。

Pre-Trained Masked Image Model for Mobile Robot Navigation
Authors Vishnu Dutt Sharma, Anukriti Singh, Pratap Tokekar
二维自上而下地图通常用于移动机器人通过未知区域的导航和探索。通常,机器人使用机载传感器根据本地观察逐步构建导航地图。最近的研究表明,通过基于学习的方法预测环境中的结构模式可以极大地提高任务效率。虽然许多此类工作使用有限的数据集构建特定于任务的网络,但我们表明现有的基础视觉网络无需任何微调即可完成相同的任务。具体来说,我们使用在街道图像上预先训练的蒙版自动编码器,跨不同的输入模式呈现视野扩展、单智能体拓扑探索和室内测绘多智能体探索的新颖应用。我们的工作促进了将基础视觉模型用于广义结构预测驱动的应用,特别是在缺乏训练数据的情况下。

End-to-end Evaluation of Practical Video Analytics Systems for Face Detection and Recognition
Authors Praneet Singh, Edward J. Delp, Amy R. Reibman
部署在自动驾驶汽车等带宽受限环境中的实用视频分析系统执行计算机视觉任务,例如人脸检测和识别。在端到端人脸分析系统中,输入首先使用 HEVC 等流行视频编解码器进行压缩,然后传递到依次执行人脸检测、对齐和识别的模块。通常,这些系统的模块是使用特定于任务的不平衡数据集独立评估的,这可能会误解性能估计。在本文中,我们使用驱动特定数据集对人脸分析系统进行彻底的端到端评估,从而实现有意义的解释。我们演示了独立的任务评估、数据集不平衡和不一致的注释如何导致错误的系统性能估计。我们提出策略来创建数据集的平衡评估子集,并使其注释在多个分析任务和场景中保持一致。然后,我们按顺序评估端到端系统性能,以考虑任务的相互依赖性。

Distributed Transfer Learning with 4th Gen Intel Xeon Processors
Authors Lakshmi Arunachalam, Fahim Mohammad, Vrushabh H. Sanghavi
在本文中,我们探讨了迁移学习如何与英特尔至强(特别是第四代英特尔至强可扩展处理器)相结合,打破训练主要依赖于 GPU 的传统观念。

A review of uncertainty quantification in medical image analysis: probabilistic and non-probabilistic methods
Authors Ling Huang, Su Ruan, Yucheng Xing, Mengling Feng
尽管文献中报道了高性能解决方案的激增,但机器学习医疗保健模型在临床实践中的全面集成仍然不够理想。阻碍广泛采用的一个主要因素是证实上述模型可靠性的证据不足。最近,不确定性量化方法被提出作为量化机器学习模型可靠性的潜在解决方案,从而提高结果的可解释性和可接受性。在这篇综述中,我们全面概述了流行的方法,这些方法旨在量化为各种医学图像任务开发的机器学习模型中固有的不确定性。与之前专门关注概率方法的评论相反,这篇评论还探索了非概率方法,从而对机器学习模型的不确定性量化相关研究提供了更全面的调查。提出了医学图像分析、医学应用的总结和讨论以及相应的不确定性评估协议,重点关注医学图像分析中不确定性的具体挑战。最后我们还强调了一些潜在的未来研究工作。

RobustEdge: Low Power Adversarial Detection for Cloud-Edge Systems
Authors Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim, Priyadarshini Panda
在实际的云边缘场景中,资源受限的边缘执行数据采集,而具有足够资源的云系统使用深度神经网络 DNN 执行推理任务,对抗鲁棒性对于可靠性和普遍部署至关重要。对抗性检测是先前文献中使用的主要对抗性防御技术。然而,在现有的检测工作中,检测器附加到分类器模型,检测器和分类器协同工作以执行对抗性检测,这需要高计算开销,而这在低功率边缘是不可用的。因此,现有的工作只能在云端进行对抗性检测,而不能在边缘进行。这意味着,在发生对抗性攻击的情况下,不利的对抗性样本必须传送到云端,这会导致边缘设备的能源浪费。因此,需要一种低功耗边缘友好的对抗性检测方法来提高边缘的能量效率和基于云的分类器的鲁棒性。为此,RobustEdge 提出了量化启用的能量分离 QES 训练,具有早期检测和退出功能,以执行基于边缘的低成本对抗性检测。

Autonomous Navigation of Micro Air Vehicles in Warehouses Using Vision-based Line Following
Authors Ling Shuang Soh, Hann Woei Ho
在本文中,我们提出了一种基于视觉的室内微型飞行器 MAV 导航解决方案,主要关注其在自主仓库中的应用。我们的工作重点是利用单个相机作为主要传感器来执行检测、定位和路径规划等任务。为了实现这些目标,我们实施了 HSV 颜色检测和霍夫线变换,以在仓库环境中进行有效的线检测。将卡尔曼滤波器集成到我们的系统中使相机能够可靠地跟踪黄线。我们利用 ROS Noetic,通过在 Gazebo 11 平台上进行的各种 MAV 飞行测试来评估基于视觉的巡线算法的性能。这些模拟的结果证明了系统能够成功地在狭窄的室内空间中导航。我们提出的系统有可能显着降低劳动力成本并提高仓库运营的整体生产力。

FD-Net: An Unsupervised Deep Forward-Distortion Model for Susceptibility Artifact Correction in EPI
Authors Abdallah Zaid Alkilani, Tolga ukur, Emine Ulku Saritas
EPI 中最新的基于学习的校正方法估计位移场,用估计场对反向 PE 图像对进行反扭曲,并对未扭曲的图像对进行平均以产生校正图像。这些基于反扭曲的方法中的无监督学习通常是通过反向 PE 方向的反扭曲图像之间的相似性约束来实现的,忽略了与所获取的 EPI 图像的一致性。这项工作介绍了一种无监督深度学习方法,用于快速有效地校正通过 EPI 获取的反相编码 PE 图像对中的磁敏度伪影。 FD Net 可以预测磁化率引起的位移场和底层的解剖学正确图像。与以前的方法不同,FD Net 强制正确图像在两个 PE 方向上的前向畸变与获取的反向 PE 图像对一致。 FD Net 进一步利用多分辨率架构来保持较高的本地和全局性能。 FD Net 在图像质量方面与黄金标准参考方法 TOPUP 具有竞争力,同时实现了计算效率的飞跃。此外,FD Net 在图像和场质量方面均优于最新的基于反扭曲的无监督校正方法。无监督 FD Net 方法引入了深度前向失真方法,通过保持测量数据的一致性,能够快速、高保真地校正 EPI 中的磁敏度伪影。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(计算机视觉,视觉,Papers,LLM,计算机视觉,CV,图像处理,目标检测,异常检测,diffusion,model)