【AI视野·今日CV 计算机视觉论文速览 第275期】Wed, 25 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 25 Oct 2023
Totally 61 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第275期】Wed, 25 Oct 2023_第1张图片

Daily Computer Vision Papers

Synthetic Data as Validation
Authors Qixin Hu, Alan Yuille, Zongwei Zhou
这项研究利用合成数据作为验证集,以减少过度拟合并简化人工智能开发中最佳模型的选择。虽然合成数据已用于增强训练集,但我们发现合成数据还可以显着使验证集多样化,在医疗保健等领域提供显着的优势,这些领域的数据通常有限、敏感且来自域外来源(即医院)。在这项研究中,我们说明了计算机断层扫描 CT 体积中合成数据用于早期癌症检测的有效性,其中生成合成肿瘤并将其叠加到健康器官上,从而创建用于严格验证的广泛数据集。使用合成数据作为验证可以提高人工智能在域内和域外测试集中的鲁棒性。此外,我们建立了一个新的持续学习框架,可以在合成肿瘤的域外数据流上持续训练人工智能模型。在动态扩展的合成数据中训练和验证的人工智能模型可以始终优于仅在现实世界数据上训练和验证的模型。具体来说,在域内数据集上评估时,肝脏肿瘤分割的 DSC 评分从 26.7 95 CI 22.6 30.9 提高到 34.5 30.8 38.2,在域外数据集上评估时,从 31.1 26.0 36.2 提高到 35.4 32.1 38.7。重要的是,在识别 CT 体积中半径为 5mm 的非常微小的肝脏肿瘤方面,性能提升尤其显着,域内数据集的灵敏度从 33.1 提高到 55.4,域外数据集的灵敏度从 33.9 提高到 52.3,证明了癌症早期检测的有效性。 。

From Posterior Sampling to Meaningful Diversity in Image Restoration
Authors Noa Cohen, Hila Manor, Yuval Bahat, Tomer Michaeli
图像恢复问题通常是病态的,因为每个退化的图像都可以通过无限多种有效的方式恢复。为了适应这一点,许多工作通过尝试从给定退化输入的自然图像的后验分布中随机采样来生成一组不同的输出。在这里,我们认为,由于后验分布的重尾,这种策略通常实用价值有限。例如,考虑修复图像中缺失的天空区域。由于缺失区域很可能不包含除云之外的任何物体,因此后验的任何样本集都将完全由几乎相同的天空完成情况主导。然而,可以说,仅向用户提供一个晴朗的天空完成情况,以及几种替代解决方案,例如飞艇、鸟类和气球,可以更好地概述一系列可能性。在本文中,我们发起了有意义的多样化图像恢复的研究。我们探索了几种后处理方法,这些方法可以与任何不同的图像恢复方法相结合,以产生语义上有意义的多样性。此外,我们提出了一种实用的方法,允许基于扩散的图像恢复方法生成有意义的多样化输出,同时仅产生可忽略的计算开销。我们进行了广泛的用户研究来分析所提出的技术,并发现减少输出之间相似性的策略明显优于后验采样。

Woodpecker: Hallucination Correction for Multimodal Large Language Models
Authors Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, Enhong Chen
幻觉是笼罩在快速发展的多模态大型语言模型MLLM上的一个大阴影,指的是生成的文本与图像内容不一致的现象。为了减轻幻觉,现有的研究主要采用指令调整的方式,需要用特定的数据重新训练模型。在本文中,我们开辟了一条不同的道路,引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样,它从生成的文本中挑选并纠正幻觉。具体来说,啄木鸟由关键概念提取、问题制定、视觉知识验证、视觉主张生成和幻觉纠正五个阶段组成。 Woodpecker 以后补救方式实现,可以轻松地为不同的 MLLM 提供服务,同时可以通过访问五个阶段的中间输出进行解释。我们对啄木鸟进行了定量和定性评估,并展示了这种新范式的巨大潜力。在 POPE 基准测试中,我们的方法比基线 MiniGPT 4 mPLUG Owl 的准确度提高了 30.66 24.33。

Stanford-ORB: A Real-World 3D Object Inverse Rendering Benchmark
Authors Zhengfei Kuang, Yunzhi Zhang, Hong Xing Yu, Samir Agarwala, Shangzhe Wu, Jiajun Wu
我们推出了斯坦福 ORB,一种新的现实世界 3D 对象逆向渲染基准。逆向渲染的最新进展使得 3D 内容生成在现实世界中得到广泛应用,并迅速从研究和商业用例转向消费设备。虽然结果不断改进,但现实世界中还没有基准可以定量评估和比较各种逆渲染方法的性能。现有的现实世界数据集通常仅包含物体的形状和多视图图像,这不足以评估材料回收和物体重新照明的质量。能够恢复材料和照明的方法通常依靠合成数据进行定量评估,另一方面,这不能保证推广到复杂的现实世界环境。我们引入了一个新的数据集,其中包含在各种自然场景下通过地面实况 3D 扫描、多视图图像和环境照明捕获的现实世界对象。

What's Left? Concept Grounding with Logic-Enhanced Foundation Models
Authors Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Jiajun Wu
VisProg 和 ViperGPT 等最近的作品使用大型语言模型 LLM 巧妙地构建了视觉推理的基础模型,以生成可以由预先训练的视觉语言模型执行的程序。然而,它们在有限的领域(例如 2D 图像)中运行,没有充分利用语言抽象概念的概括,例如向左移动也可以基于 3D、时间和动作数据,例如向左移动。这种有限的泛化源于这些仅推理方法无法学习或使预训练模型适应新领域。我们提出了逻辑增强基础模型 LEFT ,这是一个统一的框架,通过可微的、与域无关的、基于一阶逻辑的程序执行器来学习跨域概念的基础和推理。 LEFT 有一个 LLM 解释器,它输出以通用的、基于逻辑的推理语言表示的程序,该语言在所有领域和任务之间共享。然后,LEFT 的执行器使用可训练的特定领域接地模块执行程序。我们证明 LEFT 可以灵活地学习 2D 图像、3D 场景、人体运动和机器人操作四个领域的概念。

Visual Cropping Improves Zero-Shot Question Answering of Multimodal Large Language Models
Authors Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
多模态大语言模型法学硕士最近在视觉问答 VQA 上实现了有希望的零射击精度,这是影响各种下游应用程序和领域的基本任务。鉴于这些模型广泛使用的巨大潜力,研究它们在处理不同图像和问题属性时的局限性非常重要。在这项工作中,我们研究多模态法学硕士是否可以感知图像中的小细节和大细节。特别是,我们表明,他们在回答视觉问题时的零镜头准确率对问题的视觉主题的大小非常敏感,随着大小的增加下降到 46。此外,我们通过观察人类视觉裁剪可以显着减轻他们对尺寸的敏感度来证明这种效应是因果关系。受人类裁剪实用性的启发,我们提出了三种自动视觉裁剪方法作为推理时间机制,以提高多模态 LLM 的零样本性能。我们研究了它们在四个流行的 VQA 数据集以及针对精细视觉细节定制的 VQAv2 数据集子集上的有效性。我们的研究结果表明,在细节敏感的 VQA 应用中应谨慎使用多模态 LLM,并且视觉裁剪是提高其零样本性能的一个有希望的方向。

CVPR 2023 Text Guided Video Editing Competition
Authors Jay Zhangjie Wu, Xiuyu Li, Difei Gao, Zhen Dong, Jinbin Bai, Aishani Singh, Xiaoyu Xiang, Youzeng Li, Zuwei Huang, Yuanxi Sun, Rui He, Feng Hu, Junhua Hu, Hai Huang, Hanyu Zhu, Xu Cheng, Jie Tang, Mike Zheng Shou, Kurt Keutzer, Forrest Iandola
人们每天观看视频的时间超过十亿小时。该视频大部分是手动编辑的,这是一个繁琐的过程。然而,人工智能支持的视频生成和视频编辑正在兴起。生成式人工智能以 Stable Diffusion 和 Imagen 等文本到图像模型为基础,在视频任务方面有了显着改进。但由于没有标准基准,因此很难评估这些视频任务的进展。因此,我们提出了一个用于文本引导视频编辑的新数据集 TGVE,并在 CVPR 上举办了一场竞赛,以评估 TGVE 数据集上的模型。在本文中,我们回顾了比赛并描述了获胜方法。

Integrating View Conditions for Image Synthesis
Authors Jinbin Bai, Zhen Dong, Aosong Feng, Xiao Zhang, Tian Ye, Kaicheng Zhou, Mike Zheng Shou
在图像处理领域,在现有图像中应用复杂的语义修改仍然是一个持久的挑战。本文介绍了一种集成视点信息的开创性框架,以增强对图像编辑任务的控制。通过调查现有的对象编辑方法,我们提炼出图像编辑方法应满足的三个基本标准:一致性、可控性和和谐性。与以前的方法相比,我们的方法率先满足了解决图像合成挑战的所有三个要求。通过全面的实验,包括定量评估和与当代最先进方法的定性比较,我们提供了令人信服的证据,证明我们的框架在多个维度上具有卓越的性能。

Transitivity Recovering Decompositions: Interpretable and Robust Fine-Grained Relationships
Authors Abhra Chaudhuri, Massimiliano Mancini, Zeynep Akata, Anjan Dutta
细粒度表示学习的最新进展利用局部到全局的新兴关系来实现最先进的结果。然而,此类方法所依赖的关系表示是抽象的。我们的目标是通过将它们表达为图像视图上的可解释图形来解构这种抽象。我们首先从理论上证明抽象关系表示只不过是恢复局部视图之间传递关系的一种方式。基于此,我们设计了传递性恢复分解 TRD,这是一种图空间搜索算法,可以识别实例和类级别上抽象紧急关系的可解释等价物,并且无需事后计算。我们还表明,TRD 对于噪声观点具有鲁棒性,经验证据也支持这一发现。后者使 TRD 能够达到与最先进水平相当甚至更好的性能,同时具有完全可解释性。

Vision-Language Pseudo-Labels for Single-Positive Multi-Label Learning
Authors Xin Xing, Zhexiao Xiong, Abby Stylianou, Srikumar Sastry, Liyu Gong, Nathan Jacobs
本文提出了一种单正多标签学习的新方法。在一般的多标签学习中,模型学习预测单个输入图像的多个标签或类别。这与标准多类图像分类相反,标准多类图像分类的任务是从图像的许多可能标签中预测单个标签。单正多标签学习 SPML 特别考虑在训练数据中每个图像只有一个注释时学习预测多个标签。在许多方面,多标签学习比单标签学习更现实,因为现实世界的数据通常同时涉及属于多个类别的实例,但是,由于收集多个高质量数据的固有复杂性和成本,最常见的计算机视觉数据集主要包含单个标签。每个实例的注释。我们提出了一种称为视觉语言伪标签 VLPL 的新颖方法,它使用视觉语言模型来建议强正负伪标签,并且在 Pascal VOC 上比当前的 SOTA 方法高出 5.5,在 MS COCO 上比当前 SOTA 方法高出 18.4,在 NUS WIDE 上比当前 SOTA 方法高出 15.2, CUB Birds 8.4。

Geometry-Aware Video Quality Assessment for Dynamic Digital Human
Authors Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai
动态数字人DDH是使用预定义运动进行动画处理的3D数字模型,不可避免地会受到生成过程中的噪声偏移和传输过程中的压缩失真的困扰,需要进行感知评估。通常,DDH 显示为 2D 渲染动画视频,很自然地将视频质量评估 VQA 方法应用于 DDH 质量评估 DDH QA 任务。然而,VQA 方法高度依赖于视点,并且对基于几何的扭曲不太敏感。因此,在本文中,我们针对 DDH QA 挑战提出了一种新颖的无参考 NR 几何感知视频质量评估方法。几何特征由从 DDH 几何属性分布估计的统计参数来描述。从渲染的视频中获取空间和时间特征。最后,将各种特征整合并回归为质量值。

Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection
Authors Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
DETR 的引入代表了对象检测的新范例。然而,其解码器使用共享查询和交叉注意层进行分类和框定位,导致结果不理想。我们观察到视觉特征图中的不同感兴趣区域适合执行查询分类和框定位任务,即使对于同一对象也是如此。显着区域为分类提供了重要信息,而它们周围的边界更有利于框回归。不幸的是,这两项任务之间的这种空间错位极大地阻碍了 DETR 的训练。因此,在这项工作中,我们重点关注 DETR 中定位和分类任务的解耦。为了实现这一目标,我们引入了一种称为空间解耦 DETR SD DETR 的新设计方案,其中包括任务感知查询生成模块和解耦特征学习过程。我们精心设计了任务感知查询初始化过程,并在解码器中划分交叉注意块,以允许任务感知查询匹配不同的视觉区域。同时,我们还观察到存在高分类置信度和精确定位的预测失准问题,因此我们提出了对齐损失来进一步指导空间解耦的DETR训练。通过大量的实验,我们证明与之前的工作相比,我们的方法在 MSCOCO 数据集上取得了显着的改进。例如,我们将 Conditional DETR 的性能提高了 4.5 AP。

Language-driven Scene Synthesis using Multi-conditional Diffusion Model
Authors An Vuong, Minh Nhat Vu, Toan Tien Nguyen, Baoru Huang, Dzung Nguyen, Thieu Vo, Anh Nguyen
场景合成对于多种工业应用来说都是一个具有挑战性的问题。最近,人们投入了大量精力来使用人体动作、房间布局或空间图作为输入来合成场景。然而,很少有研究从多种方式解决这个问题,特别是结合文本提示。在本文中,我们提出了一种语言驱动的场景合成任务,这是一种集成文本提示、人体运动和现有对象进行场景合成的新任务。与其他单条件综合任务不同,我们的问题涉及多个条件,需要一种策略将它们处理和编码到统一的空间中。为了应对这一挑战,我们提出了一种多条件扩散模型,该模型通过显式预测原始数据分布的指导点来不同于其他扩散文献的隐式统一方法。我们证明我们的方法在理论上是有支持性的。密集的实验结果表明,我们的方法优于最先进的基准,并支持自然场景编辑应用程序。

ShARc: Shape and Appearance Recognition for Person Identification In-the-wild
Authors Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia
由于外观、环境、退化和遮挡的变化,在不受约束的视频环境中识别个体是生物识别分析中一项有价值但具有挑战性的任务。在本文中,我们提出了 ShARc,这是一种在不受控制的环境中基于视频进行人员识别的多模态方法,强调 3D 身体形状、姿势和外观。我们引入两个编码器:姿势和形状编码器 PSE 和聚合外观编码器 AAE。 PSE 通过二值化轮廓、骨骼运动和 3D 身体形状对身体形状进行编码,而 AAE 提供基于特征聚合和平均聚合的两个级别的时间外观特征聚合注意。对于基于注意力的特征聚合,我们利用空间和时间注意力来关注人物区分的关键领域。对于平均聚合,我们在平均后引入了一种新颖的扁平化层,以提取更多可区分的信息并减少注意力的过度拟合。我们利用质心特征平均来进行画廊注册。

Mitigate Domain Shift by Primary-Auxiliary Objectives Association for Generalizing Person ReID
Authors Qilei Li, Shaogang Gong
虽然深度学习在独立同分布 IID 假设下显着提高了 ReID 模型的准确性,但也很明显,当应用于看不见的新领域时,由于不可预测的未知域转移,此类模型会显着降低。当代领域泛化 DG ReID 模型仅通过实例分类目标的训练来学习领域不变表示。我们认为深度学习模型受到严重影响,因此偏向领域特定特征,例如背景杂乱、尺度和视点变化,限制了学习模型的泛化性,并假设行人具有领域不变性,因为他们共享相同的结构特征。为了使 ReID 模型对这些纯行人的领域特定性较小,我们引入了一种方法,通过弱标记行人显着性检测的并发辅助学习目标来指导主要 ReID 实例分类目标的模型学习。为了解决两个学习目标之间模型参数空间中优化标准冲突的问题,我们引入了主要辅助目标关联 PAOA 机制来校准辅助任务相对于主要学习任务梯度的损失梯度。受益于和谐的多任务学习设计,我们的模型可以使用最近的测试时间图进行扩展,形成 PAOA ,它针对辅助目标进行动态优化,以最大化模型在测试目标域中的生成能力。

Automatic Aorta Segmentation with Heavily Augmented, High-Resolution 3-D ResUNet: Contribution to the SEG.A Challenge
Authors Marek Wodzinski, Henning M ller
从 3D 医学体积自动分割主动脉是一项重要但困难的任务。有几个因素使这个问题具有挑战性,例如主动脉夹层的可能性或分割和注释小分支的困难。这项工作展示了 MedGIFT 团队对 MICCAI 2023 会议期间组织的 SEG.A 挑战的贡献。我们提出了一种基于深度编码器解码器架构的全自动算法。我们工作背后的主要假设是数据预处理和增强比深层架构重要得多,尤其是在低数据情况下。因此,该解决方案基于传统卷积 U Net 的变体。所提出的解决方案在所有测试用例中获得了 0.9 以上的 Dice 分数,并且在所有参与者中具有最高的稳定性。该方法在临床评估、定量结果和体积网格划分质量方面分别获得第一、第四和第三。

SequenceMatch: Revisiting the design of weak-strong augmentations for Semi-supervised learning
Authors Khanh Binh Nguyen
半监督学习 SSL 近年来变得流行,因为它允许使用大量未标记数据来训练模型。然而,许多 SSL 方法面临的一个问题是确认偏差,当模型过度拟合小型标记训练数据集并产生过度自信、不正确的预测时,就会出现这种情况。为了解决这个问题,我们提出了 SequenceMatch,这是一种利用多种数据增强的高效 SSL 方法。 SequenceMatch 的关键要素是包含未标记数据的中等增强。通过利用不同的增强以及每对增强示例之间的一致性约束,SequenceMatch 有助于减少弱增强示例和强增强示例的模型预测分布之间的差异。此外,SequenceMatch 为高置信度和低置信度预测定义了两种不同的一致性约束。因此,SequenceMatch 比 ReMixMatch 的数据效率更高,并且比 ReMixMatch times4 和 CoMatch times2 的时间效率更高,同时具有更高的准确性。尽管很简单,SequenceMatch 在标准基准测试上始终优于先前的方法,例如 CIFAR 10 100、SVHN 和 STL 10。它还在大规模数据集(例如 ImageNet)上大幅超越了先前最先进的方法,误差为 38.46速度。

3D Masked Autoencoders for Enhanced Privacy in MRI Scans
Authors Lennart Alexander Van der Goten, Kevin Smith
MRI 扫描提供了宝贵的医疗信息,但它们也包含需要保护的敏感和个人身份信息 PII。虽然 MRI 元数据很容易清理,但 MRI 图像数据存在隐私风险,因为它包含渲染患者头部高度逼真的 3D 可视化信息,使恶意行为者可能通过交叉引用数据库来识别受试者。数据匿名化和去识别化涉及确保个人信息的隐私和机密性。传统的 MRI 去识别方法会去除隐私敏感部分,例如给定扫描中的眼睛、鼻子等。这是以引入领域转移为代价的,这可能会导致下游分析失败。最近,提出了一种基于 GAN 的方法,通过重塑患者的扫描来识别患者的扫描,例如改变脸部而不是移除零件。在这项工作中,我们提出了 CP MAE,这是一种使用掩码自动编码器来识别人脸的模型,并且在下游任务性能和去识别方面优于所有先前的方法。通过我们的方法,我们能够合成分辨率高达 256 3 的扫描,之前为 128 立方,这使得体素数量增加了八倍。

Debiasing, calibrating, and improving Semi-supervised Learning performance via simple Ensemble Projector
Authors Khanh Binh Nguyen
最近关于半监督学习SSL的研究取得了巨大成功。尽管它们的性能很有前途,但当前最先进的方法倾向于日益复杂的设计,但代价是引入更多的网络组件和额外的训练程序。在本文中,我们提出了一种名为 Ensemble Projectors Aided for Semi-supervised Learning EPASS 的简单方法,该方法主要致力于改进学习的嵌入,以提高现有对比联合训练半监督学习框架的性能。标准方法是将一台投影仪学习到的嵌入存储在内存库中以用于对比学习,而 EPASS 则将来自多台投影仪的集成嵌入存储在内存库中。因此,EPASS 提高了泛化能力,增强了特征表示,并提高了性能。例如,EPASS 将半监督学习的强基线提高了 39.47 31.39 24.70 top 1 错误率,同时仅使用 SimMatch 的 100k 1 10 标记数据,并在 ImageNet 数据集上为 CoMatch 实现了 40.24 32.64 25.90 top 1 错误率。这些改进在方法、网络架构和数据集上是一致的,证明了所提出方法的总体有效性。

Large Language Models are Temporal and Causal Reasoners for Video Question Answering
Authors Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim
大型语言模型法学硕士在广泛的自然语言理解和生成任务中表现出了卓越的表现。我们观察到法学硕士在利用 textit 语言快捷方式进行视频问答 VideoQA 中的时间和因果推理方面提供了有效的先验。然而,此类先验通常会导致模型过度依赖问题(textit,即 textit 语言偏差),同时忽略视觉内容,从而导致 VideoQA 的结果不理想。这也称为毫无根据的猜测或幻觉。为了解决这个问题,同时利用 VideoQA 上的 LLM,我们提出了一个新颖的框架,Flipped VQA,鼓励模型通过翻转源对和目标标签来预测 langle V、Q、A rangle 三元组的所有组合,以了解它们的复杂性关系,textit,即,分别在给定 VQ、VA 和 QA 对的情况下预测 A、Q 和 V。在本文中,我们通过将 Flipped VQA 应用于 LLaMA 来开发 LLaMA VQA,它在五个具有挑战性的 VideoQA 基准测试中优于基于 LLM 和非基于 LLM 的模型。此外,我们的Flipped VQA是一个通用框架,适用于各种LLM OPT和GPT J,并不断提高其表现。我们凭经验证明,翻转 VQA 不仅增强了对语言捷径的利用,而且还减轻了语言偏差,这种偏差会导致依赖于问题的错误答案。

Interpretable Medical Image Classification using Prototype Learning and Privileged Information
Authors Luisa Gallee, Meinrad Beer, Michael Goetz
可解释性通常是医学成像的基本要求。需要先进的深度学习方法来满足对可解释性和高性能的需求。在这项工作中,我们研究了训练过程中可用的附加信息是否可用于创建可理解且强大的模型。我们提出了一种名为 Proto Caps 的创新解决方案,它利用了胶囊网络、原型学习和特权信息的使用的优势。在 LIDC IDRI 数据集上评估所提出的解决方案表明,它将增强的可解释性与上述最先进的预测性能结合起来。与可解释的基线模型相比,我们的方法在预测恶性肿瘤 93.0 和肺结节平均特征特征方面的准确率提高了 6 以上。

Query-adaptive DETR for Crowded Pedestrian Detection
Authors Feng Gao, Jiaxu Leng, Ji Gan, Xinbo Gao
DEtection TRansformer DETR 及其变体 DETR 已成功应用于拥挤的行人检测,取得了可喜的性能。然而我们发现,在不同程度的拥挤场景下,必须手动调整DETR查询的数量,否则性能会出现不同程度的下降。在本文中,我们首先分析了当前的两种查询生成方法,并总结了设计自适应查询生成方法的四个准则。然后,我们提出基于排名的自适应查询生成 RAQG 来缓解该问题。具体来说,我们设计了一个排名预测头,可以预测编码器生成的最低置信度正训练样本的排名。基于预测的排名,我们设计了一种自适应选择方法,可以自适应地选择编码器产生的粗略检测结果来生成查询。此外,为了更好地训练排名预测头,我们提出了软梯度 L1 损失。 Soft Gradient L1 Loss的梯度是连续的,可以粒度地描述损失值与模型参数更新值之间的关系。我们的方法简单有效,可以插入到任何 DETR 中,使其在理论上具有查询自适应性。在 Crowd human 数据集和 Citypersons 数据集上的实验结果表明,我们的方法可以自适应地生成 DETR 查询并取得有竞争力的结果。

GNeSF: Generalizable Neural Semantic Fields
Authors Hanlin Chen, Chen Li, Mengqi Guo, Zhiwen Yan, Gim Hee Lee
基于神经隐式表示的 3D 场景分割最近出现,具有仅在 2D 监督上进行训练的优点。然而,现有方法仍然需要昂贵的每个场景优化,这阻碍了推理过程中对新场景的泛化。为了解决这个问题,我们引入了一种基于隐式表示的通用 3D 分割框架。具体来说,我们的框架采用多视图图像特征和语义图作为输入,而不仅仅是空间信息,以避免过度拟合场景特定的几何和语义信息。我们提出了一种新颖的软投票机制来聚合每个 3D 点不同视图的 2D 语义信息。除了图像特征之外,我们的框架中还编码了视图差异信息来预测投票分数。直观上,这使得来自附近视图的语义信息比远处视图贡献更多。此外,可见性模块还设计用于检测并过滤掉遮挡视图中的有害信息。由于我们提出的方法的通用性,我们可以合成语义图或仅通过 2D 语义监督对新场景进行 3D 语义分割。实验结果表明,我们的方法实现了与场景特定方法相当的性能。更重要的是,我们的方法甚至可以优于现有的仅具有 2D 注释的基于强监督的方法。

Nighttime Thermal Infrared Image Colorization with Feedback-based Object Appearance Learning
Authors Fu Ya Luo, Shu Lin Liu, Yi Jun Cao, Kai Fu Yang, Chang Yong Xie, Yong Liu, Yong Jie Li
在恶劣环境(例如完全黑暗)中稳定成像使得热红外 TIR 摄像机成为夜景感知的普遍选择。然而,TIR 图像的低对比度和缺乏色度不利于人类解释和基于 RGB 的视觉算法的后续部署。因此,通过将夜间 TIR 图像转换为相应的白天彩色图像 NTIR2DC 来对它们进行着色是有意义的。尽管 NTIR2DC 任务取得了令人印象深刻的进展,但如何提高小对象类的转换性能仍在探索中。为了解决这个问题,我们提出了一种结合基于反馈的对象外观学习 FoalGAN 的生成对抗网络。具体来说,提出了遮挡感知混合模块和相应的外观一致性损失,以减少对象平移的上下文依赖性。作为夜间街道场景中小物体的代表性示例,我们说明了如何通过设计交通灯外观损失来增强交通灯的真实感。为了进一步提高小物体的外观学习,我们设计了一种双反馈学习策略来选择性地调整不同样本的学习频率。此外,我们还为布尔诺数据集的子集提供像素级注释,这可以促进多种天气条件下 NTIR 图像理解的研究。

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation
Authors Yinjie Lei, Zixuan Wang, Feng Chen, Guoqing Wang, Peng Wang, Yang Yang
多模态3D场景理解因其在自动驾驶、人机交互等多个领域的广泛应用而受到广泛关注。与传统的单模态 3D 理解相比,引入额外的模态不仅提高了场景解释的丰富性和精确度,而且还确保了更稳健和有弹性的理解。这在变化多端且充满挑战的环境中变得尤为重要,在这些环境中,仅依靠 3D 数据可能是不够的。虽然过去三年多模态 3D 方法的发展激增,特别是那些集成多相机图像 3D 2D 和文本描述 3D 语言的方法,但明显缺乏全面和深入的审查。在本文中,我们对弥合这一差距的最新进展进行了系统调查。我们首先简要介绍正式定义各种 3D 多模态任务的背景,并总结其固有的挑战。之后,我们提出了一种新颖的分类法,根据模式和任务对现有方法进行彻底分类,探索它们各自的优点和局限性。此外,还提供了几个基准数据集上最新方法的比较结果以及富有洞察力的分析。

Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection
Authors Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
目前的研究主要致力于通过 LiDAR 或多模态同行专家转移的知识来提高仅摄像头 3D 物体检测器学徒的准确性。然而,激光雷达和相机特征之间存在域差距,加上时间融合固有的不兼容性,极大地阻碍了学徒基于蒸馏的增强的有效性。受单模态蒸馏成功的推动,学徒友好的专家模型将主要依赖于相机功能,同时仍能实现与多模态模型相当的性能。为此,我们引入了 VCD,一个改进仅相机学徒模型的框架,包括学徒友好的多模态专家和时间融合友好的蒸馏监督。多模态专家 VCD E 采用与仅相机学徒相同的结构,以减轻特征差异,并在重建 3D 场景之前利用 LiDAR 输入作为深度,实现了与其他异构多模态专家相同的性能。此外,还引入了基于细粒度轨迹的蒸馏模块,其目的是单独纠正场景中每个对象的运动未对准。

Region-controlled Style Transfer
Authors Junjie Kang, Jinsong Wu, Shiqi Jiang
图像风格迁移是计算视觉中的一项具有挑战性的任务。现有算法通过控制神经网络的特征层来传输风格图像的颜色和纹理。然而,它们无法控制内容图像不同区域的纹理强度。为了解决这个问题,我们提出了一种使用损失函数来约束不同区域的风格强度的训练方法。该方法根据风格图像和内容图像之间的梯度关系来指导不同区域的风格特征的传递强度。此外,我们引入了一种新颖的特征融合方法,该方法将内容特征线性转换为相似的风格特征,同时保留它们的语义关系。

Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework
Authors Weixi Weng, Chun Yuan
无监督域自适应目标检测UDAOD对Detection Transformer DETR的研究主要集中在特征对齐上,现有方法可分为两种,每种方法都有其未解决的问题。一阶段特征对齐方法很容易导致性能波动和训练停滞。基于均值教师的两阶段特征对齐方法包括预训练阶段和自训练阶段,每个阶段都面临着获得可靠的预训练模型和实现一致的性能增益的问题。上述方法尚未探索如何利用第三相关域(例如目标类域)来辅助适应。为了解决这些问题,我们提出了一个名为 MTM 的两阶段框架,即 Mean Teacher DETR with Masked Feature Alignment。在预训练阶段,我们利用图像风格迁移生成的标记目标图像来避免性能波动。在自训练阶段,我们通过基于平均教师的伪标签来利用未标记的目标图像,并提出了一个名为对象查询知识转移 OQKT 的模块,以确保学生模型的一致性能增益。最重要的是,我们提出了屏蔽特征对齐方法,包括基于屏蔽域查询的特征对齐MDQFA和屏蔽令牌明智的特征对齐MTWFA,以更鲁棒的方式减轻域转移,这不仅可以防止训练停滞,而且可以在预训练中产生鲁棒的预训练模型阶段,还增强了模型在自训练阶段的目标表现。

GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Detection
Authors Yan Lu, Xinzhu Ma, Lei Yang, Tianzhu Zhang, Yating Liu, Qi Chu, Tong He, Yonghui Li, Wanli Ouyang
几何形状在单目 3D 物体检测中发挥着重要作用。它可以利用物体物理尺寸之间的透视投影和图像平面上的二维投影来估计物体深度,这可以将数学先验引入深度模型。然而,这个投影过程也引入了误差放大,其中估计高度的误差被放大并反映到投影深度中。它会导致不可靠的深度推断,还会损害训练稳定性。为了解决这个问题,我们通过以概率方式对几何投影进行建模,提出了一种新颖的几何不确定性传播网络 GUPNet。这确保了深度预测有很好的界限并与合理的不确定性相关。引入这种几何不确定性的意义是双重的 1 。它对训练过程中几何投影的不确定性传播关系进行建模,提高端到端模型学习的稳定性和效率。 2.可以得出高度可靠的置信度来指示 3D 检测结果的质量,从而实现更可靠的检测推断。

I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal Mutual Distillation
Authors Yunyao Mao, Jiajun Deng, Wengang Zhou, Zhenbo Lu, Wanli Ouyang, Houqiang Li
自监督 3D 人类动作表征学习的最新进展很大程度上归功于对比学习。然而,在传统的对比框架中,不同骨架模式之间丰富的互补性仍有待探索。此外,通过区分自我增强样本进行优化,模型在有限的动作类别的情况下与大量相似的积极实例作斗争。在这项工作中,我们通过引入通用的模态间和模内相互蒸馏 I 2 MD 框架来解决上述问题。在 I 2 MD 中,我们首先将跨模态交互重新表述为跨模态相互蒸馏 CMD 过程。与现有的将预先训练的固定教师的知识转移给学生的蒸馏解决方案不同,在 CMD 中,知识在预训练期间在模式之间不断更新和双向蒸馏。为了减轻相似样本的干扰并利用其底层上下文,我们进一步设计了模态内相互蒸馏 IMD 策略,在 IMD 中,首先引入了动态邻居聚合 DNA 机制,其中在每个模态中实例化了一个额外的簇级别判别分支。它自适应地聚合高度相关的相邻特征,形成局部簇级别对比。然后两个分支之间进行相互蒸馏,进行跨层次的知识交换。

Learning with Noisy Labels Using Collaborative Sample Selection and Contrastive Semi-Supervised Learning
Authors Qing Miao, Xiaohe Wu, Chao Xu, Yanli Ji, Wangmeng Zuo, Yiwen Guo, Zhaopeng Meng
使用噪声标签学习 LNL 已被广泛研究,现有方法通常遵循在干净样本选择和半监督学习 SSL 之间交替的框架。然而,这种方法有一个局限性:深度神经网络 DNN 分类器选择的干净集,通过自训练训练,不可避免地包含噪声样本。这种干净样本和噪声样本的混合会导致 SSL 期间 DNN 训练的误导,由于样本选择中的错误累积造成的确认偏差,从而导致泛化性能受损。为了解决这个问题,我们提出了一种称为协作样本选择 CSS 的方法,该方法利用大规模预训练模型 CLIP。 CSS 的目的是从已识别的干净集中去除混合噪声样本。我们通过训练二维高斯混合模型 2D GMM 来实现这一目标,该模型将 CLIP 的概率与 DNN 分类器的预测相结合。为了进一步增强 CLIP 对 LNL 的适应性,我们在半监督学习中引入了具有对比损失的协同训练机制。这使我们能够联合训练 CLIP 和 DNN 分类器的提示,从而改进特征表示,提高 DNN 的分类性能,并为我们的协作样本选择带来互惠互利。通过整合来自 CLIP 的辅助信息并利用即时微调,我们有效地从干净集中消除了噪声样本,并减轻了训练期间的确认偏差。

Cross-view Self-localization from Synthesized Scene-graphs
Authors Ryogo Yamamoto, Kanji Tanaka
跨视图自定位是视觉位置识别的一个具有挑战性的场景,其中数据库图像是从稀疏视点提供的。最近,出现了一种使用 NeRF 神经辐射场技术从看不见的视点合成数据库图像的方法,其性能令人印象深刻。然而,这些技术提供的合成图像的质量通常低于原始图像,而且它们显着增加了数据库的存储成本。在本研究中,我们探索了一种新的混合场景模型,该模型结合了从原始图像计算的视图不变外观特征和从合成图像计算的视图相关空间语义特征的优点。然后将这两类特征融合到场景图中,并由图神经网络进行压缩学习和识别。

Salient Object Detection in RGB-D Videos
Authors Ao Mou, Yukang Lu, Jiahao He, Dingyao Min, Keren Fu, Qijun Zhao
鉴于深度传感采集设备的广泛采用,RGB D 视频和相关数据媒体在日常生活的各个方面获得了相当大的关注。因此,在 RGB D 视频中进行显着目标检测 SOD 提供了一种非常有前途且不断发展的途径。尽管该领域具有潜力,但 RGB D 视频中的 SOD 仍有待探索,传统上 RGB D SOD 和视频 SOD VSOD 是孤立研究的。为了探索这个新兴领域,本文做出了两个主要贡献:数据集和模型。一方面,我们构建了 RDVS 数据集,这是一种具有真实深度的新 RGB D VSOD 数据集,其特点是场景多样性和严格的逐帧注释。我们通过全面的属性和面向对象的分析来验证数据集,并提供训练和测试拆分。此外,我们引入了 DCTNet,一个专为 RGB D VSOD 定制的三流网络,强调 RGB 模态,并将深度和光流视为辅助模态。为了追求有效的特征增强、细化和融合以实现精确的最终预测,我们提出了两个模块:多模态注意力模块 MAM 和细化融合模块 RFM 。为了增强 RFM 内的交互和融合,我们设计了一个通用交互模块 UIM,然后集成整体多模态注意路径 HMAP,以在达到 RFM 之前细化多模态低级特征。在伪 RGB D 视频数据集和我们的 RDVS 上进行的综合实验突显了 DCTNet 相对于 17 个 VSOD 模型和 14 个 RGB D SOD 模型的优越性。在伪和真实 RGB D 视频数据集上进行了消融实验,以证明各个模块的优势以及引入真实深度的必要性。

Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks
Authors Xiaojun Jia, Jianshu Li, Jindong Gu, Yang Bai, Xiaochun Cao
对抗性训练在针对对抗性示例构建强大的模型方面显示出了希望。对抗性训练的一个主要缺点是生成对抗性示例带来的计算开销。为了克服这一限制,人们探索了基于单步攻击的对抗性训练。之前的工作从不同角度改进了单步对抗训练,例如样本初始化、损失正则化和训练策略。几乎所有的人都将底层模型视为黑匣子。在这项工作中,我们建议利用模型的内部构建模块来提高效率。具体来说,我们建议在训练期间动态采样轻量级子网络作为代理模型。通过这样做,可以加速前向和后向传递,以实现有效的对抗训练。此外,我们提供的理论分析表明,通过采样子网络的单步对抗训练可以提高模型的鲁棒性。此外,我们提出了一种新颖的采样策略,其中采样随层和迭代而变化。与以前的方法相比,我们的方法不仅降低了训练成本,而且实现了更好的模型鲁棒性。对一系列流行数据集的评估证明了所提出的 FB Better 的有效性。

G2-MonoDepth: A General Framework of Generalized Depth Inference from Monocular RGB+X Data
Authors Haotian Wang, Meng Yang, Nanning Zheng
单目深度推理是机器人场景感知的一个基本问题。特定的机器人可能配备相机和任何类型的可选深度传感器,并位于不同尺度的各种场景中,而最近的进展衍生了多个单独的子任务。这会给特定机器人的模型微调带来额外的负担,从而导致大规模工业化中的高成本定制。本文研究了单目深度推理的统一任务,该任务从未见过的场景中的各种机器人的各种输入原始数据中推断出高质量的深度图。为此任务开发了一个基本基准 G2 MonoDepth,它包含四个组件:a 统一的数据表示 RGB X,以适应 RGB 加上具有不同场景尺度语义的原始深度、深度稀疏度 0 、 100 和错误孔噪声模糊;b 一种新颖的统一损失来适应针对输入原始数据的不同深度稀疏误差和输出场景的不同尺度,我们可以使用改进的网络来很好地将不同的场景尺度从输入传播到输出,并使用数据增强管道来模拟原始深度图中的所有类型的真实伪影以进行训练。

Remote Heart Rate Monitoring in Smart Environments from Videos with Self-supervised Pre-training
Authors Divij Gupta, Ali Etemad
深度学习的最新进展使得通过分析视频在智能环境中远程估计心率变得越来越可行。然而,深度学习方法的一个显着局限性是它们严重依赖大量标记数据来进行有效训练。为了解决这个问题,自我监督学习已成为一种有前途的途径。在此基础上,我们引入了一种解决方案,利用自监督对比学习来估计远程光电体积描记 PPG 和心率监测,从而减少对标记数据的依赖并提高性能。我们建议使用 3 个空间增强和 3 个时间增强通过对比框架训练编码器,然后利用编码器的后期中间嵌入进行远程 PPG 和心率估计。我们在两个公开可用的数据集上进行的实验展示了我们提出的方法相对于几项相关工作以及监督学习基线的改进,因为我们的结果接近最先进的水平。我们还进行了彻底的实验,以展示使用不同设计选择的效果,例如视频表示学习方法、预训练阶段使用的增强等。

Deep Integrated Explanations
Authors Oren Barkan, Yehonathan Elisha, Jonathan Weill, Yuval Asher, Amit Eshel, Noam Koenigstein
本文提出了深度集成解释 DIX 是一种解释视觉模型的通用方法。 DIX 通过集成模型中间表示的信息及其相应的梯度来生成解释图。

LXMERT Model Compression for Visual Question Answering
Authors Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
诸如 LXMERT 之类的大规模预训练模型正在变得流行,用于学习视觉语言任务的文本图像对的跨模态表示。根据彩票假设,NLP 和计算机视觉模型包含较小的子网络,能够单独训练以达到最佳性能。在本文中,我们结合这些观察结果来评估在对 VQA 任务进行微调时 LXMERT 中是否存在此类可训练子网络。此外,我们通过调查在不显着损失准确性的情况下可以进行多少修剪来执行模型大小成本效益分析。

Videoprompter: an ensemble of foundational models for zero-shot video understanding
Authors Adeel Yousaf, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah
视觉语言模型 VLM 通过计算视觉特征和基于文本的类标签表示之间的相似度得分来对查询视频进行分类。最近,大型语言模型 LLM 已被用于通过增强类名称的描述性来丰富基于文本的类标签。然而,这些改进仅限于基于文本的分类器,并且没有考虑查询视觉特征。在本文中,我们提出了一个框架,将预训练的判别性 VLM 与预训练的生成视频到文本和文本到文本模型相结合。我们对标准零射击设置进行了两项关键修改。首先,我们提出语言引导的视觉特征增强,并采用视频到文本模型将查询视频转换为其描述形式。生成的描述包含查询视频的重要视觉线索,例如存在哪些对象及其时空交互。这些描述性线索为 VLM 提供了额外的语义知识,以增强其零样本性能。其次,我们向法学硕士提出视频特定提示,以生成更有意义的描述,以丰富类标签表示。具体来说,我们引入了提示技术来为类名创建类别树层次结构,为额外的视觉提示提供更高级别的动作上下文,我们展示了我们的方法在三种不同的零镜头设置1视频动作识别,2中视频理解的有效性视频到文本和文本到视频检索,以及 3 个时间敏感的视频任务。跨多个基准和各种 VLM 的一致改进证明了我们提出的框架的有效性。

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
Authors Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
公开可用的视觉基础模型 VFM(例如 CLIP 和 Segment Anything Model SAM)的范围正在迅速扩大。 VFM 因其预训练目标而被赋予独特的能力。例如,CLIP 擅长语义理解,而 SAM 擅长分割的空间理解。在这项工作中,我们引入了一个简单的方法,可以有效地将 VFM 合并到一个统一的模型中,以吸收他们的专业知识。我们提出的方法集成了多任务学习、持续学习技术和师生蒸馏。与传统的从头开始的多任务训练相比,这种策略需要显着减少计算成本。此外,它只需要最初用于训练单个模型的预训练数据集的一小部分。通过将我们的方法应用于 SAM 和 CLIP,我们得出了 SAM CLIP 一个统一模型,它将 SAM 和 CLIP 的优势合并到一个主干中,使其适合边缘设备应用。我们证明 SAM CLIP 可以学习更丰富的视觉表示,具有定位和语义特征,适用于广泛的视觉任务。与 SAM 和 CLIP 相比,SAM CLIP 在多项头部探测任务中获得了改进的性能。我们进一步表明,SAM CLIP 不仅保留了其前身模型的基础优势,还引入了协同功能,尤其是在零样本语义分割方面,其中 SAM CLIP 在 5 个基准上建立了新的最先进结果。

Inject Semantic Concepts into Image Tagging for Open-Set Recognition
Authors Xinyu Huang, Yi Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
在本文中,我们通过将语义概念注入图像标记训练框架,介绍了 Recognize Anything Plus Model RAM,这是一种具有强大开放集识别能力的基本图像识别模型。以前的方法要么是受有限语义约束的图像标记模型,要么是具有浅层交互的视觉语言模型,在多标签识别中性能不佳。相比之下,RAM 将图像文本对齐和图像标记集成在基于图像标签文本三元组的统一细粒度交互框架中。这种设计使得RAM不仅能够出色地识别预定义类别,而且还显着增强了开放集类别的识别能力。此外,RAM采用大型语言模型LLM来生成多样化的视觉标签描述,开创性地将LLM的知识整合到图像标签训练中。这种方法使 RAM 能够在推理过程中集成视觉描述概念以进行开放集识别。对综合图像识别基准的评估表明,RAM 在大多数方面都超过了现有最先进的 SOTA 基本图像识别模型。具体来说,对于预定义的常用标签类别,RAM 在 OpenImages 和 ImageNet 上展示了相对于 CLIP 的 10.2 mAP 和 15.4 mAP 增强。对于超出预定义的开放集类别,RAM 在 OpenImages 上分别比 CLIP 和 RAM 记录了 5 mAP 和 6.4 mAP 的改进。对于不同的人类对象交互短语,RAM 在 HICO 基准上实现了 7.8 mAP 和 4.7 mAP 改进。

ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty
Authors Joey Wilson, Yuewei Fu, Joshua Friesen, Parker Ewen, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, Maani Ghaffari
在本文中,我们开发了一种用于不确定环境中实时语义映射的模块化神经网络,它显式更新神经网络层内每个体素的概率分布。我们的方法将经典概率算法的可靠性与现代神经网络的性能和效率结合起来。尽管机器人感知通常分为现代可微分方法和经典显式方法,但两者的结合对于实时和值得信赖的性能是必要的。我们引入了一种新颖的卷积贝叶斯核推理 ConvBKI 层,该层利用共轭先验,通过深度卷积层将语义分割预测在线合并到 3D 地图中。我们将 ConvBKI 与最先进的深度学习方法和概率算法进行比较,以进行映射以评估可靠性和性能。

Human-in-the-Loop Task and Motion Planning for Imitation Learning
Authors Ajay Mandlekar, Caelan Garrett, Danfei Xu, Dieter Fox
从人类演示中进行模仿学习可以教会机器人复杂的操作技能,但既费时又费力。相比之下,任务和运动规划 TAMP 系统是自动化的,擅长解决长期任务,但它们很难应用于接触丰富的任务。在本文中,我们提出了人机循环任务和运动规划 HITL TAMP,这是一种利用这两种方法优点的新颖系统。该系统采用 TAMP 门控控制机制,有选择地向人类远程操作员提供控制权或从人类远程操作员那里获取控制权。这使得人类远程操作员能够管理一组机器人,从而最大限度地提高数据收集效率。然后,将收集到的人类数据与模仿学习框架相结合来训练 TAMP 门控策略,从而与完整任务演示的训练相比获得更优异的性能。我们将 HITL TAMP 与传统远程操作系统进行了比较,在相同的时间预算下,用户收集的演示数量是其 3 倍以上。此外,只需 10 分钟的非专家远程操作数据即可训练出熟练的代理 75 成功。最后,我们收集了 2.1K 个 HITL TAMP 演示,涉及 12 个接触丰富的长期任务,并表明该系统通常会产生近乎完美的代理。

Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles
Authors Xing Shen, Hengguan Huang, Brennan Nichyporuk, Tal Arbel
虽然深度学习模型在一系列医学图像分析任务中取得了显着的成功,但在实际临床环境中部署这些模型要求它们对所获取图像的变化具有鲁棒性。虽然许多方法应用预定义的转换来增强训练数据以增强测试时间的鲁棒性,但这些转换可能无法确保模型对患者图像中看到的各种变异性的鲁棒性。在本文中,我们介绍了一种基于变压器与条件扩散模型相结合的新型三阶段方法,其目标是提高模型对实践中常见的成像变异性的鲁棒性,而不需要预先确定的数据增强策略。为此,多个图像编码器首先学习分层特征表示以构建有区别的潜在空间。接下来,由潜在代码引导的反向扩散过程作用于信息丰富的先验,并以生成方式提出预测候选。最后,几个预测候选者在双层聚合协议中聚合以产生最终输出。通过对医学成像基准数据集的广泛实验,我们表明我们的方法在鲁棒性和置信度校准方面改进了最先进的方法。

On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms
Authors Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner
人工智能 人工智能已经进入各个科学领域,为各种任务的现有算法提供了惊人的改进。近年来,人们对人工智能技术的可信度产生了严重担忧。科学界一直致力于开发值得信赖的人工智能算法。然而,当今人工智能社区中流行的机器和深度学习算法在很大程度上依赖于其开发过程中使用的数据。这些学习算法识别数据中的模式,学习行为目标。数据中的任何缺陷都有可能直接转化为算法。在这项研究中,我们讨论了负责任的机器学习数据集的重要性,并提出了一个通过负责任的标准评估数据集的框架。虽然现有的工作重点是对算法的可信度进行事后评估,但我们提供了一个单独考虑数据组件的框架,以了解其在算法中的作用。我们从公平、隐私和监管合规性的角度讨论负责任的数据集,并为构建未来数据集提供建议。在调查了 100 多个数据集后,我们使用 60 个数据集进行分析,并证明这些数据集都无法免受公平性、隐私保护和监管合规性问题的影响。我们对数据集的数据表进行了修改,并添加了重要内容以改进数据集文档。随着世界各国政府规范数据保护法,科学界创建数据集的方法需要修改。

Unpaired MRI Super Resolution with Self-Supervised Contrastive Learning
Authors Hao Li, Quanwei Liu, Jianan Liu, Xiling Liu, Yanni Dong, Tao Huang, Zhihan Lv
高分辨率 HR 磁共振成像 MRI 对于提高临床诊断的准确性至关重要。尽管如此,MRI分辨率固有的局限性限制了其广泛应用。基于深度学习的图像超分辨率 SR 方法有望在无需额外成本的情况下提高 MRI 分辨率。然而,这些方法经常需要大量的 HR MRI 图像进行训练,而获取这些图像可能具有挑战性。在本文中,我们提出了一种不成对的 MRI SR 方法,该方法采用自监督对比学习来通过有限的训练数据来增强 SR 性能。我们的方法利用真实的 HR 图像和合成生成的 SR 图像来构建正负样本对,从而促进判别特征的学习。本研究中提出的实证结果强调了即使在可用的 HR 图像很少的情况下,峰值信噪比和结构相似性指数也显着增强。

Physics-Informed with Power-Enhanced Residual Network for Interpolation and Inverse Problems
Authors Amir Noorizadegan, D.L. Young, Y.C. Hon, C.S. Chen
本文介绍了一种称为功率增强残差网络的新型神经网络结构,旨在提高 2D 和 3D 设置中平滑和非平滑函数的插值能力。通过向剩余元素添加幂项,该架构增强了网络的表达能力。该研究探索了网络深度、宽度和优化方法,展示了该架构的适应性和性能优势。一致地,结果强调了所提出的功率增强残差网络的卓越准确性,特别是对于非平滑函数。现实世界的例子也证实了它在准确性、收敛性和效率方面优于普通神经网络。该研究还着眼于更深层次网络的影响。此外,所提出的架构还应用于求解反 Burgers 方程,展示了优越的性能。总之,功率增强残差网络提供了一种多功能解决方案,可显着增强神经网络的功能。

Grasp Multiple Objects with One Hand
Authors Yuyang Li, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, Siyuan Huang
人手复杂的运动学允许同时抓取和操纵多个物体,这对于物体转移和手动操纵等任务至关重要。尽管机器人多物体抓取很重要,但它仍然未被充分探索,并且在运动学、动力学和物体配置方面提出了挑战。本文介绍了 MultiGrasp,这是一种用多指灵巧手在桌面上抓取多个物体的两阶段方法。它涉及生成预抓取建议以及执行抓取和举起物体。实验结果主要集中在双物体抓取上,成功率为 44.13,展示了对看不见的物体配置和不精确抓取的适应性。

Emergent Communication in Interactive Sketch Question Answering
Authors Zixing Lei, Yiming Zhang, Yuxin Xiong, Siheng Chen
基于视觉的紧急交流 EC 旨在通过草图学习交流,并揭开人类交流进化的神秘面纱。讽刺的是,以前的作品忽视了人类交流中不可或缺的多轮互动。为了填补这一空白,我们首先引入了一种新颖的交互式草图问答 ISQA 任务,其中两个协作玩家通过草图进行交互,以多轮方式回答有关图像的问题。为了完成这项任务,我们设计了一种新的、高效的交互式EC系统,它可以在回答准确性、绘图复杂性和人类可解释性三个评估因素之间取得有效平衡。

Facial Data Minimization: Shallow Model as Your Privacy Filter
Authors Yuwen Pu, Jiahao Chen, Jiayu Pan, Hao li, Diqun Yan, Xuhong Zhang, Shouling Ji
人脸识别服务已经应用于很多领域,给人们带来了很多便利。然而,一旦用户的面部数据被传输给服务提供商,用户将失去对其私人数据的控制。近年来,由于人脸数据泄露,存在各种安全和隐私问题。尽管已经提出了许多隐私保护方法,但当对手策略或辅助数据无法访问时,它们通常会失败。因此,本文充分考虑人脸识别服务系统中非常典型的上传人脸图像和人脸特征的两种情况,提出了一种数据隐私最小化变换PMT方法。该方法可以基于授权服务的浅层模型对原始人脸数据进行处理,得到混淆数据。混淆后的数据不仅可以在授权模型上保持令人满意的性能并限制其他未授权模型上的性能,还可以防止原始隐私数据被人工智能方法泄露和人类视觉窃取。此外,由于服务提供商可能会对接收到的数据执行预处理操作,因此我们还提出了一种增强的扰动方法来提高 PMT 的鲁棒性。此外,为了同时将一张面部图像授权给多个服务模型,提出了多重限制机制来提高PMT的可扩展性。最后,我们进行了广泛的实验并评估了所提出的 PMT 在防御人脸重建、数据滥用和人脸属性估计攻击方面的有效性。

Multimodal Representations for Teacher-Guided Compositional Visual Reasoning
Authors Wafa Aissa CEDRIC VERTIGO , Marin Ferecatu CEDRIC VERTIGO , Michel Crucianu CEDRIC VERTIGO
神经模块网络 NMN 是一种引人注目的视觉问答方法,能够将问题转化为由一系列推理子任务组成的程序,这些子任务在图像上顺序执行以产生答案。与集成模型相比,NMN 提供了增强的可解释性,可以更好地理解底层推理过程。为了提高 NMN 的有效性,我们建议利用大规模交叉模态编码器获得的特征。此外,当前 NMN 的训练方法依赖于将模块输出传播到后续模块,导致预测误差累积并产生错误答案。为了缓解这个问题,我们引入了一种涉及预定教师指导的 NMN 学习策略。最初,该模型完全由真实中间输出引导,但随着训练的进展逐渐过渡到自主行为。

VMAF Re-implementation on PyTorch: Some Experimental Results
Authors Kirill Aistov, Maxim Koroteev
基于标准 VMAF 实现,我们提出了使用 PyTorch 框架的 VMAF 实现。对于此实现,与标准 libvmaf 的比较显示了 VMAF 单位中的 lesssim 10 2 差异。

PET Synthesis via Self-supervised Adaptive Residual Estimation Generative Adversarial Network
Authors Yuxin Xue, Lei Bi, Yige Peng, Michael Fulham, David Dagan Feng, Jinman Kim
正电子发射断层扫描PET是临床诊断中广泛使用的高灵敏度分子成像。人们对减少 PET 辐射暴露同时保持足够的图像质量很感兴趣。据报道,最近使用卷积神经网络 CNN 从低剂量对应物生成合成高质量 PET 图像的方法是低到高图像恢复方法的最新技术。然而,这些方法很容易表现出合成图像和真实图像之间纹理和结构的差异。此外,低剂量 PET 和标准 PET 之间的分布变化尚未得到充分研究。为了解决这些问题,我们开发了一种自监督自适应残差估计生成对抗网络 SS AEGAN 。我们介绍了 1 一种自适应残差估计映射机制 AE Net,旨在通过将低剂量 PET 和合成输出之间的残差图作为输入来动态校正初步合成的 PET 图像,以及 2 一种自监督预训练策略,以增强粗略生​​成器的特征表示。

DeepIron: Predicting Unwarped Garment Texture from a Single Image
Authors Hyun Song Kwon, Sung Hee Lee
从图像中逼真地重建 3D 服装具有广泛的应用,例如头像创建和虚拟试穿。本文提出了一种新颖的框架,可以从具有姿势的单个图像重建 3D 服装的纹理图。假设3D服装是通过拼接2D服装缝纫图案来建模的,我们的具体目标是为缝纫图案生成纹理图像。我们框架的关键组件,纹理反扭曲器,从输入的服装图像中推断出原始纹理图像,该图像由于用户的身体形状和姿势而表现出纹理的扭曲和遮挡。纹理反扭曲器通过映射两个图像的潜在空间来有效地在输入和输出图像之间进行转换。通过推断输入服装的未变形原始纹理,我们的方法有助于重建 3D 服装模型,该模型可以显示针对新姿势真实变形的高质量纹理图像。我们通过与其他方法和消融研究的比较来验证我们方法的有效性。

Towards contrast-agnostic soft segmentation of the spinal cord
Authors Sandrine B dard, Naga Karthik Enamundram, Charidimos Tsagkas, Emanuele Pravat , Cristina Granziera, Andrew Smith, Kenneth Arnold Weber II, Julien Cohen Adad
脊髓分割具有临床意义,尤其用于计算脊髓横截面积 CSA,以诊断和监测脊髓受压或多发性硬化症等神经退行性疾病。虽然存在几种半自动方法,但一个关键的限制仍然是分割取决于 MRI 对比度,导致不同对比度的 CSA 不同。这部分是由于脊髓和脑脊液之间的边界外观不同,这取决于序列和采集参数。这种对比敏感的 CSA 增加了多中心研究的可变性,其中方案可能有所不同,从而降低了检测细微萎缩的敏感性。此外,现有方法通过为每个对比训练一个模型来增强 CSA 的可变性,同时还生成不考虑部分体积效应的二元掩模。在这项工作中,我们提出了一种基于深度学习的方法,可以产生脊髓的软分割。使用健康参与者文本 n 267 个文本对比 6 的 Spine 通用公共数据库,我们首先通过对所有 6 个对比的二进制分割进行平均来生成参与者明智的软地面真值 GT。然后使用这些软 GT 以及基于回归的损失函数来训练用于脊髓分割的 UNet 模型。我们根据最先进的方法评估了我们的模型,并进行了涉及不同 GT 掩模类型、损失函数和对比特定模型的消融研究。我们的结果表明,使用软平均分割和回归损失函数可降低 CSA 变异性 p 0.05(Wilcoxon 符号秩检验)。

Vicinal Feature Statistics Augmentation for Federated 3D Medical Volume Segmentation
Authors Yongsong Huang, Wanqing Xie, Mingzhen Li, Mingmei Cheng, Jinzhou Wu, Weixiao Wang, Jane You, Xiaofeng Liu
联邦学习 FL 使多个客户医疗机构能够协作训练具有隐私保护的深度学习 DL 模型。然而,FL 的性能可能会受到小型机构中标记数据的有限可用性和异构性(即非独立同分布)的限制。跨机构的数据分布。尽管数据增强已经成为一种行之有效的技术,可以作为免费午餐来提高传统集中式深度学习的泛化能力,但它在 FL 中的应用在很大程度上尚未得到充分探索。值得注意的是,受成本高昂的标签限制,3D 医学分割通常依赖于数据增强。在这项工作中,我们的目标是开发一种邻近特征级数据增强 VFDA 方案,以有效缓解局部特征转移并促进隐私意识 FL 分割的协作训练。我们同时考虑了机构内部和机构间的差异,无需跨机构传输原始数据或将其混合。具体来说,我们利用批量特征统计数据,例如每个机构的均值和标准差来抽象表示数据的差异,并通过高斯原型对每个特征统计量进行概率建模,均值对应于原始统计量,方差量化了增强范围。从邻近风险最小化的角度来看,可以从高斯分布中提取新的特征统计来实现增强。方差是由每个单独机构的数据偏差和所有参与机构所表征的基础特征统计数据明确得出的。

DeepVox and SAVE-CT: a contrast- and dose-independent 3D deep learning approach for thoracic aorta segmentation and aneurysm prediction using computed tomography scans
Authors Matheus del Valle, Lariza Laura de Oliveira, Henrique Cursino Vieira, Henrique Min Ho Lee, Lucas Lembran a Pinheiro, Maria Fernanda Portugal, Newton Shydeo Brand o Miyoshi, Nelson Wolosker
胸主动脉瘤 TAA 是一种致命疾病,主动脉逐渐增大,可能导致夹层或破裂。它通常是无症状的,并且筛查建议有限。金标准评估是通过计算机断层扫描血管造影CTA和放射科医生耗时的评估来进行的。其他适应症的扫描可能有助于此筛查,但如果在没有对比增强或低剂量方案的情况下进行扫描,除了增加放射科医生的扫描数量之外,还可能使临床评估变得困难。在这项研究中,选择了 587 例独特的 CT 扫描,包括对照和 TAA 患者,采用低剂量和标准剂量方案采集,有或没有对比增强。一种新颖的分割模型 DeepVox 的开发集和测试集的骰子得分系数分别为 0.932 和 0.897,与文献报道的模型相比,训练速度更快。新颖的 TAA 分类模型 SAVE CT 仅使用 DeepVox 的二进制分割掩码作为输入,没有手工设计特征,开发集和测试集的准确度分别为 0.930 和 0.922。这两个模型一起成为 TAA 筛查的潜在方法,因为它们可以处理可变数量的切片作为输入,处理胸部和胸腹序列,以全自动对比和剂量独立评估。

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下,可以使用视频拍摄的环境记录,这可以帮助完成此过程。然而,在视频游戏和动画中,不存在参考音频,需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统,然后将其与音频或文本嵌入结合使用,以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式,我们将完全的创意控制权交给了声音设计师,同时消除了与视频同步的负担。此外,编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多,从而简化了可听化过程。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(视觉,计算机视觉,Papers,计算机视觉,CV,图像恢复,数据集,diffusion,model,nerf,stable,diffusion)