AI视野·今日CS.CV 计算机视觉论文速览
Mon, 29 Jan 2024
Totally 55 papers
上期速览✈更多精彩请移步主页
Annotated Hands for Generative Models Authors Yue Yang, Atith N Gandhi, Greg Turk GAN 和扩散模型等生成模型已经展示了令人印象深刻的图像生成能力。尽管取得了这些成功,但这些系统在用手创建图像方面却表现得令人惊讶。我们提出了一种新颖的生成模型训练框架,可以大大提高此类系统创建手部图像的能力。我们的方法是通过三个附加通道来增强训练图像,这些通道为图像中的手提供注释。这些注释提供了额外的结构,可以引导生成模型生成更高质量的手部图像。我们在两种不同的生成模型(生成对抗网络和扩散模型)上演示了这种方法。我们在新的手部图像合成数据集和包含手部的真实照片上展示了我们的方法。 |
From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities Authors Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang 多模态大语言模型 MLLM 在针对多模态内容生成合理响应方面表现出了令人印象深刻的能力。然而,尽管已经部署了最强大的 OpenAI 的 GPT 4 和 Google 的 Gemini,但最近基于 MLLM 的应用程序的性能与广大公众的期望之间仍然存在很大差距。本文致力于通过对文本、代码、图像和视频四种模式的最新专有和开源 MLLM 的普遍性、可信度和因果推理能力进行定性研究,增强对差距的理解,最终旨在提高 MLLM 的透明度。我们相信这些特性是定义 MLLM 在支持各种下游应用方面的可靠性的几个代表性因素。具体来说,我们评估了闭源 GPT 4 和 Gemini 以及 6 个开源 LLM 和 MLLM。总的来说,我们评估了 230 个手动设计的案例,然后将定性结果总结为 12 个分数,即 4 种模式乘以 3 个属性。 |
Deep learning-based approach for tomato classification in complex scenes Authors Mikael A. Mousse, Bethel C. A. R. K. Atohoun, Cina Motamed 追踪成熟的西红柿既耗时又费力。人工智能技术与计算机视觉技术相结合,可以帮助用户优化监测植物成熟状态的过程。为此,我们提出了一种基于复杂场景下深度学习的番茄成熟监测方法。目的是检测成熟的西红柿并及时收获。提议的方法分两部分被拒绝。首先,将场景图像传输到预处理层。此过程允许检测包含西红柿的图像的感兴趣区域。然后,这些图像用作成熟度检测层的输入。该层基于深度神经网络学习算法,将提供给它的番茄缩略图分为以下五类之一:绿色、脆性、粉红色、淡红色、成熟红色。这些实验基于从互联网上收集的图像,这些图像是通过使用番茄状态在英语、德语、法语和西班牙语等多种语言中进行搜索而收集的。 |
Unrecognizable Yet Identifiable: Image Distortion with Preserved Embeddings Authors Dmytro Zakharov, Oleksandr Kuznetsov, Emanuele Frontoni 在安全应用领域,生物识别系统发挥着至关重要的作用,但在开发生物识别系统时经常遇到隐私和安全方面的挑战。最基本的挑战之一在于避免将生物识别信息直接存储在存储器中,但仍能实现相当高的准确性。为了解决这个问题,我们为人工智能和工程领域做出了贡献。我们引入了一种创新的图像失真技术,可以有效地使人眼无法识别面部图像,同时通过神经网络模型保持其可识别性。从理论角度来看,我们通过检查图像失真的最大程度来探索最先进的生物识别神经网络的可靠性,这使得预测的身份保持不变。另一方面,应用该技术展示了平衡生物识别系统中的安全性、精度和性能的工程挑战的实用解决方案。通过对广泛使用的数据集进行实验,我们评估了我们的方法在保留人工智能特征表示和相对于传统指标的扭曲方面的有效性。 |
Learning Neural Radiance Fields of Forest Structure for Scalable and Fine Monitoring Authors Juan Castorena 这项工作利用神经辐射场和遥感进行林业应用。在这里,我们展示了神经辐射场为改进森林监测中现有遥感方法提供了广泛的可能性。我们提出的实验证明了它们的潜力:1 表达森林 3D 结构的精细特征,2 融合可用的遥感模式,3 改进 3D 结构导出的森林指标。 |
BackdoorBench: A Comprehensive Benchmark and Analysis of Backdoor Learning Authors Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Mingli Zhu, Ruotong Wang, Li Liu, Chao Shen 作为研究深度神经网络漏洞DNN的新兴重要课题,后门学习近年来引起了越来越多的兴趣,许多开创性的后门攻击和防御算法正在相继或同时开发,处于快速军备竞赛的状态。然而,主要由于设置的多样性,以及现有工作的实施和再现性的困难,缺乏统一和规范的后门学习基准,导致不公平的比较,以及不可靠的结论,例如误导、有偏见甚至错误的结论。因此,很难评估该文献当前的进展并设计未来的发展路线。为了缓解这种困境,我们建立了一个名为 BackdoorBench 的综合后门学习基准。我们的基准为研究界做出了三项宝贵的贡献。 1 我们提供最先进的 SOTA 后门学习算法的集成实现,目前包括 16 种攻击算法和 27 种防御算法,基于可扩展的模块化代码库。 2 我们基于 4 个模型和 4 个数据集,对 12 种攻击、16 种防御、5 种中毒率进行了综合评估,总共 11,492 对评估。 3 基于上述评估,我们通过 18 个有用的分析工具从 8 个角度进行了丰富的分析,并提供了一些关于后门学习的启发性见解。我们希望我们的努力能够为后门学习奠定坚实的基础,方便研究人员研究现有算法,开发更多创新算法,探索后门学习的内在机制。 |
Masked Pre-trained Model Enables Universal Zero-shot Denoiser Authors Xiaoxiao Ma, Zhixiang Wei, Yi Jin, Pengyang Ling, Tianle Liu, Ben Wang, Junkang Dai, Huaian Chen, Enhong Chen 在这项工作中,我们观察到该模型使用掩蔽策略在大量普通图像上进行训练,自然地嵌入了有关自然图像的分布知识,从而自发地获得了强图像去噪的潜在潜力。基于这一观察,我们提出了一种新颖的零样本去噪范例,即 Masked Pre train then Iterative fill MPI 。 MPI 使用掩蔽来预训练模型,并对其进行微调,以对单个图像进行去噪,从而实现看不见的噪声退化。具体而言,所提出的 MPI 包括两个关键程序: 1 掩码预训练涉及使用随机掩码在多个自然图像上训练模型以收集可概括的表示,从而允许在不同的噪声退化甚至不同图像类型中进行实际应用。 2 迭代填充旨在有效融合预先训练的去噪知识。与预训练类似但不同的是,保留随机掩蔽以弥补差距,但为了提高效率,仅组装掩蔽覆盖的预测部分,从而在有限的迭代次数内实现高质量的去噪。跨各种噪声场景的综合实验强调了所提出的 MPI 相对于以前的方法的显着进步,并且推理时间显着减少。 |
DAM: Diffusion Activation Maximization for 3D Global Explanations Authors Hanxiao Tan 近年来,点云模型的性能得到了快速提升。然而,由于相关可解释性研究的数量有限,这些黑盒模型的不可靠性和不透明性可能会在危及人类生命的应用中带来潜在风险,例如:自动驾驶或医疗保健。这项工作提出了一种基于 DDPM 的点云全局可解释性方法 DAM,该方法利用点扩散变换器 PDT(一种新颖的点对称模型)和双分类器指导来生成高质量的全局解释。此外,还提出了一种适用于 DAM 的路径梯度积分方法,该方法不仅提供了点云类别显着性图的全局概述,而且还揭示了解释的属性在生成过程中如何变化。大量的实验表明,我们的方法在可感知性、代表性和多样性方面优于现有方法,并且生成时间显着减少。 |
PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus Authors Florian Kluger, Bodo Rosenhahn 我们提出了一种实时方法,用于从噪声数据中鲁棒地估计几何模型的多个实例。消失点、平面单应性或基本矩阵等几何模型对于 3D 场景分析至关重要。以前的方法以迭代方式发现不同的模型实例,从而限制了它们通过并行计算加速的潜力。相比之下,我们的方法独立且并行地检测所有模型实例。神经网络通过预测多组样本和内点权重,将输入数据分割成代表潜在模型实例的簇。使用预测的权重,我们以类似 RANSAC 的方式分别确定每个潜在实例的模型参数。我们通过特定于任务的损失函数来训练神经网络,即我们不需要输入数据的真实分割。由于单应性和基本矩阵拟合的合适训练数据很少,我们另外提供了两个新的合成数据集。 |
MPTQ-ViT:Mixed-PrecisionPost-TrainingQuantizationforVisionTransformer Authors Yu Shan Tai, An Yeu Andy Wu 虽然视觉转换器 ViT 在计算机视觉任务中显示出巨大潜力,但其密集的计算和内存需求给实际应用带来了挑战。现有的训练后量化方法利用值重新分配或专门的量化器来解决 ViT 中的非正态分布。然而,如果不考虑激活的不对称性并依赖于手工设置,这些方法通常很难在低位量化下保持性能。为了克服这些挑战,我们引入了带有偏置项 SQ b 的 SmoothQuant,以缓解不对称问题并减少钳位损耗。我们还引入了最佳缩放因子比率搜索 OPT m,以通过数据依赖机制自动确定量化参数。为了进一步增强可压缩性,我们结合了上述技术,并提出了一种用于视觉变换器 MPTQ ViT 的混合精度训练后量化框架。我们开发了贪婪混合精度量化 Greedy MP,以考虑模型性能和可压缩性来分配逐层位宽。我们在 ViT、DeiT 和 Swin 上的实验表明,与 ImageNet 数据集上的 SOTA 相比,准确性有了显着提高。 |
Implicit Neural Representation for Physics-driven Actuated Soft Bodies< |