hitrjj

【AI视野·今日CV 计算机视觉论文速览第275期】Wed, 25 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 25 Oct 2023
Totally 61 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Synthetic Data as Validation
Authors Qixin Hu, Alan Yuille, Zongwei Zhou
这项研究利用合成数据作为验证集，以减少过度拟合并简化人工智能开发中最佳模型的选择。虽然合成数据已用于增强训练集，但我们发现合成数据还可以显着使验证集多样化，在医疗保健等领域提供显着的优势，这些领域的数据通常有限、敏感且来自域外来源（即医院）。在这项研究中，我们说明了计算机断层扫描 CT 体积中合成数据用于早期癌症检测的有效性，其中生成合成肿瘤并将其叠加到健康器官上，从而创建用于严格验证的广泛数据集。使用合成数据作为验证可以提高人工智能在域内和域外测试集中的鲁棒性。此外，我们建立了一个新的持续学习框架，可以在合成肿瘤的域外数据流上持续训练人工智能模型。在动态扩展的合成数据中训练和验证的人工智能模型可以始终优于仅在现实世界数据上训练和验证的模型。具体来说，在域内数据集上评估时，肝脏肿瘤分割的 DSC 评分从 26.7 95 CI 22.6 30.9 提高到 34.5 30.8 38.2，在域外数据集上评估时，从 31.1 26.0 36.2 提高到 35.4 32.1 38.7。重要的是，在识别 CT 体积中半径为 5mm 的非常微小的肝脏肿瘤方面，性能提升尤其显着，域内数据集的灵敏度从 33.1 提高到 55.4，域外数据集的灵敏度从 33.9 提高到 52.3，证明了癌症早期检测的有效性。。

From Posterior Sampling to Meaningful Diversity in Image Restoration
Authors Noa Cohen, Hila Manor, Yuval Bahat, Tomer Michaeli
图像恢复问题通常是病态的，因为每个退化的图像都可以通过无限多种有效的方式恢复。为了适应这一点，许多工作通过尝试从给定退化输入的自然图像的后验分布中随机采样来生成一组不同的输出。在这里，我们认为，由于后验分布的重尾，这种策略通常实用价值有限。例如，考虑修复图像中缺失的天空区域。由于缺失区域很可能不包含除云之外的任何物体，因此后验的任何样本集都将完全由几乎相同的天空完成情况主导。然而，可以说，仅向用户提供一个晴朗的天空完成情况，以及几种替代解决方案，例如飞艇、鸟类和气球，可以更好地概述一系列可能性。在本文中，我们发起了有意义的多样化图像恢复的研究。我们探索了几种后处理方法，这些方法可以与任何不同的图像恢复方法相结合，以产生语义上有意义的多样性。此外，我们提出了一种实用的方法，允许基于扩散的图像恢复方法生成有意义的多样化输出，同时仅产生可忽略的计算开销。我们进行了广泛的用户研究来分析所提出的技术，并发现减少输出之间相似性的策略明显优于后验采样。

Woodpecker: Hallucination Correction for Multimodal Large Language Models
Authors Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, Enhong Chen
幻觉是笼罩在快速发展的多模态大型语言模型MLLM上的一个大阴影，指的是生成的文本与图像内容不一致的现象。为了减轻幻觉，现有的研究主要采用指令调整的方式，需要用特定的数据重新训练模型。在本文中，我们开辟了一条不同的道路，引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样，它从生成的文本中挑选并纠正幻觉。具体来说，啄木鸟由关键概念提取、问题制定、视觉知识验证、视觉主张生成和幻觉纠正五个阶段组成。 Woodpecker 以后补救方式实现，可以轻松地为不同的 MLLM 提供服务，同时可以通过访问五个阶段的中间输出进行解释。我们对啄木鸟进行了定量和定性评估，并展示了这种新范式的巨大潜力。在 POPE 基准测试中，我们的方法比基线 MiniGPT 4 mPLUG Owl 的准确度提高了 30.66 24.33。

Stanford-ORB: A Real-World 3D Object Inverse Rendering Benchmark
Authors Zhengfei Kuang, Yunzhi Zhang, Hong Xing Yu, Samir Agarwala, Shangzhe Wu, Jiajun Wu
我们推出了斯坦福 ORB，一种新的现实世界 3D 对象逆向渲染基准。逆向渲染的最新进展使得 3D 内容生成在现实世界中得到广泛应用，并迅速从研究和商业用例转向消费设备。虽然结果不断改进，但现实世界中还没有基准可以定量评估和比较各种逆渲染方法的性能。现有的现实世界数据集通常仅包含物体的形状和多视图图像，这不足以评估材料回收和物体重新照明的质量。能够恢复材料和照明的方法通常依靠合成数据进行定量评估，另一方面，这不能保证推广到复杂的现实世界环境。我们引入了一个新的数据集，其中包含在各种自然场景下通过地面实况 3D 扫描、多视图图像和环境照明捕获的现实世界对象。

What's Left? Concept Grounding with Logic-Enhanced Foundation Models
Authors Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Jiajun Wu
VisProg 和 ViperGPT 等最近的作品使用大型语言模型 LLM 巧妙地构建了视觉推理的基础模型，以生成可以由预先训练的视觉语言模型执行的程序。然而，它们在有限的领域（例如 2D 图像）中运行，没有充分利用语言抽象概念的概括，例如向左移动也可以基于 3D、时间和动作数据，例如向左移动。这种有限的泛化源于这些仅推理方法无法学习或使预训练模型适应新领域。我们提出了逻辑增强基础模型 LEFT ，这是一个统一的框架，通过可微的、与域无关的、基于一阶逻辑的程序执行器来学习跨域概念的基础和推理。 LEFT 有一个 LLM 解释器，它输出以通用的、基于逻辑的推理语言表示的程序，该语言在所有领域和任务之间共享。然后，LEFT 的执行器使用可训练的特定领域接地模块执行程序。我们证明 LEFT 可以灵活地学习 2D 图像、3D 场景、人体运动和机器人操作四个领域的概念。

Visual Cropping Improves Zero-Shot Question Answering of Multimodal Large Language Models
Authors Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
多模态大语言模型法学硕士最近在视觉问答 VQA 上实现了有希望的零射击精度，这是影响各种下游应用程序和领域的基本任务。鉴于这些模型广泛使用的巨大潜力，研究它们在处理不同图像和问题属性时的局限性非常重要。在这项工作中，我们研究多模态法学硕士是否可以感知图像中的小细节和大细节。特别是，我们表明，他们在回答视觉问题时的零镜头准确率对问题的视觉主题的大小非常敏感，随着大小的增加下降到 46。此外，我们通过观察人类视觉裁剪可以显着减轻他们对尺寸的敏感度来证明这种效应是因果关系。受人类裁剪实用性的启发，我们提出了三种自动视觉裁剪方法作为推理时间机制，以提高多模态 LLM 的零样本性能。我们研究了它们在四个流行的 VQA 数据集以及针对精细视觉细节定制的 VQAv2 数据集子集上的有效性。我们的研究结果表明，在细节敏感的 VQA 应用中应谨慎使用多模态 LLM，并且视觉裁剪是提高其零样本性能的一个有希望的方向。

CVPR 2023 Text Guided Video Editing Competition
Authors Jay Zhangjie Wu, Xiuyu Li, Difei Gao, Zhen Dong, Jinbin Bai, Aishani Singh, Xiaoyu Xiang, Youzeng Li, Zuwei Huang, Yuanxi Sun, Rui He, Feng Hu, Junhua Hu, Hai Huang, Hanyu Zhu, Xu Cheng, Jie Tang, Mike Zheng Shou, Kurt Keutzer, Forrest Iandola
人们每天观看视频的时间超过十亿小时。该视频大部分是手动编辑的，这是一个繁琐的过程。然而，人工智能支持的视频生成和视频编辑正在兴起。生成式人工智能以 Stable Diffusion 和 Imagen 等文本到图像模型为基础，在视频任务方面有了显着改进。但由于没有标准基准，因此很难评估这些视频任务的进展。因此，我们提出了一个用于文本引导视频编辑的新数据集 TGVE，并在 CVPR 上举办了一场竞赛，以评估 TGVE 数据集上的模型。在本文中，我们回顾了比赛并描述了获胜方法。

Integrating View Conditions for Image Synthesis
Authors Jinbin Bai, Zhen Dong, Aosong Feng, Xiao Zhang, Tian Ye, Kaicheng Zhou, Mike Zheng Shou
在图像处理领域，在现有图像中应用复杂的语义修改仍然是一个持久的挑战。本文介绍了一种集成视点信息的开创性框架，以增强对图像编辑任务的控制。通过调查现有的对象编辑方法，我们提炼出图像编辑方法应满足的三个基本标准：一致性、可控性和和谐性。与以前的方法相比，我们的方法率先满足了解决图像合成挑战的所有三个要求。通过全面的实验，包括定量评估和与当代最先进方法的定性比较，我们提供了令人信服的证据，证明我们的框架在多个维度上具有卓越的性能。

Transitivity Recovering Decompositions: Interpretable and Robust Fine-Grained Relationships
Authors Abhra Chaudhuri, Massimiliano Mancini, Zeynep Akata, Anjan Dutta
细粒度表示学习的最新进展利用局部到全局的新兴关系来实现最先进的结果。然而，此类方法所依赖的关系表示是抽象的。我们的目标是通过将它们表达为图像视图上的可解释图形来解构这种抽象。我们首先从理论上证明抽象关系表示只不过是恢复局部视图之间传递关系的一种方式。基于此，我们设计了传递性恢复分解 TRD，这是一种图空间搜索算法，可以识别实例和类级别上抽象紧急关系的可解释等价物，并且无需事后计算。我们还表明，TRD 对于噪声观点具有鲁棒性，经验证据也支持这一发现。后者使 TRD 能够达到与最先进水平相当甚至更好的性能，同时具有完全可解释性。

Vision-Language Pseudo-Labels for Single-Positive Multi-Label Learning
Authors Xin Xing, Zhexiao Xiong, Abby Stylianou, Srikumar Sastry, Liyu Gong, Nathan Jacobs
本文提出了一种单正多标签学习的新方法。在一般的多标签学习中，模型学习预测单个输入图像的多个标签或类别。这与标准多类图像分类相反，标准多类图像分类的任务是从图像的许多可能标签中预测单个标签。单正多标签学习 SPML 特别考虑在训练数据中每个图像只有一个注释时学习预测多个标签。在许多方面，多标签学习比单标签学习更现实，因为现实世界的数据通常同时涉及属于多个类别的实例，但是，由于收集多个高质量数据的固有复杂性和成本，最常见的计算机视觉数据集主要包含单个标签。每个实例的注释。我们提出了一种称为视觉语言伪标签 VLPL 的新颖方法，它使用视觉语言模型来建议强正负伪标签，并且在 Pascal VOC 上比当前的 SOTA 方法高出 5.5，在 MS COCO 上比当前 SOTA 方法高出 18.4，在 NUS WIDE 上比当前 SOTA 方法高出 15.2， CUB Birds 8.4。

Geometry-Aware Video Quality Assessment for Dynamic Digital Human
Authors Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai
动态数字人DDH是使用预定义运动进行动画处理的3D数字模型，不可避免地会受到生成过程中的噪声偏移和传输过程中的压缩失真的困扰，需要进行感知评估。通常，DDH 显示为 2D 渲染动画视频，很自然地将视频质量评估 VQA 方法应用于 DDH 质量评估 DDH QA 任务。然而，VQA 方法高度依赖于视点，并且对基于几何的扭曲不太敏感。因此，在本文中，我们针对 DDH QA 挑战提出了一种新颖的无参考 NR 几何感知视频质量评估方法。几何特征由从 DDH 几何属性分布估计的统计参数来描述。从渲染的视频中获取空间和时间特征。最后，将各种特征整合并回归为质量值。

Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection
Authors Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
DETR 的引入代表了对象检测的新范例。然而，其解码器使用共享查询和交叉注意层进行分类和框定位，导致结果不理想。我们观察到视觉特征图中的不同感兴趣区域适合执行查询分类和框定位任务，即使对于同一对象也是如此。显着区域为分类提供了重要信息，而它们周围的边界更有利于框回归。不幸的是，这两项任务之间的这种空间错位极大地阻碍了 DETR 的训练。因此，在这项工作中，我们重点关注 DETR 中定位和分类任务的解耦。为了实现这一目标，我们引入了一种称为空间解耦 DETR SD DETR 的新设计方案，其中包括任务感知查询生成模块和解耦特征学习过程。我们精心设计了任务感知查询初始化过程，并在解码器中划分交叉注意块，以允许任务感知查询匹配不同的视觉区域。同时，我们还观察到存在高分类置信度和精确定位的预测失准问题，因此我们提出了对齐损失来进一步指导空间解耦的DETR训练。通过大量的实验，我们证明与之前的工作相比，我们的方法在 MSCOCO 数据集上取得了显着的改进。例如，我们将 Conditional DETR 的性能提高了 4.5 AP。

Language-driven Scene Synthesis using Multi-conditional Diffusion Model
Authors An Vuong, Minh Nhat Vu, Toan Tien Nguyen, Baoru Huang, Dzung Nguyen, Thieu Vo, Anh Nguyen
场景合成对于多种工业应用来说都是一个具有挑战性的问题。最近，人们投入了大量精力来使用人体动作、房间布局或空间图作为输入来合成场景。然而，很少有研究从多种方式解决这个问题，特别是结合文本提示。在本文中，我们提出了一种语言驱动的场景合成任务，这是一种集成文本提示、人体运动和现有对象进行场景合成的新任务。与其他单条件综合任务不同，我们的问题涉及多个条件，需要一种策略将它们处理和编码到统一的空间中。为了应对这一挑战，我们提出了一种多条件扩散模型，该模型通过显式预测原始数据分布的指导点来不同于其他扩散文献的隐式统一方法。我们证明我们的方法在理论上是有支持性的。密集的实验结果表明，我们的方法优于最先进的基准，并支持自然场景编辑应用程序。

ShARc: Shape and Appearance Recognition for Person Identification In-the-wild
Authors Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia
由于外观、环境、退化和遮挡的变化，在不受约束的视频环境中识别个体是生物识别分析中一项有价值但具有挑战性的任务。在本文中，我们提出了 ShARc，这是一种在不受控制的环境中基于视频进行人员识别的多模态方法，强调 3D 身体形状、姿势和外观。我们引入两个编码器：姿势和形状编码器 PSE 和聚合外观编码器 AAE。 PSE 通过二值化轮廓、骨骼运动和 3D 身体形状对身体形状进行编码，而 AAE 提供基于特征聚合和平均聚合的两个级别的时间外观特征聚合注意。对于基于注意力的特征聚合，我们利用空间和时间注意力来关注人物区分的关键领域。对于平均聚合，我们在平均后引入了一种新颖的扁平化层，以提取更多可区分的信息并减少注意力的过度拟合。我们利用质心特征平均来进行画廊注册。

Mitigate Domain Shift by Primary-Auxiliary Objectives Association for Generalizing Person ReID
Authors Qilei Li, Shaogang Gong
虽然深度学习在独立同分布 IID 假设下显着提高了 ReID 模型的准确性，但也很明显，当应用于看不见的新领域时，由于不可预测的未知域转移，此类模型会显着降低。当代领域泛化 DG ReID 模型仅通过实例分类目标的训练来学习领域不变表示。我们认为深度学习模型受到严重影响，因此偏向领域特定特征，例如背景杂乱、尺度和视点变化，限制了学习模型的泛化性，并假设行人具有领域不变性，因为他们共享相同的结构特征。为了使 ReID 模型对这些纯行人的领域特定性较小，我们引入了一种方法，通过弱标记行人显着性检测的并发辅助学习目标来指导主要 ReID 实例分类目标的模型学习。为了解决两个学习目标之间模型参数空间中优化标准冲突的问题，我们引入了主要辅助目标关联 PAOA 机制来校准辅助任务相对于主要学习任务梯度的损失梯度。受益于和谐的多任务学习设计，我们的模型可以使用最近的测试时间图进行扩展，形成 PAOA ，它针对辅助目标进行动态优化，以最大化模型在测试目标域中的生成能力。

Automatic Aorta Segmentation with Heavily Augmented, High-Resolution 3-D ResUNet: Contribution to the SEG.A Challenge
Authors Marek Wodzinski, Henning M ller
从 3D 医学体积自动分割主动脉是一项重要但困难的任务。有几个因素使这个问题具有挑战性，例如主动脉夹层的可能性或分割和注释小分支的困难。这项工作展示了 MedGIFT 团队对 MICCAI 2023 会议期间组织的 SEG.A 挑战的贡献。我们提出了一种基于深度编码器解码器架构的全自动算法。我们工作背后的主要假设是数据预处理和增强比深层架构重要得多，尤其是在低数据情况下。因此，该解决方案基于传统卷积 U Net 的变体。所提出的解决方案在所有测试用例中获得了 0.9 以上的 Dice 分数，并且在所有参与者中具有最高的稳定性。该方法在临床评估、定量结果和体积网格划分质量方面分别获得第一、第四和第三。

SequenceMatch: Revisiting the design of weak-strong augmentations for Semi-supervised learning
Authors Khanh Binh Nguyen
半监督学习 SSL 近年来变得流行，因为它允许使用大量未标记数据来训练模型。然而，许多 SSL 方法面临的一个问题是确认偏差，当模型过度拟合小型标记训练数据集并产生过度自信、不正确的预测时，就会出现这种情况。为了解决这个问题，我们提出了 SequenceMatch，这是一种利用多种数据增强的高效 SSL 方法。 SequenceMatch 的关键要素是包含未标记数据的中等增强。通过利用不同的增强以及每对增强示例之间的一致性约束，SequenceMatch 有助于减少弱增强示例和强增强示例的模型预测分布之间的差异。此外，SequenceMatch 为高置信度和低置信度预测定义了两种不同的一致性约束。因此，SequenceMatch 比 ReMixMatch 的数据效率更高，并且比 ReMixMatch times4 和 CoMatch times2 的时间效率更高，同时具有更高的准确性。尽管很简单，SequenceMatch 在标准基准测试上始终优于先前的方法，例如 CIFAR 10 100、SVHN 和 STL 10。它还在大规模数据集（例如 ImageNet）上大幅超越了先前最先进的方法，误差为 38.46速度。

3D Masked Autoencoders for Enhanced Privacy in MRI Scans
Authors Lennart Alexander Van der Goten, Kevin Smith
MRI 扫描提供了宝贵的医疗信息，但它们也包含需要保护的敏感和个人身份信息 PII。虽然 MRI 元数据很容易清理，但 MRI 图像数据存在隐私风险，因为它包含渲染患者头部高度逼真的 3D 可视化信息，使恶意行为者可能通过交叉引用数据库来识别受试者。数据匿名化和去识别化涉及确保个人信息的隐私和机密性。传统的 MRI 去识别方法会去除隐私敏感部分，例如给定扫描中的眼睛、鼻子等。这是以引入领域转移为代价的，这可能会导致下游分析失败。最近，提出了一种基于 GAN 的方法，通过重塑患者的扫描来识别患者的扫描，例如改变脸部而不是移除零件。在这项工作中，我们提出了 CP MAE，这是一种使用掩码自动编码器来识别人脸的模型，并且在下游任务性能和去识别方面优于所有先前的方法。通过我们的方法，我们能够合成分辨率高达 256 3 的扫描，之前为 128 立方，这使得体素数量增加了八倍。

Debiasing, calibrating, and improving Semi-supervised Learning performance via simple Ensemble Projector
Authors Khanh Binh Nguyen
最近关于半监督学习SSL的研究取得了巨大成功。尽管它们的性能很有前途，但当前最先进的方法倾向于日益复杂的设计，但代价是引入更多的网络组件和额外的训练程序。在本文中，我们提出了一种名为 Ensemble Projectors Aided for Semi-supervised Learning EPASS 的简单方法，该方法主要致力于改进学习的嵌入，以提高现有对比联合训练半监督学习框架的性能。标准方法是将一台投影仪学习到的嵌入存储在内存库中以用于对比学习，而 EPASS 则将来自多台投影仪的集成嵌入存储在内存库中。因此，EPASS 提高了泛化能力，增强了特征表示，并提高了性能。例如，EPASS 将半监督学习的强基线提高了 39.47 31.39 24.70 top 1 错误率，同时仅使用 SimMatch 的 100k 1 10 标记数据，并在 ImageNet 数据集上为 CoMatch 实现了 40.24 32.64 25.90 top 1 错误率。这些改进在方法、网络架构和数据集上是一致的，证明了所提出方法的总体有效性。

Large Language Models are Temporal and Causal Reasoners for Video Question Answering
Authors Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim
大型语言模型法学硕士在广泛的自然语言理解和生成任务中表现出了卓越的表现。我们观察到法学硕士在利用 textit 语言快捷方式进行视频问答 VideoQA 中的时间和因果推理方面提供了有效的先验。然而，此类先验通常会导致模型过度依赖问题（textit，即 textit 语言偏差），同时忽略视觉内容，从而导致 VideoQA 的结果不理想。这也称为毫无根据的猜测或幻觉。为了解决这个问题，同时利用 VideoQA 上的 LLM，我们提出了一个新颖的框架，Flipped VQA，鼓励模型通过翻转源对和目标标签来预测 langle V、Q、A rangle 三元组的所有组合，以了解它们的复杂性关系，textit，即，分别在给定 VQ、VA 和 QA 对的情况下预测 A、Q 和 V。在本文中，我们通过将 Flipped VQA 应用于 LLaMA 来开发 LLaMA VQA，它在五个具有挑战性的 VideoQA 基准测试中优于基于 LLM 和非基于 LLM 的模型。此外，我们的Flipped VQA是一个通用框架，适用于各种LLM OPT和GPT J，并不断提高其表现。我们凭经验证明，翻转 VQA 不仅增强了对语言捷径的利用，而且还减轻了语言偏差，这种偏差会导致依赖于问题的错误答案。

Interpretable Medical Image Classification using Prototype Learning and Privileged Information
Authors Luisa Gallee, Meinrad Beer, Michael Goetz
可解释性通常是医学成像的基本要求。需要先进的深度学习方法来满足对可解释性和高性能的需求。在这项工作中，我们研究了训练过程中可用的附加信息是否可用于创建可理解且强大的模型。我们提出了一种名为 Proto Caps 的创新解决方案，它利用了胶囊网络、原型学习和特权信息的使用的优势。在 LIDC IDRI 数据集上评估所提出的解决方案表明，它将增强的可解释性与上述最先进的预测性能结合起来。与可解释的基线模型相比，我们的方法在预测恶性肿瘤 93.0 和肺结节平均特征特征方面的准确率提高了 6 以上。

Query-adaptive DETR for Crowded Pedestrian Detection
Authors Feng Gao, Jiaxu Leng, Ji Gan, Xinbo Gao
DEtection TRansformer DETR 及其变体 DETR 已成功应用于拥挤的行人检测，取得了可喜的性能。然而我们发现，在不同程度的拥挤场景下，必须手动调整DETR查询的数量，否则性能会出现不同程度的下降。在本文中，我们首先分析了当前的两种查询生成方法，并总结了设计自适应查询生成方法的四个准则。然后，我们提出基于排名的自适应查询生成 RAQG 来缓解该问题。具体来说，我们设计了一个排名预测头，可以预测编码器生成的最低置信度正训练样本的排名。基于预测的排名，我们设计了一种自适应选择方法，可以自适应地选择编码器产生的粗略检测结果来生成查询。此外，为了更好地训练排名预测头，我们提出了软梯度 L1 损失。 Soft Gradient L1 Loss的梯度是连续的，可以粒度地描述损失值与模型参数更新值之间的关系。我们的方法简单有效，可以插入到任何 DETR 中，使其在理论上具有查询自适应性。在 Crowd human 数据集和 Citypersons 数据集上的实验结果表明，我们的方法可以自适应地生成 DETR 查询并取得有竞争力的结果。

GNeSF: Generalizable Neural Semantic Fields
Authors Hanlin Chen, Chen Li, Mengqi Guo, Zhiwen Yan, Gim Hee Lee
基于神经隐式表示的 3D 场景分割最近出现，具有仅在 2D 监督上进行训练的优点。然而，现有方法仍然需要昂贵的每个场景优化，这阻碍了推理过程中对新场景的泛化。为了解决这个问题，我们引入了一种基于隐式表示的通用 3D 分割框架。具体来说，我们的框架采用多视图图像特征和语义图作为输入，而不仅仅是空间信息，以避免过度拟合场景特定的几何和语义信息。我们提出了一种新颖的软投票机制来聚合每个 3D 点不同视图的 2D 语义信息。除了图像特征之外，我们的框架中还编码了视图差异信息来预测投票分数。直观上，这使得来自附近视图的语义信息比远处视图贡献更多。此外，可见性模块还设计用于检测并过滤掉遮挡视图中的有害信息。由于我们提出的方法的通用性，我们可以合成语义图或仅通过 2D 语义监督对新场景进行 3D 语义分割。实验结果表明，我们的方法实现了与场景特定方法相当的性能。更重要的是，我们的方法甚至可以优于现有的仅具有 2D 注释的基于强监督的方法。

Nighttime Thermal Infrared Image Colorization with Feedback-based Object Appearance Learning
Authors Fu Ya Luo, Shu Lin Liu, Yi Jun Cao, Kai Fu Yang, Chang Yong Xie, Yong Liu, Yong Jie Li
在恶劣环境（例如完全黑暗）中稳定成像使得热红外 TIR 摄像机成为夜景感知的普遍选择。然而，TIR 图像的低对比度和缺乏色度不利于人类解释和基于 RGB 的视觉算法的后续部署。因此，通过将夜间 TIR 图像转换为相应的白天彩色图像 NTIR2DC 来对它们进行着色是有意义的。尽管 NTIR2DC 任务取得了令人印象深刻的进展，但如何提高小对象类的转换性能仍在探索中。为了解决这个问题，我们提出了一种结合基于反馈的对象外观学习 FoalGAN 的生成对抗网络。具体来说，提出了遮挡感知混合模块和相应的外观一致性损失，以减少对象平移的上下文依赖性。作为夜间街道场景中小物体的代表性示例，我们说明了如何通过设计交通灯外观损失来增强交通灯的真实感。为了进一步提高小物体的外观学习，我们设计了一种双反馈学习策略来选择性地调整不同样本的学习频率。此外，我们还为布尔诺数据集的子集提供像素级注释，这可以促进多种天气条件下 NTIR 图像理解的研究。

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation
Authors Yinjie Lei, Zixuan Wang, Feng Chen, Guoqing Wang, Peng Wang, Yang Yang
多模态3D场景理解因其在自动驾驶、人机交互等多个领域的广泛应用而受到广泛关注。与传统的单模态 3D 理解相比，引入额外的模态不仅提高了场景解释的丰富性和精确度，而且还确保了更稳健和有弹性的理解。这在变化多端且充满挑战的环境中变得尤为重要，在这些环境中，仅依靠 3D 数据可能是不够的。虽然过去三年多模态 3D 方法的发展激增，特别是那些集成多相机图像 3D 2D 和文本描述 3D 语言的方法，但明显缺乏全面和深入的审查。在本文中，我们对弥合这一差距的最新进展进行了系统调查。我们首先简要介绍正式定义各种 3D 多模态任务的背景，并总结其固有的挑战。之后，我们提出了一种新颖的分类法，根据模式和任务对现有方法进行彻底分类，探索它们各自的优点和局限性。此外，还提供了几个基准数据集上最新方法的比较结果以及富有洞察力的分析。

Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection
Authors Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
目前的研究主要致力于通过 LiDAR 或多模态同行专家转移的知识来提高仅摄像头 3D 物体检测器学徒的准确性。然而，激光雷达和相机特征之间存在域差距，加上时间融合固有的不兼容性，极大地阻碍了学徒基于蒸馏的增强的有效性。受单模态蒸馏成功的推动，学徒友好的专家模型将主要依赖于相机功能，同时仍能实现与多模态模型相当的性能。为此，我们引入了 VCD，一个改进仅相机学徒模型的框架，包括学徒友好的多模态专家和时间融合友好的蒸馏监督。多模态专家 VCD E 采用与仅相机学徒相同的结构，以减轻特征差异，并在重建 3D 场景之前利用 LiDAR 输入作为深度，实现了与其他异构多模态专家相同的性能。此外，还引入了基于细粒度轨迹的蒸馏模块，其目的是单独纠正场景中每个对象的运动未对准。

Region-controlled Style Transfer
Authors Junjie Kang, Jinsong Wu, Shiqi Jiang
图像风格迁移是计算视觉中的一项具有挑战性的任务。现有算法通过控制神经网络的特征层来传输风格图像的颜色和纹理。然而，它们无法控制内容图像不同区域的纹理强度。为了解决这个问题，我们提出了一种使用损失函数来约束不同区域的风格强度的训练方法。该方法根据风格图像和内容图像之间的梯度关系来指导不同区域的风格特征的传递强度。此外，我们引入了一种新颖的特征融合方法，该方法将内容特征线性转换为相似的风格特征，同时保留它们的语义关系。

Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework
Authors Weixi Weng, Chun Yuan
无监督域自适应目标检测UDAOD对Detection Transformer DETR的研究主要集中在特征对齐上，现有方法可分为两种，每种方法都有其未解决的问题。一阶段特征对齐方法很容易导致性能波动和训练停滞。基于均值教师的两阶段特征对齐方法包括预训练阶段和自训练阶段，每个阶段都面临着获得可靠的预训练模型和实现一致的性能增益的问题。上述方法尚未探索如何利用第三相关域（例如目标类域）来辅助适应。为了解决这些问题，我们提出了一个名为 MTM 的两阶段框架，即 Mean Teacher DETR with Masked Feature Alignment。在预训练阶段，我们利用图像风格迁移生成的标记目标图像来避免性能波动。在自训练阶段，我们通过基于平均教师的伪标签来利用未标记的目标图像，并提出了一个名为对象查询知识转移 OQKT 的模块，以确保学生模型的一致性能增益。最重要的是，我们提出了屏蔽特征对齐方法，包括基于屏蔽域查询的特征对齐MDQFA和屏蔽令牌明智的特征对齐MTWFA，以更鲁棒的方式减轻域转移，这不仅可以防止训练停滞，而且可以在预训练中产生鲁棒的预训练模型阶段，还增强了模型在自训练阶段的目标表现。

GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Detection
Authors Yan Lu, Xinzhu Ma, Lei Yang, Tianzhu Zhang, Yating Liu, Qi Chu, Tong He, Yonghui Li, Wanli Ouyang
几何形状在单目 3D 物体检测中发挥着重要作用。它可以利用物体物理尺寸之间的透视投影和图像平面上的二维投影来估计物体深度，这可以将数学先验引入深度模型。然而，这个投影过程也引入了误差放大，其中估计高度的误差被放大并反映到投影深度中。它会导致不可靠的深度推断，还会损害训练稳定性。为了解决这个问题，我们通过以概率方式对几何投影进行建模，提出了一种新颖的几何不确定性传播网络 GUPNet。这确保了深度预测有很好的界限并与合理的不确定性相关。引入这种几何不确定性的意义是双重的 1 。它对训练过程中几何投影的不确定性传播关系进行建模，提高端到端模型学习的稳定性和效率。 2.可以得出高度可靠的置信度来指示 3D 检测结果的质量，从而实现更可靠的检测推断。

I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal Mutual Distillation
Authors Yunyao Mao, Jiajun Deng, Wengang Zhou, Zhenbo Lu, Wanli Ouyang, Houqiang Li
自监督 3D 人类动作表征学习的最新进展很大程度上归功于对比学习。然而，在传统的对比框架中，不同骨架模式之间丰富的互补性仍有待探索。此外，通过区分自我增强样本进行优化，模型在有限的动作类别的情况下与大量相似的积极实例作斗争。在这项工作中，我们通过引入通用的模态间和模内相互蒸馏 I 2 MD 框架来解决上述问题。在 I 2 MD 中，我们首先将跨模态交互重新表述为跨模态相互蒸馏 CMD 过程。与现有的将预先训练的固定教师的知识转移给学生的蒸馏解决方案不同，在 CMD 中，知识在预训练期间在模式之间不断更新和双向蒸馏。为了减轻相似样本的干扰并利用其底层上下文，我们进一步设计了模态内相互蒸馏 IMD 策略，在 IMD 中，首先引入了动态邻居聚合 DNA 机制，其中在每个模态中实例化了一个额外的簇级别判别分支。它自适应地聚合高度相关的相邻特征，形成局部簇级别对比。然后两个分支之间进行相互蒸馏，进行跨层次的知识交换。

Learning with Noisy Labels Using Collaborative Sample Selection and Contrastive Semi-Supervised Learning
Authors Qing Miao, Xiaohe Wu, Chao Xu, Yanli Ji, Wangmeng Zuo, Yiwen Guo, Zhaopeng Meng
使用噪声标签学习 LNL 已被广泛研究，现有方法通常遵循在干净样本选择和半监督学习 SSL 之间交替的框架。然而，这种方法有一个局限性：深度神经网络 DNN 分类器选择的干净集，通过自训练训练，不可避免地包含噪声样本。这种干净样本和噪声样本的混合会导致 SSL 期间 DNN 训练的误导，由于样本选择中的错误累积造成的确认偏差，从而导致泛化性能受损。为了解决这个问题，我们提出了一种称为协作样本选择 CSS 的方法，该方法利用大规模预训练模型 CLIP。 CSS 的目的是从已识别的干净集中去除混合噪声样本。我们通过训练二维高斯混合模型 2D GMM 来实现这一目标，该模型将 CLIP 的概率与 DNN 分类器的预测相结合。为了进一步增强 CLIP 对 LNL 的适应性，我们在半监督学习中引入了具有对比损失的协同训练机制。这使我们能够联合训练 CLIP 和 DNN 分类器的提示，从而改进特征表示，提高 DNN 的分类性能，并为我们的协作样本选择带来互惠互利。通过整合来自 CLIP 的辅助信息并利用即时微调，我们有效地从干净集中消除了噪声样本，并减轻了训练期间的确认偏差。

Cross-view Self-localization from Synthesized Scene-graphs
Authors Ryogo Yamamoto, Kanji Tanaka
跨视图自定位是视觉位置识别的一个具有挑战性的场景，其中数据库图像是从稀疏视点提供的。最近，出现了一种使用 NeRF 神经辐射场技术从看不见的视点合成数据库图像的方法，其性能令人印象深刻。然而，这些技术提供的合成图像的质量通常低于原始图像，而且它们显着增加了数据库的存储成本。在本研究中，我们探索了一种新的混合场景模型，该模型结合了从原始图像计算的视图不变外观特征和从合成图像计算的视图相关空间语义特征的优点。然后将这两类特征融合到场景图中，并由图神经网络进行压缩学习和识别。

Salient Object Detection in RGB-D Videos
Authors Ao Mou, Yukang Lu, Jiahao He, Dingyao Min, Keren Fu, Qijun Zhao
鉴于深度传感采集设备的广泛采用，RGB D 视频和相关数据媒体在日常生活的各个方面获得了相当大的关注。因此，在 RGB D 视频中进行显着目标检测 SOD 提供了一种非常有前途且不断发展的途径。尽管该领域具有潜力，但 RGB D 视频中的 SOD 仍有待探索，传统上 RGB D SOD 和视频 SOD VSOD 是孤立研究的。为了探索这个新兴领域，本文做出了两个主要贡献：数据集和模型。一方面，我们构建了 RDVS 数据集，这是一种具有真实深度的新 RGB D VSOD 数据集，其特点是场景多样性和严格的逐帧注释。我们通过全面的属性和面向对象的分析来验证数据集，并提供训练和测试拆分。此外，我们引入了 DCTNet，一个专为 RGB D VSOD 定制的三流网络，强调 RGB 模态，并将深度和光流视为辅助模态。为了追求有效的特征增强、细化和融合以实现精确的最终预测，我们提出了两个模块：多模态注意力模块 MAM 和细化融合模块 RFM 。为了增强 RFM 内的交互和融合，我们设计了一个通用交互模块 UIM，然后集成整体多模态注意路径 HMAP，以在达到 RFM 之前细化多模态低级特征。在伪 RGB D 视频数据集和我们的 RDVS 上进行的综合实验突显了 DCTNet 相对于 17 个 VSOD 模型和 14 个 RGB D SOD 模型的优越性。在伪和真实 RGB D 视频数据集上进行了消融实验，以证明各个模块的优势以及引入真实深度的必要性。

Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks
Authors Xiaojun Jia, Jianshu Li, Jindong Gu, Yang Bai, Xiaochun Cao
对抗性训练在针对对抗性示例构建强大的模型方面显示出了希望。对抗性训练的一个主要缺点是生成对抗性示例带来的计算开销。为了克服这一限制，人们探索了基于单步攻击的对抗性训练。之前的工作从不同角度改进了单步对抗训练，例如样本初始化、损失正则化和训练策略。几乎所有的人都将底层模型视为黑匣子。在这项工作中，我们建议利用模型的内部构建模块来提高效率。具体来说，我们建议在训练期间动态采样轻量级子网络作为代理模型。通过这样做，可以加速前向和后向传递，以实现有效的对抗训练。此外，我们提供的理论分析表明，通过采样子网络的单步对抗训练可以提高模型的鲁棒性。此外，我们提出了一种新颖的采样策略，其中采样随层和迭代而变化。与以前的方法相比，我们的方法不仅降低了训练成本，而且实现了更好的模型鲁棒性。对一系列流行数据集的评估证明了所提出的 FB Better 的有效性。

G2-MonoDepth: A General Framework of Generalized Depth Inference from Monocular RGB+X Data
Authors Haotian Wang, Meng Yang, Nanning Zheng
单目深度推理是机器人场景感知的一个基本问题。特定的机器人可能配备相机和任何类型的可选深度传感器，并位于不同尺度的各种场景中，而最近的进展衍生了多个单独的子任务。这会给特定机器人的模型微调带来额外的负担，从而导致大规模工业化中的高成本定制。本文研究了单目深度推理的统一任务，该任务从未见过的场景中的各种机器人的各种输入原始数据中推断出高质量的深度图。为此任务开发了一个基本基准 G2 MonoDepth，它包含四个组件：a 统一的数据表示 RGB X，以适应 RGB 加上具有不同场景尺度语义的原始深度、深度稀疏度 0 、 100 和错误孔噪声模糊；b 一种新颖的统一损失来适应针对输入原始数据的不同深度稀疏误差和输出场景的不同尺度，我们可以使用改进的网络来很好地将不同的场景尺度从输入传播到输出，并使用数据增强管道来模拟原始深度图中的所有类型的真实伪影以进行训练。

Remote Heart Rate Monitoring in Smart Environments from Videos with Self-supervised Pre-training
Authors Divij Gupta, Ali Etemad
深度学习的最新进展使得通过分析视频在智能环境中远程估计心率变得越来越可行。然而，深度学习方法的一个显着局限性是它们严重依赖大量标记数据来进行有效训练。为了解决这个问题，自我监督学习已成为一种有前途的途径。在此基础上，我们引入了一种解决方案，利用自监督对比学习来估计远程光电体积描记 PPG 和心率监测，从而减少对标记数据的依赖并提高性能。我们建议使用 3 个空间增强和 3 个时间增强通过对比框架训练编码器，然后利用编码器的后期中间嵌入进行远程 PPG 和心率估计。我们在两个公开可用的数据集上进行的实验展示了我们提出的方法相对于几项相关工作以及监督学习基线的改进，因为我们的结果接近最先进的水平。我们还进行了彻底的实验，以展示使用不同设计选择的效果，例如视频表示学习方法、预训练阶段使用的增强等。

Deep Integrated Explanations
Authors Oren Barkan, Yehonathan Elisha, Jonathan Weill, Yuval Asher, Amit Eshel, Noam Koenigstein
本文提出了深度集成解释 DIX 是一种解释视觉模型的通用方法。 DIX 通过集成模型中间表示的信息及其相应的梯度来生成解释图。

LXMERT Model Compression for Visual Question Answering
Authors Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
诸如 LXMERT 之类的大规模预训练模型正在变得流行，用于学习视觉语言任务的文本图像对的跨模态表示。根据彩票假设，NLP 和计算机视觉模型包含较小的子网络，能够单独训练以达到最佳性能。在本文中，我们结合这些观察结果来评估在对 VQA 任务进行微调时 LXMERT 中是否存在此类可训练子网络。此外，我们通过调查在不显着损失准确性的情况下可以进行多少修剪来执行模型大小成本效益分析。

Videoprompter: an ensemble of foundational models for zero-shot video understanding
Authors Adeel Yousaf, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah
视觉语言模型 VLM 通过计算视觉特征和基于文本的类标签表示之间的相似度得分来对查询视频进行分类。最近，大型语言模型 LLM 已被用于通过增强类名称的描述性来丰富基于文本的类标签。然而，这些改进仅限于基于文本的分类器，并且没有考虑查询视觉特征。在本文中，我们提出了一个框架，将预训练的判别性 VLM 与预训练的生成视频到文本和文本到文本模型相结合。我们对标准零射击设置进行了两项关键修改。首先，我们提出语言引导的视觉特征增强，并采用视频到文本模型将查询视频转换为其描述形式。生成的描述包含查询视频的重要视觉线索，例如存在哪些对象及其时空交互。这些描述性线索为 VLM 提供了额外的语义知识，以增强其零样本性能。其次，我们向法学硕士提出视频特定提示，以生成更有意义的描述，以丰富类标签表示。具体来说，我们引入了提示技术来为类名创建类别树层次结构，为额外的视觉提示提供更高级别的动作上下文，我们展示了我们的方法在三种不同的零镜头设置1视频动作识别，2中视频理解的有效性视频到文本和文本到视频检索，以及 3 个时间敏感的视频任务。跨多个基准和各种 VLM 的一致改进证明了我们提出的框架的有效性。

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
Authors Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari
公开可用的视觉基础模型 VFM（例如 CLIP 和 Segment Anything Model SAM）的范围正在迅速扩大。 VFM 因其预训练目标而被赋予独特的能力。例如，CLIP 擅长语义理解，而 SAM 擅长分割的空间理解。在这项工作中，我们引入了一个简单的方法，可以有效地将 VFM 合并到一个统一的模型中，以吸收他们的专业知识。我们提出的方法集成了多任务学习、持续学习技术和师生蒸馏。与传统的从头开始的多任务训练相比，这种策略需要显着减少计算成本。此外，它只需要最初用于训练单个模型的预训练数据集的一小部分。通过将我们的方法应用于 SAM 和 CLIP，我们得出了 SAM CLIP 一个统一模型，它将 SAM 和 CLIP 的优势合并到一个主干中，使其适合边缘设备应用。我们证明 SAM CLIP 可以学习更丰富的视觉表示，具有定位和语义特征，适用于广泛的视觉任务。与 SAM 和 CLIP 相比，SAM CLIP 在多项头部探测任务中获得了改进的性能。我们进一步表明，SAM CLIP 不仅保留了其前身模型的基础优势，还引入了协同功能，尤其是在零样本语义分割方面，其中 SAM CLIP 在 5 个基准上建立了新的最先进结果。

Inject Semantic Concepts into Image Tagging for Open-Set Recognition
Authors Xinyu Huang, Yi Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
在本文中，我们通过将语义概念注入图像标记训练框架，介绍了 Recognize Anything Plus Model RAM，这是一种具有强大开放集识别能力的基本图像识别模型。以前的方法要么是受有限语义约束的图像标记模型，要么是具有浅层交互的视觉语言模型，在多标签识别中性能不佳。相比之下，RAM 将图像文本对齐和图像标记集成在基于图像标签文本三元组的统一细粒度交互框架中。这种设计使得RAM不仅能够出色地识别预定义类别，而且还显着增强了开放集类别的识别能力。此外，RAM采用大型语言模型LLM来生成多样化的视觉标签描述，开创性地将LLM的知识整合到图像标签训练中。这种方法使 RAM 能够在推理过程中集成视觉描述概念以进行开放集识别。对综合图像识别基准的评估表明，RAM 在大多数方面都超过了现有最先进的 SOTA 基本图像识别模型。具体来说，对于预定义的常用标签类别，RAM 在 OpenImages 和 ImageNet 上展示了相对于 CLIP 的 10.2 mAP 和 15.4 mAP 增强。对于超出预定义的开放集类别，RAM 在 OpenImages 上分别比 CLIP 和 RAM 记录了 5 mAP 和 6.4 mAP 的改进。对于不同的人类对象交互短语，RAM 在 HICO 基准上实现了 7.8 mAP 和 4.7 mAP 改进。

ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty
Authors Joey Wilson, Yuewei Fu, Joshua Friesen, Parker Ewen, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, Maani Ghaffari
在本文中，我们开发了一种用于不确定环境中实时语义映射的模块化神经网络，它显式更新神经网络层内每个体素的概率分布。我们的方法将经典概率算法的可靠性与现代神经网络的性能和效率结合起来。尽管机器人感知通常分为现代可微分方法和经典显式方法，但两者的结合对于实时和值得信赖的性能是必要的。我们引入了一种新颖的卷积贝叶斯核推理 ConvBKI 层，该层利用共轭先验，通过深度卷积层将语义分割预测在线合并到 3D 地图中。我们将 ConvBKI 与最先进的深度学习方法和概率算法进行比较，以进行映射以评估可靠性和性能。

Human-in-the-Loop Task and Motion Planning for Imitation Learning
Authors Ajay Mandlekar, Caelan Garrett, Danfei Xu, Dieter Fox
从人类演示中进行模仿学习可以教会机器人复杂的操作技能，但既费时又费力。相比之下，任务和运动规划 TAMP 系统是自动化的，擅长解决长期任务，但它们很难应用于接触丰富的任务。在本文中，我们提出了人机循环任务和运动规划 HITL TAMP，这是一种利用这两种方法优点的新颖系统。该系统采用 TAMP 门控控制机制，有选择地向人类远程操作员提供控制权或从人类远程操作员那里获取控制权。这使得人类远程操作员能够管理一组机器人，从而最大限度地提高数据收集效率。然后，将收集到的人类数据与模仿学习框架相结合来训练 TAMP 门控策略，从而与完整任务演示的训练相比获得更优异的性能。我们将 HITL TAMP 与传统远程操作系统进行了比较，在相同的时间预算下，用户收集的演示数量是其 3 倍以上。此外，只需 10 分钟的非专家远程操作数据即可训练出熟练的代理 75 成功。最后，我们收集了 2.1K 个 HITL TAMP 演示，涉及 12 个接触丰富的长期任务，并表明该系统通常会产生近乎完美的代理。

Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles
Authors Xing Shen, Hengguan Huang, Brennan Nichyporuk, Tal Arbel
虽然深度学习模型在一系列医学图像分析任务中取得了显着的成功，但在实际临床环境中部署这些模型要求它们对所获取图像的变化具有鲁棒性。虽然许多方法应用预定义的转换来增强训练数据以增强测试时间的鲁棒性，但这些转换可能无法确保模型对患者图像中看到的各种变异性的鲁棒性。在本文中，我们介绍了一种基于变压器与条件扩散模型相结合的新型三阶段方法，其目标是提高模型对实践中常见的成像变异性的鲁棒性，而不需要预先确定的数据增强策略。为此，多个图像编码器首先学习分层特征表示以构建有区别的潜在空间。接下来，由潜在代码引导的反向扩散过程作用于信息丰富的先验，并以生成方式提出预测候选。最后，几个预测候选者在双层聚合协议中聚合以产生最终输出。通过对医学成像基准数据集的广泛实验，我们表明我们的方法在鲁棒性和置信度校准方面改进了最先进的方法。

On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms
Authors Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner
人工智能人工智能已经进入各个科学领域，为各种任务的现有算法提供了惊人的改进。近年来，人们对人工智能技术的可信度产生了严重担忧。科学界一直致力于开发值得信赖的人工智能算法。然而，当今人工智能社区中流行的机器和深度学习算法在很大程度上依赖于其开发过程中使用的数据。这些学习算法识别数据中的模式，学习行为目标。数据中的任何缺陷都有可能直接转化为算法。在这项研究中，我们讨论了负责任的机器学习数据集的重要性，并提出了一个通过负责任的标准评估数据集的框架。虽然现有的工作重点是对算法的可信度进行事后评估，但我们提供了一个单独考虑数据组件的框架，以了解其在算法中的作用。我们从公平、隐私和监管合规性的角度讨论负责任的数据集，并为构建未来数据集提供建议。在调查了 100 多个数据集后，我们使用 60 个数据集进行分析，并证明这些数据集都无法免受公平性、隐私保护和监管合规性问题的影响。我们对数据集的数据表进行了修改，并添加了重要内容以改进数据集文档。随着世界各国政府规范数据保护法，科学界创建数据集的方法需要修改。

Unpaired MRI Super Resolution with Self-Supervised Contrastive Learning
Authors Hao Li, Quanwei Liu, Jianan Liu, Xiling Liu, Yanni Dong, Tao Huang, Zhihan Lv
高分辨率 HR 磁共振成像 MRI 对于提高临床诊断的准确性至关重要。尽管如此，MRI分辨率固有的局限性限制了其广泛应用。基于深度学习的图像超分辨率 SR 方法有望在无需额外成本的情况下提高 MRI 分辨率。然而，这些方法经常需要大量的 HR MRI 图像进行训练，而获取这些图像可能具有挑战性。在本文中，我们提出了一种不成对的 MRI SR 方法，该方法采用自监督对比学习来通过有限的训练数据来增强 SR 性能。我们的方法利用真实的 HR 图像和合成生成的 SR 图像来构建正负样本对，从而促进判别特征的学习。本研究中提出的实证结果强调了即使在可用的 HR 图像很少的情况下，峰值信噪比和结构相似性指数也显着增强。

Physics-Informed with Power-Enhanced Residual Network for Interpolation and Inverse Problems
Authors Amir Noorizadegan, D.L. Young, Y.C. Hon, C.S. Chen
本文介绍了一种称为功率增强残差网络的新型神经网络结构，旨在提高 2D 和 3D 设置中平滑和非平滑函数的插值能力。通过向剩余元素添加幂项，该架构增强了网络的表达能力。该研究探索了网络深度、宽度和优化方法，展示了该架构的适应性和性能优势。一致地，结果强调了所提出的功率增强残差网络的卓越准确性，特别是对于非平滑函数。现实世界的例子也证实了它在准确性、收敛性和效率方面优于普通神经网络。该研究还着眼于更深层次网络的影响。此外，所提出的架构还应用于求解反 Burgers 方程，展示了优越的性能。总之，功率增强残差网络提供了一种多功能解决方案，可显着增强神经网络的功能。

Grasp Multiple Objects with One Hand
Authors Yuyang Li, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, Siyuan Huang
人手复杂的运动学允许同时抓取和操纵多个物体，这对于物体转移和手动操纵等任务至关重要。尽管机器人多物体抓取很重要，但它仍然未被充分探索，并且在运动学、动力学和物体配置方面提出了挑战。本文介绍了 MultiGrasp，这是一种用多指灵巧手在桌面上抓取多个物体的两阶段方法。它涉及生成预抓取建议以及执行抓取和举起物体。实验结果主要集中在双物体抓取上，成功率为 44.13，展示了对看不见的物体配置和不精确抓取的适应性。

Emergent Communication in Interactive Sketch Question Answering
Authors Zixing Lei, Yiming Zhang, Yuxin Xiong, Siheng Chen
基于视觉的紧急交流 EC 旨在通过草图学习交流，并揭开人类交流进化的神秘面纱。讽刺的是，以前的作品忽视了人类交流中不可或缺的多轮互动。为了填补这一空白，我们首先引入了一种新颖的交互式草图问答 ISQA 任务，其中两个协作玩家通过草图进行交互，以多轮方式回答有关图像的问题。为了完成这项任务，我们设计了一种新的、高效的交互式EC系统，它可以在回答准确性、绘图复杂性和人类可解释性三个评估因素之间取得有效平衡。

Facial Data Minimization: Shallow Model as Your Privacy Filter
Authors Yuwen Pu, Jiahao Chen, Jiayu Pan, Hao li, Diqun Yan, Xuhong Zhang, Shouling Ji
人脸识别服务已经应用于很多领域，给人们带来了很多便利。然而，一旦用户的面部数据被传输给服务提供商，用户将失去对其私人数据的控制。近年来，由于人脸数据泄露，存在各种安全和隐私问题。尽管已经提出了许多隐私保护方法，但当对手策略或辅助数据无法访问时，它们通常会失败。因此，本文充分考虑人脸识别服务系统中非常典型的上传人脸图像和人脸特征的两种情况，提出了一种数据隐私最小化变换PMT方法。该方法可以基于授权服务的浅层模型对原始人脸数据进行处理，得到混淆数据。混淆后的数据不仅可以在授权模型上保持令人满意的性能并限制其他未授权模型上的性能，还可以防止原始隐私数据被人工智能方法泄露和人类视觉窃取。此外，由于服务提供商可能会对接收到的数据执行预处理操作，因此我们还提出了一种增强的扰动方法来提高 PMT 的鲁棒性。此外，为了同时将一张面部图像授权给多个服务模型，提出了多重限制机制来提高PMT的可扩展性。最后，我们进行了广泛的实验并评估了所提出的 PMT 在防御人脸重建、数据滥用和人脸属性估计攻击方面的有效性。

Multimodal Representations for Teacher-Guided Compositional Visual Reasoning
Authors Wafa Aissa CEDRIC VERTIGO , Marin Ferecatu CEDRIC VERTIGO , Michel Crucianu CEDRIC VERTIGO
神经模块网络 NMN 是一种引人注目的视觉问答方法，能够将问题转化为由一系列推理子任务组成的程序，这些子任务在图像上顺序执行以产生答案。与集成模型相比，NMN 提供了增强的可解释性，可以更好地理解底层推理过程。为了提高 NMN 的有效性，我们建议利用大规模交叉模态编码器获得的特征。此外，当前 NMN 的训练方法依赖于将模块输出传播到后续模块，导致预测误差累积并产生错误答案。为了缓解这个问题，我们引入了一种涉及预定教师指导的 NMN 学习策略。最初，该模型完全由真实中间输出引导，但随着训练的进展逐渐过渡到自主行为。

VMAF Re-implementation on PyTorch: Some Experimental Results
Authors Kirill Aistov, Maxim Koroteev
基于标准 VMAF 实现，我们提出了使用 PyTorch 框架的 VMAF 实现。对于此实现，与标准 libvmaf 的比较显示了 VMAF 单位中的 lesssim 10 2 差异。

PET Synthesis via Self-supervised Adaptive Residual Estimation Generative Adversarial Network
Authors Yuxin Xue, Lei Bi, Yige Peng, Michael Fulham, David Dagan Feng, Jinman Kim
正电子发射断层扫描PET是临床诊断中广泛使用的高灵敏度分子成像。人们对减少 PET 辐射暴露同时保持足够的图像质量很感兴趣。据报道，最近使用卷积神经网络 CNN 从低剂量对应物生成合成高质量 PET 图像的方法是低到高图像恢复方法的最新技术。然而，这些方法很容易表现出合成图像和真实图像之间纹理和结构的差异。此外，低剂量 PET 和标准 PET 之间的分布变化尚未得到充分研究。为了解决这些问题，我们开发了一种自监督自适应残差估计生成对抗网络 SS AEGAN 。我们介绍了 1 一种自适应残差估计映射机制 AE Net，旨在通过将低剂量 PET 和合成输出之间的残差图作为输入来动态校正初步合成的 PET 图像，以及 2 一种自监督预训练策略，以增强粗略生成器的特征表示。

DeepIron: Predicting Unwarped Garment Texture from a Single Image
Authors Hyun Song Kwon, Sung Hee Lee
从图像中逼真地重建 3D 服装具有广泛的应用，例如头像创建和虚拟试穿。本文提出了一种新颖的框架，可以从具有姿势的单个图像重建 3D 服装的纹理图。假设3D服装是通过拼接2D服装缝纫图案来建模的，我们的具体目标是为缝纫图案生成纹理图像。我们框架的关键组件，纹理反扭曲器，从输入的服装图像中推断出原始纹理图像，该图像由于用户的身体形状和姿势而表现出纹理的扭曲和遮挡。纹理反扭曲器通过映射两个图像的潜在空间来有效地在输入和输出图像之间进行转换。通过推断输入服装的未变形原始纹理，我们的方法有助于重建 3D 服装模型，该模型可以显示针对新姿势真实变形的高质量纹理图像。我们通过与其他方法和消融研究的比较来验证我们方法的有效性。

Towards contrast-agnostic soft segmentation of the spinal cord
Authors Sandrine B dard, Naga Karthik Enamundram, Charidimos Tsagkas, Emanuele Pravat , Cristina Granziera, Andrew Smith, Kenneth Arnold Weber II, Julien Cohen Adad
脊髓分割具有临床意义，尤其用于计算脊髓横截面积 CSA，以诊断和监测脊髓受压或多发性硬化症等神经退行性疾病。虽然存在几种半自动方法，但一个关键的限制仍然是分割取决于 MRI 对比度，导致不同对比度的 CSA 不同。这部分是由于脊髓和脑脊液之间的边界外观不同，这取决于序列和采集参数。这种对比敏感的 CSA 增加了多中心研究的可变性，其中方案可能有所不同，从而降低了检测细微萎缩的敏感性。此外，现有方法通过为每个对比训练一个模型来增强 CSA 的可变性，同时还生成不考虑部分体积效应的二元掩模。在这项工作中，我们提出了一种基于深度学习的方法，可以产生脊髓的软分割。使用健康参与者文本 n 267 个文本对比 6 的 Spine 通用公共数据库，我们首先通过对所有 6 个对比的二进制分割进行平均来生成参与者明智的软地面真值 GT。然后使用这些软 GT 以及基于回归的损失函数来训练用于脊髓分割的 UNet 模型。我们根据最先进的方法评估了我们的模型，并进行了涉及不同 GT 掩模类型、损失函数和对比特定模型的消融研究。我们的结果表明，使用软平均分割和回归损失函数可降低 CSA 变异性 p 0.05（Wilcoxon 符号秩检验）。

Vicinal Feature Statistics Augmentation for Federated 3D Medical Volume Segmentation
Authors Yongsong Huang, Wanqing Xie, Mingzhen Li, Mingmei Cheng, Jinzhou Wu, Weixiao Wang, Jane You, Xiaofeng Liu
联邦学习 FL 使多个客户医疗机构能够协作训练具有隐私保护的深度学习 DL 模型。然而，FL 的性能可能会受到小型机构中标记数据的有限可用性和异构性（即非独立同分布）的限制。跨机构的数据分布。尽管数据增强已经成为一种行之有效的技术，可以作为免费午餐来提高传统集中式深度学习的泛化能力，但它在 FL 中的应用在很大程度上尚未得到充分探索。值得注意的是，受成本高昂的标签限制，3D 医学分割通常依赖于数据增强。在这项工作中，我们的目标是开发一种邻近特征级数据增强 VFDA 方案，以有效缓解局部特征转移并促进隐私意识 FL 分割的协作训练。我们同时考虑了机构内部和机构间的差异，无需跨机构传输原始数据或将其混合。具体来说，我们利用批量特征统计数据，例如每个机构的均值和标准差来抽象表示数据的差异，并通过高斯原型对每个特征统计量进行概率建模，均值对应于原始统计量，方差量化了增强范围。从邻近风险最小化的角度来看，可以从高斯分布中提取新的特征统计来实现增强。方差是由每个单独机构的数据偏差和所有参与机构所表征的基础特征统计数据明确得出的。

DeepVox and SAVE-CT: a contrast- and dose-independent 3D deep learning approach for thoracic aorta segmentation and aneurysm prediction using computed tomography scans
Authors Matheus del Valle, Lariza Laura de Oliveira, Henrique Cursino Vieira, Henrique Min Ho Lee, Lucas Lembran a Pinheiro, Maria Fernanda Portugal, Newton Shydeo Brand o Miyoshi, Nelson Wolosker
胸主动脉瘤 TAA 是一种致命疾病，主动脉逐渐增大，可能导致夹层或破裂。它通常是无症状的，并且筛查建议有限。金标准评估是通过计算机断层扫描血管造影CTA和放射科医生耗时的评估来进行的。其他适应症的扫描可能有助于此筛查，但如果在没有对比增强或低剂量方案的情况下进行扫描，除了增加放射科医生的扫描数量之外，还可能使临床评估变得困难。在这项研究中，选择了 587 例独特的 CT 扫描，包括对照和 TAA 患者，采用低剂量和标准剂量方案采集，有或没有对比增强。一种新颖的分割模型 DeepVox 的开发集和测试集的骰子得分系数分别为 0.932 和 0.897，与文献报道的模型相比，训练速度更快。新颖的 TAA 分类模型 SAVE CT 仅使用 DeepVox 的二进制分割掩码作为输入，没有手工设计特征，开发集和测试集的准确度分别为 0.930 和 0.922。这两个模型一起成为 TAA 筛查的潜在方法，因为它们可以处理可变数量的切片作为输入，处理胸部和胸腹序列，以全自动对比和剂量独立评估。

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下，可以使用视频拍摄的环境记录，这可以帮助完成此过程。然而，在视频游戏和动画中，不存在参考音频，需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统，然后将其与音频或文本嵌入结合使用，以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式，我们将完全的创意控制权交给了声音设计师，同时消除了与视频同步的负担。此外，编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多，从而简化了可听化过程。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(视觉,计算机视觉,Papers,计算机视觉,CV,图像恢复,数据集,diffusion,model,nerf,stable,diffusion)

图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
数据库的后悔药：Undo Log揭秘你一身傲骨怎能输游戏行业领域知识专栏撤销日志（Undo Log）
文章摘要撤销日志（UndoLog）是数据库的“后悔药”机制，用于保证数据操作的原子性和一致性。其核心原理是修改数据前先记录原始状态到UndoLog，若事务失败则进行回滚恢复。典型应用包括：1）事务回滚（如转账异常时还原数据）；2）并发控制（通过快照读提供多版本视图）。主流数据库如MySQLInnoDB和Oracle均采用该技术，其流程可概括为“先备份后修改，出错即还原”。简言之，UndoLog通过
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
Android PNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算
AndroidPNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算Android的Bitmap是一个用于表示图像数据的核心类，代表一张图片在内存中的存储，Bitmap存储了图像的像素信息数据。Bitmap把图像理解为像素点组成的二维矩阵，每个像素点存储对应位置的一系列ARGB值（透明度+红绿蓝通道）。Bitmap在内存中占用大小的关键计算公式：‌内存
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
【Pytorch】8.torch.nn.conv2d Elephant_King Pytorch pytorch 人工智能 python
这个函数和我们之前提到的【Pytorch】6.torch.nn.functional.conv2d的使用的作用相似，都是完成CV领域的卷积操作，这里就不在过多赘述torch.nn.conv2d的使用打开pytorch的官方文档，我们可以看到torch.nn.conv2d包含了若干参数in_channels：代表输入的通道数out_channels：代表输出的通道数kernel_size：代表卷积核
定时器和守护线程
（八）定时器标准库中的定时器标准库中提供了一个Timer类。Timer类的核心方法为schedule，schedule包含两个参数：第⼀个参数指定即将要执行的任务代码，第⼆个参数指定多长时间之后执行(单位为毫秒)。Timertimer=newTimer();timer.schedule(newTimerTask(){@Overridepublicvoidrun(){System.out.print
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
Unreal Engine开发：高级渲染技术_4.高级着色器编程 chenlz2007 游戏开发虚幻着色器游戏引擎数据库网络 rpc
4.高级着色器编程在上一节中，我们探讨了UnrealEngine中的基础渲染技术，包括光照、阴影和材质系统。本节将深入探讨高级着色器编程，帮助您掌握更复杂的渲染效果和优化技术。UnrealEngine的着色器系统是基于HLSL（High-LevelShadingLanguage）和USF（UnrealShaderFormat）的，这两种语言允许开发者编写高效的着色器代码，以实现各种视觉效果。4.1
游戏引擎中顶点着色&像素着色霸王奉先游戏开发基础理论游戏引擎顶点着色器像素着色器顶点颜色顶点UV 顶点法向
一.GPU渲染管线GPU在接收到游戏端提交的Mesh,Shader数据后,渲染管线开始工作,将数据进行处理投射为2D屏幕中光栅图像.GPU硬件中着色单元有两类,分别为顶点着色器和像素着色器.二.顶点着色器完成Mesh网格中顶点(3D)到屏幕(2D)计算vertex_fvf(灵活顶点格式)=3D坐标+法向+UV+颜色(布料,摇曳等特殊效果)+自定义structVetex_Fvf{floatx,y,z
进程 ⇢ JVM ⇢ 线程＋内存关系 MYGAG jvm
.从零到跑起一个Java程序OS创建进程execvejava…→新进程的地址空间、handle、时间片就位。JavaLauncher进场可执行文件里的C/C++的main()解析参数，dlopenlibjvm.so/jvm.dll。JNI_CreateJavaVM诞生JVM实例△分配堆、元空间、代码缓存等△拉起GC/JIT/信号处理等守护线程把Launcher的原生线程变成Javamain线程开始
Assistant API的原理及应用赛丽曼人工智能 chatgpt
什么是AssistantsAPI？**发布日期：**2023年11月6日，OpenAI在开发者大会上发布了AssistantsAPI——一款面向开发者的工具，用于在应用中构建AI助手。✅它可以做什么？AssistantsAPI允许开发者构建智能助手，这些助手可通过：instructions（指令）：设定助手行为；models（模型）：指定使用的GPT模型；tools（工具）：调用代码解释器、知识库
PiX4Dmatic1.76 摄影测量建模软件查尔斯编程摄影测量软件工程
PIX4Dmatic摄影测量软件是一款非常不错的摄影测量软件，这款软件用于廊道和大比例尺测绘的下一代摄影测量软件，PIX4Dmatic也支持常用的垂直坐标系及其相应的大地水准面。PIX4Dmatic(摄影测量软件)是一款非常不错的摄影测量软件，这款软件用于廊道和大比例尺测绘的下一代摄影测量软件，PIX4Dmatic也支持，常用的垂直坐标系及其相应的大地水准面。功能介绍1、更大的数据集，准确的结果P
Vue 3 + Element Plus 常见开发问题与解决方案手册 JaysonJin 小问题 vue.js 前端 javascript
Vue3+ElementPlus常见开发问题与解决方案手册本文整理了常见但容易混淆的几个Vue3前端开发问题，包括插槽、原型链、响应式数据处理、v-model报错、样式阴影控制等，建议收藏学习！一、动态插槽fallback原理详解✅场景在组件中使用如下代码：✅疑问为什么加了默认内容，父组件传了插槽就会生效，没传就自动使用默认内容？✅解答这是Vue插槽的fallback（回退）机制：父组件有传插槽，
SFT（监督微调）详解：零基础入门到精通，一篇详细的入门教程！ AGI大模型老王人工智能程序员大模型学习 AI大模型大模型微调 SFT
文章目录具体步骤如下：应用场景优点举例步骤1：预训练模型的选择步骤2：数据收集与标注步骤3：数据预处理步骤4：数据集划分步骤5：加载预训练模型步骤6：数据编码步骤7：创建数据加载器步骤8：定义训练过程步骤9：模型评估步骤10：模型保存零基础入门AI大模型一、全套AGI大模型学习路线二、640套AI大模型报告合集三、AI大模型经典PDF籍四、AI大模型商业化落地方案学习计划：资料领取SFT（监督微调
使用 Bank Churn 数据集进行二元分类
一、前言分类任务：预测客户是继续使用其帐户还是关闭帐户（例如，流失）项目地址：https://www.kaggle.com/competitions/playground-series-s4e1二、具体步骤（一）数据导入与预览importpandasaspdimportnumpyasnpimportmatplotlib.pylabaspltimportseabornassnsfromsklearn
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
OpenGL ES 纹理(7) 起司锅仔 OpenGL OpenGL 安卓 android
OpenGLES纹理(7)简述通过前面几章的学习，我们已经可以绘制渲染我们想要的逻辑图形了，但是如果我们想要渲染一张本地图片，这就需要纹理了。纹理其实是一个可以用于采样的数据集，比较典型的就是图片了，我们知道我们的片段着色器会对每一个像素都执行一次来计算，该像素应该渲染什么颜色，纹理就是一个数据集，比如想要渲染一个图片，我们就是用图片的所有像素信息作为总数据集，然后片段着色器计算的时候就根据像素坐
Coze智能体开发：如何批量生成和处理图片王国平 Coze AI Agent智能体开发语言模型人工智能开发语言智能体 Agent
在绘本制作、图片后期制作等场景中，往往需要使用模型来批量生成和处理图片。扣子提供了多个图像处理类节点，支持图像生成、添加水印、画质优化等多种常见的图片处理方式，你可以在批处理节点中嵌套图像生成等图像处理节点，实现图片的批量操作。本文档以绘本制作工作流为例，演示如何通过批处理节点和图像节点实现图像的批量生成和批量处理。效果演示通过绘本制作工作流，你可以批量生成类似以下风格的图片。搭建过程中你也可以根
Django5.1（91）—— 如何删除一个 Django 应用小天的铁蛋儿 django Python django python 后端
如何删除一个Django应用Django提供了将一组功能组织成名为应用程序的Python包的能力。当需求发生变化时，应用程序可能会变得过时或不再需要。以下步骤将帮助你安全地删除一个应用程序。删除所有与该应用程序相关的引用（导入、外键等）。从相应的models.py文件中删除所有模型。通过运行makemigrations来创建相关的迁移。这一步会生成一个迁移，用于删除已删除模型的表，以及与这些模型相
纯CSS实现有趣emoji切换开关南城FE 前端CSS那些事南城前端专栏 css 前端
这是一个纯CSS创建的动画切换开关，它不仅能够在视觉上吸引用户，还能通过交互提供即时反馈。本文将解析源码的核心实现逻辑，这个项目的核心是使用CSS变量、3D变换和过渡效果来实现一个动态的、响应式的用户界面元素。关键技术点CSS变量：用于动态调整样式。3D变换：用于创建翻转动画效果。过渡效果：用于平滑地改变元素的样式。emoji：并不是真正的emoji而是通过CSS绘制。实现步骤1.HTML首先需要
SVG格式深度解析与Path应用实战：从原理到企业级全场景开发（实战版）
一、简介在数字图形领域，SVG（ScalableVectorGraphics）凭借其矢量特性、可编辑性和交互能力，成为现代设计和开发的核心工具。本文将从SVG的基础原理出发，深入解析其技术特性，并与主流图像格式（如JPEG、PNG、PLT等）进行对比分析。通过企业级应用案例，结合代码示例和Mermaid图表，帮助开发者全面掌握SVG的应用场景与开发技巧，实现从零到一的高效实践。二、SVG格式的核心
主流 3D 感知技术对比-iTOF、dTOF、结构光、激光雷达 moonsims 数码相机
主流3D感知技术对比-iTOF、dTOF、结构光、激光雷达四类主流3D感知技术对比表对比维度iToF相机dToF相机固态LiDAR+可见光融合结构光相机测距原理连续调制光→相位差计算激光脉冲→飞行时间测距激光扫描点云+图像纹理融合投射编码光图案+视差三角测量代表设备IntelD435i,AzureKinectSTVL53L5CX,SonyIMX611L3CAM,RoboSenseM1+RGBRea
相机位姿估计：基于四个特征点的精准姿态解算童嘉航Denley
相机位姿估计：基于四个特征点的精准姿态解算【下载地址】相机位姿估计1根据四个特征点估计相机姿态随文Demo本资源文件提供了一个基于OpenCV的相机位姿估计Demo，主要功能是根据四个特征点来估计相机的姿态。通过该Demo，您可以学习如何使用OpenCV库中的相关函数来实现相机位姿的估计项目地址:https://gitcode.com/open-source-toolkit/df72a项目介绍在计
Python之聚合函数 _AndyLau 手把手学python python
Python聚合函数文章目录Python聚合函数聚合函数使用多个聚合函数结合`annotate`和`values`进行分组聚合注意事项F表达式和Q表达式F表达式Q表达式注意事项视图HTML中的表单概述Django中表单概述ModelForm关键点使用示例创建ModelForm在视图中使用ModelForm模板总结Cookie和SessionDjango中的Cookie操作Django中的Sessi
OpenCV教程——图像模糊。均值模糊，高斯模糊，中值模糊，双边模糊，高斯分布
1.图像模糊图像模糊是图像处理中最简单和常用的操作之一。⚠️使用该操作的原因之一是为了给图像预处理时降低噪声。图像模糊操作背后是数学的卷积计算。卷积操作的原理：常用的图像模糊的方法：均值模糊高斯模糊中值模糊双边模糊这四种模糊方式有时也被称为：均值滤波、高斯滤波、中值滤波和双边滤波。因为模糊属于一种滤波操作，具体关系可参照下图：其中，均值滤波、高斯滤波和中值滤波属于线性滤波；而双边滤波属于非线性滤波
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

【AI视野·今日CV 计算机视觉论文速览 第275期】Wed, 25 Oct 2023

Daily Computer Vision Papers

你可能感兴趣的:(视觉,计算机视觉,Papers,计算机视觉,CV,图像恢复,数据集,diffusion,model,nerf,stable,diffusion)

【AI视野·今日CV 计算机视觉论文速览第275期】Wed, 25 Oct 2023