hitrjj

【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 20 Oct 2023
Totally 62 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Putting the Object Back into Video Object Segmentation
Authors Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon Young Lee, Alexander Schwing
我们提出了 Cutie，一种具有对象级内存读取功能的视频对象分割 VOS 网络，它将内存中的对象表示放回到视频对象分割结果中。最近关于 VOS 的工作采用了自下而上的像素级内存读取，这种读取由于匹配噪声而陷入困境，尤其是在存在干扰因素的情况下，导致更具挑战性的数据性能较低。相比之下，Cutie 通过调整一小组对象查询来执行自上而下的对象级内存读取，以便使用基于查询的对象转换器 qt 进行重构并与自下而上的像素特征迭代交互，因此称为 Cutie 。对象查询充当目标对象的高级摘要，同时保留高分辨率特征图以进行准确分割。与前景背景屏蔽注意力一起，Cutie 干净地将前景对象的语义与背景分开。在具有挑战性的 MOSE 数据集上，Cutie 在运行时间相似的情况下比 XMem 提高了 8.7 J F，在运行速度是 DeAOT 的三倍的情况下比 DeAOT 提高了 4.2 J F。

HumanTOMATO: Text-aligned Whole-body Motion Generation
Authors Shunlin Lu, Ling Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung Yeung Shum
这项工作针对一种新颖的文本驱动的全身运动生成任务，该任务以给定的文本描述作为输入，旨在同时生成高质量、多样化和连贯的面部表情、手势和身体运动。以前关于文本驱动的动作生成任务的工作主要有两个局限性，一是忽略了细粒度的手和面部控制在生动的全身动作生成中的关键作用，二是缺乏文本和动作之间的良好对齐。为了解决这些限制，我们提出了一个文本对齐的全身运动生成框架，名为 HumanTOMATO，这是我们在该研究领域中应用整体运动生成知识的首次尝试。为了解决这一具有挑战性的任务，我们的解决方案包括两个关键设计 1 整体分层 VQ VAE 又名 H 2 VQ 和分层 GPT，用于细粒度身体和手部运动重建和生成，具有两个结构化密码本和 2 预训练的文本运动对齐模型帮助生成的运动明确地与输入文本描述对齐。

On the Hidden Waves of Image
Authors Yinpeng Chen, Dongdong Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Zicheng Liu, Youzuo Lin
在本文中，我们介绍了一个有趣的现象，即使用一组具有隐藏且可学习速度的单向波动方程成功重建图像。每个单独的图像对应于具有唯一初始条件的解决方案，可以使用视觉编码器（例如，卷积神经网络）从原始图像计算该解决方案。此外，每个图像的解表现出两个值得注意的数学特性：a 它可以分解为相同单向波动方程的特殊解的集合，这些方程是一阶自回归，具有用于自回归的共享系数矩阵，b 是这些系数的乘积矩阵形成一个对角矩阵，以波动方程的速度作为对角元素。我们将这种现象称为隐藏波，因为它揭示了虽然波动方程组和自回归系数矩阵的速度是潜在的，但它们都是可学习的并且在图像之间共享。

FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
Authors Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad
在这项工作中，我们解决了 3D 对象识别这一具有挑战性的任务，而不依赖于现实世界的 3D 标记数据。我们的目标是预测单个 RGB D 图像中对象的 3D 形状、大小和 6D 姿态，在类别级别进行操作，并在推理过程中消除对 CAD 模型的需求。虽然现有的自监督方法在这一领域取得了长足的进步，但它们常常因非端到端处理、对不同对象类别的单独模型的依赖以及隐式重建模型训练过程中表面提取缓慢而导致效率低下，从而阻碍了速度以及 3D 识别过程的现实世界适用性。我们提出的方法利用多阶段训练管道，旨在有效地将合成性能转移到现实世界领域。这种方法是通过在合成域训练期间结合 2D 和 3D 监督损失来实现的，然后在两个额外的学习阶段将 2D 监督和 3D 自监督损失结合到现实世界数据上。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers
Authors Ziqi Pang, Ziyang Xie, Yunze Man, Yu Xiong Wang
这篇论文揭示了大型语言模型 LLM，尽管仅基于文本数据进行训练，但在没有语言的情况下对于纯视觉任务来说却是令人惊讶的强大编码器。更有趣的是，这可以通过一种简单但之前被忽视的策略来实现，该策略采用预先训练的 LLM 中的冻结变压器块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用法学硕士执行计算机视觉任务的界限，显着偏离了通常需要具有相关语言提示、输入或输出的多模态视觉语言设置的传统实践。我们证明，我们的方法能够持续增强各种任务的性能，包括纯 2D 和 3D 视觉识别任务（例如图像和点云分类）、时间建模任务（例如动作识别）、非语义任务（例如运动预测）和多模态任务任务，例如 2D 3D 视觉问答和图像文本检索。这种改进是一种普遍现象，适用于各种类型的 LLM，例如 LLaMA 和 OPT 以及不同的 LLM 变压器块。我们还提出了信息过滤假设来解释预训练的 LLM 在视觉编码中的有效性，预训练的 LLM 转换器块可识别信息丰富的视觉标记并进一步放大其效果。这一假设得到了观察的实证支持，即在使用 LLM 变压器块进行训练后，特征激活表现出对相关区域更加关注。我们希望我们的工作能够激发人们利用法学硕士的新视角，并加深我们对其潜在机制的理解。

CLAIR: Evaluating Image Captions with Large Language Models
Authors David Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny
机器生成的图像描述的评估提出了一个有趣但持续的挑战。有效的评估措施必须考虑相似性的多个维度，包括语义相关性、视觉结构、对象交互、标题多样性和特异性。现有的精心设计的措施试图捕捉特定的方面，但无法提供与人类判断紧密一致的整体分数。在这里，我们提出了 CLAIR，这是一种利用大型语言模型 LLM 的零样本语言建模功能来评估候选字幕的新颖方法。在我们的评估中，与现有的衡量标准相比，CLAIR 表现出与人类对字幕质量的判断有更强的相关性。值得注意的是，在 Flickr8K Expert 上，CLAIR 相对于 SPICE 实现了 39.6 的相对相关性改进，相对于 RefCLIP S 等图像增强方法实现了 18.3 的相对相关性改进。此外，CLAIR 通过允许语言模型识别其分配分数背后的潜在推理来提供嘈杂的可解释结果。

Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
Authors Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc Van Gool
自动驾驶系统的现实部署需要其组件在车上实时运行，包括预测周围交通参与者未来轨迹的运动预测模块。现有的以代理为中心的方法在公共基准测试中表现出了出色的性能。然而，随着要预测的代理数量的增加，它们面临着计算开销高和可扩展性差的问题。为了解决这个问题，我们引入了具有相对姿势编码 KNARPE 的 K 最近邻注意力机制，这是一种新颖的注意力机制，允许 Transformers 使用成对相对表示。然后，基于 KNARPE，我们提出了具有相对姿势编码 HPTR 的异构折线变换器，这是一个能够在在线推理期间实现异步令牌更新的分层框架。通过在代理之间共享上下文并重用未更改的上下文，我们的方法与以场景为中心的方法一样高效，同时与最先进的以代理为中心的方法性能相当。 Waymo 和 Argoverse 2 数据集上的实验表明，HPTR 在不应用昂贵的后处理或模型集成的端到端方法中实现了卓越的性能。

3D-GPT: Procedural 3D Modeling with Large Language Models
Authors Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
在追求高效的自动化内容创建的过程中，利用可修改参数和基于规则的系统的程序生成成为一种有前景的方法。尽管如此，鉴于其复杂性，需要深入了解规则、算法和参数，这可能是一项艰巨的任务。为了减少工作量，我们引入了 3D GPT，这是一个利用大型语言模型 LLM 进行指令驱动的 3D 建模的框架。 3D GPT 将法学硕士定位为熟练的问题解决者，将程序性 3D 建模任务分解为可访问的部分，并为每个任务指定合适的代理。 3D GPT 集成了三个核心代理：任务调度代理、概念化代理和建模代理。他们合作实现两个目标。首先，它增强了简洁的初始场景描述，将其演变为详细的形式，同时根据后续指令动态调整文本。其次，它集成了程序生成，从丰富的文本中提取参数值，以便轻松地与 3D 软件连接以创建资产。我们的实证研究证实，3D GPT 不仅可以解释和执行指令，提供可靠的结果，而且还可以与人类设计师有效协作。此外，它与 Blender 无缝集成，释放了扩展的操作可能性。

Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
Authors Oriane Sim oni, loi Zablocki, Spyros Gidaris, Gilles Puy, Patrick P rez
最近对开放世界视觉系统的热情表明了社区对在迄今为止非常流行的封闭词汇基准设置之外执行感知任务的高度兴趣。能够在不事先知道数据集中包含哪些对象的情况下发现图像视频中的对象是一个令人兴奋的前景。但是如何在不了解任何对象的情况下找到对象最近的工作表明，可以通过利用自监督的预训练特征来执行与类别无关的无监督对象定位。我们在这里提出了一项对无监督对象定位方法的调查，这些方法可以在自监督 ViT 时代发现图像中的对象，而无需任何手动注释。

EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model
Authors Zheyuan Zhang, Lanhong Yao, Bin Wang, Debesh Jha, Elif Keles, Alpay Medetalibeyoglu, Ulas Bagci
大规模、大变体和高质量的数据对于为医疗应用开发强大且成功的深度学习模型至关重要，因为它们有可能实现更好的泛化性能并避免过度拟合。然而，高质量标记数据的稀缺总是带来重大挑战。本文提出了一种新方法来解决这一挑战，即开发用于医学图像合成的可控扩散模型，称为 EMIT Diff。我们利用最新的扩散概率模型来生成真实且多样化的合成医学图像数据，通过结合对象的边缘信息来指导合成过程，从而保留原始医学图像的基本特征。在我们的方法中，我们确保合成的样本遵守医学相关的限制并保留成像数据的基础结构。由于扩散模型的随机采样过程，我们可以生成任意数量的具有不同外观的合成图像。为了验证我们提出的方法的有效性，我们对多个数据集进行了广泛的医学图像分割实验，包括超声乳腺 13.87 、CT 脾脏 0.38 和 MRI 前列腺 7.78 ，与基线分割方法相比取得了显着改进。据我们所知，这些有希望的结果首次证明了我们的 EMIT Diff 对于医学图像分割任务的有效性，并展示了为一般医学图像分割任务引入第一个文本引导扩散模型的可行性。

Neural Degradation Representation Learning for All-In-One Image Restoration
Authors Mingde Yao, Ruikang Xu, Yuanshen Guan, Jie Huang, Zhiwei Xiong
现有方法已证明对单一降解类型具有有效的性能。然而，在实际应用中，退化往往是未知的，模型和退化之间的不匹配将导致性能严重下降。在本文中，我们提出了一种解决多重退化问题的一体化图像恢复网络。由于不同类型退化的异构性，很难在单个网络中处理多种退化。为此，我们建议学习一种神经退化表示 NDR，它可以捕获各种退化的潜在特征。学习到的 NDR 自适应地分解不同类型的退化，类似于表示基本退化成分的神经字典。随后，我们开发了降级查询模块和降级注入模块，以有效地识别和利用基于NDR的特定降级，从而实现多种降级的一站式恢复能力。此外，我们提出了一种双向优化策略，通过交替优化退化和恢复过程来有效驱动 NDR 学习退化表示。

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision
Authors Cheng Kun Yang, Min Hung Chen, Yung Yu Chuang, Yen Yu Lin
我们提出了一种多模态交错变压器 MIT，它联合考虑 2D 和 3D 数据来进行弱监督点云分割。研究表明，2D 和 3D 特征对于点云分割是互补的。然而，现有方法需要额外的2D注释来实现2D 3D信息融合。考虑到点云的标注成本较高，基于弱监督学习的有效2D和3D特征融合的需求很大。为此，我们提出了一种具有两个编码器和一个解码器的变压器模型，用于仅使用场景级类标签进行弱监督点云分割。具体来说，两个编码器分别计算 3D 点云和 2D 多视图图像的自参与特征。解码器实现隔行扫描2D 3D交叉关注并进行隐式2D和3D特征融合。我们在解码器层中交替切换查询和键值对的角色。事实证明，2D 和 3D 特征是相互迭代丰富的。实验表明，它在 S3DIS 和 ScanNet 基准测试上明显优于现有的弱监督点云分割方法。

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection
Authors Jiawen Zhu, Choubo Ding, Yu Tian, Guansong Pang
开放集监督异常检测 OSAD 是最近新兴的异常检测领域，旨在利用训练期间看到的异常类的一些样本来检测未见的异常，即来自开放集异常类的样本，同时有效地识别已见的异常。受益于所见异常所说明的先验知识，当前的 OSAD 方法通常可以很大程度上减少误报错误。然而，这些方法将异常示例视为来自均匀分布，这使得它们在泛化到可以从任何分布中得出的未见异常方面效果较差。在本文中，我们建议使用有限的异常示例来学习异构异常分布来解决这个问题。为此，我们引入了一种新颖的方法，即异常异质性学习 AHL，它模拟一组不同的异质可见和未见异常分布，然后利用它们来学习统一的异质异常模型。此外，AHL 是一个通用框架，现有 OSAD 模型可以即插即用，以增强其异常建模。对 9 个现实世界异常检测数据集进行的广泛实验表明，AHL 可以 1 显着增强不同最先进的 SOTA OSAD 模型在检测可见和未见异常方面的性能，在大量数据集上实现新的 SOTA 性能，2 有效地推广到未见异常

DT/MARS-CycleGAN: Improved Object Detection for MARS Phenotyping Robot
Authors David Liu, Zhengkun Li, Zihao Wu, Changying Li
机器人作物表型分析已成为大规模评估作物形态和生理特征的关键技术。这些表型测量对于开发新作物品种至关重要，以提高生产力和应对气候变化等环境挑战。然而，开发和部署作物表型机器人面临许多挑战，例如复杂多变的作物形状使机器人目标检测变得复杂，动态和非结构化环境阻碍了机器人控制，实时计算和管理大数据对机器人硬件软件提出了挑战。这项工作专门解决了第一个挑战，提出了一种用于图像增强的新型数字孪生 DT MARS CycleGAN 模型，以改进我们的模块化农业机器人系统 MARS 从复杂多变的背景中检测作物对象。我们的核心思想是，除了 CycleGAN 模型中的循环一致性损失之外，我们还在深度学习模型中设计并实施了新的 DT MARS 损失，以惩罚 MARS 捕获的真实作物图像与 DT MARS 感知的合成图像之间的不一致。因此，生成的合成裁剪图像在真实感方面非常接近真实图像，并且它们被用来微调目标检测器，例如 YOLOv8。

Mixing Histopathology Prototypes into Robust Slide-Level Representations for Cancer Subtyping
Authors Joshua Butke, Noriaki Hashimoto, Ichiro Takeuchi, Hiroaki Miyoshi, Koichi Ohshima, Jun Sakuma
通过计算病理学手段进行的整个载玻片图像分析通常依赖于处理仅具有可用载玻片级别标签的细分十亿像素图像。应用基于多实例学习的方法或变压器模型在计算上是昂贵的，因为对于每个图像，所有实例都必须同时处理。 MLP 混合器是一种正在探索的常见视觉变换器的替代模型，特别是对于大规模数据集。由于缺乏自注意力机制，它们的计算复杂度与输入补丁的数量呈线性关系，但在自然图像数据集上实现了可比的性能。我们提出了特征嵌入和聚类的组合，将整个幻灯片图像预处理为简化的原型表示，然后可以作为合适的 MLP 混合器架构的输入。我们对两个公共基准和一个内部恶性淋巴瘤数据集进行的实验显示出与当前最先进方法相当的性能，同时在计算时间和内存负载方面实现了较低的训练成本。

Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers
Authors Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan
继 Masked Image Modeling MIM 之后，各种简单的、非分层的 Vision Transformer ViT 模型已经使用广泛的数据集进行了预训练，为语义分割提供了新的范例和巨大的潜力。当前最先进的系统结合了许多感应偏置并采用了繁琐的解码器。基于普通 ViT 的简单性和通用性的原始动机，我们为此探索高性能简约系统。我们的主要目的是为使用普通 ViT 的实际语义分割提供简单有效的基线。具体来说，我们首先探索使用最后一个特征图实现高性能语义分割的可行性和方法。因此，我们引入了 PlainSeg，该模型除了编码器或解码器的转换器层之外，仅包含三个 3 × 3 卷积。在此过程中，我们深入了解了两个基本原理：尽管采用了简单的上采样技术，但高分辨率特征对于高性能至关重要；ii 细长变压器解码器需要比宽变压器解码器大得多的学习率。在此基础上，我们进一步提出了PlainSeg Hier，它允许利用分层特征。对四个流行基准的广泛实验证明了我们方法的高性能和效率。它们还可以作为评估语义分割中基本模型的迁移能力的强大工具。

ExtSwap: Leveraging Extended Latent Mapper for Generating High Quality Face Swapping
Authors Aravinda Reddy PN, K.Sreenivasa Rao, Raghavendra Ramachandra, Pabitra mitra
我们提出了一种新颖的面部交换方法，使用预先训练的 StyleGAN 的渐进增长结构。以前的方法使用不同的编码器解码器结构，嵌入集成网络来产生高质量的结果，但它们的质量受到纠缠表示的影响。我们通过分别导出身份和属性特征来解开语义。通过学习将串联特征映射到扩展潜在空间，我们利用了最先进的质量及其丰富的语义扩展潜在空间。

Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding
Authors Yuanxing Xu, Yuting Wei, Bin Wu
视频和社交媒体内容的激增凸显了对多媒体数据进行更深入理解的必要性。大多数现有成熟的视频理解技术对于只需要浅层理解的短格式和内容表现良好，但对于需要深度理解和推理的长格式视频则表现不佳。深度视频理解 DVU 挑战赛旨在突破多模态提取、融合和分析的界限，解决整体分析长视频的问题，并提取有用的知识来解决不同类型的查询。本文介绍了一种利用图像语言预训练模型进行长视频定位和关系辨别的查询感知方法。该模型巧妙地选择与查询相关的帧，从而无需完整的电影级知识图。我们的方法在两组电影级查询中获得了第一和第四的位置。

Recoverable Privacy-Preserving Image Classification through Noise-like Adversarial Examples
Authors Jun Liu, Jiantao Zhou, Jinyu Tian, Weiwei Sun
随着云计算平台的日益普及，在基于云的图像相关服务（例如分类）中确保数据隐私变得至关重要。在本研究中，我们提出了一种新颖的隐私保护图像分类方案，该方案能够直接应用在明文域中训练的分类器对加密图像进行分类，而不需要重新训练专用的分类器。此外，加密图像可以使用密钥解密回其原始形式，并具有高保真度。具体来说，我们提出的方案涉及利用特征提取器和编码器通过新设计的噪声（如对抗性示例 NAE）来掩盖明文图像。这种 NAE 不仅向加密图像引入了类似噪声的视觉外观，而且还迫使目标分类器将密文预测为与原始明文图像相同的标签。在解码阶段，我们采用对称残差学习 SRL 框架来以最小的退化恢复明文图像。大量实验表明 1 在明文域中训练的分类器的分类精度在密文和明文域中保持相同 2 加密图像可以恢复为其原始形式，SVHN 数据集的平均 PSNR 高达 51 dB VGGFace2 数据集 3 为 48 dB，我们的系统在跨数据集的加密、解密和分类任务上表现出令人满意的泛化能力，这与训练 1 和 4 不同，针对三种潜在威胁模型实现了高水平的安全性。

Exploiting Low-confidence Pseudo-labels for Source-free Object Detection
Authors Zhihong Chen, Zilei Wang, Yixin Zhang
无源对象检测 SFOD 旨在使经过源训练的检测器适应未标记的目标域，而无需访问标记的源数据。当前的 SFOD 方法在适应阶段使用基于阈值的伪标签方法，该方法通常仅限于高置信度伪标签并导致信息丢失。为了解决这个问题，我们提出了一种新方法，通过引入高和低置信度阈值来充分利用伪标签。具体而言，按照惯例使用置信度分数高于高阈值的伪标签，而使用低置信度伪标签利用LPU模块来利用低阈值和高阈值之间的伪标签。 LPU模块由Proposal Soft Training PST和Local Spatial Contrastive Learning LSCL组成。 PST 生成用于软训练的建议的软标签，这可以减轻标签不匹配问题。 LSCL利用提案的局部空间关系来提高模型区分空间相邻提案的能力，从而进一步优化表征特征。将这两个组件结合起来克服了传统方法在利用低置信度伪标签方面所面临的挑战。

Representation Learning via Consistent Assignment of Views over Random Partitions
Authors Thalles Silva, Ad n Ram rez Rivera
我们提出了随机分区上的一致视图分配 CARP，这是一种用于视觉特征表示学习的自监督聚类方法。 CARP 使用梯度下降以端到端在线方式学习原型，无需额外的不可微模块来解决集群分配问题。 CARP 基于原型的随机分区优化了新的借口任务，该任务规范化模型并强制视图分配之间的一致性。此外，我们的方法提高了训练稳定性并防止联合嵌入训练中解决方案崩溃。通过广泛的评估，我们证明 CARP 的表示适合学习下游任务。我们通过许多标准协议在 17 个数据集中评估 CARP 的表示能力，包括线性评估、少量镜头分类、k NN、k 均值、图像检索和副本检测。我们将 CARP 性能与 11 种现有的自监督方法进行比较。我们广泛地消除了我们的方法，并证明我们提出的随机分区借口任务通过设计多个随机分类任务提高了学习表示的质量。

Weakly Supervised Learning for Breast Cancer Prediction on Mammograms in Realistic Settings
Authors Shreyasi Pathak, J rg Schl tterer, Jeroen Geerdink, Onno Dirk Vijlbrief, Maurice van Keulen, Christin Seifert
通过乳房X线照相术早期检测乳腺癌的自动方法可以显着降低死亡率。由于这些方法有太多限制，目前在医院广泛采用这些方法受到阻碍。他们假设注释可用于单个图像甚至感兴趣的 ROI 区域，并且每个患者的图像数量固定。这两种假设在一般医院环境中都不成立。放宽这些假设会导致弱监督学习环境，其中每个案例都有可用的标签，但不适用于单个图像或 ROI。并非所有为患者拍摄的图像都包含恶性区域，并且恶性 ROI 仅覆盖图像的一小部分，而大多数图像区域代表良性组织。在这项工作中，我们研究了一种两级多实例学习 MIL 方法，用于在两个公共数据集（1.6k 和 5k 例）以及 21000 例内部数据集上进行病例级乳腺癌预测。观察到乳腺癌通常仅存在于一侧，而拍摄双侧乳房的图像作为预防措施，我们提出了一种域特定的 MIL 池变体。我们证明，二级 MIL 可以应用于现实的临床环境中，其中仅提供病例标签，并且每个患者的图像数量可变。现实环境中的数据会随着患者的持续摄入而变化，而手动注释工作却不会。

Heart Disease Detection using Vision-Based Transformer Models from ECG Images
Authors Zeynep Hilal Kilimci, Mustafa Yalcin, Ayhan Kucukmanisa, Amit Kumar Mishra
心脏病，也称为心血管疾病，是一种普遍存在的危重疾病，其特征是心脏和血管受损，导致冠状动脉疾病、心力衰竭和心肌梗塞等各种并发症。及时、准确地检测心脏病在临床实践中至关重要。及早识别处于危险中的个体可以采取主动干预、预防措施和个性化治疗策略，以减缓疾病的进展并减少不良后果。近年来，由于复杂技术和计算方法的结合，心脏病检测领域取得了显着的进步。其中包括机器学习算法、数据挖掘技术和预测建模框架，利用大量临床和生理数据来提高诊断准确性和风险分层。在这项工作中，我们建议使用尖端技术（即视觉变换模型）从心电图图像中检测心脏病。这些模型是 Google Vit、Microsoft Beit 和 Swin Tiny。据我们所知，这是首次致力于通过采用尖端技术（即变压器模型）通过基于图像的心电图数据检测心脏病。为了证明所提出的框架的贡献，将视觉变换器模型的性能与最先进的研究进行了比较。

Cross-attention Spatio-temporal Context Transformer for Semantic Segmentation of Historical Maps
Authors Sidi Wu, Yizi Chen, Konrad Schindler, Lorenz Hurni
在现代地球观测技术出现之前，历史地图提供了地球表面有用的时空信息。为了从地图中提取信息，近年来广泛流行的神经网络已经取代了手工制作的地图处理方法和繁琐的体力劳动。然而，任意不确定性（称为数据相关不确定性）是原始地图的绘图扫描褪色缺陷所固有的，以及考虑到训练过程的内存限制将地图裁剪成小图块时上下文不足，这对模型做出正确的预测提出了挑战。由于即使收集更多训练数据也无法减少任意不确定性，因此我们认为互补的时空背景可能会有所帮助。为了实现这一目标，我们提出了一个基于 U Net 的网络，它将时空特征与交叉注意转换器 U SpaTem 融合，在更大的空间范围内以及通过图像的时间序列聚合信息。我们的模型比使用时间或空间上下文的其他状态或艺术模型实现了更好的性能。与纯视觉变压器相比，我们的模型更加轻量级和有效。据我们所知，在分割任务中很少探索利用空间和时间上下文。尽管我们的应用是分割历史地图，但我们相信该方法可以转移到具有类似问题的其他领域，例如卫星图像的时间序列。

FUSC: Fetal Ultrasound Semantic Clustering of Second Trimester Scans Using Deep Self-supervised Learning
Authors Hussain Alasmawi, Leanne Bricker, Mohammad Yaqub
超声是妊娠期临床实践中的主要成像方式。每年有超过 1.4 亿胎儿出生，需要进行大量扫描。大量胎儿超声扫描的可用性为训练强大的机器学习模型提供了机会。然而，大量的扫描也面临着挑战，因为监督方法需要对每张图像进行手动标记。标记通常是劳动密集型的，需要专业知识才能准确地注释图像。这项研究提出了一种无监督的方法，可以将超声图像自动聚类到大范围的胎儿视图中，从而减少或消除手动标记的需要。我们的胎儿超声语义聚类 FUSC 方法是使用包含 88,063 幅图像的大型数据集开发的，并在包含 8,187 幅图像的其他未见过的数据集上进行进一步评估，实现了超过 92 的聚类纯度。我们的调查结果有可能对胎儿超声成像领域产生重大影响，并为更先进的自动化标记解决方案铺平道路。

PrivacyGAN: robust generative image privacy
Authors Mariia Zameshina LIGM , Marlene Careil MM, IDS , Olivier Teytaud LRI, TANC , Laurent Najman LIGM

Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation
Authors Mariia Zameshina LIGM , Olivier Teytaud TAU , Laurent Najman LIGM
潜在扩散模型擅长从文本生成高质量图像。然而，人们担心生成的图像缺乏多样性。为了解决这个问题，我们引入了 Diverse Diffusion，一种提高图像多样性的方法，超越性别和种族，跨越更丰富的领域，包括颜色多样性。Diverse Diffusion 是一种通用的无监督技术，可以应用于现有的文本到图像模型。我们的方法侧重于寻找稳定扩散潜在空间中彼此远离的向量。

Click on Mask: A Labor-efficient Annotation Framework with Level Set for Infrared Small Target Detection
Authors Haoqing Li, Jinfu Yang, Yifei Xu, Runshi Wang
红外小目标检测是将小目标从红外杂波背景中分离出来是一项具有挑战性的任务。最近，深度学习范式取得了可喜的成果。然而，这些数据驱动的方法需要大量的手动注释。由于红外目标尺寸较小，人工标注消耗较多资源，制约了该领域的发展。这封信提出了一种具有水平集的劳动效率高且粗略的注释框架，只需一次粗略的点击即可获得高质量的伪掩模。设计了具有期望差能量泛函的变分水平集公式，其中在水平集演化过程中本质上保持零水平轮廓。解决了由于目标尺寸小和过度正则化导致的零级轮廓消失的问题。在 NUAA SIRST 和 IRSTD 1k 数据集上的实验表明，我们的方法实现了卓越的性能。

Machine Learning for Leaf Disease Classification: Data, Techniques and Applications
Authors Jianping Yao, Son N. Tran, Samantha Sawyer, Saurabh Garg
不断增长的可持续发展需求带来了一系列信息技术助力农业生产。特别是，人工智能的一个分支——机器学习应用的出现已经显示出多项突破，可以增强和彻底改变植物病理学方法。近年来，机器学习已在学术研究和工业应用中用于叶病分类。因此，全面了解机器学习技术和叶病检测应用的最新发展对于研究人员、工程师、管理者和企业家来说是非常有益的。本研究将对该主题的不同方面进行调查，包括数据、技术和应用。本文将从公开可用的数据集开始。之后，我们总结了常见的机器学习技术，包括传统的浅层学习、深度学习和增强学习。最后我们讨论相关应用。

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
Authors Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
高分辨率 3D 对象生成仍然是一项具有挑战性的任务，主要是由于全面带注释的训练数据的可用性有限。最近的进展旨在通过利用图像生成模型来克服这一限制，该模型在广泛的精选网络数据集上进行预训练，并使用分数蒸馏采样 SDS 等知识转移技术。有效满足高分辨率渲染的要求通常需要采用基于潜在表示的模型，例如潜在扩散模型 LDM。在此框架中，出现了一个重大挑战：为了计算单个图像像素的梯度，有必要通过图像模型的冻结组件（例如 LDM 中使用的 VAE 编码器）从指定的潜在空间反向传播梯度。然而，这种梯度传播路径从未被优化过，在训练过程中仍然不受控制。我们发现，不受管制的梯度会对 3D 模型从图像生成模型获取纹理相关信息的能力产生不利影响，导致外观合成质量较差。为了解决这一首要挑战，我们提出了一种称为“像素明智梯度裁剪 PGC”的创新操作，旨在无缝集成到现有的 3D 生成模型中，从而提高其合成质量。具体来说，我们通过有效地裁剪像素梯度来控制随机梯度的大小，同时保留关键的纹理相关的梯度方向。

RecolorCloud: A Point Cloud Tool for Recoloring, Segmentation, and Conversion
Authors Esteban Segarra Martinez, Ryan P. McMahan
点云是用高精度激光扫描仪记录的环境的 3D 空间表示。这些扫描仪可能会受到环境干扰，例如表面阴影、纹理和反射。因此，点云可能会受到虚假或不正确的颜色的污染。

WeedCLR: Weed Contrastive Learning through Visual Representations with Class-Optimized Loss in Long-Tailed Datasets
Authors Alzayat Saleh, Alex Olsen, Jake Wood, Bronson Philippa, Mostafa Rahimi Azghadi
图像分类是现代杂草管理和作物干预技术中的一项关键任务。然而，现有杂草数据集的规模、多样性和平衡性有限，阻碍了用于泛化杂草识别的深度学习模型的开发。此外，主流的完全监督的杂草分类器的昂贵的标签要求使得它们在新的杂草物种和特定地点的杂草管理中广泛部署的成本和时间过高。本文提出了一种通过视觉表示 WeedCLR 进行杂草对比学习的新方法，该方法使用类别优化损失和冯诺依曼熵深度表示来进行长尾数据集中的杂草分类。 WeedCLR 利用自我监督学习来学习丰富而强大的视觉特征，无需任何标签，并应用类优化损失函数来解决长尾数据集中的类不平衡问题。 WeedCLR 在两个公共杂草数据集 CottonWeedID15（包含 15 种杂草物种）和 DeepWeeds（包含 8 种杂草物种）上进行评估。与之前的方法相比，WeedCLR 在 CottonWeedID15 上的平均准确度提高了 4.3，在 DeepWeeds 上的平均准确度提高了 5.6。与现有方法相比，它还表现出更好的泛化能力和对不同环境条件的鲁棒性，而无需昂贵且耗时的人工注释。

Lidar Panoptic Segmentation and Tracking without Bells and Whistles
Authors Abhinav Agarwalla, Xuhua Huang, Jason Ziglar, Francesco Ferroni, Laura Leal Taix , James Hays, Aljo a O ep, Deva Ramanan
最先进的激光雷达全景分割 LPS 方法遵循自下而上的以分割为中心的方式，其中它们通过利用聚类来获取对象实例来构建语义分割网络。在本文中，我们重新思考了这种方法，并提出了一种用于 LPS 和跟踪的极其简单但有效的以检测为中心的网络。我们的网络采用模块化设计，并针对全景分割和跟踪任务的各个方面进行了优化。我们网络的核心组件之一是对象实例检测分支，我们使用点级模态注释对其进行训练，如以分割为中心的数据集中提供的那样。在没有模态长方体注释的情况下，我们使用轨迹级监督来回归模态质心和对象范围，轨迹级监督提供有关对象大小的信息，由于遮挡和激光雷达数据的稀疏性质，无法从单次扫描中推断出对象大小。我们通过学习将激光雷达点与检测到的质心相关联来获得细粒度的实例片段。

Not Just Learning from Others but Relying on Yourself: A New Perspective on Few-Shot Segmentation in Remote Sensing
Authors Hanbo Bi, Yingchao Feng, Zhiyuan Yan, Yongqiang Mao, Wenhui Diao, Hongqi Wang, Xian Sun
提出了少量镜头分割 FSS，仅用少量带注释的样本即可分割未知类目标。目前大多数 FSS 方法都遵循从支持图像中挖掘语义来指导查询图像分割的范式。然而，这种向他人学习的模式很难处理极端的类内差异，从而阻止 FSS 直接推广到遥感场景。为了弥补类内方差的差距，我们开发了一种名为 DMNet 的双重挖掘网络，用于跨图像挖掘和自挖掘，这意味着它不再仅仅关注支持图像，而是更关注查询图像本身。具体来说，我们提出了一个类公共区域挖掘 CPRM 模块，通过捕获支持查询图像对之间的共同语义来有效抑制不相关的特征污染。然后提出类特定区域挖掘CSRM模块，以过滤和净化的方式连续挖掘查询图像本身的类特定语义。此外，为了防止遥感场景中多个类的共存加剧FSS泛化的崩溃，我们还提出了一种新的已知类元抑制器KMS模块来抑制样本中已知类对象的激活。对 iSAID 和 LoveDA 遥感数据集的大量实验表明，我们的方法以最少的模型参数设置了最先进的技术。值得注意的是，我们以 Resnet 50 为骨干的模型在 1 个镜头和 5 个镜头设置下在 iSAID 上实现了 49.58 和 51.34 的 mIoU，分别比最先进的方法高出 1.8 和 1.12。

Segment Anything Meets Universal Adversarial Perturbation
Authors Dongshen Han, Sheng Zheng, Chaoning Zhang
随着Segment Anything Model SAM成为计算机视觉领域流行的基础模型，其对抗鲁棒性已成为不可忽视的问题。这项工作研究是否可以使用与图像无关的通用对抗性扰动 UAP 来攻击 SAM。换句话说，我们寻求一个单一的扰动，可以欺骗 SAM 来预测大多数（如果不是全部）图像的无效掩模。我们证明传统的以图像为中心的攻击框架对于图像无关的攻击是有效的，但对于通用的对抗性攻击却失败了。为此，我们提出了一种新颖的以扰动为中心的框架，该框架产生了基于自监督对比学习 CL 的 UAP 生成方法，其中 UAP 设置为锚样本，并且从 UAP 中增强正样本。负样本的表示预先从图像编码器获得并保存在存储体中。我们提出的基于 CL 的 UAP 生成方法的有效性通过定量和定性结果得到验证。

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
Authors Cong Yao
在本报告中，我们介绍了 DocXChain，这是一个强大的文档解析开源工具链，其设计和开发的目的是自动将文本、表格和图表等非结构化文档中包含的丰富信息转换为可读和可操作的结构化表示。机器。具体来说，提供了文本检测、文本识别、表格结构识别、布局分析等基本能力。在这些基本能力的基础上，我们还构建了一套功能齐全的文档解析管道，即通用文本读取、表格解析和文档结构化，以驱动现实场景中与文档相关的各种应用。此外，DocXChain简洁、模块化、灵活，可以轻松与LangChain、ChatGPT等现有工具、库或模型集成，构建更强大的系统，完成更复杂、更具挑战性的任务。

Deep Learning Techniques for Video Instance Segmentation: A Survey
Authors Chenhao Xu, Chang Tsun Li, Yongjian Hu, Chee Peng Lim, Douglas Creighton
视频实例分割，也称为多对象跟踪和分割，是 2019 年推出的一个新兴计算机视觉研究领域，旨在同时检测、分割和跟踪视频中的实例。通过有效分析和利用视频中的视觉信息来处理视频实例分割任务，可以实现一系列计算机视觉支持的应用，例如人类动作识别、医学图像处理、自动车辆导航、监控等。随着深度学习技术在各种计算机视觉领域中占据主导地位，人们提出了大量基于深度学习的视频实例分割方案。这项调查提供了视频实例分割深度学习方案的多方面视图，涵盖各种架构范例，以及功能性能、模型复杂性和计算开销的比较。除了常见的架构设计之外，还编译和讨论了用于提高视频实例分割深度学习模型性能的辅助技术。

ClusT3: Information Invariant Test-Time Training
Authors Gustavo A. Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ismail Ben Ayed, Christian Desrosiers
深度学习模型在广泛的视觉任务中表现出了卓越的性能。然而，它们在测试时通常容易受到域转移的影响。测试时训练 TTT 方法的开发是为了尝试减轻这些漏洞，其中次要任务在训练时与主要任务同时解决，稍后在测试时用作自监督代理任务。在这项工作中，我们提出了一种基于多尺度特征图和离散潜在表示之间互信息最大化的新型无监督 TTT 技术，该技术可以作为辅助聚类任务集成到标准训练中。

Improving Representation Learning for Histopathologic Images with Cluster Constraints
Authors Weiyi Wu, Chongyang Gao, Joseph DiPalma, Soroush Vosoughi, Saeed Hassanpour
全玻片图像 WSI 扫描仪和计算能力的最新进展极大地推动了人工智能在组织病理学玻片分析中的应用。虽然这些进步很有希望，但当前用于 WSI 分析的监督学习方法面临着彻底标记高分辨率幻灯片的挑战，这个过程既费力又耗时。相比之下，自我监督学习 SSL 预训练策略正在成为一种可行的替代方案，因为它们不依赖于显式的数据注释。这些 SSL 策略正在迅速缩小与其受监督策略之间的性能差距。在此背景下，我们引入了 SSL 框架。该框架旨在通过协同 WSI 分析中的不变性损失和聚类损失来实现可转移表示学习和语义有意义的聚类。值得注意的是，我们的方法在下游分类和聚类任务中优于常见的 SSL 方法，对 Camelyon16 和胰腺癌数据集的测试证明了这一点。

Understanding Video Transformers for Segmentation: A Survey of Application and Interpretability
Authors Rezaul Karim, Richard P. Wildes
视频分割涵盖了广泛的问题表述类别，例如对象、场景、演员动作和多模态视频分割，用于使用像素级掩模描绘任务特定的场景组件。最近，该研究领域的方法从专注于基于 ConvNet 的模型转向基于 Transformer 的模型。此外，由于人们对基础科学理解、模型诊断和现实世界部署的社会影响日益增长的兴趣，变压器模型和视频时间动态也出现了各种可解释的方法。之前的调查主要集中在视频分割任务子集上的 ConvNet 模型或分类任务的转换器上。此外，基于变压器的视频分割模型的组件明智讨论尚未受到应有的关注。此外，之前对可解释性方法的评论主要集中在用于分类的变压器上，而对视频模型的视频时间动态建模能力的分析关注较少。在本次调查中，我们通过对各种类别的视频分割的深入讨论、对基于变压器的最先进模型的组件明智讨论以及对相关可解释性方法的回顾来解决上述问题。我们首先介绍不同的视频分割任务类别、它们的目标、具体挑战和基准数据集。接下来，我们对最近基于 Transformer 的模型进行组件明智的审查，并记录不同视频分割任务的最新技术。随后，我们讨论变压器模型的事后和事前可解释性方法以及用于理解时间维度在视频模型中的作用的可解释性方法。

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
Authors Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
纹理反转是一种即时学习方法，它学习新单词的奇异嵌入来表示图像风格和外观，使其能够集成到自然语言句子中以生成新颖的合成图像。然而，即使可以实现单个概念的嵌入，在一个场景中识别和集成多个对象级概念也会带来重大挑战。我们的实证测试进一步证实了这一点。为了应对这一挑战，我们引入了多概念提示学习 MCPL 框架，其中从单个句子图像对同时学习多个新单词。为了提高单词概念相关性的准确性，我们提出了三种正则化技术Attention Masking AttnMask来集中学习相关领域Prompts Contrastive Loss PromptCL来分离不同概念的嵌入和Bind adjective Bind adj。将新单词与已知单词联系起来。我们通过图像生成、编辑和使用不同图像的注意力可视化进行评估。广泛的定量比较表明，我们的方法可以通过增强的单词概念相关性来学习更多语义上解开的概念。

Improving SCGAN's Similarity Constraint and Learning a Better Disentangled Representation
Authors Iman Yazdanpanah
SCGAN 在生成的图像和条件之间添加了相似性约束，作为生成对抗网络的正则化项。相似性约束充当导师，指导生成器网络根据条件理解表示的差异。我们更深入地了解 SCGAN 的工作原理。这种理解使我们意识到相似性约束的作用类似于对比损失函数。我们相信，具有高度理解力和智能的模型可以根据图像的结构和高级特征来衡量图像之间的相似性，就像人类一样。为了制作修改后的模型，我们对 SCGAN 进行了两个主要更改，即使用 SSIM 来测量图像之间的相似性以及将对比损失原理应用于相似性约束。使用 FID 和 FactorVAE 指标，修改后的模型表现更好。与其他模型相比，修改后的模型也具有更好的通用性。

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
Authors Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien Tsin Wong, Ying Shan
通过运动增强静态图像可提供更吸引人的视觉体验。传统的图像动画技术主要关注具有随机动态的自然场景动画，例如云和流体，因此限制了它们对通用视觉内容的适用性。为了克服这个限制，我们探索了开放域图像的动态内容的合成，将它们转换成动画视频。关键思想是通过将图像纳入生成过程作为指导，利用文本到视频扩散模型的运动先验。给定图像，我们首先使用可学习的图像编码网络将其投影到文本对齐的丰富图像嵌入空间中，这有助于视频模型兼容地消化图像内容。然而，一些视觉细节仍然难以在生成的视频中保留。为了补充更精确的图像信息，我们通过将完整图像与初始噪声连接来进一步将完整图像提供给扩散模型。实验结果表明，我们提出的方法产生了视觉上令人信服的动画视频，表现出自然的运动和对输入图像的高保真度。比较评估表明我们的方法相对于现有竞争对手具有显着的优越性。

Mesh Represented Recycle Learning for 3D Hand Pose and Mesh Estimation
Authors Bosang Kim, Jonghyun Kim, Hyotae Lee, Lanying Jin, Jeongwon Ha, Dowoo Kwon, Jungpyo Kim, Wonhyeok Im, KyungMin Jin, Jungho Lee
一般来说，手部姿势估计旨在提高现实世界场景中模型性能的鲁棒性。然而，由于现有数据集是在有限的环境中获得的来注释 3D 信息，因此很难增强鲁棒性。尽管神经网络在定量上实现了较高的估计精度，但在视觉质量方面仍不能令人满意。定量结果与其视觉质量之间的差异仍然是手部姿势表示中的一个悬而未决的问题。为此，我们提出了一种用于 3D 手部姿势和网格估计的网格表示循环学习策略，该策略在训练阶段强化了合成的手部网格表示。具体来说，手部姿势和网格估计模型首先在训练阶段使用真实世界的手部图像来预测参数化 3D 手部注释，即手部网格的 3D 关键点位置和顶点。其次，使用自我估计的手部网格表示生成合成手部图像。之后，合成的手部图像再次输入到同一模型中。因此，所提出的学习策略通过加强合成网格表示来同时提高定量结果和视觉质量。为了鼓励原始模型输出与其回收模型输出之间的一致性，我们提出了自相关损失，最大限度地提高了我们学习策略的准确性和可靠性。因此，该模型通过从其自身的输出中学习网格表示，有效地对手部姿势估计进行自我细化。为了证明我们学习策略的有效性，我们在 FreiHAND 数据集上进行了广泛的实验。

Variational Inference for SDEs Driven by Fractional Noise
Authors Rembert Daems, Manfred Opper, Guillaume Crevecoeur, Tolga Birdal
我们提出了一种新颖的变分框架，用于在由马尔可夫近似分数布朗运动 fBM 驱动的神经随机微分方程 SDE 中进行推理。 SDE 提供了一种多功能工具，用于对具有固有噪声和随机性的现实世界连续时间动态系统进行建模。将 SDE 与变分方法的强大推理能力相结合，可以通过随机梯度下降来学习代表性函数分布。然而，传统的 SDE 通常假设潜在噪声遵循布朗运动 BM ，这阻碍了它们捕获长期依赖性的能力。相比之下，分数布朗运动 fBM 将 BM 扩展到包含非马尔可夫动力学，但现有的推断 fBM 参数的方法要么计算要求高，要么统计效率低。在本文中，基于 fBM 的马尔可夫近似，我们从成熟的随机分析领域中得出了后路径测量的有效变分推理所必需的证据下界。此外，我们提供了一个封闭式表达式来确定最佳近似系数。此外，我们建议使用神经网络来学习变分后验中的漂移、扩散和控制项，从而实现神经 SDE 的变分训练。在此框架中，我们还优化了赫斯特指数，控制分数噪声的性质。

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
Authors David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer, Thomas Brox
在这项工作中，我们研究了在面临多步决策任务时变压器损耗的快速、逐步改善。我们发现 Transformer 很难学习中间任务，而 CNN 在我们研究的任务上没有这样的问题。当 Transformer 学习中间任务时，在训练和验证损失达到数百个时期的饱和度后，他们会快速且出乎意料地完成此任务。我们将这些快速改进称为“尤里卡时刻”，因为变压器似乎突然学会了一项以前无法理解的任务。类似的性能飞跃被称为“Grokking”。与 Grokking 不同的是，对于 Eureka 时刻，验证和训练损失在快速改善之前都会饱和。我们将问题追溯到 Transformer 自注意力模块中的 Softmax 函数，并展示了缓解该问题的方法。这些修复提高了训练速度。

Perceptual Assessment and Optimization of High Dynamic Range Image Rendering
Authors Peibei Cao, Rafal K. Mantiuk, Kede Ma
高动态范围 HDR 成像因其能够忠实地再现自然场景中的亮度水平而越来越受欢迎。因此，HDR图像质量评估IQA至关重要，但却被肤浅对待。大多数现有的 IQA 模型都是针对低动态范围 LDR 图像开发和校准的，这些图像已被证明与人类对 HDR 图像质量的感知相关性较差。在这项工作中，我们通过转移 LDR IQA 的最新进展提出了一系列 HDR IQA 模型。我们方法的关键步骤是指定一个简单的逆显示模型，将 HDR 图像分解为一组具有不同曝光的 LDR 图像，这些图像将由现有的 LDR 质量模型进行评估。然后，借助简单的良好暴露度测量，将每次暴露的局部质量得分汇总为每次暴露的全局质量得分，该得分将在暴露之间进一步加权以获得总体质量得分。在评估 LDR 图像时，所提出的 HDR 质量模型可以优雅地降低到具有相同性能的原始 LDR 模型。对四个人类评级 HDR 图像数据集的实验表明，我们的 HDR 质量模型始终优于现有的 IQA 方法，包括 HDR VDP 系列。

Predicting Ovarian Cancer Treatment Response in Histopathology using Hierarchical Vision Transformers and Multiple Instance Learning
Authors Jack Breen, Katie Allen, Kieran Zucker, Geoff Hall, Nishant Ravikumar, Nicolas M. Orsi
对于许多患者来说，目前的卵巢癌治疗提供的临床益处有限。对于某些疗法，无法预测患者的反应，可能使他们遭受治疗的副作用，而没有任何治疗益处。作为使用组织病理学图像 ATEC23 挑战自动预测卵巢癌治疗效果的一部分，我们评估了深度学习的有效性，以预测包括抗血管生成药物贝伐珠单抗在内的疗程是否有助于缓解或预防疾病进展至少 6 个月一组来自 78 名卵巢癌患者的 282 张组织病理学全幻灯片图像 WSI。我们的方法使用预训练的分层图像金字塔变换器 HIPT 来提取区域级特征，并使用基于注意力的多实例学习 ABMIL 模型来聚合特征并对整个幻灯片进行分类。最佳HIPT ABMIL模型的内部平衡精度为60.2±2.9，AUC为0.646±0.033。研究发现，组织病理学特定模型预训练有利于分类性能，但分层转换器则不然，而 ResNet 特征提取器可实现类似的性能。由于数据集较小且高度异构，因此在 5 倍交叉验证折叠中性能存在差异，并且折叠内的验证集和测试集性能之间存在一些极端差异。该模型不能很好地推广到组织微阵列，其准确性比随机机会差。

OODRobustBench: benchmarking and analyzing adversarial robustness under distribution shift
Authors Lin Li, Yifei Wang, Chawin Sitawarin, Michael Spratling
现有的工作在提高对抗鲁棒性方面取得了很大进展，但通常仅在与训练数据相同分布的数据上测试他们的方法，即分布 ID 测试。因此，尚不清楚这种鲁棒性如何在输入分布变化（即分布外 OOD 测试）下泛化。这是一个令人担忧的遗漏，因为当方法在野外部署时，这种分布变化是不可避免的。为了解决这个问题，我们提出了一个名为 OODRobustBench 的基准，使用 23 个数据集明智的转变（即输入分布的自然转变）和 6 个威胁明智的转变（即不可预见的对抗性威胁模型）来全面评估 OOD 对抗鲁棒性。 OODRobustBench 用于使用 60.7K 对抗性评估来评估 706 个稳健模型。这一大规模分析表明 1 对抗鲁棒性遭受严重的 OOD 泛化问题 2 ID 鲁棒性与 OOD 鲁棒性在许多分布变化下以正线性方式密切相关。后者能够根据 ID 稳健性预测 OOD 稳健性。基于此，我们能够预测现有鲁棒训练方案的 OOD 鲁棒性上限。结果表明，实现 OOD 稳健性需要设计超越传统方法的新方法。最后，我们发现额外的数据、数据增强、高级模型架构和特定的正则化方法可以提高 OOD 的稳健性。

Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding Network for Learned Video Compression
Authors Yiming Wang, Qian Huang, Bin Tang, Huashan Sun, Xing Li
最近，学习的视频压缩取得了令人兴奋的性能。遵循传统的混合预测编码框架，大多数学习方法通常采用运动估计运动补偿MEMC方法来去除帧间冗余。然而，不准确的运动矢量MV通常会导致重建帧的失真。此外，大多数方法都忽略了空间和通道冗余。为了解决上述问题，我们提出了一种基于运动感知和时空通道上下文编码的视频压缩网络 MASTC VC ，它学习潜在表示并使用变分自动编码器 VAE 来捕获帧内像素和帧间运动的特征。具体来说，我们设计了一个多尺度运动感知模块 MS MAM，通过以从粗到细的方式利用多尺度运动预测信息来估计时空通道一致运动向量。在此之上，我们进一步提出了一个时空通道上下文模块 STCCM ，它探索潜在表示的相关性，以分别从空间、时间和通道方面减少比特消耗。综合实验表明，我们提出的 MASTC VC 在三个公共基准数据集上优于先前最先进的 SOTA 方法。

Generating Robust Adversarial Examples against Online Social Networks (OSNs)
Authors Jun Liu, Jiantao Zhou, Haiwei Wu, Weiwei Sun, Jinyu Tian
在线社交网络 OSN 已发展成为现代图像的流行传输渠道。人们发现，故意设计用来误导深度神经网络 DNN 的对抗性示例 AE 对于 OSN 进行的不可避免的有损操作来说很脆弱。因此，AE在通过OSN传输后将失去攻击能力。在这项工作中，我们的目标是设计一个新的框架来生成能够在 OSN 传输中幸存的鲁棒 AE，即 OSN 传输之前和之后的 AE 都具有强大的攻击能力。为此，我们首先提出了一个称为模拟 OSN SIO 的可微网络来模拟 OSN 进行的各种操作。具体来说，SIO 网络由两个模块组成：1 个可微分的 JPEG 层，用于近似普遍存在的 JPEG 压缩；2 个编码器解码器子网络，用于模拟其余操作。然后，基于 SIO 网络，我们制定了一个优化框架，通过强制模型输出通过和不通过 SIO 来生成鲁棒的 AE。在 Facebook、微信和 QQ 上进行的大量实验表明，我们的攻击方法比现有方法产生更稳健的 AE，特别是在小失真约束下，攻击成功率 ASR 方面的性能增益可能超过 60。此外，我们还构建了一个公共数据集，其中包含由 Facebook、微信或 QQ 处理的 10,000 多对 AE，以促进未来对稳健 AE 生成的研究。

TapMo: Shape-aware Motion Generation of Skeleton-free Characters
Authors Jiaxu Zhang, Shaoli Huang, Zhigang Tu, Xin Chen, Xiaohang Zhan, Gang Yu, Ying Shan
以前的运动生成方法仅限于预装配的3D人体模型，阻碍了它们在各种非装配角色动画中的应用。在这项工作中，我们展示了 TapMo，一种文本驱动的动画管道，用于在广泛的无骨架 3D 角色中合成运动。 TapMo 的关键创新在于它使用形状变形感知特征作为指导扩散模型的条件，从而能够为各种角色生成网格特定运动。具体来说，TapMo 包括两个主要组件：Mesh Handle Predictor 和 Shape aware Diffusion Module。网格手柄预测器可预测蒙皮权重并将网格顶点聚类到自适应手柄中以进行变形控制，从而消除了对传统骨骼绑定的需要。形状感知运动扩散通过网格特定的适应来合成运动。该模块采用文本引导运动和在第一阶段提取的网格特征，通过考虑角色的形状和变形来保留动画的几何完整性。 TapMo 以弱监督方式进行训练，可以容纳大量非人类网格，无论有或没有相关的文本动作。我们通过严格的定性和定量实验证明了 TapMo 的有效性和普遍性。

TRUSTED: The Paired 3D Transabdominal Ultrasound and CT Human Data for Kidney Segmentation and Registration Research
Authors William Ndzimbong, Cyril Fourniol, Loic Themyr, Nicolas Thome, Yvonne Keeza, Beniot Sauer, Pierre Thierry Piechaud, Arnaud Mejean, Jacques Marescaux, Daniel George, Didier Mutter, Alexandre Hostettler, Toby Collins
互模图像配准 IMIR 和腹部超声 US 数据的图像分割具有许多重要的临床应用，包括图像引导手术、自动器官测量和机器人导航。然而，由于缺乏公共数据集，研究受到严重限制。我们提出了 TRUSTED 三维肾脏超声 TomodEnsitometrie 数据集，包括来自 48 名人类患者 96 个肾脏的成对经腹 3DUS 和 CT 肾脏图像，包括由两名经验丰富的放射技师进行的分割和解剖标志注释。评分者间分割一致性超过 94 Dice 分数，并且使用 STAPLE 算法生成黄金标准分割。注释了七个解剖标志，这对于 IMIR 系统的开发和评估非常重要。为了验证数据集的实用性，对 5 个用于自动肾脏分割的竞争性深度学习模型进行了基准测试，得出 CT 图像的平均 DICE 分数为 83.2 至 89.1，US 图像的平均 DICE 分数为 61.9 至 79.4。对三种 IMIR 方法进行了基准测试，相干点漂移表现最好，平均目标配准误差为 4.53 毫米。

A reproducible 3D convolutional neural network with dual attention module (3D-DAM) for Alzheimer's disease classification
Authors Gia Minh Hoang, Youngjoo Lee, Jae Gwan Kim
阿尔茨海默病是最常见的神经退行性疾病之一，其特征是β淀粉样斑块和 tau 蛋白缠结的积累。最近，深度学习方法在阿尔茨海默病的诊断中显示出了希望。在这项研究中，我们提出了一种可重复的模型，该模型利用具有双重注意力模块的 3D 卷积神经网络来进行阿尔茨海默病分类。我们在 ADNI 数据库中训练了模型，并在两个独立的数据集 AIBL 和 OASIS1 中验证了我们的方法的通用性。我们的方法实现了最先进的分类性能，在 ADNI 数据集上，MCI 进展分类的准确度为 91.94，阿尔茨海默病分类的准确度为 96.30。此外，该模型表现出良好的泛化性，在 AIBL 数据集上达到 86.37 的准确率，在 OASIS1 数据集上达到 83.42 的准确率。

DA-TransUNet: Integrating Spatial and Channel Dual Attention with Transformer U-Net for Medical Image Segmentation
Authors Guanqun Sun, Yizhi Pan, Weikun Kong, Zichang Xu, Jianhua Ma, Teeradaj Racharak, Le Minh Nguyen
由于强大的深度表示学习，自动医学图像分割取得了巨大进展。 Transformer 的影响引发了对其变体的研究，并大规模替换了传统的 CNN 模块。然而，这种趋势往往忽视了变压器的内在特征提取能力以及通过微小调整对模型和变压器模块进行潜在的改进。本研究提出了一种新颖的深度医学图像分割框架，称为 DA TransUNet，旨在将 Transformer 和双重注意力块引入传统 U 形架构的编码器和解码器中。与之前基于 Transformer 的解决方案不同，我们的 DA TransUNet 利用 Transformer 的注意力机制和 DA Block 的多方面特征提取，可以有效地结合全局、局部和多尺度特征来增强医学图像分割。同时，实验结果表明，在Transformer层之前添加了双重注意块，以方便U网结构中的特征提取。此外，在跳跃连接中合并双重注意块可以增强向解码器的特征传输，从而提高图像分割性能。各种医学图像分割基准的实验结果表明，DA TransUNet 显着优于最先进的方法。

Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers
Authors uya Yoshikawa, Tomoharu Iwata
复杂机器学习预测变量的预测解释质量通常使用插入和删除指标来衡量，这些指标评估解释的可信度，即解释反映预测变量行为的正确程度。为了提高可信度，我们提出了基于插入删除度量感知解释的优化 ID ExpO ，它优化了可微预测变量，以提高解释的插入和删除分数，同时保持其预测准确性。由于原始的插入和删除度量对于解释来说是不可微的，并且不能直接用于基于梯度的优化，因此我们将度量扩展为可微的，并使用它们来形式化基于插入和删除度量的正则化器。

PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
Authors Junghyun Kim, Gi Cheon Kang, Jaein Kim, Seoyun Yang, Minjoon Jung, Byoung Tak Zhang
语言条件机器人抓取 LCRG 旨在开发基于自然语言指令来地面和抓取物体的机器人。虽然能够识别钱包等个人物品的机器人可以与非专家用户更自然地交互，但当前的 LCRG 系统主要限制机器人只能理解通用表达。为此，我们引入了一个具有新颖数据集的任务场景 GraspMine，该数据集旨在通过从单个人类机器人交互中学习来定位和抓取给定个人指标的个人物体。为了解决 GraspMine 问题，我们提出了个性化抓取代理 PGA，它通过从用户环境中收集的原始图像集合传播用户给定的信息来学习个人对象。具体来说，PGA 通过用户呈现个人对象及其相关指示器来获取个人对象信息，然后 PGA 通过旋转该对象来检查该对象。根据获取的信息，PGA 通过我们提出的标签传播算法对内存中的对象进行伪标签。利用从交互中获取的信息和回忆中的伪标记对象，PGA 采用对象接地模型来掌握个人对象。 GraspMine 上的实验表明，PGA 在离线和在线设置中均显着优于基线方法，这表明其在现实世界场景中的有效性和个性化适用性。

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
Authors Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi
多模态技术的最新进展为在涉及文本、音频和图像处理的各种任务中表现出色的模型提供了令人兴奋的可能性。像 GPT 4V 这样的模型融合了计算机视觉和语言建模，在复杂的文本和图像任务中表现出色。之前的许多研究工作都认真研究了这些视觉大型语言模型 VLLM 在目标检测、图像字幕等任务中的性能。然而，这些分析通常侧重于单独评估每种模式的性能，缺乏对其跨模式相互作用的深入了解。具体来说，有关这些视觉语言模型是否一致或独立地执行视觉和语言任务的问题仍未得到解答。在这项研究中，我们从最近对多语言的研究中汲取灵感，并对模型的跨模态交互进行了全面分析。我们引入了一个系统框架，该框架量化了多模态设置中不同模态之间的能力差异，并提供了一组为这些评估设计的数据集。我们的研究结果表明，当任务相对简单时，像 GPT 4V 这样的模型往往会执行一致的模式。然而，随着任务变得更具挑战性，从视觉模态得出的结果的可信度就会降低。

LoMAE: Low-level Vision Masked Autoencoders for Low-dose CT Denoising
Authors Dayang Wang, Yongshun Xu, Shuo Han, Zhan Wu, Li Zhou, Bahareh Morovati, Hengyong Yu
低剂量计算机断层扫描 LDCT 可减少 X 射线辐射暴露，但代价是图像质量下降，其特点是噪声和伪影增加。最近，变压器模型成为提高 LDCT 图像质量的有前景的途径。然而，此类模型的成功依赖于大量配对的噪声和干净图像，而这些图像在临床环境中通常很少见。在计算机视觉和自然语言处理领域，掩码自动编码器 MAE 因其卓越的特征表示能力而被认为是一种有效的无标签自预训练方法。然而，最初的预训练和微调设计无法在去噪等低级视觉任务中发挥作用。为了应对这一挑战，我们重新设计了经典的编码器解码器学习模型，并促进了一种简单而有效的低级视觉 MAE，称为 LoMAE，专门用于解决 LDCT 去噪问题。此外，我们引入了 MAE GradCAM 方法来阐明 MAE LoMAE 的潜在学习机制。此外，我们还探索了 LoMAE 在各种噪声水平下的鲁棒性和生成能力。实验结果表明，所提出的LoMAE可以增强变压器的去噪性能，并大大减轻对地面真实干净数据的依赖。

LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction Following
Authors Cheng Fu Yang, Yen Chun Chen, Jianwei Yang, Xiyang Dai, Lu Yuan, Yu Chiang Frank Wang, Kai Wei Chang
当在训练中看到环境时，端到端 Transformers 在具体化教学方面表现出了令人印象深刻的成功率。然而，当部署在看不见的环境中时，它们往往会陷入困境。这种普遍性的缺乏是由于智能体对自然语言指令的细微变化不敏感。为了缓解这个问题，我们建议通过对比学习将代理的隐藏状态与指令明确对齐。然而，高级语言指令和代理的低级动作空间之间的语义差距仍然是一个障碍。因此，我们进一步引入了元操作的新概念来弥补这一差距。元动作是普遍存在的动作模式，可以从原始动作序列中解析出来。这些模式代表更高级的语义，直观地与指令更接近。当元动作用作附加训练信号时，代理可以更好地泛化到未见过的环境。与强大的多模态 Transformer 基线相比，我们在 ALFRED 体现指令跟踪的未见环境中实现了 4.5 倍的成功率绝对增益。附加分析表明，对比目标和元操作在实现最佳结果方面是互补的，并且生成的代理更好地将其状态与相应的指令保持一致，使其更适合现实世界的具体代理。

REVAMP: Automated Simulations of Adversarial Attacks on Arbitrary Objects in Realistic Scenes
Authors Matthew Hull, Zijie J. Wang, Duen Horng Chau
深度学习模型（例如自动驾驶汽车中使用的深度学习模型）很容易受到对抗性攻击，攻击者可能会将对抗性对象放置在环境中，从而导致错误分类。在数字空间中生成这些对抗性对象已被广泛研究，然而，在控制现实世界的环境因素时，成功地将这些攻击从数字领域转移到物理领域已被证明具有挑战性。为了应对这些限制，我们推出了 REVAMP，这是一个易于使用的 Python 库，它是同类工具中第一个用于创建任意对象的攻击场景并模拟现实环境因素、照明、反射和折射的工具。 REVAMP 通过提供广泛的可配置选项来设计实验并使用可微渲染来重现物理上合理的对抗对象，使研究人员和从业者能够快速探索数字领域内的各种场景。我们将演示并邀请观众尝试 REVAMP 在所选对象上生成对抗性纹理，同时控制各种场景参数。观众将选择一个场景、要攻击的对象、所需的攻击类别以及要使用的摄像机位置数量。然后，我们实时展示这种改变的纹理如何导致所选对象被错误分类，展示 REVAMP 在现实世界场景中的潜力。

RK-core: An Established Methodology for Exploring the Hierarchical Structure within Datasets
Authors Yao Lu, Yutian Huang, Jiaqi Nie, Zuohui Chen, Qi Xuan
近年来，机器学习领域经历了从以模型为中心到以数据为中心的转变。更广泛的数据集的积累推动了各种学习任务的进步，从而促进了在这些数据集上训练更大的模型。然而，这些数据集的探索相对较少。为此，我们引入了一种称为 RK core 的开创性方法，以便更深入地了解数据集中复杂的层次结构。在几个基准数据集中，我们发现核心值低的样本对其各自类别的代表性较差，相反，核心值高的样本表现出更大的代表性。相应地，与具有低核心值的样本相比，具有高核心值的样本对性能的贡献更大。在此基础上，我们进一步利用 RK core 来分析具有不同 coreset 选择方法的样本的层次结构。值得注意的是，我们发现高质量的核心集应该表现出层次多样性，而不是仅仅选择代表性样本。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(计算机视觉,视觉,Papers,1024程序员节,计算机视觉,动作生成,GPT3D,图像波函数,语义分割,图像生成)

PPT处理控件Aspose.Slides教程：在 PowerPoint 文件中创建 3D 形状 CodeCraft Studio 3D/2D CAD 文档管理 powerpoint 3d python
概述在PowerPoint文件中创建3D形状可以显著增强演示文稿的视觉吸引力。此功能对于建筑、教育和设计等以视觉表现为关键的行业至关重要。通过使用Aspose.SlidesforJava，开发人员可以轻松地将3D模型渲染集成到他们的应用程序中。该库以其灵活性和高级自定义选项而闻名，使其成为在PowerPoint中创建3D形状的理想选择。凭借其强大的功能，Aspose.SlidesforJava使开
halcon算子翻译——gray_histo和gray_histo_abs 机器人自动化控制 HALCON
算子：gray_histo(Regions,Image:::AbsoluteHisto,RelativeHisto)功能：计算灰度值分布。算子gray_histo为区域内的图像计算灰度值的绝对和相对的直方图。两个直方图都是256个值的元组，它们从0开始，包含图像的各个灰度值的频率。输入参数：Regions：输入计算的区域；Image：输入图像(byte/cyclic/direction/intl/
opencv初步学习——图像处理2
这一部分主要讲解如何初步地创建一个图像，以及彩色图像我们的一些基本处理方法一、创建一个灰度图像1-1、zeros()函数[NumPy库]要用到这一个函数，首先我们需要调用我们的NumPy库，这一个函数的作用是可以帮助我们生成一个元素值都是0的二维数组，如果我们把这些数据放到一张图片里面去，那么就对应着我们的一个黑色图像。当然我们也可以通过修改数组中的数字大小来改变图像的颜色（但还是灰度图像）（1）
PPT处理控件Aspose.Slides功能演示：使用 C# 在 PowerPoint 演示文稿中创建 SmartArt Augenstern__zyx c#html css ppt
演示文稿中的SmartArt用于以视觉形式提供信息。有时，选择使简单的文本更具吸引力。而在其他情况下，它用于演示流程图、流程、不同实体之间的关系等。下面将介绍如何使用C#以编程方式在PowerPoint演示文稿中创建SmartArt。目录在PowerPoint中创建SmartArt的.NETAPI使用C#在PowerPoint中创建SmartArt形状使用C#在PowerPoint中访问Smart
AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活工程师文化
目录：一、那些让程序员焦虑的"假消息"二、我们理解的工程师文化三、AI到底改变了什么四、程序员需要学什么新技能五、80后程序员vs 00后程序员六、最好的时代永远在前方引言公司食堂里，一个产品经理和一个程序员正在讨论一个让行业都焦虑的话题："AI来了，你们程序员还有什么用？我直接对着机器说需求，它就能给我做出来，我还要你干嘛？你还要给我排期！"产品经理显得有些得意。"你对它说的话它听得懂吗？它生成
springboot3.x中集成springdoc-openapi 恋上钢琴的虫 spring spring boot java
springdoc-openapi简介springdoc-openapijava库有助于使用springboot项目自动生成API文档。之前项目组一直用的Swagger库，一方面官方一直不更新，另一方面在SpringBoot升级到3.0.x之后SpringFox也是无法继续支持Swagger了，对此官方给出的建议是用另一种接口文档解决方案SpringDoc1、在pom.xml中引入SpringDo
巨兽的阴影：大型语言模型的挑战与伦理深渊田园Coder 人工智能科普人工智能科普
当GPT-4这样的庞然大物能够流畅对话、撰写诗歌、编写代码、解析图像，甚至在某些测试中媲美人类专家时，大型语言模型（LLM）仿佛成为了无所不能的“智能神谕”。然而，在这令人目眩的成就之下，潜藏着复杂而严峻的挑战与伦理困境，如同光芒万丈的科技巨兽脚下那片难以忽视的深邃阴影。这些挑战并非技术进步的偶然副作用，而是深植于LLM的运作本质、训练数据来源以及其与社会交互的复杂性之中。它们警示我们，在追逐能力
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT DeepSeek大模型官方教程 transformer chatgpt 深度学习自然语言处理人工智能 ai 大模型学习
扩散模型近年来在生成逼真但合成的连续媒体内容方面引起了广泛关注。本次演讲将介绍Transformer在图像生成的扩散模型中的应用，并进一步探讨其更广泛的前景。我们首先简要介绍扩散模型的基础知识以及它们的训练方式，从而建立基本背景。接着，我们讲解曾是扩散模型事实标准的基于UNet的网络架构，这将帮助我们理解引入Transformer架构并推动其发展的动因。随后，我们将深入探讨构成基础架构的核心模块，
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
从被动检索到主动思考：Naive RAG 到 Agentic RAG 的架构演进与关键技术解析一休哥助手人工智能架构 RAG
摘要随着大语言模型（LLMs）的广泛应用，检索增强生成（Retrieval-AugmentedGeneration,RAG）技术已成为解决模型知识滞后与幻觉问题的核心方案。本文深入剖析从基础NaiveRAG到新一代AgenticRAG的架构演进路径，聚焦关键技术创新点（如递归检索、自适应查询改写、工具集成、多智能体协作），并通过架构图对比与案例分析，揭示其在复杂任务处理中的范式转变。全文超过500
【2025/07/04】GitHub 今日热门项目
GitHub今日热门项目每日精选优质开源项目|发现优质开源项目，跟上技术发展趋势报告概览统计项数值说明报告日期2025-07-04(周五)GitHubTrending每日快照数据时间12:00:27实时爬取生成项目总数16个精选热门开源项目⭐总星数475.9K社区认可度指标今日热度+5.4K24小时新增关注数据洞察核心指标项目总览16个精选项目⭐社区认可475.9K总星标数今日热度5.4K新增关注
【scl】博图程序的导入和导出 peace.. 西门子1200 windows 经验分享学习其他
导入或者导出博图文件的方法（也叫移植文件）目录前言编辑编辑前言本篇文章主要写一下关于博图文件的导入和导出，具体要怎么样才能将写好的程序或者块移植到其他地方，下面我们一起来看！一、程序块的导入和导出程序块包含FC块，FB块；注意：需要是SCL语言编写的程序块才可以导出源文件！导出步骤：找到要导出的程序块---->右键单击----->选择从块生成源---->可以选着一个块或关联块---->将文件保存-
Python: 如何用Python的迭代器或生成器实现斐波那契数列 KevinShi_BJ python
斐波那契数列（Fibonaccisequence）是指这样一个数列：1，1，2，3，5，8，13，21，34，55，89...这个数列从第3项开始，每一项都等于前两项之和。斐波那契数列的定义者，是意大利数学家莱昂纳多·斐波那契（LeonardoFibonacci）。以兔子繁殖为例子而引入，故又称为”兔子数列“。斐波那契数列又称黄金分割数列，n越大，相邻两值的比越接近黄金分割0.618，非常有趣。百
【LeetCode 热题 100】48. 旋转图像——转置+水平翻转 xumistore LeetCode leetcode 算法职场和发展 java
Problem:48.旋转图像题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。文章目录整体思路完整代码时空复杂度时间复杂度：O(N^2)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的矩阵问题：旋转图像(RotateImage)。问题要求将一个NxN的二维矩阵顺时针
uniapp、微信小程序使用sm2加密解密，国密sm2
login.js为登录页面js，request.js为公共请求封装js。详细使用方法及文件请前往资源绑定地址下载倒入即可，其中公私要密钥自己生成
单片机：实现国密SM2算法（附完整源码）源代码大师单片机实战教程单片机算法嵌入式硬件
单片机：实现国密SM2算法主要功能模块1.定义椭圆曲线参数2.大数运算（示例：大数比较）3.椭圆曲线点定义4.密钥生成5.加密与解密注意事项实现国密SM2算法在单片机上的完整源码涉及多个模块，包括椭圆曲线运算、SM3哈希函数、密钥生成、加密解密以及签名验证等。以下是一个基于C语言的简化版SM2实现示例，适用于资源有限的单片机环境。请注意，实际应用中可能需要根据具体单片机的性能和资源进行优化。主要功
PHP 协程 SiegeLionQi PHP php 协程 yield
协程，又称微线程，纤程。英文名Coroutine。PHP官方文档的解释:生成器提供了一种更容易的方法来实现简单的对象迭代，相比较定义类实现Iterator接口的方式，性能开销和复杂性大大降低。生成器允许你在foreach代码块中写代码来迭代一组数据而不需要在内存中创建一个数组,那会使你的内存达到上限，或者会占据可观的处理时间。相反，你可以写一个生成器函数，就像一个普通的自定义函数一样,和普通函数只
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
数据库sql转Java实体类大诚子工作记录 java sql 实体类
//功能不是很完善,自动生成以后,没有转换成小驼峰格式,待完善......packagecom.bookingctrip.api.manual.utils;importjava.io.File;importjava.io.FileWriter;importjava.io.IOException;importjava.io.PrintWriter;importjava.sql.Connection;
开发效率翻倍！一键将 JSON 转换成 Java 实体类的神器来了！ A__tao java
开发效率翻倍！一键将JSON转换成Java实体类的神器来了！在开发Java后端接口时，你是否常常面对这样的烦恼：拿到前端传来的JSON，字段多到眼花缭乱手动敲JavaBean，字段写漏、类型搞错嵌套结构太复杂，写起来痛苦又低效别担心，这些问题通通可以交给它来解决：JSON转Java实体类在线工具为什么推荐这个工具？这个工具由资深开发者打造，功能聚焦于一件事：把你的JSON一键生成JavaBean，
MySQL(118)如何使用SSL进行加密连接？
使用SSL进行加密连接可以有效地保护数据在传输过程中的安全性，防止数据被窃取或篡改。下面我们将详细介绍如何在Java应用中使用SSL与MySQL数据库建立加密连接。一.准备工作在开始之前，请确保你已经安装了MySQL，并且有Java开发环境（如JDK和Maven）。二.生成SSL证书生成自签名证书：你可以使用OpenSSL工具来生成自签名证书。以下是生成CA证书、服务器证书和客户端证书的步骤。#生
对于报错..\meson.build:1:0: ERROR: Unknown compiler(s): [[‘icl‘], [‘cl‘], [‘cc‘], [‘gcc‘], [‘clang‘]等随风万里无云笔记笔记
解决方案1.安装完整的C/C++编译环境适用于Windows的官方编译器（MSVC）：下载并安装VisualStudio2022安装时勾选“使用C++的桌面开发”工作负载，并确保勾选以下组件：•MSVCv143-VS2022C++生成工具•Windows10/11SDK•C++核心功能完成安装后重启计算机2.验证编译器是否可用打开命令提示符（CMD）或PowerShell。运行以下命令检查cl.e
3.二维码的类型以及等级介绍
一、码的类型一维条形码：QRCode:日常生活中最广泛应用的矩阵式二维码Datamatrix:工业上也很常用，常用于商品包装和物流管理中，因其较小的尺寸和较高的密度适合小物品的标识。二、二维码的等级说明二维码的ABCDE五个等级是对二维码质量和可读性的分级划分。这些等级主要基于激光打标技术对二维码质量参数的评估结果。一般刚打印或者喷墨生成的二维码，有客户要求必须扫码并判断等级。注意，一般需要扫码等
PostgreSQL-XL之序列（Sequence）行星008 数据库 postgresql 数据库
目录序列的定义和作用PostgreSQL-XL中序列的特殊性序列的使用方法1.创建序列2.在分布式表中使用序列3.手动操作序列值4.查看序列与表的关联关系关键注意事项典型使用场景故障排查技巧在PostgreSQL-XL中，序列（Sequence）是一种特殊的数据库对象，用于生成唯一的数值序列。作为分布式数据库，PostgreSQL-XL中的序列需要特殊处理以保证全局唯一性。序列的定义和作用定义：序
Android音视频通话
Android音视频通话前言一、准备工作1、编写Jni接口2、通过javah工具生成头文件3、集成speex、webrtc二、初始化工作三、开启socketudp服务四、判断socket是否可读五、发送数据到远端1、视频数据1.1、初始化MediaCodec1.2、通过MediaCodec进行H264编码2、音频数据2.1、webrtc消回声2.2、speex编码压缩六、断开连接前言Android
深入解析 SAE 训练输出文件：结构与意义阿正的梦工坊 LLM 语言模型人工智能自然语言处理
深入解析SAE训练输出文件：结构与意义在利用SAELens框架进行稀疏自编码器（SparseAutoencoder,SAE）训练时，训练完成后会生成一组关键文件，这些文件记录了模型的权重、状态以及相关信息。本文将详细解析路径SAELens/tutorials/checkpoints/n78ngo5e/final_122880000下生成的四个文件：activations_store_state.s
Apple Sensor-Fusion 架构全解析：多模态语义图像感知系统设计与实战路径观熵影像技术全景图谱：架构调优与实战架构影像 Camera
AppleSensor-Fusion架构全解析：多模态语义图像感知系统设计与实战路径关键词：AppleA系列、SensorFusion、语义图像感知、IMU+Camera协同、图像识别、ARKit、视觉惯性融合、多模态协同计算、CoreMotion、ISP语义路径摘要：Apple自A13及其后续SoC架构中，持续深化Sensor-Fusion与图像语义感知的协同设计，构建出以ISP、NPU、IMU
鬼泣：蓄力动作总结 qq_42863961 鬼泣虚幻
能帮到你的话，就给个赞吧文章目录蓄力攻击蓄力动作——按下触发攻击动作——长按后触发计时方式硬件缺点：必须要触发一次start优点：系统计时计时缺点：每帧计时，计算大优点：方便长按和松开多次触发解决方案trigger：按输入键判断是否松开completed：升龙斩蓄力动作——由按下时触发攻击动作——长按后触发下劈斩下劈斩的攻击动作有两种触发方式由蓄力动作的动画通知触发由硬件触发空中攻击仅需在做动作前
鬼泣：动作系统总结 qq_42863961 鬼泣虚幻
文章目录动作时的运动根运动根运动motionwarping自制插件速度型节点无根运动移动组件运动自制插件动作&动作系统动作系统：有多种动作时，自然需要将动作升级为动作系统来处理多种动作。动作系统的范围：如何将动作升级为动作系统定义树形结构动作：根节点，其他节点都是动作其他动作：可以看作是动作的子类，也可以看做是动作的具体值标签：区分各种动作：可区分各种动作的唯一ID动作系统输入&输出：输入：标签输
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

【AI视野·今日CV 计算机视觉论文速览 第272期】Fri, 20 Oct 2023

Daily Computer Vision Papers

你可能感兴趣的:(计算机视觉,视觉,Papers,1024程序员节,计算机视觉,动作生成,GPT3D,图像波函数,语义分割,图像生成)

【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023