【AI视野·今日CV 计算机视觉论文速览 第300期】Tue, 30 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 30 Jan 2024
Totally 146 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第300期】Tue, 30 Jan 2024_第1张图片

Daily Computer Vision Papers

Computer Vision for Primate Behavior Analysis in the Wild
Authors Richard Vogg, Timo L ddecke, Jonathan Henrich, Sharmita Dey, Matthias Nuske, Valentin Hassler, Derek Murphy, Julia Fischer, Julia Ostner, Oliver Sch lke, Peter M. Kappeler, Claudia Fichtel, Alexander Gail, Stefan Treue, Hansj rg Scherberger, Florentin W rg tter, Alexander S. Ecker
计算机视觉的进步以及日益广泛的基于视频的行为监测对于改变我们研究动物认知和行为的方式具有巨大的潜力。然而,令人兴奋的前景与今天在实践中实际可以实现的目标之间仍然存在相当大的差距,尤其是在野外视频中。通过这篇前瞻性论文,我们希望通过指导行为科学家了解当前方法的预期,并引导计算机视觉研究人员解决与动物行为高级研究相关的问题,从而为缩小这一差距做出贡献。我们首先调查与基于视频的动物行为研究直接相关的计算机视觉问题的最先进方法,包括对象检测、多个体跟踪、交互识别和个体识别。然后,我们回顾了高效学习的方法,从实践的角度来看,这是最大的挑战之一。

Synchformer: Efficient Synchronization from Sparse Cues
Authors Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman
我们的目标是视听同步,重点关注野外视频,例如 YouTube 上的视频,其中同步线索可能很少。我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模分离的训练。这种方法在密集和稀疏设置中都实现了最先进的性能。

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
Authors Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
我们推出 InternLM XComposer2,这是一种尖端视觉语言模型,在自由形式文本图像合成和理解方面表现出色。该模型超越了传统的视觉语言理解,可以根据轮廓、详细文本规范和参考图像等不同输入巧妙地制作交错的文本图像内容,从而实现高度可定制的内容创建。 InternLM XComposer2提出了一种部分LoRA PLoRA方法,该方法将额外的LoRA参数专门应用于图像标记,以保持预先训练的语言知识的完整性,在精确的视觉理解和具有文学天赋的文本写作之间取得平衡。实验结果表明,基于 InternLM2 7B 的 InternLM XComposer2 在生成高质量长文本多模态内容方面具有优越性,并且在各种基准测试中具有出色的视觉语言理解性能,不仅显着优于现有的多模态模型,而且匹配甚至超越了 GPT 4V 和Gemini Pro 在某些评估中。这凸显了其在多模态理解领域的卓越熟练程度。

Endo-4DGS: Distilling Depth Ranking for Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting
Authors Yiming Huang, Beilei Cui, Long Bai, Ziqi Guo, Mengya Xu, Hongliang Ren
在机器人辅助微创手术领域,动态场景重建可以显着增强下游任务并改善手术结果。神经辐射场 基于 NeRF 的方法最近因其重建场景的卓越能力而受到关注。尽管如此,这些方法受到缓慢的推理、长时间的训练和大量的计算需求的阻碍。此外,有些依赖于立体深度估计,但由于与立体相机相关的高成本和后勤挑战,这通常是不可行的。此外,目前可变形场景的单目重建质量还不够。为了克服这些障碍,我们推出了 Endo 4DGS,这是一种创新的实时内窥镜动态重建方法,它利用 4D 高斯 Splatting GS 并且不需要地面真实深度数据。该方法通过合并时间组件来扩展 3D GS,并利用轻量级 MLP 来捕获时间高斯变形。这有效地促进了多条件下动态手术场景的重建。我们还集成 Depth Anything 以从单目视图生成伪深度图,从而增强深度引导重建过程。我们的方法已经在两个手术数据集上得到了验证,事实证明它可以实时渲染、高效计算并以极高的准确性进行重建。

A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect
Authors Yunkang Cao, Xiaohao Xu, Jiangning Zhang, Yuqi Cheng, Xiaonan Huang, Guansong Pang, Weiming Shen
视觉异常检测 VAD 致力于查明视觉数据中与正常性概念的偏差,广泛应用于不同领域,例如工业缺陷检查和医疗病变检测。这项调查通过确定三个主要挑战(1 训练数据的稀缺性、2 视觉模式的多样性以及 3 层次异常的复杂性),全面考察了 VAD 的最新进展。我们从简要概述VAD背景及其通用概念定义开始,从样本数量、数据模态和异常层次的角度逐步对VAD的最新进展进行分类、强调和讨论。

Amazon's 2023 Drought: Sentinel-1 Reveals Extreme Rio Negro River Contraction
Authors Fabien H Wagner, Samuel Favrichon, Ricardo Dalagnol, Mayumi CM Hirye, Adugna Mullissa, Sassan Saatchi
世界上最大的雨林亚马逊正面临历史性的严重干旱。亚马逊河主要支流之一的内格罗河在 2023 年 10 月达到一个世纪以来的最低水位。这里,我们使用 U net 深度学习模型绘制了 2022 年每 12 天的内格罗河流域水面图,并2023 年使用 10 m 空间分辨率的 Sentinel 1 卫星雷达图像。水面模型精度较高,F1得分为0.93。 12 天的水面马赛克时间序列是根据 Sentinel 1 预测生成的。水面掩模与联合研究中心的全球地表水 GSW 产品 F1 得分 0.708 以及巴西 Mapbiomas 水倡议 F1 得分 0.686 表现出相对一致的一致性。地图的主要错误是被淹没的林地、被淹没的灌木丛和云层的遗漏错误。里奥内格罗水面于2023年11月25日左右达到最低水平,并减少至2022-2023年间观测到的最大水面14,036.3 km 2 的68.1 9,559.9 km 2 。

Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator
Authors Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin Yew Lin
布局生成是图形设计中实现有意义的元素组合的关键步骤。大多数以前的作品将其视为通过连接元素属性标记(即类别、大小、位置)的序列生成问题。到目前为止,自回归方法 AR 已经取得了可喜的结果,但在全局上下文建模中仍然受到限制,并且由于它只能关注先前生成的标记而受到错误传播的影响。最近的非自回归尝试 NAR 已经显示出有竞争力的结果,它提供了更广泛的上下文范围和通过迭代解码进行细化的灵活性。然而,当前的工作仅使用简单的启发式方法来识别错误的标记以进行细化,这是不准确的。本文首先进行深入分析,以更好地理解AR和NAR框架之间的区别。此外,根据我们的观察,像素空间在捕获图形布局的空间模式(例如重叠、对齐)方面更加敏感,我们提出了一种基于学习的定位器来检测错误标记,该定位器将从生成的布局序列渲染的线框图像作为输入。我们证明它可以作为对象空间中元素序列的补充模式,并对整体性能做出巨大贡献。对两个公共数据集的实验表明,我们的方法优于 AR 和 NAR 基线。广泛的研究进一步证明了不同模块的有效性,并得出了有趣的发现。

PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology
Authors Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang, Yunlong Zhang, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao Lin, Lin Yang
大型多模态模型的出现释放了人工智能领域的巨大潜力,特别是在病理学领域。然而,缺乏专业化、高质量的基准,阻碍了其发展和精确评估。为了解决这个问题,我们引入了 PathMMU,这是最大、质量最高的经过专家验证的 LMM 病理学基准。它包含 33,573 个多模式多项选择问题和来自不同来源的 21,599 张图像,每个问题都附有正确答案的解释。 PathMMU 的构建利用了 GPT 4V 的强大功能,利用大约 30,000 个收集的图像标题对来生成 Q As。值得注意的是,为了最大限度地发挥PathMMU的权威,我们邀请了六位病理学家在PathMMU的验证和测试集中严格标准下仔细审查每个问题,同时为PathMMU设定了专家级的性能基准。我们进行了广泛的评估,包括对 14 个开源和三个闭源 LMM 及其对图像损坏的鲁棒性进行零样本评估。我们还对代表性 LMM 进行微调,以评估它们对 PathMMU 的适应性。实证结果表明,先进的 LMM 很难应对具有挑战性的 PathMMU 基准,其中表现最好的 LMM GPT 4V 仅获得 51.7 的零射击性能,显着低于人类病理学家展示的 71.4。经过微调,即使是开源的 LMM 也可以超越 GPT 4V,性能超过 60,但仍达不到病理学家所表现出的专业水平。

Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization
Authors Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao
众所周知,深度神经网络很容易受到精心设计的对抗性攻击。基于对抗性训练 AT 的最成功的防御技术可以针对特定攻击实现最佳鲁棒性,但不能很好地泛化到未见过的攻击。另一种基于对抗性净化AP的有效防御技术可以增强泛化能力,但无法达到最佳的鲁棒性。同时,这两种方法都有一个共同的限制,即标准精度下降。为了缓解这些问题,我们提出了一种名为 Adversarial Training on Purification AToP 的新颖框架,其中包括通过随机变换 RT 进行的扰动破坏和通过对抗性损失进行微调 FT 的净化器模型两个部分。 RT 对于避免对已知攻击的过度学习至关重要,从而导致对未见过的攻击的鲁棒性泛化,而 FT 对于提高鲁棒性至关重要。

Cross-Modal Coordination Across a Diverse Set of Input Modalities
Authors Jorge S nchez, Rodrigo Laguna
跨模态检索是通过使用不同模态的查询来检索给定模态的样本的任务。由于实际应用范围广泛,问题主要集中在视觉和语言案例上,例如文本到图像检索,像 CLIP 这样的模型已被证明可以有效解决此类任务。学习这种协调表示的主要方法包括将它们投影到一个公共空间上,在该空间中,匹配视图保持靠近,而来自非匹配对的视图彼此远离。尽管这种跨模式协调也已应用于其他成对组合,但将其扩展到任意数量的不同模式是文献中尚未充分探讨的问题。在本文中,我们提出了两种不同的方法来解决该问题。第一个基于将 CLIP 对比目标扩展到任意数量的输入模态,而第二个则偏离对比公式,通过将跨模态相似性回归到反映两个简单直观约束的目标来解决协调问题。跨模态检索任务。我们在两个不同的数据集、不同的输入模式组合上进行了实验,结果表明该方法不仅简单有效,而且还允许以新颖的方式解决检索问题。

Synthesis of 3D on-air signatures with the Sigma-Lognormal model
Authors Miguel A. Ferrer, Moises Diaz, Cristina Carmona Duarte, Jose J. Quintana Hernandez, Rejean Plamondon
签名合成是一种生成人工样本的计算技术,可以支持自动签名验证中的决策。许多工作致力于这个主题,其重点是在画布上合成动态和静态二维手写体。本文提出了一个利用对数正态性原理在空气特征上生成合成 3D 的框架,该框架模仿指尖移动时发挥作用的复杂神经运动控制过程。针对涉及人工个体开发和重复样本的常见情况,本文有助于合成 1 全 3D 新签名的轨迹和速度 2 仅知道签名的 3D 轨迹时的运动信息,以及 3 个重复样本3D真实签名。验证是通过生成模仿真实签名的合成 3D 签名数据库来进行的,并显示对真实和熟练伪造品的自动签名验证报​​告的性能与真实和合成数据库的性能相似。我们还观察到,使用重复项训练 3D 自动签名验证器可以减少错误。我们进一步证明,我们的建议对于合成 3D 空中书写和手势也有效。最后,感知测试证实了生成的样本与人类的相似性。

MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection
Authors Yuxue Yang, Lue Fan, Zhaoxiang Zhang
基于标签高效 LiDAR 的 3D 物体检测目前以弱半监督方法为主。我们提出了 MixSup,而不是仅仅遵循其中一个,这是一种更实用的范例,同时利用大量廉价的粗标签和有限数量的精确标签进行混合粒度监督。我们首先观察到点云通常是无纹理的,这使得学习语义变得困难。然而,点云具有丰富的几何形状,并且对于距传感器的距离具有尺度不变性,使得学习物体的几何形状(例如姿势和形状)相对容易。因此,MixSup 利用大量粗略集群级标签来学习语义,并利用一些昂贵的框级标签来学习准确的姿势和形状。我们重新设计了主流检测器中的标签分配,使它们能够无缝集成到 MixSup 中,从而实现实用性和通用性。我们使用各种检测器在 nuScenes、Waymo 开放数据集和 KITTI 中验证其有效性。 MixSup 使用廉价的集群注释和仅 10 个框注释,实现了高达 97.31 的完全监督性能。此外,我们提出基于Segment Anything Model的PointSAM用于自动粗标记,进一步减轻注释负担。

Regressing Transformers for Data-efficient Visual Place Recognition
Authors Mar a Leyva Vallina, Nicola Strisciuglio, Nicolai Petkov
视觉地点识别是计算机视觉中的一项关键任务,特别是对于定位和导航系统。现有方法通常依赖于对比学习,图像描述符被训练为在潜在空间中对于相似图像具有较小的距离,对于不相似的图像具有较大的距离。然而,这种方法很难确保准确的基于距离的图像相似性表示,特别是在使用二进制成对标签进行训练时,并且需要复杂的重新排序策略。这项工作通过将地点识别视为回归问题,使用相机视场重叠作为学习的相似性基础事实,引入了一种全新的视角。

Breaking the Barrier: Selective Uncertainty-based Active Learning for Medical Image Segmentation
Authors Siteng Ma, Haochang Wu, Aonghus Lawlor, Ruihai Dong
主动学习 AL 在医学图像分割中得到了广泛的应用,旨在减轻标注工作量并提高性能。基于传统不确定性的 AL 方法(例如熵和贝叶斯)通常依赖于所有像素级指标的聚合。然而,在不平衡的环境中,这些方法往往忽略目标区域的重要性,例如病变和肿瘤。此外,基于不确定性的选择引入了冗余。这些因素导致性能不理想,在许多情况下甚至不如随机采样。为了解决这个问题,我们引入了一种称为基于选择性不确定性的 AL 的新颖方法,避免了对所有像素的度量求和的传统做法。通过过滤过程,我们的策略优先考虑目标区域内和决策边界附近的像素。这解决了上述对目标区域和冗余的忽视。我们的方法在五种不同的基于不确定性的方法和两个不同的数据集上显示出显着的改进,利用更少的标记数据达到监督基线,并持续实现最高的整体性能。

Leveraging Positional Encoding for Robust Multi-Reference-Based Object 6D Pose Estimation
Authors Jaewoo Park, Jaeguk Kim, Nam Ik Cho
准确估计物体的姿态是计算机视觉和机器人技术中的一项关键任务。这种几何表示回归和迭代细化有两种主要的深度学习方法。然而,这些方法有一些限制,降低了它们的有效性。在本文中,我们分析了这些局限性并提出了克服它们的新策略。为了解决几何表示模糊的问题,我们对对象的 3D 坐标使用具有高频分量的位置编码。为了解决细化方法中的局部最小值问题,我们引入了一种基于归一化图像平面的多参考细化策略,该策略独立于内在矩阵约束。最后,我们利用自适应实例归一化和简单的遮挡增强方法来帮助我们的模型专注于目标对象。我们在 Linemod、Linemod Occlusion 和 YCB 视频数据集上的实验表明,我们的方法优于现有方法。

Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model
Authors Till Grutschus, Ola Karrar, Emir Esenov, Ekta Vats
这项工作探索了大型视频理解基础模型在未修剪视频上人体跌倒检测下游任务中的性能,并利用预训练的视觉转换器进行多类别动作检测,其中包括跌倒、说谎和日常生活 ADL 的其他活动类别。演示了一种依赖于未修剪视频的简单剪切的时间动作定位方法。该方法包括一个预处理管道,该管道将带有时间戳动作注释的数据集转换为短动作剪辑的标记数据集。介绍了简单有效的剪辑采样策略。该方法的有效性已在公开的高质量跌倒模拟数据集 HQFSD 上进行了实证评估。实验结果验证了所提出的管道的性能。结果对于实时应用来说是有希望的,并且在给定实验设置下的 HQFSD 数据集上以最先进的 0.96 F1 分数在视频级别上检测到跌倒。

Cross-Database Liveness Detection: Insights from Comparative Biometric Analysis
Authors Oleksandr Kuznetsov, Dmytro Zakharov, Emanuele Frontoni, Andrea Maranesi, Serhii Bohucharskyi
在生物识别安全成为现代身份验证系统基石的时代,确保这些生物识别样本的真实性至关重要。活体检测是区分真实和伪造生物识别样本的能力,处于这一挑战的最前沿。这项研究对活体检测模型进行了全面评估,特别关注其在跨数据库场景中的性能,这是一种因其复杂性和现实世界相关性而臭名昭著的测试范式。我们的研究首先仔细评估各个数据集的模型,揭示其性能指标的细微差别。通过深入研究半总错误率、错误接受率和错误拒绝率等指标,我们发现了关于模型优缺点的宝贵见解。至关重要的是,我们对跨数据库测试的探索提供了一个独特的视角,突出了一个数据集上的训练与另一个数据集上的部署之间的鸿沟。与现有方法(从卷积网络到更复杂的策略)的比较分析丰富了我们对当前形势的理解。即使在最先进的模型之间,性能的差异也凸显了该领域固有的挑战。从本质上讲,本文既是研究结果的存储库,也是对生物特征活体检测中更细致、数据多样化和适应性更强的方法的号角号角。

A Volumetric Saliency Guided Image Summarization for RGB-D Indoor Scene Classification
Authors Preeti Meena, Himanshu Kumar, Sandeep Yadav
图像摘要是原始视觉内容的删节版本,可用于表示场景。因此,可以使用唯一的摘要有效地执行诸如场景分类、识别、索引等任务。显着性是生成相关图像摘要最常用的技术。然而,显着性的定义本质上是主观的并且取决于应用。现有的使用RGB D数据的显着性检测方法主要集中于颜色、纹理和深度特征。因此,生成的摘要包含前景对象或非静止对象。然而,与最先进的方法不同,诸如场景识别之类的应用需要场景的静态特征。本文提出了一种用于室内场景分类的新颖的体积显着性引导框架。

Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models
Authors Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang
卡通着色是一种非真实感动画渲染任务。其主要目的是渲染具有平坦且风格化外观的对象。随着扩散模型已经上升到图像合成方法的最前沿,本文深入研究了一种基于扩散模型的卡通着色的创新形式,旨在将逼真的视频直接渲染为动漫风格。在视频风格化中,现有的方法遇到了持续的挑战,特别是在保持一致性和实现高视觉质量方面。在本文中,我们将卡通着色问题建模为四个子问题:风格化、一致性增强、结构指导和着色。为了解决视频风格化的挑战,我们提出了一种有效的卡通着色方法,称为 textit Diffutoon 。 Diffutoon 能够渲染非常详细、高分辨率且持续时间较长的动漫风格视频。它还可以通过附加分支根据提示编辑内容。 Diffutoon 的功效是通过定量指标和人工评估来评估的。值得注意的是,在我们的实验中,Diffutoon 超越了开源和闭源基线方法。

FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction
Authors Sungmin Woo, Minjung Kim, Donghyeong Kim, Sungjun Jang, Sangyoun Lee
多智能体运动预测是自动驾驶中的一个关键问题,但由于动态智能体的模糊意图及其复杂的交互,它仍然是一个挑战。现有研究试图通过使用历史时间步长中的确定数据来捕获道路实体之间的相互作用,因为未来信息不可用并且涉及高度不确定性。然而,如果没有足够的指导来捕获交互代理的未来状态,它们经常会产生不切实际的轨迹重叠。在这项工作中,我们提出了运动预测 FIMP 的未来交互建模,它以端到端的方式捕获潜在的未来交互。 FIMP采用未来解码器,在中间特征级别隐式提取潜在的未来信息,并通过未来亲和力学习和top k过滤策略识别交互实体对。

Reconstructing Close Human Interactions from Multiple Views
Authors Qing Shuai, Zhiyuan Yu, Zhize Zhou, Lixin Fan, Haijun Yang, Can Yang, Xiaowei Zhou
本文解决了重建由多个校准相机捕获的进行密切交互的多个个体的姿势的挑战性任务。困难来自于人际遮挡导致的噪声或错误的 2D 关键点检测、由于密切交互而将关键点与个人关联起来的严重模糊性以及训练数据的稀缺性,因为在拥挤的场景中收集和注释运动数据是资源密集型的。我们引入了一种新颖的系统来应对这些挑战。我们的系统集成了基于学习的姿态估计组件及其相应的训练和推理策略。姿势估计组件将多视图 2D 关键点热图作为输入,并使用 3D 条件体积网络重建每个个体的姿势。由于网络不需要图像作为输入,我们可以利用测试场景中已知的相机参数和大量现有的运动捕捉数据来合成大量训练数据,模拟测试场景中的真实数据分布。大量的实验表明,我们的方法在姿势准确性方面显着超越了以前的方法,并且可以推广到各种相机设置和人群规模。

LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
Authors Shaoxiang Chen, Zequn Jie, Lin Ma
对各种图像文本指令数据进行指令微调是获得通用的多模态大语言模型MLLM的关键,指令数据的不同配置可以导致具有不同能力的微调模型。然而,我们发现,当混合来自不同域的指令数据时,数据冲突是不可避免的,这可能导致特定域的任务的性能下降。为了解决这个问题,我们建议应用 LoRA 专家的稀疏混合来对 MLLM 进行指令微调。在 Transformer 层中,我们通过专门为 MLP 层创建一组 LoRA 专家来扩展流行的低秩自适应 LoRA 方法,并根据路由函数将每个令牌路由到前 1 个专家,从而允许对来自不同域的令牌进行自适应选择。由于 LoRA 专家是稀疏激活的,因此与原始 LoRA 方法相比,训练和推理成本大致保持不变。通过替换 LLaVA 1.5 的普通 LoRA 微调,我们的最终模型被命名为 LLaVA MoLE。大量实验证明,LLaVA MoLE 有效缓解了将多个不同的指令数据集与各种配置混合时的数据冲突问题,并在强大的普通 LoRA 基线上实现了一致的性能增益。

Spatial-Aware Latent Initialization for Controllable Image Generation
Authors Wenqiang Sun, Teng Li, Zehong Lin, Jun Zhang
最近,文本到图像扩散模型已经表现出令人印象深刻的能力,可以根据文本输入生成高质量图像。然而,这些模型很难准确遵守有关空间布局信息的文本指令。虽然之前的研究主要集中在将交叉注意力图与布局条件对齐,但他们忽略了初始化噪声对布局指导的影响。为了实现更好的布局控制,我们建议在去噪过程中利用空间感知初始化噪声。具体来说,我们发现具有有限反转步骤的反转参考图像包含有关对象位置的有价值的空间意识,从而在生成的图像中产生相似的布局。基于这一观察,我们开发了一个开放词汇框架,为每个布局条件定制空间感知初始化噪声。除了初始化噪声之外,无需修改其他模块,我们的方法可以作为即插即用模块无缝集成到其他免培训布局指导框架中。我们在可用的稳定扩散模型和 COCO 数据集上定量和定性地评估我们的方法。

Divide and Conquer: Rethinking the Training Paradigm of Neural Radiance Fields
Authors Rongkai Ma, Leo Lebrat, Rodrigo Santa Cruz, Gil Avraham, Yan Zuo, Clinton Fookes, Olivier Salvado
神经辐射场 NeRF 在合成 3D 场景的高保真视图方面表现出了潜力,但 NeRF 的标准训练范例预设了训练集中每个图像的同等重要性。这种假设对渲染呈现复杂几何形状的特定视图提出了重大挑战,从而导致性能不佳。在本文中,我们仔细研究了当前训练范例的含义,并重新设计它,以通过 NeRF 获得更出色的渲染质量。根据输入视图的视觉相似性将输入视图分为多个组,并在每个组上训练单独的模型,使每个模型能够专注于特定区域,而无需牺牲速度或效率。随后,这些专门模型的知识通过师生蒸馏范例聚合成单个实体,从而实现在线渲染的空间效率。根据经验,我们在两个公开可用的数据集(即 NeRF 合成数据集和 Tanks Temples)上评估了我们的新颖训练框架。

CIMIL-CRC: a clinically-informed multiple instance learning framework for patient-level colorectal cancer molecular subtypes classification from H\&E stained images
Authors Hadar Hezi, Matan Gelber, Alexander Balabanov, Yosef E. Maruvka, Moti Freiman
结直肠癌 CRC 的治疗方法高度依赖于分子亚型,因为免疫疗法在微卫星不稳定 MSI 病例中显示出疗效,但对微卫星稳定 MSS 亚型无效。利用深度神经网络 DNN 通过分析苏木精和曙红 H E 染色的全玻片图像 WSI 来自动区分 CRC 亚型,具有广阔的前景。由于 WSI 规模庞大,通常会探索多实例学习 MIL 技术。然而,现有的 MIL 方法侧重于识别最具代表性的图像块进行分类,这可能会导致关键信息的丢失。此外,这些方法常常忽视临床相关信息,例如 MSI 类肿瘤主要发生在近端右侧结肠的趋势。我们引入了 CIMIL CRC,这是一个 DNN 框架,它 1 通过有效地将预训练的特征提取模型与主成分分析 PCA 相结合来聚合来自所有斑块的信息来解决 MSI MSS MIL 问题,2 集成临床先验,特别是结肠内的肿瘤位置,纳入模型以提高患者级别分类的准确性。我们使用来自 TCGA CRC DX 队列模型开发的 5 倍交叉验证实验设置的曲线下平均面积 AUC 评估了我们的 CIMIL CRC 方法,并将其与基线补丁级别分类、仅 MIL 方法和临床知情补丁级别进行对比分类方法。我们的 CIMIL CRC 优于所有方法 AUROC 0.92 pm0.002 95 CI 0.91 0.92 、0.79 pm0.02 95 CI 0.76 0.82 、0.86 pm0.01 95 CI 0.85 0.88 和 0.87 pm0.01 95 CI 0.86 0.88 。

DeFlow: Decoder of Scene Flow Network in Autonomous Driving
Authors Qingwen Zhang, Yi Yang, Heng Fang, Ruoyu Geng, Patric Jensfelt
场景流估计通过预测场景中点的运动来确定场景的 3D 运动场,尤其适用于辅助自动驾驶任务。许多以大规模点云作为输入的网络使用体素化来创建实时运行的伪图像。然而,体素化过程通常会导致点特定特征的丢失。这给场景流任务恢复这些特征带来了挑战。我们的论文介绍了 DeFlow,它使用门控循环单元 GRU 细化实现从基于体素的特征到点特征的过渡。为了进一步增强场景流估计性能,我们制定了一种新颖的损失函数,该函数可以解释静态点和动态点之间的数据不平衡。对 Argoverse 2 场景流任务的评估表明,DeFlow 在大规模点云数据上取得了最先进的结果,表明我们的网络与其他网络相比具有更好的性能和效率。

Towards Scenario Generalization for Vision-based Roadside 3D Object Detection
Authors Lei Yang, Xinyu Zhang, Jun Li, Li Wang, Chuang Zhang, Li Ju, Zhiwei Li, Yang Shen
路边感知可以将感知能力扩展到视觉范围之外并解决盲点,从而大大提高自动驾驶汽车的安全性。然而,当前最先进的基于视觉的路边检测方法在标记场景上具有高精度,但在新场景上表现较差。这是因为路边摄像头安装后保持静止,只能收集单个场景的数据,导致算法过度拟合这些路边背景和摄像头姿势。为了解决这个问题,在本文中,我们提出了一种基于视觉的路边 3D 物体检测的创新场景泛化框架,称为 SGV3D。具体来说,我们采用背景抑制模块 BSM,通过在 2D 到鸟瞰图投影期间衰减背景特征来减轻以视觉为中心的管道中的背景过度拟合。此外,通过使用来自新场景的未标记图像引入半监督数据生成管道 SSDG,生成具有不同相机姿势的多样化实例前景,解决了过度拟合特定相机姿势的风险。我们在两个大规模路边基准上评估我们的方法。与 DAIR V2X I 异源基准上的 BEVHeight 相比,我们的方法在新场景中大幅超越了之前的所有方法,其中车辆为 42.57,行人为 5.87,骑自行车者为 14.89。在更大规模的 Rope3D 异源基准测试中,我们在汽车上取得了 14.48 的显着增益,在大型车辆上取得了 12.41 的显着增益。我们渴望为路边感知技术的探索提供见解,强调其场景泛化的能力。

A 2D Sinogram-Based Approach to Defect Localization in Computed Tomography
Authors Yuzhong Zhou, Linda Sophie Schneider, Fuxin Fan, Andreas Maier
深度学习的兴起为图像处理领域带来了一个变革时代,特别是在计算机断层扫描领域。深度学习为工业计算机断层扫描领域做出了重大贡献。然而,许多缺陷检测算法直接应用于重建域,通常忽略原始传感器数据。本文将重点转移到正弦图的使用上。在此框架内,我们提出了一种全面的三步深度学习算法,旨在识别和分析对象内的缺陷,而无需求助于图像重建。这三个步骤是缺陷分割、掩模隔离和缺陷分析。我们使用基于 U Net 的架构进行缺陷分割。

High Resolution Image Quality Database
Authors Huang Huang, Qiang Wan, Jari Korhonen
随着数字摄影和高分辨率显示技术的快速发展和普及,对高分辨率图像的盲图像质量评估 BIQA 模型的需求不断增长。不幸的是,用于训练 BIQA 模型的公开可用的大规模图像质量数据库大多包含低分辨率或一般分辨率的图像。由于图像大小调整会影响图像质量,因此我们假设在低分辨率图像上训练的 BIQA 模型的准确性对于高分辨率图像来说并不是最佳的。因此,我们创建了一个新的高分辨率图像质量数据库HRIQ,由1120张分辨率为2880x2160像素的图像组成。我们进行了一项主观研究,在受控实验室环境中收集 HRIQ 的主观质量评级,从而获得高分辨率的准确 MOS。为了证明高分辨率图像质量数据库对于训练 BIQA 模型以准确预测高分辨率图像的平均意见得分 MOS 的重要性,我们在数据库的不同分辨率版本上训练和测试了几种传统和基于深度学习的 BIQA 方法。

Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas
Authors Carlo Bretti, Pascal Mettes, Hendrik Vincent Koops, Daan Odijk, Nanne van Noord
制作预告片需要从较长的视频中仔细挑选并拼凑出简短而诱人的时刻,这使其成为一项充满挑战且耗时的任务。这需要根据视觉和对话信息来选择时刻。我们引入了一种多模态方法来预测预告片,以帮助编辑从长视频中选择值得预告片的时刻。我们在新引入的肥皂剧数据集上展示了结果,表明预测预告片是一项具有挑战性的任务,受益于多模态信息。

Neuromorphic Valence and Arousal Estimation
Authors Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Alberto Del Bimbo
识别面孔及其潜在情绪是生物识别技术的一个重要方面。事实上,文献中已经从多个角度解决了从面部估计情绪状态的问题。在本文中,我们遵循使用神经形态数据来预测面部的效价和唤醒值的新途径。由于收集基于事件的带注释视频很困难,我们利用事件摄像机模拟器来创建现有 RGB 数据集的神经形态对应物。我们证明,不仅模拟数据上的训练模型仍然可以在价唤醒估计中产生最先进的结果,而且我们训练的模型可以直接应用于真实数据,而无需进一步训练来解决情感识别的下游任务。

Dynamic Prototype Adaptation with Distillation for Few-shot Point Cloud Segmentation
Authors Jie Liu, Wenzhe Yin, Haochen Wang, Yunlu CHen, Jan Jakob Sonke, Efstratios Gavves
很少有镜头点云分割试图为以前未见过的类别生成每个点掩模,仅使用最小的注释点云集作为参考。现有的基于原型的方法依靠支持原型来指导查询点云的分割,但是当支持原型和查询特征之间存在显着的对象变化时,它们会遇到挑战。在这项工作中,我们提出了动态原型自适应 DPA,它显式地学习每个查询点云的任务特定原型来解决对象变化问题。 DPA 通过原型校正来实现适应,将原始原型与查询特征分布的支持对齐,将原型与查询注意力对齐,从查询点云中提取任务特定的上下文。此外,我们引入了原型蒸馏正则化项,使得在适应过程中早期原型与其更深层次原型之间的知识转移成为可能。通过迭代应用这些调整,我们生成了特定于任务的原型,以便对查询点云进行准确的掩模预测。对两个流行基准的大量实验表明,DPA 显着超越了最先进的方法,例如,在 S3DIS 和 ScanNet 上的 2 路 1 镜头设置下分别为 7.43 和 6.39。

Second Order Kinematic Surface Fitting in Anatomical Structures
Authors Wilhelm Wimmer, Herv Delingette
解剖结构的对称性检测和形态分类在医学图像分析中发挥着关键作用。运动曲面拟合是一种通过参数静止速度场表征形状的方法,它的应用在计算机视觉和计算机辅助设计中显示出了有希望的结果。然而,现有的研究主要集中在一阶旋转速度场,这可能无法充分捕捉解剖结构复杂的弯曲和扭曲性质。为了解决这个限制,我们提出了一种利用二阶速度场进行运动表面拟合的创新方法。这一进步可适应更高的旋转形状复杂性,并提高解剖结构中对称检测的准确性。我们引入了一种强大的拟合技术,并通过对合成形状和真实解剖结构的测试来验证其性能。我们的方法不仅能够检测弯曲旋转对称核心线,而且还通过推导与曲率和扭转相关的内在形状参数来促进形态分类。我们通过根据固有速度场参数对人类耳蜗的形状进行分类来说明我们的技术的有用性。

Domain adaptation strategies for 3D reconstruction of the lumbar spine using real fluoroscopy data
Authors Sascha Jecklin, Youyang Shen, Amandine Gout, Daniel Suter, Lilian Calvet, Lukas Zingg, Jennifer Straub, Nicola Alessandro Cavalcanti, Mazda Farshad, Philipp F rnstahl, Hooman Esfandiari
这项研究解决了在骨科手术中采用手术导航的关键障碍,包括时间、成本、辐射和工作流程集成挑战。最近,我们的 X23D 工作展示了一种仅通过少量术中透视图像即可生成脊柱 3D 解剖模型的方法。通过创建直接的术中解剖结构 3D 重建,无需传统的基于配准的手术导航。

AccessLens: Auto-detecting Inaccessibility of Everyday Objects
Authors Nahyun Kwon, Qian Lu, Muhammad Hasham Qazi, Joanne Liu, Changhoon Oh, Shu Kong, Jeeeun Kim
在我们日益多元化的社会中,日常物理界面常常会带来障碍,影响不同环境下的个人。这种疏忽,从小型橱柜旋钮到相同的墙壁开关,可能会带来不同的环境挑战,凸显了对解决方案的迫切需求。利用低成本 3D 打印增强技术(例如旋钮放大镜和触觉标签)似乎很有前途,但发现未被识别的障碍的过程仍然具有挑战性,因为残疾是依赖于环境的。我们推出 AccessLens,这是一种端到端系统,旨在识别日常物品中不可访问的界面,并推荐可 3D 打印的增强功能以​​增强可访问性。我们的方法包括使用新颖的 AccessDB 数据集来训练检测器,该数据集旨在自动识别 21 个不同的不可访问性类别,例如 6 个常见对象类别(例如手柄和旋钮)内的小条和圆形旋转。 AccessMeta 是构建综合字典的强大方法,将这些辅助功能类与开源 3D 增强设计联系起来。

Hand-Centric Motion Refinement for 3D Hand-Object Interaction via Hierarchical Spatial-Temporal Modeling
Authors Yuze Hao, Jianrong Zhang, Tao Zhuo, Fuan Wen, Hehe Fan
手是人们与世界互动的主要媒介。为手部物体交互生成适当的 3D 运动对于虚拟现实和机器人等应用至关重要。虽然抓取跟踪或对象操纵合成可以产生粗糙的手部运动,但这种运动不可避免地充满噪声且充满抖动。为了解决这个问题,我们提出了一种数据驱动的粗运动细化方法。首先,我们设计了一种以手为中心的表示来描述手和物体之间的动态时空关系。与以对象为中心的表示相比,我们以手为中心的表示很简单,不需要将基于对象的预测转换为手部运动的模糊投影过程。其次,为了捕捉手部物体交互的动态线索,我们提出了一种新的架构,以分层方式对空间和时间结构进行建模。

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
Authors Xiaoyu Shi, Zhaoyang Huang, Fu Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li
我们推出 Motion I2V,这是一种用于一致且可控的图像到视频生成 I2V 的新颖框架。与之前直接学习复杂图像到视频映射的方法相比,Motion I2V 通过显式运动建模将 I2V 分解为两个阶段。对于第一阶段,我们提出了一种基于扩散的运动场预测器,其重点是推导参考图像像素的轨迹。对于第二阶段,我们提出运动增强时间注意力来增强视频潜在扩散模型中有限的一维时间注意力。该模块可以在第一阶段预测轨迹的指导下有效地将参考图像的特征传播到合成帧。与现有方法相比,即使存在较大运动和视点变化,Motion I2V 也可以生成更一致的视频。通过第一阶段训练稀疏轨迹ControlNet,Motion I2V可以支持用户通过稀疏轨迹和区域注释精确控制运动轨迹和运动区域。与仅依赖文本指令相比,这为 I2V 过程提供了更多的可控性。此外,Motion I2V 的第二阶段自然支持零镜头视频到视频的转换。

StableIdentity: Inserting Anybody into Anywhere at First Sight
Authors Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
大型预训练文本到图像模型的最新进展显示了以人为中心的高质量生成的前所未有的能力,然而,定制面部身份仍然是一个棘手的问题。现有方法无法确保稳定的身份保存和灵活的可编辑性,即使在训练期间每个受试者有多个图像。在这项工作中,我们提出了 StableIdentity,它允许仅使用一张人脸图像进行身份一致的重新上下文化。更具体地说,我们采用具有身份先验的面部编码器对输入面部进行编码,然后将面部表示放入具有可编辑先验的空间中,该先验是由名人姓名构造的。通过合并身份先验和可编辑性先验,学习到的身份可以注入到具有各种上下文的任何地方。此外,我们设计了掩蔽两相扩散损失,以提高输入人脸的像素级感知并保持生成的多样性。大量的实验证明我们的方法优于以前的定制方法。此外,学习到的身份可以与ControlNet等现成模块灵活结合。值得注意的是,据了解,我们是第一个将从单个图像中学习到的身份直接注入到视频 3D 生成中而无需进行微调的人。

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
Authors Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
对于大型视觉语言模型LVLM,缩放模型可以有效提高性能。然而,扩展模型参数会显着增加训练和推断成本,因为计算中的每个标记都会激活所有模型参数。在这项工作中,我们提出了一种针对 LVLM 的新型训练策略 MoE 调整,它可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。此外,我们还提出了 MoE LLaVA 框架,这是一种基于 MoE 的稀疏 LVLM 架构。该框架独特地在部署过程中通过路由器仅激活前 k 个专家,而使其余专家保持不活动状态。我们广泛的实验凸显了 MoE LLaVA 在视觉理解方面的卓越能力及其减少模型输出中幻觉的潜力。值得注意的是,MoE LLaVA 仅具有 30 亿个稀疏激活参数,在各种视觉理解数据集上表现出与 LLaVA 1.5 7B 相当的性能,甚至在物体幻觉基准测试中超过了 LLaVA 1.5 13B。通过 MoE LLaVA,我们的目标是为稀疏 LVLM 建立基线,并为未来开发更高效、更有效的多模态学习系统的研究提供有价值的见解。

Bridging the Domain Gap: A Simple Domain Matching Method for Reference-based Image Super-Resolution in Remote Sensing
Authors Jeongho Min, Yejun Lee, Dongyoung Kim, Jaejun Yoo
最近,基于参考的图像超分辨率RefSR在图像超分辨率SR任务中表现出了优异的性能。 RefSR 的主要思想是利用参考 Ref 图像中的附加信息来恢复低分辨率 LR 图像中的高频分量。通过特征匹配传输相关​​纹理,RefSR 模型优于现有的单图像超分辨率 SISR 模型。然而,当参考图像和 LR 图像之间存在域差距时,它们的性能会显着下降,这种情况经常发生在现实场景中,例如卫星成像。在这封信中,我们介绍了一个域匹配 DM 模块,该模块可以与现有 RefSR 模型无缝集成,以即插即用的方式增强其性能。据我们所知,我们是第一个在遥感图像处理中探索基于域匹配的 RefSR 的人。我们的分析表明,它们的域差距经常出现在不同的卫星中,我们的模型有效地解决了这些挑战,而现有模型则陷入困境。

Generating Multi-Center Classifier via Conditional Gaussian Distribution
Authors Zhemin Zhang, Xun Gong
线性分类器广泛应用于各种图像分类任务。它的工作原理是优化样本与其相应的类中心之间的距离。然而,在现实世界的数据中,一类可以包含多个局部集群,例如不同姿势的鸟类。为了解决这种复杂性,我们提出了一种新颖的多中心分类器。与普通线性分类器不同,我们的建议是建立在训练集的深层特征遵循高斯混合分布的假设之上的。具体来说,我们为每个类创建一个条件高斯分布,然后从该分布中采样多个子中心以扩展线性分类器。这种方法允许模型更有效地捕获类内局部结构。此外,在测试时,我们将条件高斯分布的均值设置为线性分类器的类中心,并遵循普通线性分类器的输出,因此不需要额外的参数或计算开销。大量的图像分类实验表明,所提出的多中心分类器是广泛使用的线性分类器的强大替代品。

Motion-induced error reduction for high-speed dynamic digital fringe projection system
Authors Sanghoon Jeon, Hyo Geon Lee, Jae Sung Lee, Bo Min Kang, Byung Wook Jeon, Jun Young Yoon, Jae Sang Hyun
在相移轮廓测量 PSP 中,采集条纹图案期间的任何运动都可能引入误差,因为它假设物体和测量系统都是静止的。因此,我们提出了一种在测量系统由于电动线性平台而运动时以像素方式减少误差的方法。该方法引入了运动引起的误差减少算法,该算法利用电机的编码器以及相机和投影仪的针孔模型。通过应用数字条纹投影系统的几何约束,仅使用三个条纹图案即可进行 3D 形状测量。我们解决了由于运动引起的相机像素差异而导致的失配问题,并减少了相移误差。这些过程易于实现并且需要较低的计算成本。

HICH Image/Text (HICH-IT): Comprehensive Text and Image Datasets for Hypertensive Intracerebral Hemorrhage Research
Authors Jie Li, Yulong Xia, Tongxin Yang, Fenglin Cai, Miao Wei, Zhiwei Zhang, Li Jiang
在本文中,我们介绍了高血压脑出血医学领域的一个新的多模态数据集HICH,称为HICH IT,其中包括文本信息和头部CT图像。该数据集旨在提高人工智能在 HICH 诊断和治疗中的准确性。该数据集建立在标准文本和图像数据的基础上,在文本数据中融入了特定的标注,从文本信息中提取关键内容,将影像数据的标注内容分为脑中线、血肿、左脑室、和右脑室。 HICH IT 旨在成为图像分割任务和命名实体识别中特征学习的基础数据集。为了进一步了解数据集,我们训练了深度学习算法来观察性能。

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
Authors Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
现有的视觉语言模型在各种视觉领域和任务上表现出很强的泛化能力。然而,此类模型主要以闭集方式执行零镜头识别,因此很难通过设计来处理开放域视觉概念。最近有一些微调方法,例如提示学习,不仅研究分布内 ID 和分布外 OOD 样本之间的区别,而且还显示了 ID 和 OOD 准确性的一些改进。在本文中,我们首先证明视觉语言模型在经过足够长的微调但没有适当的正则化后,往往会过度拟合给定数据集中的已知类,从而导致未知类的性能下降。然后我们提出了一种新方法 OGEN 来解决这个缺陷,主要关注于改进微调模型的 OOD 泛化。具体来说,引入类条件特征生成器,仅使用任何未知类的类名来合成 OOD 特征。这种综合特征将提供有关未知的有用知识,并在联合优化时帮助规范 ID 和 OOD 数据之间的决策边界。同样重要的是我们的自适应自蒸馏机制,可以在联合优化期间规范我们的特征生成模型,即在模型状态之间自适应地转移知识以进一步防止过度拟合。

A Concise but Effective Network for Image Guided Depth Completion in Autonomous Driving
Authors Moyun Liu, Youping Chen, Jingming Xie, Lei Yao, Yang Zhang, Joey Tianyi Zhou
深度补全是自动驾驶中的一项关键任务,旨在将稀疏深度图转换为密集深度预测。由于其潜在丰富的语义信息,RGB图像通常被融合以增强补全效果。图像引导深度补全涉及三个关键挑战:1如何有效融合两种模态;2如何更好地恢复深度信息;3如何实现实际自动驾驶的实时预测。为了解决上述问题,我们提出了一种简洁但有效的网络,命名为CENet,以简单而优雅的结构实现高性能深度完成。首先,我们使用快速引导模块来融合两个传感器特征,利用从颜色空间提取的丰富辅助特征。与其他常用的复杂引导模块不同,我们的方法直观且成本低廉。此外,我们发现并分析了观测位置和未观测位置的优化不一致问题,并提出了解耦深度预测头来缓解该问题。所提出的解耦头可以更好地输出有效和无效位置的深度,并且只需很少的额外推理时间。基于双编码器和单解码器的简单结构,我们的CENet可以在精度和效率之间实现卓越的平衡。在 KITTI 深度完成基准中,与最先进的方法相比,我们的 CENet 获得了有竞争力的性能和推理速度。为了验证我们方法的泛化性,我们还对室内 NYUv2 数据集进行了评估,并且我们的 CENet 仍然取得了令人印象深刻的结果。

MV2MAE: Multi-View Video Masked Autoencoders
Authors Ketul Shah, Robert Crandall, Jie Xu, Peng Zhou, Marian George, Mayank Bansal, Rama Chellappa
从多个视点捕获的视频有助于感知世界的 3D 结构,并有利于动作识别、跟踪等计算机视觉任务。在本文中,我们提出了一种从同步多视点视频进行自监督学习的方法。我们使用交叉视图重建任务在模型中注入几何信息。我们的方法基于屏蔽自动编码器 MAE 框架。除了相同的视图解码器之外,我们还引入了一个单独的交叉视图解码器,它利用交叉注意机制使用来自源视点的视频重建目标视点视频,以帮助表示对视点变化具有鲁棒性。对于视频,静态区域可以被简单地重建,这阻碍了学习有意义的表示。为了解决这个问题,我们引入了运动加权重建损失,它改进了时间建模。我们报告了 NTU 60、NTU 120 和 ETRI 数据集以及 NUCLA、PKU MMD II 和 ROCOG v2 数据集的迁移学习设置的最新结果,证明了我们方法的稳健性。

$\boldsymbol{M^2}$-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
Authors Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang
像 CLIP 这样的视觉语言基础模型已经彻底改变了人工智能领域。然而,由于大规模预训练数据集的相对稀缺,支持多语言(例如中文和英文)的 VLM 模型已经滞后。为此,我们引入了一个包含超过 60 亿图像文本对的综合中英文双语数据集 BM 6B,旨在增强多模态基础模型以更好地理解两种语言的图像。为了处理如此规模的数据集,我们提出了一种新颖的分组聚合方法来进行图像文本对比损失计算,该方法显着降低了通信开销和 GPU 内存需求,从而使训练速度提高了 60 倍。我们在 BM 6B 上预训练了一系列具有增强的细粒度理解能力的双语图像文本基础模型,所得模型被称为 M 2 编码器,发音为 M Square,为两种语言的多模态检索和分类任务树立了新的基准。值得注意的是,我们最大的 M 2 Encoder 10B 模型在零样本分类设置下在 ImageNet 上达到了 88.5 的准确率,在 ImageNet CN 上达到了 80.7 的前 1 准确率,分别超过了之前报道的 SoTA 方法 2.2 和 21.1。

Arbitrary-Scale Downscaling of Tidal Current Data Using Implicit Continuous Representation
Authors Dongheon Lee, Seungmyong Jeong, Youngmin Ro
数值模型长期以来被用来理解地球科学现象,包括对可再生能源生产和沿海工程至关重要的潮汐流。然而,它们的计算成本阻碍了生成不同分辨率的数据。作为替代方案,基于深度学习的缩减方法因其更快的推理速度而受到关注。但大多数仅限于推断固定尺度,忽视了目标地球科学数据的重要特征。在本文中,我们提出了一种新颖的潮汐流数据降尺度框架,解决了其与图像异质性和局部依赖性不同的独特特征。此外,我们的框架可以利用连续表示模型生成任意规模的输出。

Grey Level Texture Features for Segmentation of Chromogenic Dye RNAscope From Breast Cancer Tissue
Authors Andrew Davidson 1 , Arthur Morley Bunker 2 , George Wiggins 2 , Logan Walker 2 , Gavin Harris 3 , Ramakrishnan Mukundan 1 , kConFab Investigators 4 and 5 1 University of Canterbury, 2 University of Otago, 3 Canterbury Health Laboratories, 4 The University of Melbourne, 5 Peter MacCallum Cancer Center
癌症组织的显色 RNAscope 染料和苏木精染色有助于癌症类型的诊断和后续治疗,并且非常适合现有的病理学工作流程。然而,对表示基因表达的 RNAscope 转录点进行手动定量非常耗时。此外,缺乏经过验证的量化和分析支持方法。本文研究了灰度纹理特征对于自动分割和分类乳腺癌组织中 RNAscope 转录本位置的有用性。特征分析表明,一小组灰度特征(包括灰度依赖矩阵和相邻灰度色调差异矩阵特征)非常适合该任务。自动化方法在识别 RNAscope 转录本位置方面与专家注释者类似,F1 得分为 0.571,而专家评分者的 F1 得分为 0.596。

Rectify the Regression Bias in Long-Tailed Object Detection
Authors Ke Zhu, Minghao Fu, Jie Shao, Tianyu Liu, Jianxin Wu
长尾目标检测因其类别分布极不平衡而面临巨大挑战。最近的方法主要关注分类偏差及其损失函数设计,而忽略了回归分支的微妙影响。本文表明回归偏差的存在,并且对检测精度产生不利且严重的影响。虽然现有方法无法处理回归偏差,但本文假设稀有类别的类别特定回归头是其主要原因。因此,提出了三种针对稀有类别的可行解决方案,包括添加类不可知分支、聚类头和合并头。所提出的方法比现有的长尾检测方法带来了一致且显着的改进,特别是在稀有和常见类别中。所提出的方法在具有不同骨干和架构的大词汇量 LVIS 数据集中实现了最先进的性能。它可以很好地推广到更困难的评估指标、相对平衡的数据集和掩模分支。

Combining Satellite and Weather Data for Crop Type Mapping: An Inverse Modelling Approach
Authors Praveen Ravirathinam, Rahul Ghosh, Ankush Khandelwal, Xiaowei Jia, David Mulla, Vipin Kumar
准确及时的作物测绘对于产量估算、保险索赔和保护工作至关重要。多年来,已经开发了许多成功的作物测绘机器学习模型,这些模型仅使用卫星的多光谱图像来预测感兴趣区域的作物类型。然而,这些传统方法没有考虑控制作物生长的物理过程。在较高层面上,作物生长可以被设想为物理参数,例如天气和土壤类型,作用于植物导致作物生长,可以通过卫星观察到。在本文中,我们提出了基于天气的时空分割网络和 ATtention WSTATT,这是一种深度学习模型,通过将其制定为结合天气 Daymet 和卫星图像 Sentinel 2 的逆模型来利用对作物生长的理解来生成准确的作物地图。通过比较分割图和 F1 分类分数,我们表明我们的方法比仅依赖光谱图像的现有算法提供了显着改进。此外,在 WSTATT 架构中有效利用注意力机制可以在季节早些时候检测作物类型,最多可以提前 5 个月,这对于改善粮食供应预测非常有用。

LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection
Authors Sifan Zhou, Liang Li, Xinyu Zhang, Bo Zhang, Shipeng Bai, Miao Sun, Ziyu Zhao, Xiaobo Lu, Xiangxiang Chu
由于计算能力和内存高度有限,在自动驾驶车辆和机器人配备的边缘设备上部署基于 3D 激光雷达的探测器面临着严峻的挑战。作为一种方便、直接的模型压缩方法,训练后量化 PTQ 已广泛应用于 2D 视觉任务中。然而,将其直接应用于基于 3D 激光雷达的任务不可避免地会导致性能下降。作为补救措施,我们提出了一种名为 LiDAR PTQ 的有效 PTQ 方法,该方法专门用于基于 SPConv 和免费 SPConv 的 3D 激光雷达检测。我们的 LiDAR PTQ 具有三个主要组件,textbf 1 是一种基于稀疏性的校准方法,用于确定量化参数的初始化,textbf 2 是任务引导的全局正损失 TGPL,用于减少量化前后最终预测之间的差异,textbf 3 是自适应舍入到最近的操作以最小化分层重建误差。大量实验表明,当应用于基于 Pillar 和基于体素的 CenterPoint 时,我们的 LiDAR PTQ 可以实现最先进的量化性能。据我们所知,PTQ INT8 模型首次在基于激光雷达的 3D 检测任务中,精度几乎与 FP32 模型相同,同时推理速度提升了 3 倍。此外,我们的 LiDAR PTQ 具有成本效益,比量化感知训练方法快 30 倍。

Spatial Decomposition and Temporal Fusion based Inter Prediction for Learned Video Compression
Authors Xihua Sheng, Li Li, Dong Liu, Houqiang Li
视频压缩性能与帧间预测的准确性密切相关。对于运动和遮挡不一致的局部视频区域往往很难获得准确的帧间预测。传统视频编码标准提出了各种技术来处理运动不一致和遮挡,例如递归分区、几何分区和长期参考。然而,现有的学习视频压缩方案侧重于获得所有区域平均的整体最小化预测误差,而忽略了局部区域的运动不一致和遮挡。在本文中,我们提出了一种基于空间分解和时间融合的学习视频压缩帧间预测。为了处理运动不一致,我们建议首先将视频分解为结构和细节 SDD 组件。然后,我们对结构和细节组件执行基于 SDD 的运动估计和基于 SDD 的时间上下文挖掘,以生成短期时间上下文。为了处理遮挡,我们建议通过反复累积每个历史参考特征的时间信息并将其与短期时间上下文融合来传播长期时间上下文。通过基于 SDD 的运动模型和长期短期时间上下文融合,我们提出的学习视频编解码器可以获得更准确的帧间预测。

Importance-Aware Adaptive Dataset Distillation
Authors Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
在这里,我们提出了一种新颖的数据集蒸馏方法,用于构建保留大型原始数据集信息的小型信息数据集。深度学习模型的开发是通过大规模数据集的可用性来实现的。尽管取得了前所未有的成功,但大规模数据集大大增加了存储和传输成本,导致模型训练过程变得繁琐。此外,使用原始数据进行训练会引发隐私和版权问题。为了解决这些问题,引入了一项名为数据集蒸馏的新任务,旨在合成一个紧凑的数据集,保留大型原始数据集中的基本信息。通过匹配真实数据集和合成数据集训练期间获得的梯度或网络参数,提出了最先进的 SOTA 数据集蒸馏方法。不同的网络参数对蒸馏过程的贡献各不相同,统一处理它们会导致蒸馏性能下降。基于这一观察,我们提出了一种重要性感知自适应数据集蒸馏 IADD 方法,该方法可以通过在蒸馏过程中自动为不同网络参数分配重要性权重来提高蒸馏性能,从而合成更稳健的蒸馏数据集。 IADD 基于多个基准数据集上的参数匹配,展示了优于其他 SOTA 数据集蒸馏方法的卓越性能,并且在跨架构泛化方面优于它们。此外,自适应权重的分析证明了IADD的有效性。

Diffusion Facial Forgery Detection
Authors Harry Cheng, Yangyang Guo, Tianyi Wang, Liqiang Nie, Mohan Kankanhalli
检测扩散生成的图像最近已发展成为一个新兴的研究领域。现有的基于扩散的数据集主要关注一般图像生成。然而,迄今为止,对构成更严重社会风险的面部伪造的研究仍然较少。为了解决这一差距,本文引入了 DiFF,这是一个专用于面部聚焦扩散生成图像的综合数据集。 DiFF 包含超过 500,000 张图像,这些图像是在四种条件下使用 13 种不同的生成方法合成的。特别是,该数据集利用了 30,000 个精心收集的文本和视觉提示,确保图像的合成具有高保真度和语义一致性。我们通过人体测试和几种代表性的伪造检测方法对 DiFF 数据集进行了广泛的实验。结果表明,人类观察者和自动检测器的二进制检测精度通常低于 30,揭示了检测扩散生成的面部伪造所面临的挑战。

Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing
Authors Maofeng Tang, Andrei Cozma, Konstantinos Georgiou, Hairong Qi
由于广泛的地理覆盖范围、硬件限制和未对齐的多尺度图像,遥感图像给图像分析带来了独特的挑战。本文在遥感图像理解的自监督学习的总体框架下重新审视了经典的多尺度表示学习问题。我们提出了 Cross Scale MAE,这是一种基于 Masked Auto Encoder MAE 构建的自监督模型。在预训练期间,Cross Scale MAE 采用尺度增强技术,并通过对比损失和生成损失强制执行跨尺度一致性约束,以确保一致且有意义的表示,非常适合广泛的下游任务。此外,我们的实现利用 xFormers 库来加速单个 GPU 上的网络预训练,同时保持学习表示的质量。

Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA
Authors Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching Chen Kuo, Xinze Guan, Xin Eric Wang
多面板图像(通常为网页截图、海报等)遍布我们的日常生活。这些图像的特点是由不同布局的多个子图组成,可以有效地向人们传达信息。为了构建先进的多模态人工智能应用程序,例如理解复杂场景和浏览网页的代理,多面板视觉推理技能至关重要,并且对这方面的模型进行全面评估也很重要。因此,我们的论文介绍了 Multipanel Visual Question Answering MultipanelVQA,这是一种新颖的基准,专门挑战模型理解多面板图像的能力。该基准包含 6,600 个与多面板图像相关的问题和答案。虽然这些问题对于普通人来说很简单,几乎可以达到完美的正确性,但它们对我们测试的最先进的大视觉语言模型 LVLM 提出了重大挑战。在我们的研究中,我们利用专门设计的综合多面板图像来隔离和评估不同因素对模型性能的影响,揭示 LVLM 对多面板图像中各种干扰的敏感性,例如相邻子图和布局复杂性。因此,MultipanelVQA 强调了提高 LVLM 理解复杂视觉语言上下文的能力的需求和方向。

LCVO: An Efficient Pretraining-Free Framework for Visual Question Answering Grounding
Authors Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin
本文针对视觉语言多模态领域的视觉问答VQA Grounding任务提出了LCVO模块化方法。这种方法依赖于冻结的大型语言模型 LLM 作为现成的 VQA 模型和现成的开放词汇对象检测 OVD 模型之间的中间中介,其中 LLM 根据设计的提示在两个模块之间转换和传达文本信息。 LCVO建立了一个集成的即插即用框架,无需任何预训练过程。该框架可以在低计算资源下部署用于 VQA Grounding 任务。框架内的模块化模型允许与各种最先进的预训练模型一起应用,展现出与时俱进的巨大潜力。实验实现是在计算和内存资源受限的情况下进行的,评估了所提出的方法在 GQA、CLEVR 和 VizWiz VQA Grounding 等基准数据集上的性能。

2L3: Lifting Imperfect Generated 2D Images into Accurate 3D
Authors Yizheng Chen, Rengan Xie, Qi Ye, Sen Yang, Zixuan Xie, Tianxiao Chen, Rong Li, Yuchi Huo
从单个图像重建 3D 对象是一个有趣但具有挑战性的问题。一种有前景的解决方案是利用多视图 MV 3D 重建将生成的 MV 图像融合为一致的 3D 对象。然而,生成的图像通常会受到光照不一致、几何形状不对齐和视图稀疏的影响,导致重建质量较差。为了解决这些问题,我们提出了一种新颖的 3D 重建框架,该框架利用内在分解指导、瞬态单先验指导和视图增强来分别解决这三个问题。具体来说,我们首先利用从生成的图像中解耦阴影信息来减少不一致照明的影响,然后,我们引入单先验和视图相关瞬态编码来增强重建的法线,最后,我们设计一种视图增强融合策略,以最小化像素生成的稀疏视图中的级别损失和增强随机视图中的语义损失,导致视图一致的几何形状和详细的纹理。因此,我们的方法能够集成预训练的 MV 图像生成器和基于神经网络的体积符号距离函数 SDF 表示,以实现单个图像到 3D 对象的重建。我们在各种数据集上评估我们的框架,并展示其在定量和定性评估方面的卓越性能,这标志着 3D 对象重建方面的重大进步。

Few and Fewer: Learning Better from Few Examples Using Fewer Base Classes
Authors Raphael Lafargue, Yassir Bendou, Bastien Pasdeloup, Jean Philippe Diguet, Ian Reid, Vincent Gripon, Jack Valmadre
当训练数据稀缺时,通常使用在大型基础数据集上预先训练的特征提取器,或者通过在目标数据集上微调其参数,或者直接采用其表示作为简单分类器的特征。微调对于少数镜头学习来说是无效的,因为目标数据集仅包含少数示例。然而,直接采用特征而不进行微调依赖于基础分布和目标分布足够相似以使这些特征实现可分离性和泛化性。本文研究了是否可以通过在更少的基类上进行训练来获得更好的目标数据集特征,寻求为给定任务识别更有用的基数据集。我们考虑来自元数据集的八个不同领域的跨域少量镜头图像分类并进行娱乐多个现实世界设置领域知情、任务知情和不知情,其中对目标任务的了解逐渐减少。据我们所知,这是第一次证明对精心选择的基类子集进行微调可以显着改善少数镜头学习。我们的贡献是简单直观的方法,可以在任何少数镜头解决方案中实现。我们还深入了解这些解决方案可能提高准确性的条件。

Knowledge-Aware Neuron Interpretation for Scene Classification
Authors Yong Guan, Freddy Lecue, Jiaoyan Chen, Ru Li, Jeff Z. Pan
尽管神经模型已经取得了令人瞩目的性能,但由于不透明,它们仍然受到质疑。为此,模型预测解释越来越受到人们的关注。然而,当前的方法很少结合外部知识,并且仍然受到三个限制: 1 忽视概念完整性。仅仅选择概念可能不足以进行预测。 2 缺乏概念融合。未能合并语义上等效的概念。 3 难以操纵模型行为。缺乏对原始模型解释的验证。为了解决这些问题,我们提出了一种新颖的知识感知神经元解释框架来解释图像场景分类的模型预测。具体来说,为了概念完整性,我们基于知识图谱、ConceptNet 提出场景的核心概念,以衡量概念的完整性。与基线相比,我们的方法结合了完整的概念,有效地提供了更好的预测解释。此外,对于概念融合,我们引入了一种基于知识图的方法,称为概念过滤,该方法在神经元解释的神经元行为上产生超过 23 个点的增益。最后,我们提出了模型操纵,旨在研究基于ConceptNet的核心概念是否可以用于操纵模型行为。

Transparency Attacks: How Imperceptible Image Layers Can Fool AI Perception
Authors Forrest McKee, David Noever
本文研究了一种新的算法漏洞,即难以察觉的图像层将多个视觉模型混淆为任意标签分配和标题。我们探索图像预处理方法来引入隐形透明度,这会引发人工智能对人眼感知的误解。该研究编制了广泛的攻击面,以调查传统水印、隐写术和背景前景错误等后果。我们通过使用单个攻击层或随机选择的中毒类别来错误标记灰度景观和徽标集合的攻击来演示数据集中毒。例如,一辆军用坦克对于人眼来说就是一座通往基于卷积网络YOLO等和视觉变压器ViT、GPT Vision等的物体分类器的错误标签桥梁。一个显着的攻击限制源于它对灰度背景隐藏层的依赖,作为与人眼感知的透明前景图像的粗略匹配。这种依赖性限制了无需手动调整的实际成功率,并且当放置在相反的显示主题上时会暴露隐藏层,例如浅色背景、可见的浅色透明前景,最适合浅色主题图像查看器或浏览器。隐形透明度混淆了现有的视觉系统,包括逃避面部识别和监视、数字水印、内容过滤、数据集管理、汽车和无人机自主、法医证据篡改以及零售产品错误分类。

Prediction of Breast Cancer Recurrence Risk Using a Multi-Model Approach Integrating Whole Slide Imaging and Clinicopathologic Features
Authors Manu Goyal, Jonathan D. Marotti, Adrienne A. Workman, Elaine P. Kuhn, Graham M. Tooker, Seth K. Ramin, Mary D. Chamberlin, Roberta M. diFlorio Alexander, Saeed Hassanpour
乳腺癌是影响全世界女性的最常见恶性肿瘤,以其形态和生物学多样性而闻名,治疗后复发的风险也各不相同。 Oncotype DX 乳腺癌复发评分测试是雌激素受体阳性乳腺癌的一项重要预测和预后基因组检测,可指导治疗策略,但此类测试可能价格昂贵、延迟护理且无法广泛使用。本研究的目的是开发一种整合整个幻灯片图像和临床病理数据分析的多模型方法,以预测其相关的乳腺癌复发风险,并根据预测分数低风险和高风险将这些患者分为两个风险组。所提出的新颖方法使用卷积神经网络进行特征提取,使用视觉转换器进行上下文聚合,并辅以逻辑回归模型,分析临床病理数据以将其分为两个风险类别。该方法在 993 张苏木精和伊红染色的乳腺癌全切片图像上进行了训练和测试,这些图像具有之前经过 Oncotype DX 测试的相应临床病理特征。使用来自 Dartmouth Health 的 198 名患者的内部测试集和来自芝加哥大学的 418 名患者的外部测试集来评估模型的性能。多模型方法在内部组上的 AUC 为 0.92 95% CI (0.88 ± 0.96),在外部组上的 AUC 为 0.85 ~ 95% CI (0.79 ± 0.90)。

Real-time object detection and robotic manipulation for agriculture using a YOLO-based learning approach
Authors Hongyu Zhao, Zezhi Tang, Zhenhong Li, Yi Dong, Yuancheng Si, Mingyang Lu, George Panoutsos
优化常见作物的收获过程对于实现农业产业化具有重要意义。如今,机器视觉的利用已经实现了农作物的自动识别,从而提高了收获效率,但挑战仍然存在。这项研究提出了一种新框架,结合了两种独立的卷积神经网络 CNN 架构,以便在模拟环境中同时完成作物检测和收获机器人操作的任务。模拟环境中的裁剪图像经过随机旋转、裁剪、亮度和对比度调整,以创建用于数据集生成的增强图像。您只看一次的算法框架与传统的矩形边界框一起用于作物定位。

An objective comparison of methods for augmented reality in laparoscopic liver resection by preoperative-to-intraoperative image fusion
Authors Sharib Ali, Yamid Espinel, Yueming Jin, Peng Liu, Bianca G ttner, Xukun Zhang, Lihua Zhang, Tom Dowrick, Matthew J. Clarkson, Shiting Xiao, Yifan Wu, Yijun Yang, Lei Zhu, Dai Sun, Lan Li, Micha Pfeiffer, Shahid Farid, Lena Maier Hein, Emmanuel Buc, Adrien Bartoli
腹腔镜肝脏切除术的增强现实是一种可视化模式,允许外科医生通过将嵌入肝脏内的肿瘤和血管投影到腹腔镜图像上来定位它们。在此过程中,从 CT 或 MRI 数据中提取的术前 3D 模型将被注册到术中腹腔镜图像中。在3D 2D融合方面,大多数算法利用解剖标志来指导配准。这些标志包括肝脏下脊、镰状韧带和闭塞轮廓。它们通常在腹腔镜图像和 3D 模型中都是手工标记的,这非常耗时,而且如果由无经验的用户完成,可能会出现错误。因此,需要使该过程自动化,以便增强现实可以在手术室中有效使用。我们提出了在医学影像和计算机辅助干预 MICCAI 2022 会议期间举行的术前至术中腹腔镜融合挑战 P2ILF,该挑战研究了自动检测这些标志并在配准中使用它们的可能性。该挑战分为两个任务:1 2D 和 3D 地标检测任务,2 3D 2D 配准任务。团队获得的训练数据包括来自 9 名患者的 167 张腹腔镜图像和 9 个术前 3D 模型,以及相应的 2D 和 3D 标志注释。共有来自 4 个国家的 6 个团队参加,他们提出的方法在来自两名患者的 16 张图像和两个术前 3D 模型上进行了评估。所有团队都针对 2D 和 3D 地标分割任务提出了基于深度学习的方法,并针对配准任务提出了基于可微渲染的方法。

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks
Authors Serdar Erisen
提高语义分割中最先进方法的效率需要克服不断增加的计算成本以及融合来自全局和局部上下文的语义信息等问题。基于最近卷积神经网络 CNN 在语义分割中遇到的成功和问题,本研究提出了一种具有独特高效残差网络的编码器解码器架构。注意力增强门 AbG 和注意力增强模块 AbM 的部署旨在将基于特征的语义信息与编码器中高效残差网络的全局上下文融合。解码器网络分别是由 AbM 启发的附加注意力融合网络 AfNs 开发的。 AfN 旨在通过在解码器部分部署额外的卷积层来提高语义信息一对一转换的效率。我们的网络在具有挑战性的 CamVid 和 Cityscapes 数据集上进行了测试,所提出的方法显示了对现有基线(例如 ResNet 50)的显着改进。据我们所知,开发的网络 SERNet Front 取得了最先进的结果 84.62

SegmentAnyTree: A sensor and platform agnostic deep learning model for tree segmentation using laser scanning data
Authors Maciej Wielgosz, Stefano Puliti, Binbin Xiang, Konrad Schindler, Rasmus Astrup
这项研究使用适用于各种激光扫描类型机载 ULS、地面 TLS 和移动 MLS 的深度学习模型,推进了激光雷达数据中的个体树冠 ITC 分割。它解决了 3D 森林场景分析中不同数据特征的可转移性挑战。该研究根据平台 ULS、MLS 和数据密度评估模型的性能,使用不同的输入数据(包括稀疏版本)测试五种场景,以衡量适应性和冠层功效。该模型基于 PointGroup 架构,是一个 3D CNN,具有用于语义和实例分割的独立头,并在不同的点云数据集上进行了验证。结果表明,点云稀疏化可以提高性能,有助于稀疏数据处理并改善茂密森林中的检测。该模型在每平方米 50 个点的密度下表现良好,但在每平方米 10 个点的密度下表现较差,因为遗漏率较高。它在检测、遗漏、佣金率和 F1 分数方面优于现有方法,例如 Point2Tree、TLS2trees,为 LAUTx、Wytham Woods 和 TreeLearn 数据集设定了新基准。总之,这项研究表明了针对不同激光雷达数据的传感器不可知模型的可行性,超越了传感器特定方法,并为树木分割(特别是在复杂森林中)设定了新标准。

Long-Term Typhoon Trajectory Prediction: A Physics-Conditioned Approach Without Reanalysis Data
Authors Young Jae Park, Minseok Seo, Doyi Kim, Hyeri Kim, Sanghoon Choi, Beomkyu Choi, Jeongwon Ryu, Sohee Son, Hae Gon Jeon, Yeji Choi
面对不断升级的气候变化,台风强度及其造成的损失激增。准确的轨迹预测对于有效的损害控制至关重要。传统的基于物理的模型虽然全面,但计算量大,并且严重依赖预报员的专业知识。当代数据驱动的方法通常依赖于再分析数据,这可以被认为是最接近真实天气状况的表示。然而,再分析数据不是实时产生的,需要时间进行调整,因为预测模型是用观测数据校准的。这种再分析数据(例如 ERA5)无法应对现实世界的情况。最佳的准备工作需要至少提前 72 小时进行预测,这超出了标准物理模型的能力。为了应对这些限制,我们提出了一种利用实时统一模型 UM 数据的方法,避开了重新分析数据的局限性。我们的模型以 6 小时为间隔提供最多提前 72 小时的预测,并且优于最先进的数据驱动方法和数值天气预报模型。

A Study of Acquisition Functions for Medical Imaging Deep Active Learning
Authors Bonaventure F. P. Dossou
近年来,深度学习革命取得了突破性的成就。从乳腺癌检测到蛋白质折叠,深度学习算法一直是非常重要进步的核心。然而,这些现代进步变得越来越需要数据,特别是在可用性稀缺的标记数据上,这在医疗环境中更为普遍。在这项工作中,我们展示了主动学习如何在数据稀缺的情况下非常有效,在这种情况下获取标记数据或注释预算非常有限。我们在 ISIC 2016 数据集上比较了几个选择标准 BALD、MeanSTD 和 MaxEntropy。我们还探讨了获得的池大小对模型性能的影响。我们的结果表明,不确定性对于黑色素瘤检测任务很有用,并证实了相关论文作者的假设,即 textit bald 的平均性能优于其他采集函数。然而,我们的扩展分析表明,所有采集函数在阳性癌症样本上都表现不佳,这表明类别不平衡的利用,这在现实世界环境中可能至关重要。最后,我们建议未来的工作方向,这将有助于改进当前的工作。

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
Authors Jianxiang Lu, Cong Xie, Hui Guo
随着大规模文本到图像生成模型在文本到图像生成领域取得了显着进展,人们提出了许多微调方法。然而,这些模型经常难以处理新物体,尤其是一次性场景。我们提出的方法旨在以对象驱动的方式解决通用性和保真度的挑战,仅使用单个输入图像和对象特定的感兴趣区域。为了提高泛化性并减轻过度拟合,在我们的范例中,在微调扩散模型之前,根据对象的外观及其类别初始化原型嵌入。在微调过程中,我们提出了一个表征正则化的类,以保留对象类的先验知识。为了进一步提高保真度,我们引入了对象特定损失,它也可以用于植入多个对象。总的来说,我们提出的用于植入新对象的对象驱动方法可以与现有概念无缝集成,并且具有高保真度和泛化性。我们的方法优于一些现有的方法。

Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation
Authors Zhenyu Wang, Enze Xie, Aoxue Li, Zhongdao Wang, Xihui Liu, Zhenguo Li
尽管在生成高质量图像的文本到图像模型方面取得了显着进步,但这些方法仍然难以确保在复杂文本提示的上下文中文本提示对图像的可控性,特别是在保留对象属性和关系时。在本文中,我们提出了 CompAgent,一种用于组合文本到图像生成的免训练方法,以大型语言模型 LLM 代理为核心。 CompAgent 的基本思想是以分而治之的方法论为前提的。给定一个包含多个概念(包括对象、属性和关系)的复杂文本提示,LLM 代理首先对其进行分解,这需要提取单个对象及其相关属性,并预测连贯的场景布局。然后可以独立地征服这些单独的物体。随后,代理通过分析文本进行推理,计划并使用工具来组合这些孤立的对象。验证和人类反馈机制最终被纳入我们的代理中,以进一步纠正潜在的属性错误并细化生成的图像。在LLM代理的指导下,我们提出了一种免费调整的多概念定制模型和图像生成模型布局作为概念组合的工具,以及本地图像编辑方法作为与代理交互进行验证的工具。场景布局控制这些工具之间的图像生成过程,以防止多个对象之间的混淆。大量实验证明了我们的合成文本到图像生成方法的优越性。CompAgent 在 T2I CompBench 上实现了 10 多项改进,T2I CompBench 是开放世界合成 T2I 生成的综合基准。

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
Authors Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
从语音合成 3D 面部动画已经引起了相当多的关注。由于缺乏高质量的 4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。我们通过三部曲来应对这一挑战。我们首先引入广义神经参数面部资产 GNPFA,这是一种高效的变分自动编码器,可将面部几何形状和图像映射到高度广义的表情潜在空间,从而解耦表情和身份。然后,我们利用 GNPFA 从大量视频中提取高质量的表情和准确的头部姿势。这展示了 M2F D 数据集,这是一个大型、多样化的扫描级语音 3D 面部动画数据集,具有注释良好的情感和风格标签。最后,我们提出了 Media2Face,一种 GNPFA 潜在空间中的扩散模型,用于生成语音面部动画,接受来自音频、文本和图像的丰富的多模态指导。

Assessment of Autism and ADHD: A Comparative Analysis of Drawing Velocity Profiles and the NEPSY Test
Authors S. Fortea Sevilla, A. Garcia Sosa., P. Morales Almeida, C. Carmona Duarte
自闭症谱系障碍和注意力缺陷多动障碍在学生中的患病率日益增加,凸显了改进评估和诊断技术以及有效工具来减轻与这些疾病相关的负面后果的必要性。随着触摸屏移动设备的广泛使用,人们有机会收集视觉线索之外的全面数据。这些设备能够收集和可视化有关速度曲线以及完成绘图和手写任务所需时间的信息。这些数据可用于开发基于速度分布的新神经心理学测试,有助于区分在临床实践中难以区分的 ASD 和 ADHD 的挑战性病例。

Detection of a facemask in real-time using deep learning methods: Prevention of Covid 19
Authors Gautam Siddharth Kashyap, Jatin Sohlot, Ayesha Siddiqui, Ramsha Siddiqui, Karan Malik, Samar Wazir, Alexander E. I. Brownlee
随着新型冠状病毒疾病 Covid 19 的迅速传播,一场健康危机正在全世界肆虐。在世界卫生组织 WHO 发布的保护我们免受 Covid 19 感染的指南中,戴口罩是最有效的。许多国家都要求佩戴口罩,但监控大量人员以确保他们在拥挤的地方佩戴口罩本身就是一项具有挑战性的任务。新型冠状病毒疾病 Covid 19 已经影响了我们的日常生活以及世界贸易运动。根据世界卫生组织 WHO 的数据,截至 2021 年 4 月,全球已记录 144,358,956 例新型冠状病毒病 Covid 19 确诊病例,其中 3,066,113 例死亡。这些不断增加的数字激发了在实时场景中检测口罩的自动化技术,以预防 Covid 19。我们提出了一种使用深度学习的技术,适用于通过网络摄像头记录的静止或运动帧中的单个人和多人。我们还在夜光下尝试了我们的方法。

Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes
Authors Weifeng Liu, Tianyi She, Jiawei Liu, Run Wang, Dongyu Yao, Ziyou Liang
近年来,DeepFake技术在高质量视频合成方面取得了前所未有的成功,但这些方法也给人类带来了潜在的、严重的安全威胁。 DeepFake 可以分为娱乐应用(例如面部交换)和非法用途(例如口型同步欺诈)。然而,嘴唇伪造视频既不改变身份,也不具有可辨别的视觉伪影,对现有的 DeepFake 检测方法提出了巨大的挑战。

Data-Free Generalized Zero-Shot Learning
Authors Bowen Tang, Long Yan, Jing Zhang, Qian Yu, Lu Sheng, Dong Xu
深度学习模型能够从大规模数据集中提取丰富的知识。然而,由于对数据版权和隐私的担忧,数据共享变得越来越具有挑战性。因此,这阻碍了知识从现有数据到新的下游任务和概念的有效转移。零样本学习 ZSL 方法旨在通过转移从基类学到的语义知识来识别新类。然而,传统的生成式 ZSL 方法通常需要从基类访问真实图像,并依赖于手动注释的属性,这在数据限制和模型可扩展性方面提出了挑战。为此,本文解决了一个具有挑战性且实际的问题,称为无数据零样本学习 DFZSL,其中只有基于 CLIP 的基类数据预训练分类器可用于零样本分类。具体来说,我们提出了 DFZSL 的通用框架,它由三个主要组件组成。首先,为了恢复基础数据的虚拟特征,我们将基类图像的 CLIP 特征建模为基于预训练分类器的 von Mises Fisher vMF 分布的样本。其次,我们利用CLIP的文本特征作为低成本语义信息,提出一种特征语言提示调整FLPT方法,以进一步对齐虚拟图像特征和文本特征。第三,我们使用对齐良好的虚拟图像特征和相应的语义文本特征训练条件生成模型,从而能够生成新的类别特征并实现更好的零样本泛化。我们的框架已根据通用 ZSL 的 5 个常用基准以及新 ZSL 基础的 11 个基准进行了评估。结果证明了我们方法的优越性和有效性。

Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach
Authors Shaofeng Zhang, Jinfa Huang, Qiang Zhou, Zhibin Wang, Fan Wang, Jiebo Luo, Junchi Yan
图像绘制的目的是生成输入子图像超出其原始边界的内容。这是内容生成中的一项重要任务,但对于生成模型来说仍然是一个悬而未决的问题。本文将图像外画的技术前沿推向了文献中尚未解决的两个方向:1无限制地任意连续倍数外画;2即使是大扩展倍数也可一步外画。此外,我们开发了一种不依赖于预先训练的骨干网络的方法,这与之前的 SOTA 外画方法通常需要的不同。任意多重外画是通过在训练期间利用来自同一图像的随机裁剪视图来捕获任意相对位置信息来实现的。具体来说,通过提供一个视图和位置嵌入作为查询,我们可以重建另一个视图。在推理时,我们通过输入锚图像及其相应的位置嵌入来生成具有任意扩展倍数的图像。与之前需要执行N次才能获得最终倍数(其基本固定倍数的N倍)相比,这里的一步绘制能力尤其值得注意。我们评估了所提出的称为 PQDiff 的方法,因为我们采用基于扩散的生成器作为我们的实施例,在我们提出的公共基准上的 textbf Positional textbf Query 方案下,证明了其优于最先进方法的性能。具体来说,PQDiff 在风景 textbf 21.512 、建筑立面 textbf 25.310 和 WikiArts textbf 36.212 数据集上实现了最先进的 FID 分数。

CPDM: Content-Preserving Diffusion Model for Underwater Image Enhancement
Authors Xiaowen Shi, Yuan Gen Wang
水下图像增强 UIE 具有挑战性,因为水生环境中的图像退化很复杂并且随着时间的推移而变化。现有的主流方法要么依赖物理模型,要么依赖数据驱动,由于成像条件的变化或训练的不稳定而遭受性能瓶颈。在本文中,我们首次尝试将扩散模型应用于 UIE 任务,并提出了内容保留扩散模型 CPDM 来解决上述挑战。 CPDM首先利用扩散模型作为稳定训练的基本模型,然后设计一个内容保留框架来处理成像条件的变化。具体来说,我们构建了一个条件输入模块,采用原始图像以及原始图像与噪声图像之间的差异作为输入,通过考虑原始图像在水下环境中的变化来增强模型的适应性。为了保留原始图像的基本内容,我们通过从原始图像中提取低级特征来构建用于内容感知训练的内容补偿模块。

UP-CrackNet: Unsupervised Pixel-Wise Road Crack Detection via Adversarial Image Restoration
Authors Nachuan Ma, Rui Fan, Lihua Xie
在过去的十年中,自动化方法已经被开发出来,可以更有效、更准确、更客观地检测裂缝,最终目标是取代传统的手动目视检查技术。在这些方法中,语义分割算法在像素级裂纹检测任务中表现出了有希望的结果。然而,训练这种数据驱动的算法需要大量带有像素级注释的人工注释数据集,这是一个高度劳动密集型且耗时的过程。此外,基于监督学习的方法通常在未见过的数据集中存在泛化能力差的问题。因此,我们提出了一种无监督的像素级道路裂缝检测网络,称为 UP CrackNet。我们的方法首先生成多尺度方形掩模,并随机选择它们通过删除某些区域来破坏未损坏的道路图像。随后,训练生成对抗网络,利用从周围未损坏区域学习到的语义上下文来恢复损坏区域。在测试阶段,通过计算输入图像和恢复图像之间的差异来生成误差图,从而可以进行像素级裂纹检测。我们全面的实验结果表明,UP CrackNet 优于其他通用无监督异常检测算法,并且与最先进的监督裂纹分割算法相比,表现出可比的性能和卓越的通用性。

Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning
Authors Yuhang Zheng, Zhen Wang, Long Chen
数据增强 DA 广泛用于学习无偏见的视觉问答 VQA 模型,它通过生成原始样本之外的额外训练样本来帮助减轻语言偏差。虽然当今的DA方法可以生成鲁棒的样本,但增强的训练集明显大于原始数据集,通常在难度或内容重复方面表现出冗余,导致模型训练效率低下,甚至损害模型性能。为此,我们设计了有效的课程学习策略 ECL 来增强基于 DA 的 VQA 方法。直观上,ECL先在相对简单的样本上训练VQA模型,然后逐渐改为较难的样本,动态剔除价值较低的样本。与在整个增强数据集上进行训练相比,我们的 ECL 策略可以用更少的训练样本进一步增强 VQA 模型的性能。

Cyto R-CNN and CytoNuke Dataset: Towards reliable whole-cell segmentation in bright-field histological images
Authors Johannes Raufeisen, Kunpeng Xie, Fabian H rst, Till Braunschweig, Jianning Li, Jens Kleesiek, Rainer R hrig, Jan Egger, Bastian Leibe, Frank H lzle, Alexander Hermans, Behrus Puladi
背景 明场组织学切片中的细胞分割是医学图像分析中的一个关键主题。获得准确的分割使研究人员能够检查细胞形态和临床观察之间的关系。

FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models
Authors Feihong He, Gang Li, Mengyuan Zhang, Leilei Yan, Lingyu Si, Fanzhang Li
生成扩散模型的快速发展极大地推进了风格迁移领域的发展。然而,当前大多数基于扩散模型的风格转移方法通常涉及缓慢的迭代优化过程,例如模型微调和风格概念的文本反转。在本文中,我们介绍了 FreeStyle,这是一种基于预先训练的大型扩散模型构建的创新风格转移方法,无需进一步优化。此外,我们的方法仅通过所需样式的文本描述即可实现样式迁移,从而消除了样式图像的必要性。具体来说,我们提出了双流编码器和单流解码器架构,取代了扩散模型中的传统 U Net。在双流编码器中,两个不同的分支将内容图像和风格文本提示作为输入,实现内容和风格解耦。在解码器中,我们根据给定的内容图像和相应的风格文本提示进一步调制双流的特征,以实现精确的风格转移。我们的实验结果证明了我们的方法在各种内容图像和样式文本提示中的高质量合成和保真度。

Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth Cameras
Authors Yu Jhe Li, Yan Xu, Rawal Khirodkar, Jinhyung Park, Kris Kitani
我们通过有限数量的未校准深度相机来处理多视图、多人 3D 人体姿势估计的任务。最近,人们提出了许多通过多视角 RGB 相机进行 3D 人体姿势估计的方法。然而,这些工作 1 假设 RGB 相机视图的数量足以进行 3D 重建,2 相机经过校准,3 依赖地面实况 3D 姿势来训练其回归模型。在这项工作中,我们建议利用稀疏、未校准的深度相机提供 RGBD 视频流来进行 3D 人体姿势估计。我们提出了一个简单的多视图深度人体姿势估计 MVD HPE 管道,用于联合预测相机姿势和 3D 人体姿势,而无需训练深度 3D 人体姿势回归模型。与仅使用 RGB 特征相比,该框架利用 RGBD 图像中的 3D Re ID 外观特征来制定更准确的对应关系,以导出相机位置。我们进一步提出 1 通过利用 3D 刚性变换作为指导进行深度引导相机姿态估计,并通过利用深度投影 3D 点作为优化的替代目标进行 2 深度约束 3D 人体姿态估计。为了评估我们提出的流程,我们收集了从多个稀疏视图深度相机记录的三个 RGBD 视频视频集,并手动注释了地面实况 3D 姿势。

SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection
Authors Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed AKhtar, Ajmal Mian
红外小目标检测 IRSTD 最近从 U 形神经模型中受益匪浅。然而,在很大程度上忽视了有效的全局信息建模,当目标与背景高度相似时,现有技术就会陷入困境。我们提出了一种空间通道交叉变压器网络 SCTransNet,它利用长距离跳跃连接之上的空间通道交叉变压器块 SCTB 来解决上述挑战。在所提出的 SCTB 中,所有编码器的输出与交叉变换器交互以生成混合特征,这些特征被重新分配给所有解码器,以有效地增强全尺寸目标和杂波之间的语义差异。具体来说,SCTB 包含以下两个关键要素:a 空间嵌入式单头通道交叉注意 SSCA,用于交换局部空间特征和全级全局通道信息,以消除编码器之间的歧义并促进图像的高级语义关联;以及 b 互补前馈网络CFN通过多尺度策略和跨空间通道信息交互来增强特征辨别力,以促进有益的信息传递。我们的 SCTransNet 有效地编码了目标和背景之间的语义差异,以增强其内部表示,从而准确地检测小型红外目标。对三个公共数据集 NUDT SIRST、NUAA SIRST 和 IRSTD 1k 的广泛实验表明,所提出的 SCTransNet 优于现有的 IRSTD 方法。

ARCNet: An Asymmetric Residual Wavelet Column Correction Network for Infrared Image Destriping
Authors Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed Akhtar, Shiqi Yang, Shuowen Yang
红外图像去条纹旨在从降级图像中恢复高质量内容。最近的工作主要通过利用先验知识从退化图像中分离条纹噪声来解决此任务。然而,为此目的构建鲁棒的解耦模型仍然具有挑战性,特别是当条纹噪声和垂直背景结构之间存在显着相似性时。为了解决这个问题,我们引入了用于图像去条纹的非对称残差小波列校正网络 ARCNet,旨在一致地保留空间精确的高分辨率表示。我们的神经模型利用新颖的下采样器、残差哈尔离散小波变换 RHDWT、条纹方向先验知识和数据驱动学习来诱导模型,该模型具有条纹噪声和背景的丰富特征表示。在我们的技术中,逆小波变换被转置卷积取代以进行特征上采样,这可以抑制噪声串扰并鼓励网络专注于鲁棒的图像重建。每次采样后,我们的方法利用所提出的列非均匀性校正模块 CNCM 来增强每个层组件之间的列均匀性、空间相关性和全局自相关性。 CNCM 可以建立条纹噪声的结构特征,并利用长距离依赖性的上下文信息来区分具有不同强度和分布的条纹。对合成数据、真实数据和红外小目标检测任务的大量实验表明,所提出的方法在视觉上和定量上都远远优于最先进的单图像去条纹方法。

Intriguing Equivalence Structures of the Embedding Space of Vision Transformers
Authors Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu
预先训练的大型基础模型在最近的人工智能浪潮中发挥着核心作用,在基准数据集、标准考试和应用程序上进行测量时,微调的模型具有卓越的能力。由于其固有的复杂性,这些模型还没有被很好地理解。虽然此类模型的小对抗性输入是众所周知的,但表示空间的结构尽管具有根本重要性,但尚未得到很好的表征。在本文中,由于视觉变换器输入空间的连续性,我们以视觉变换器为例,通过分析和系统实验表明,表示空间由大的分段线性子空间组成,其中存在共享相同表示的非常不同的输入,并且同时,局部正常空间中存在视觉上无法区分的输入,具有非常不同的表示形式。使用基础模型的 Lipschitz 常数的局部方向估计进一步验证了经验结果。

BrepGen: A B-rep Generative Diffusion Model with Structured Latent Geometry
Authors Xiang Xu, Joseph G. Lambourne, Pradeep Kumar Jayaraman, Zhengqing Wang, Karl D.D. Willis, Yasutaka Furukawa
本文介绍了 BrepGen,这是一种基于扩散的生成方法,可直接输出边界表示 B 代表计算机辅助设计 CAD 模型。 BrepGen 将 B 代表模型表示为分层树中的新型结构化潜在几何体。由于根节点代表整个 CAD 实体,B 表示模型的每个元素(即面、边或顶点)从上到下逐渐变成子节点。 B 代表几何信息作为每个基元的全局边界框以及描述局部几何形状的潜在代码进入节点。 B代表拓扑信息由节点复制隐式表示。当两个面共享一条边时,边曲线将在树中出现两次,并且具有三个关联边的 T 形交点顶点在具有相同节点特征的树中出现六次。从根开始一直到叶子,BrepGen 采用基于 Transformer 的扩散模型顺序对节点特征进行去噪,同时检测并合并重复节点,恢复 B Rep 拓扑信息。大量实验表明,BrepGen 在 CAD B 代表生成方面树立了新的里程碑,在各种基准上超越了现有方法。我们新收集的家具数据集的结果进一步展示了其生成复杂几何形状的卓越能力。虽然以前的方法仅限于生成简单的棱柱形状,但 BrepGen 首次结合了自由形状和双曲面。 BrepGen 的其他应用包括 CAD 自动完成和设计插值。

Pericoronary adipose tissue feature analysis in CT calcium score images with comparison to coronary CTA
Authors Yingnan Song, Hao Wu, Juhwan Lee, Justin Kim, Ammar Hoori, Tao Hu, Vladislav Zimin, Mohamed Makhlouf, Sadeer Al Kindi, Sanjay Rajagopalan, Chun Ho Yun, Chung Lieh Hung, David L. Wilson
我们研究了使用非对比 CT 钙评分 CTCS 图像评估冠状动脉周围脂肪组织 PCAT 及其与主要不良心血管事件 MACE 的关联的可行性和优势。冠状动脉 CTA CCTA 的 PCAT 特征已被证明与心血管风险相关,但可能会被碘混淆。如果 CTCS 图像中的 PCAT 可以进行类似的分析,则可以避免这个问题,并能够将其纳入来自现成的低成本 CTCS 图像的正式风险评估中。为了识别 CTCS 图像中具有细微血管视觉证据的冠状动脉,我们将 CTCS 与具有冠状动脉标签的配对 CCTA 图像进行配准。我们开发了一种新颖的轴盘方法,给出了用于分析三个主要冠状动脉中 PCAT 特征的区域。我们使用 MACE 的单变量和多变量逻辑回归预测分析了新颖的手工制作和放射组学特征,并将结果与​​ CCTA 的结果进行了比较。配准精度足以识别 CTCS 图像中的 PCAT 区域。运动或光束硬化伪影通常出现在高对比度 CCTA 中,但不出现在 CTCS 中。 MACE 组 CTCS 和 CCTA 的平均 HU 和体积均增加。一些 CTCS 和 CCTA 特征之间存在显着的正相关性,表明获得了相似的特征。使用 CTCS 和 CCTA 手工制作的放射组学,AUC 分别为 0.82 ± 0.79 和 0.83 ± 0.77,而 Agatston 给出的 AUC 为 0.73。

FloodLense: A Framework for ChatGPT-based Real-time Flood Detection
Authors Pranath Reddy Kumbam, Kshitij Maruti Vejre
这项研究解决了实时洪水检测和管理的重要问题。它创新地将先进的深度学习模型与大语言模型LLM相结合,增强洪水监测和响应能力。这种方法通过提供更准确、通用、用户友好且易于访问的解决方案来解决当前方法的局限性。 UNet、RDN 和 ViT 模型与自然语言处理的集成显着改善了不同环境中的洪水区域检测,包括使用航空和卫星图像。

Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport
Authors Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Eric Granger
多模态情感识别模型由于能够对互补和冗余语义信息进行建模,因此在实验室环境中取得了显着的性能。然而,这些模型在野外举步维艰,主要是因为用于训练的模式不可用或质量不高。在实践中,只有训练时间模式的子集在测试时可用。使用特权信息 PI 进行学习使深度学习模型 DL 能够利用仅在训练期间可用的其他模式中的数据。最先进的知识蒸馏 KD 方法已经被提出来将多个教师模型蒸馏为一个共同的学生模型,每个教师模型都在一种模式上进行训练。这些特权 KD 方法通常利用点对点匹配,并且没有明确的机制来捕获通过引入特权模态形成的教师表示空间中的结构信息。我们认为,在学生空间中编码相同的结构可能会提高学生的表现。本文介绍了一种基于最优传输 OT 的新结构 KD 机制,其中熵正则化 OT 提炼了结构暗知识。具有 OT 的特权 KD PKDOT 方法通过计算余弦相似度矩阵捕获多模态教师表示中的局部结构,并选择前 k 个锚点以允许稀疏 OT 解决方案,从而产生更稳定的蒸馏过程。对 Biovid 数据集序数分类上的疼痛估计和 Affwild2 数据集回归上的唤醒效价预测这两个不同问题进行了实验。结果表明,在这些问题上,所提出的方法可以优于最先进的特权 KD 方法。

iDeLog: Iterative Dual Spatial and Kinematic Extraction of Sigma-Lognormal Parameters
Authors Miguel A. Ferrer, Moises Diaz, Cristina Carmona Duarte, Rejean Plamondon
快速运动的运动学理论及其相关的西格玛对数正态模型已广泛应用于各种应用中。虽然该模型的物理和生物学意义已针对快速运动进行了广泛的测试和验证,但在连续长时间且复杂的运动中使用时发现了一些缺点。为了缓解这些缺点,并受到运动等效理论和可想象的视觉反馈的启发,本文提出了一种提取西格玛对数正态参数的新颖框架,即 iDeLog。具体来说,iDeLog由两个步骤组成。第一个受电机等效模型的影响,分别导出由轨迹的一组虚拟点和角度以及速度的对数正态序列定义的初始行动计划。第二步,基于与开环电机控制兼容的假设视觉反馈,迭代移动行动计划的虚拟目标点,以改善观察到的和重建的轨迹和速度之间的匹配。

Temporal evolution in synthetic handwriting
Authors Cristina Carmona Duarte, Miguel A. Ferrer, Antonio Parziale, Angelo Marcelli
最近开发出了用于生物识别应用生成合成手写图像的新方法。这些作品通常没有探讨从童年到成年的笔迹的时间演变。本文提出了一种新颖的方法,通过简化文本轨迹计划和手写动态,将时间演化纳入手写合成器中。这是通过人体快速运动的运动学理论的定制版本和受神经运动启发的手写合成器来实现的。通过定量和主观地比较真实样本和合成样本的时间演化来评估所提出方法的真实性。定量测试基于视觉感知算法,该算法比较不同年龄的真实笔迹和合成笔迹的字母变异性和笔划数。

A New Method for Vehicle Logo Recognition Based on Swin Transformer
Authors Yang Li, Doudou Zhang, Jianli Xiao
智能交通系统ITS利用传感器、摄像头和大数据分析来监控实时交通状况,旨在提高交通效率和安全性。在此过程中,准确的车辆识别至关重要,而车标识别VLR就是其中的关键方法。 VLR通过区分道路上的车辆来实现有效的管理和监控。卷积神经网络 CNN 在 VLR 研究中取得了令人印象深刻的进步。然而,实现更高的性能需要大量的时间和计算资源来进行训练。近期,Transformer车型的兴起给VLR带来了新的机遇。 Swin Transformer 凭借其高效计算和全局特征建模能力,在具有挑战性的条件下优于 CNN。在本文中,我们使用 Swin Transformer 实现实时 VLR 并对其进行微调以获得最佳性能。在三个公共车辆标志数据集 HFUT VL1、XMU、CTGU VLD 上进行的广泛实验分别证明了令人印象深刻的最高准确度结果,分别为 99.28、100 和 99.17。此外,迁移学习策略的使用使我们的方法能够与最先进的 VLR 方法相媲美。这些发现证实了我们的方法相对于现有方法的优越性。

New Foggy Object Detecting Model
Authors Rahul Banavathu, Modem Veda Sree, Bollina Kavya Sri, Suddhasil De
能见度较低时的物体检测已成为一个突出的研究领域。现有技术在这种情况下识别物体不够准确。本文介绍了一种新的雾对象检测方法,通过输入图像的区域识别和检测这些区域中的对象的两阶段架构。

A Systematic Review of Available Datasets in Additive Manufacturing
Authors Xiao Liu, Alessandra Mileo, Alan F. Smeaton
现场监控结合了来自视觉和其他传感器技术的数据,可以在增材制造 AM 过程中收集大量数据集。这些数据集有可能在制造过程中通过使用机器学习来确定制造输出的质量和缺陷检测。机器学习社区需要从增材制造过程中派生的开放和带注释的数据集来抓住这一机会,这给计算机视觉相关的机器学习在增材制造中的应用带来了困难。这项系统审查调查了源自增材制造工艺的基于开放图像的数据集的可用性,这些数据集符合许多预先定义的选择标准。

An Implicit Physical Face Model Driven by Expression and Style
Authors Lingchen Yang, Gaspard Zoss, Prashanth Chandran, Paulo Gotardo, Markus Gross, Barbara Solenthaler, Eftychios Sifakis, Derek Bradley
3D 面部动画通常是通过操纵面部变形模型或装备来生成的,传统上这些模型或装备是通过表情控件进行参数化的。通常被忽视的一个关键组成部分是表达式样式,例如特定表达式的执行方式。尽管定义角色可以执行的表达式的语义基础很常见,但大多数角色都以自己的风格执行每个表达式。迄今为止,风格通常与表情纠缠在一起,在考虑面部动画时不可能将一个角色的风格转移到另一个角色。我们提出了一种新的面部模型,基于数据驱动的隐式神经物理模型,可以分别由表情和风格驱动。其核心是,我们提出了一个框架,用于同时学习多个主体的基于隐式物理的驱动,并针对来自一小组身份的一些任意性能捕获序列进行训练。一旦经过训练,我们的方法就可以为任何受过训练的身份提供基于广义物理的面部动画,甚至扩展到看不见的表演。此外,它还可以控制动画风格,实现从一个角色到另一个角色的风格转移或混合不同角色的风格。

Face to Cartoon Incremental Super-Resolution using Knowledge Distillation
Authors Trinetra Devkatte, Shiv Ram Dubey, Satish Kumar Singh, Abdenour Hadid
面部超分辨率幻觉是一个重要的研究领域,旨在增强各种应用的低分辨率面部图像。虽然生成对抗网络 GAN 在这一领域显示出了前景,但它们适应新的、未见过的数据的能力仍然是一个挑战。本文通过提出使用 GAN 和知识蒸馏 ISR KD 的增量超分辨率来解决这个问题,用于面部卡通。该领域之前的研究并未调查增量学习,这对于不断生成新数据的现实世界应用程序至关重要。拟议的 ISR KD 旨在开发一种新颖的面部超分辨率统一框架,可以处理不同的设置,包括不同类型的面部(例如卡通面部)和各种细节级别。为了实现这一目标,基于 GAN 的超分辨率网络在 CelebA 数据集上进行预训练,然后在 iCartoonFace 数据集上进行增量训练,使用知识蒸馏来保留 CelebA 测试集上的性能,同时提高 iCartoonFace 测试集上的性能。

An open dataset for oracle bone script recognition and decipherment
Authors Pengjie Wang, Kaile Zhang, Yuliang Liu, Jinpeng Wan, Haisu Guan, Zhebin Kuang, Xinyu Wang, Lianwen Jin, Xiang Bai
甲骨文 OBS 是已知最早的中国古代文字形式之一,对 3000 年前的商代人文和地理有着宝贵的见解。这些著作的巨大历史和文化意义怎么强调都不为过。然而,时间的流逝已经模糊了它们的大部分含义,给破译这些古代文本带来了重大挑战。随着人工智能AI的出现,利用AI辅助解读OBS已经成为一种可行的选择。然而,由于缺乏高质量数据集,这一领域的进展受到阻碍。为了解决这个问题,本文详细介绍了 HUST OBS 数据集的创建。该数据集包含 1,588 个单独破译文字的 77,064 张图像和 9,411 个未破译字符的 62,989 张图像,总共 140,053 张图像,由不同来源编译而成。此外,所有图像和标签都经过甲骨研究专家的审查和纠正。

Transformer-based Clipped Contrastive Quantization Learning for Unsupervised Image Retrieval
Authors Ayush Dubey, Shiv Ram Dubey, Satish Kumar Singh, Wei Ta Chu
无监督图像检索旨在在没有任何给定级别的情况下学习重要的视觉特征,以检索给定查询图像的相似图像。基于卷积神经网络 CNN 的方法已被广泛用于图像哈希的自监督对比学习。然而,由于 CNN 缺乏对全局特征的有效利用以及对比学习中假阴性对造成的偏差,现有方法受到了影响。在本文中,我们提出了一种 TransClippedCLR 模型,通过基于补丁的处理,使用具有局部上下文的 Transformer 对图像的全局上下文进行编码,通过乘积量化生成哈希码,并通过裁剪对比学习避免潜在的假阴性对。与最近最先进的深度模型相比,所提出的模型在基准数据集(包括 CIFAR10、NUS Wide 和 Flickr25K)上进行了无监督图像检索的卓越性能测试。

AniDress: Animatable Loose-Dressed Avatar from Sparse Views Using Garment Rigging Model
Authors Beijia Chen, Yuefan Shen, Qing Shuai, Xiaowei Zhou, Kun Zhou, Youyi Zheng
最近的社区在从稀疏的多视图视频构建照片逼真的动画化身方面取得了重大进展。然而,当前的工作流程很难为宽松的角色渲染真实的服装动态,因为它们主要依赖裸体模型进行人体建模,而服装部分未建模。这主要是因为宽松的衣服产生的变形是高度非刚性的,并且捕捉这种变形通常需要密集的视图作为监督。在本文中,我们介绍了 AniDress,这是一种在我们的设置中使用非常稀疏的多视图视频 4 8 生成穿着宽松衣服的可动画人类化身的新方法。为了允许在这种情况下捕获和学习宽松服装的外观,我们采用了从基于物理的模拟数据获得的基于虚拟骨骼的服装索具模型。这样的模型使我们能够通过一组低维骨骼变换来捕获和渲染复杂的服装动态。从技术上讲,我们开发了一种从稀疏多视图视频中估计时间相干服装动态的新方法。为了使用粗略估计构建看不见的服装状态的真实渲染,引入了以身体和服装运动为条件的姿势驱动的可变形神经辐射场,从而提供对这两个部分的显式控制。在测试时,可以从看不见的情况中捕获新的服装姿势,这些姿势源自基于物理或基于神经网络的模拟器,以驱动看不见的服装动态。为了评估我们的方法,我们创建了一个多视图数据集,用于捕获穿着宽松的表演者的不同动作。实验表明,我们的方法能够渲染与身体高度偏离的自然服装动态,并很好地推广到看不见的视图和姿势,超越了现有方法的性能。

You Only Look Bottom-Up for Monocular 3D Object Detection
Authors Kaixin Xiong, Dingyuan Zhang, Dingkang Liang, Zhe Liu, Hongcheng Yang, Wondimu Dikubab, Jianwei Cheng, Xiang Bai
单目 3D 物体检测是自动驾驶的一项重要任务。同时,由于深度信息的丢失,从纯图像中进行准确的 3D 物体检测非常具有挑战性。大多数现有的基于图像的方法根据图像平面上的 2D 尺寸来推断物体在 3D 空间中的位置,这通常会忽略图像的内在位置线索,导致性能不理想。受人类可以利用自下而上的位置线索从单个图像中定位 3D 空间中的物体这一事实的启发,在本文中,我们探索了图像特征列中的位置建模,并提出了一种名为 You Only Look Bottum Up YOLOBU 的新方法。具体来说,我们的 YOLOBU 利用基于列的交叉注意力来确定像素对其上方像素的贡献程度。接下来,引入基于行的反向累积和RRCS来建立自底向上方向的像素连接。我们的YOLOBU通过自下而上的方式构建像素关系,充分探索了单目3D检测的位置线索。

A Survey on 3D Skeleton Based Person Re-Identification: Approaches, Designs, Challenges, and Future Directions
Authors Haocong Rao, Chunyan Miao
通过 3D 骨骼进行人员重新识别是一个重要的新兴研究领域,引起了模式识别界的极大兴趣。近年来,基于3D骨架的行人重识别SRID方法被提出,具有针对多种应用场景的独特优势,有效解决了骨架建模和特征学习中的突出问题。尽管最近取得了进展,但据我们所知,人们很少努力全面总结这些研究及其挑战。在本文中,我们试图通过对当前 SRID 方法、模型设计、挑战和未来方向进行系统调查来填补这一空白。具体来说,我们首先制定 SRID 问题,并提出 SRID 研究的分类法,总结基准数据集、常用模型架构以及对不同方法特征的分析回顾。然后,我们从多个方面详细阐述了SRID模型的设计原理,为模型改进提供关键见解。

SkipViT: Speeding Up Vision Transformers with a Token-Level Skip Connection
Authors Foozhan Ataiefard, Walid Ahmed, Habib Hajimolahoseini, Saina Asani, Farnoosh Javadi, Mohammad Hassanpour, Omar Mohamed Awad, Austin Wen, Kangling Liu, Yang Liu
众所周知,视觉 Transformer 比 CNN 模型的计算量和数据密集度更高。这些 Transformer 模型(例如 ViT)需要所有输入图像标记来学习它们之间的关系。然而,许多这些标记并不提供信息,并且可能包含不相关的信息,例如不相关的背景或不重要的风景。这些标记被多头自注意力 MHSA 忽略,导致 MHSA 和前馈网络 FFN 中出现许多冗余和不必要的计算。在这项工作中,我们提出了一种方法,通过将不重要的令牌分离并通过不同的低成本计算路径发送来优化它们之间不必要的交互量。我们的方法没有向 ViT 模型添加任何参数,目的是在训练吞吐量和最终模型的 Top 1 准确度中实现 0 损失之间找到最佳权衡。

STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics
Authors Volodymyr Vakhniuk, Ayush Sarkar, Ragini Gupta
我们提出了一种名为 STAC 的高效跨摄像机监控系统,该系统利用多个摄像机之间的时空关联来在受限网络环境下提供实时分析和推理。 STAC 使用所提出的全尺度特征学习人员重新识别 reid 算法构建,该算法允许使用视频帧的时空特征跨摄像机准确检测、跟踪和重新识别人员。我们将 STAC 与帧过滤和最先进的流媒体技术压缩相集成,即 ffmpeg libx264 编解码器,以消除跨相机帧中的冗余信息。这有助于优化视频传输和计算处理的成本,同时保持实时查询推理的高精度。 NVIDIA 推出的 AICity Challenge 2023 Data 1 允许探索利用多摄像头人员跟踪算法的系统。我们使用该数据集来评估 STAC 的性能,以衡量 reid 的准确性指标和推理率。此外,与原始相机流相比,我们还量化了通过使用 FFmpeg 进行帧过滤和压缩所实现的视频流减少量。

Applications of Tao General Difference in Discrete Domain
Authors Linmi Tao, Ruiyang Liu, Donglai Tao, Wu Xia, Feilong Ma, Yu Cheng, Jingmao Cui
数值差分计算是现代数字时代不可或缺的核心之一。道广义差分TGD是一种新颖的多维空间离散序列和数组差分计算理论和方法。 TGD 算子建立在有限区间一般差分的坚实理论基础之上,在现实应用中展示了卓越的信号处理能力。在第一和第二 TGD 上定义了序列的新颖平滑属性。该属性用于对一维信号进行去噪,其中噪声是序列中的非平滑点。同时,通过TGD计算可以准确定位有限区间内的梯度中心。这解决了计算机视觉中的一个传统挑战,即具有噪声鲁棒性的图像边缘的精确定位。此外,TGD 算子的功能还扩展到三维阵列中的时空边缘检测,从而能够识别视频数据中的动态边缘。

GEM: Boost Simple Network for Glass Surface Segmentation via Segment Anything Model and Data Synthesis
Authors Jing Hao, Moyun Liu, Kuo Feng Hung
由于玻璃区域的透明度和反射特性不明确,检测玻璃区域是一项具有挑战性的任务。这些透明眼镜共享传输的任意背景场景和反射物体的视觉外观,因此没有固定的模式。最近的视觉基础模型在大量数据上进行训练,在图像感知和图像生成方面表现出了惊人的性能。为了以更高的精度分割玻璃表面,我们充分利用了两种视觉基础模型 Segment Anything SAM 和 Stable Diffusion。具体来说,我们设计了一个简单的玻璃表面分割器,名为 GEM,它仅由 SAM 主干、简单的特征金字塔、辨别查询选择模块和掩码解码器。敏锐的查询选择可以自适应地识别玻璃表面特征,将它们分配为掩模解码器中的初始化查询。我们还提出了一个合成但逼真的大规模玻璃表面检测数据集,称为 S GSD,通过具有四种不同尺度的扩散模型,其中包含原始真实数据大小的 1 倍、5 倍、10 倍和 20 倍。该数据集是迁移学习的可行来源。合成数据的规模对迁移学习有积极影响,但随着数据量的增加,改进将逐渐饱和。大量实验表明,GEM 在 GSD S 验证集 IoU 2.1 上达到了新的最先进水平。

SAM-based instance segmentation models for the automation of masonry crack detection
Authors Zehao Ye, Lucy Lovell, Asaad Faramarzi, Jelena Ninic
由于目前的劳动密集型和耗时性质,自动目视检查以根据土木结构外观捕获缺陷至关重要。自动化检测的一个重要方面是图像采集,考虑到近年来软件和硬件计算的普遍发展,图像采集是快速且具有成本效益的。以前的研究主要集中在混凝土和沥青上,很少关注砖石裂缝。后者也缺乏公开可用的数据集。在本文中,我们首先提出了一个相应的实例分割数据集,包含 1,300 张 640 像素 x 640 像素的带注释图像,命名为 MCrack1300,涵盖砖块、碎砖块和裂缝。然后,我们测试了几种领先的基准测试算法,包括最新的大型模型、基于提示的分段任意模型 SAM。我们使用低秩自适应 LoRA 微调编码器,并提出了两种新的 SAM 执行自动化方法。第一种方法涉及放弃提示编码器并将SAM编码器连接到其他解码器,而第二种方法则引入了可学习的自生成提示器。为了确保两种提出的方​​法与 SAM 编码器部分的无缝集成,我们重新设计了特征提取器。两种提出的方​​法均超过了最先进的性能,所有类别均超过最佳基准约 3,特别是裂缝超过最佳基准约 6。基于成功的检测,我们提出了一种基于单目相机和霍夫线变换的方法,将图像自动转换为正交投影图。通过结合已知的砖单元实际尺寸,我们准确地估计了裂缝尺寸,结果与激光扫描获得的结果相差不到 10。

Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes
Authors Diandian Guo, Deng Ping Fan, Tongyu Lu, Christos Sakaridis, Luc Van Gool
隐式跨帧对应关系的估计和高计算成本长期以来一直是驾驶场景视频语义分割VSS的主要挑战。先前的工作利用关键帧、特征传播或跨帧注意力来解决这些问题。相比之下,我们是第一个利用消失点 VP 先验进行更有效分割的人。直观上,靠近 VP(即远离车辆)的物体不太容易辨别。此外,在前向摄像头、笔直道路和车辆线性向前运动的通常情况下,随着时间的推移,它们往往会径向远离 VP。我们新颖、高效的 VSS 网络名为 VPSeg,包含两个模块,它们恰好利用了这对静态和动态 VP 先验稀疏到密集特征挖掘 DenseVP 和 VP 引导运动融合 MotionVP 。 MotionVP 采用 VP 引导的运动估计来建立跨帧的明确对应关系,并帮助关注相邻帧中最相关的特征,而 DenseVP 则增强 VP 周围远处区域的弱动态特征。这些模块在上下文细节框架内运行,该框架将不同输入分辨率下的上下文特征与高分辨率局部特征分开,以降低计算成本。通过上下文运动注意力 CMA 集成上下文和局部特征以进行最终预测。

Adaptive Deep Learning for Efficient Visual Pose Estimation aboard Ultra-low-power Nano-drones
Authors Beatrice Alessandra Motetti, Luca Crupi, Mustafa Omer Mohammed Elamin Elshaigi, Matteo Risso, Daniele Jahier Pagliari, Daniele Palossi, Alessio Burrello
直径低于 10 厘米的纳米无人机正在获得发展势头,因为它们适用于大型无人机无法覆盖的场景,例如狭窄的环境和靠近人类的环境。然而,其微小的外形尺寸也带来了其主要缺点:用于感知管道板载执行的内存和处理器非常有限。因此,基于轻量级深度学习的方法变得越来越流行,强调计算效率和节能的重要性,因为它们可以区分完全工作的闭环系统和失败的闭环系统。在这项工作中,为了最大限度地利用纳米无人机上的极其有限的资源,我们提出了一种新颖的基于自适应深度学习的机制,用于有效执行基于视觉的人体姿态估计任务。我们利用两个最先进的 SoA 卷积神经网络 CNN,它们具有不同的回归性能与计算成本权衡。通过将这些 CNN 与基于输出时间一致性和辅助任务的三种新颖的适应策略相结合,以交换主动执行的 CNN,我们提出了六种不同的系统。在现实世界的数据集和实际的纳米无人机硬件上,与仅执行更大、最准确的 SoA 模型相比,我们性能最佳的系统在保持相同的平均绝对误差 MAE 的同时显示出 28 的延迟减少,在 iso 延迟的同时减少了 3 MAE,

Biological Valuation Map of Flanders: A Sentinel-2 Imagery Analysis
Authors Mingshi Li, Dusan Grujicic, Steven De Saeger, Stien Heremans, Ben Somers, Matthew B. Blaschko
近年来,机器学习在遥感分析中变得至关重要,特别是在土地利用 土地覆盖 LULC 领域。多项研究证明,机器学习和卫星图像分析的协同作用已证明该领域具有显着的生产力。该领域的一个显着挑战是大面积土地利用的语义分割映射,其中准确的土地利用数据的可访问性和地面真实土地利用标签的可靠性构成了重大困难。例如,提供比利时一级行政区佛兰德斯地区详细且准确的像素级标记数据集可能特别有洞察力。然而,全球许多地区的此类研究明显缺乏受监管的、正式的数据集和工作流程。本文介绍了解决这些差距的综合方法。我们展示了一张带有密集标签的佛兰德斯地面实况地图以及 Sentinel 2 卫星图像。我们的方法包括形式化的数据集划分和采样方法,利用地形图布局Kaartbladversnijdingen,以及详细的语义分割模型训练管道。

LYT-Net: Lightweight YUV Transformer-based Network for Low-Light Image Enhancement
Authors A. Brateanu, R. Balmez, A. Avram, C. C. Orhei
近年来,基于深度学习的解决方案在图像增强领域已被证明是成功的。本文介绍了 LYT Net(即基于轻量级 YUV 变换器的网络)作为一种低光图像增强的新方法。所提出的架构与传统的基于 Retinex 的模型不同,它利用 YUV 颜色空间的亮度 Y 和色度 U 和 V 的自然分离来简化解开图像中的光和颜色信息的复杂任务。通过利用 Transformer 的优势(以其捕获长距离依赖性的能力而闻名),LYT Net 可确保对图像进行全面的上下文理解,同时保持降低的模型复杂性。通过采用新颖的混合损失函数,我们提出的方法在低光图像增强数据集上实现了最先进的结果,同时比同类方法更加紧凑。

Context-driven self-supervised visual learning: Harnessing the environment as a data source
Authors Lizhen Zhu, James Z. Wang, Wonseuk Lee, Brad Wyble
视觉学习通常发生在特定的环境中,智能体通过在一致的环境中探索和跟踪其位置来获取技能。代理的历史空间背景为自监督对比学习提供了相似性信号。我们提出了一种独特的方法,称为环境空间相似性 ESS,它补充了现有的对比学习方法。使用来自模拟真实环境的图像作为实验设置,我们证明 ESS 优于传统的实例辨别方法。此外,从同一环境中采样额外的数据可以大大提高准确性并提供新的增强。 ESS 可以让用户非常熟练地完成房间分类和空间预测任务,尤其是在不熟悉的环境中。这种学习范式有可能使在具有独特视觉特征的新环境中运行的代理能够快速进行视觉学习。潜在的变革性应用涵盖从机器人到太空探索。

GeoDecoder: Empowering Multimodal Map Understanding
Authors Feng Qi, Mian Dai, Zixian Zheng, Chao Wang
本文介绍了 GeoDecoder,这是一种专用的多模态模型,旨在处理地图中的地理空间信息。 GeoDecoder 基于 BeitGPT 架构构建,包含用于图像和文本处理的专用专家模块。在图像方面,GeoDecoder 使用高德地图作为底层底图,它本质上包含了有关道路和建筑物形状、相对位置和其他属性的基本细节。通过利用渲染技术,该模型无缝集成外部数据和特征,例如符号标记、行驶轨迹、热图和用户定义的标记,从而无需额外的特征工程。 GeoDecoder 的文本模块接受各种上下文文本和问题提示,生成 GPT 风格的文本输出。此外,基于 GPT 的模型允许在同一模型中以端到端的方式训练和执行多个任务。为了增强地图认知并使GeoDecoder能够获取有关北京地理实体分布的知识,我们设计了八个基本地理空间任务,并使用大规模文本图像样本对模型进行了预训练。随后,对三个下游任务进行了快速微调,从而显着提高了性能。

Towards Global Glacier Mapping with Deep Learning and Open Earth Observation Data
Authors Konstantin A. Maslov, Claudio Persello, Thomas Schellenberger, Alfred Stein
准确的全球冰川测绘对于了解气候变化的影响至关重要。它面临着冰川多样性、碎片分类困难和大数据处理的挑战。在这里,我们提出了 Glacier VisionTransformer U Net GlaViTU,一种卷积变换器深度学习模型,以及使用开放卫星图像进行多时相全球尺度冰川测绘的五种策略。评估空间、时间和跨传感器泛化表明,我们的最佳策略在大多数情况下在以前未观察到的图像上实现了超过 0.85 的交集,对于亚洲高山等碎片丰富的地区,交集下降到 0.75,对于以干净冰为主的区域,交集增加到 0.90 。此外,添加合成孔径雷达数据,即反向散射和干涉相干性,可以提高所有可用区域的精度。报告的冰川范围的校准置信度使预测更加可靠和可解释。我们还发布了涵盖全球 9 个冰川的基准数据集。

Continual Learning with Pre-Trained Models: A Survey
Authors Da Wei Zhou, Hai Long Sun, Jingyi Ning, Han Jia Ye, De Chuan Zhan
如今,现实世界的应用程序经常面对流数据,这需要学习系统随着数据的演变吸收新的知识。持续学习CL旨在实现这一目标,同时克服学习新知识时对旧知识的灾难性遗忘。典型的 CL 方法从头开始构建模型,并随着传入数据而增长。然而,预训练模型 PTM 时代的出现引发了巨大的研究兴趣,特别是在利用 PTM 强大的表征能力方面。本文对基于 PTM 的 CL 的最新进展进行了全面的调查。我们将现有方法分为三个不同的组,对它们的相似点、差异以及各自的优缺点进行比较分析。此外,我们还提供了一项对比各种最先进方法的实证研究,以强调对比较公平性的担忧。

Evaluation of pseudo-healthy image reconstruction for anomaly detection with deep generative models: Application to brain FDG PET
Authors Ravi Hassanaly, Camille Brianceau, Ma lys Solal, Olivier Colliot, Ninon Burgos
在过去的几年里,用于无监督异常检测的伪健康重建越来越受欢迎。这种方法具有不需要繁琐的像素级数据注释的巨大优势,并且提供了推广到任何类型异常的可能性,包括与罕见疾病相对应的异常。通过仅使用健康受试者的图像训练深度生成模型,该模型将学习重建伪健康图像。然后将该伪健康重建与输入进行比较以检测和定位异常。

Defining and Extracting generalizable interaction primitives from DNNs
Authors Lu Chen, Siyu Lou, Benhao Huang, Quanshi Zhang
将深度神经网络 DNN 编码的知识忠实地总结为一些符号原始模式而不丢失太多信息,这是可解释人工智能的核心挑战。为此,任等人。 2023c 导出了一系列定理来证明 DNN 的推理分数可以解释为输入变量之间的一小组相互作用。然而,泛化能力的缺乏使得我们仍然很难将这种交互视为 DNN 编码的忠实原始模式。因此,考虑到针对同一任务训练的不同 DNN,我们开发了一种新方法来提取这些 DNN 共享的交互。

MosquIoT: A System Based on IoT and Machine Learning for the Monitoring of Aedes aegypti (Diptera: Culicidae)
Authors Javier Aira, Teresa Olivares Montes, Francisco M. Delicado, Dar o Vezzani
全世界每年有数百万人感染蚊媒疾病。最危险的物种之一是埃及伊蚊,它是登革热、黄热病、基孔肯雅热和寨卡病毒等病毒的主要传播媒介。预防和消灭蚊子运动对于避免重大公共卫生后果至关重要。在这方面,昆虫学监测是一个重要的工具。目前,这种传统的监控工具是手动执行的,需要进行数字化转型,以帮助当局做出更好的决策、改进规划工作、加快执行速度并更好地管理可用资源。因此,需要设计和开发基于成熟技术的新技术工具。然而,此类工具还应该具有成本效益、自主、可靠且易于实施,并且应通过连接和多平台软件应用程序来实现。本文介绍了名为 MosquIoT 的创新系统的设计、开发和测试。它基于传统的诱产卵器,具有嵌入式物联网 IoT 和微型机器学习 TinyML 技术,可实现AE的检测和量化。埃及伊蚊蛋。这种创新且有前景的解决方案可能有助于动态了解 Ae 的行为。

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Authors Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
基于多模式大语言模型 MLLM 的移动设备代理正在成为一种流行的应用。在本文中,我们介绍移动代理,一种自主的多模式移动设备代理。移动代理首先利用视觉感知工具来准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文,它会自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。与之前依赖应用程序 XML 文件或移动系统元数据的解决方案不同,移动代理以视觉为中心的方式实现了跨不同移动操作环境的更大适应性,从而消除了系统特定定制的必要性。为了评估 Mobile Agent 的性能,我们引入了 Mobile Eval,这是评估移动设备操作的基准。基于Mobile Eval,我们对Mobile Agent进行了全面的评估。实验结果表明,Mobile Agent 取得了显着的准确率和完成率。即使有挑战性的指令,例如多应用程序操作,移动代理仍然可以完成要求。

Looking for a better fit? An Incremental Learning Multimodal Object Referencing Framework adapting to Individual Drivers
Authors Amr Gomaa, Guillermo Reyes, Michael Feld, Antonio Kr ger
汽车行业向自动和半自动车辆的快速发展使得传统的车辆交互方法(例如基于触摸和语音命令系统)不足以满足范围广泛的非驾驶相关任务,例如引用车辆外部的物体。因此,研究已转向手势输入,例如手、凝视和头部姿势手势,作为驾驶过程中更合适的交互模式。然而,由于驾驶的动态性质和个体差异,驾驶员的手势输入表现存在显着差异。虽然从理论上讲,这种固有的可变性可以通过大量数据驱动的机器学习模型来调节,但普遍的方法倾向于受约束的、单实例训练的对象引用模型。这些模型持续适应个体驾驶员的不同行为和各种驾驶场景的能力有限。为了解决这个问题,我们提出了 textit IcRegress ,这是一种基于回归的新型增量学习方法,可以适应不断变化的行为以及从事驾驶和参考物体双重任务的驾驶员的独特特征。我们建议为多模式手势界面提供更加个性化和适应性更强的解决方案,采用持续的终身学习来增强驾驶员体验、安全性和便利性。我们的方法使用车辆外部对象引用用例进行了评估,突显了增量学习模型相对于单一训练模型在各种驾驶员特征(例如惯用手、驾驶经验和多种驾驶条件)方面的优越性。

Data-Driven Filter Design in FBP: Transforming CT Reconstruction with Trainable Fourier Series
Authors Yipeng Sun, Linda Sophie Schneider, Fuxin Fan, Mareike Thies, Mingxuan Gu, Siyuan Mei, Yuzhong Zhou, Siming Bayer, Andreas Maier
在本研究中,我们引入了基于傅里叶级数的可训练滤波器,用于滤波反投影 FBP 框架内的计算机断层扫描 CT 重建。该方法通过优化傅里叶级数系数​​来构造滤波器,克服了传统FBP方法固有的降噪限制。与其他深度学习框架相比,该方法能够在不同分辨率尺度上实现稳健的性能,并以最小的可训练参数增量保持计算效率。此外,我们提出了高斯边缘增强的 GEE 损失函数,该函数优先考虑高频幅度的 L 1 范数,有效地解决均方误差 MSE 方法中普遍存在的模糊问题。该模型以 FBP 算法为基础,确保了出色的可解释性,因为它依赖于数据驱动的滤波器,以及通过严格的数学程序导出的所有其他参数。我们基于傅立叶级数的滤波器设计为即插即用解决方案,可以轻松集成到现有的 CT 重建模型中,使其成为适用于各种实际应用的多功能工具。

Gland segmentation via dual encoders and boundary-enhanced attention
Authors Huadeng Wang, Jiejiang Yu, Bingbing Li, Xipeng Pan, Zhenbing Liu, Rushi Lan, Xiaonan Luo
病理图像上准确、自动化的腺体分割可以帮助病理学家诊断结直肠腺癌的恶性程度。但由于腺体形状多样,恶性腺体变形严重,腺体之间重叠粘连。腺体分割一直非常具有挑战性。为了解决这些问题,我们提出了 DEA 模型。该模型由两个分支组成:骨干编解码网络和局部语义提取网络。主干编码和解码网络提取高级语义特征,使用所提出的特征解码器来恢复特征空间信息,然后通过边界增强注意来增强腺体的边界特征。局部语义提取网络使用预训练的DeepLabv3作为局部语义引导编码器来实现边缘特征的提取。

A Class-aware Optimal Transport Approach with Higher-Order Moment Matching for Unsupervised Domain Adaptation
Authors Tuan Nguyen, Van Nguyen, Trung Le, He Zhao, Quan Hung Tran, Dinh Phung
无监督域适应 UDA 旨在将知识从标记的源域转移到未标记的目标域。在本文中,我们介绍了一种称为类感知最优传输 OT 的新方法,该方法测量源类条件分布上的分布与源和目标数据分布的混合之间的 OT 距离。我们的类感知 OT 利用成本函数来确定给定数据示例和源类条件分布之间的匹配程度。通过优化这个成本函数,我们找到了目标示例和源类条件分布之间的最佳匹配,有效地解决了两个域之间发生的数据和标签偏移问题。为了有效地处理类感知 OT,我们提出了一种摊销解决方案,采用深度神经网络来制定运输概率和成本函数。此外,我们建议最小化类感知高阶矩匹配 HMM,以对齐源域和目标域上的相应类区域。类感知 HMM 组件提供了一种经济的计算方法,用于准确评估两个分布之间的 HMM 距离。

Sliced Wasserstein with Random-Path Projecting Directions
Authors Khai Nguyen, Shujian Zhang, Tam Le, Nhat Ho
切片分布选择已被用作一种有效的技术,基于最小化应用中的切片 Wasserstein 距离来提高参数估计器的性能。以前的工作要么利用昂贵的优化来选择切片分布,要么使用需要昂贵的采样方法的切片分布。在这项工作中,我们提出了一种无优化切片分布,为蒙特卡洛期望估计提供快速采样。特别是,我们引入了随机路径投影方向 RPD,它是通过利用两个输入测量值之后的两个随机向量之间的归一化差来构造的。从 RPD 中,我们得出随机路径切片分布 RPSD 和切片 Wasserstein 的两个变体,即随机路径投影 Sliced Wasserstein RPSW 和重要性加权随机路径投影 Sliced Wasserstein IWRPSW 。然后我们讨论 RPSW 和 IWRPSW 的拓扑、统计和计算特性。

TransTroj: Transferable Backdoor Attacks to Pre-trained Models via Embedding Indistinguishability
Authors Hao Wang, Tao Xiang, Shangwei Guo, Jialing He, Hangcheng Liu, Tianwei Zhang
预训练模型 PTM 广泛用于各种下游任务。采用不受信任的 PTM 可能会遭受后门攻击,攻击者可以通过向 PTM 注入后门来破坏下游模型。然而,现有的针对 PTM 的后门攻击只能实现部分任务无关,并且嵌入式后门在微调过程中很容易被删除。在本文中,我们提出了一种新颖的可转移后门攻击 TransTroj,以同时满足功能保留、持久性和任务不可知性。特别是,我们首先将可转移后门攻击形式化为嵌入空间中有毒样本和干净样本之间的不可区分问题。我们将嵌入不可区分性分解为前后不可区分性,表示攻击前后中毒嵌入和参考嵌入的相似性。然后,我们提出了两阶段优化,分别优化触发器和受害者 PTM,以实现嵌入的不可区分性。我们在四个 PTM 和六个下游任务上评估 TransTroj。实验结果表明,TransTroj 的平均性能明显优于 SOTA 任务无关后门攻击 18 sim 99 , 68 ,并且在各种系统设置下都表现出优越的性能。

3DPFIX: Improving Remote Novices' 3D Printing Troubleshooting through Human-AI Collaboration
Authors Nahyun Kwon, Tong Sun, Yuyang Gao, Liang Zhao, Xu Wang, Jeeeun Kim, Sungsoo Ray Hong
广泛使用的消费级 3D 打印机和在线学习资源使新手能够在远程环境中进行自我训练。虽然故障排除是 3D 打印的重要组成部分,但即使有完善的在线资源(例如在线故障排除档案和在线社区帮助)的帮助,该过程对于许多远程新手来说仍然具有挑战性。我们对 76 名活跃 3D 打印用户进行了一项形成性研究,以了解远程新手如何利用在线资源进行故障排除及其面临的挑战。我们发现远程新手无法充分利用在线资源。例如,在线档案静态地提供一般信息,使得很难搜索其独特案例并将其与现有描述联系起来。在线社区可以通过提供更有针对性的建议来缓解他们的困境,但能够提供定制帮助的帮助者相当稀缺,因此很难获得及时的帮助。我们提出了 3DPFIX,这是一种由管道支持的交互式 3D 故障排除系统,以促进人类人工智能协作,旨在改善新手 3D 打印体验,从而帮助他们轻松积累领域知识。我们构建了支持自动诊断和解决方案寻求的 3DPFIX。 3DPFIX 是基于在线社区中积累的问答讨论中有关失败案例的共享对话而构建的。我们利用社交注释(即评论)为人工智能分类器构建带注释的故障图像数据集并提取解决方案池。我们的总结性研究表明,与依赖常规实践相比,使用 3DPFIX 帮助参与者在诊断故障和找到更准确的解决方案方面花费的精力显着减少。我们还发现 3DPFIX 用户了解 3D 打印领域的特定知识。

GarchingSim: An Autonomous Driving Simulator with Photorealistic Scenes and Minimalist Workflow
Authors Liguo Zhou, Yinglei Song, Yichao Gao, Zhou Yu, Michael Sodamin, Hongshen Liu, Liang Ma, Lian Liu, Hao Liu, Yang Liu, Haichuan Li, Guang Chen, Alois Knoll
对自动驾驶算法进行真实的道路测试可能成本高昂,有时甚至不切实际,特别是对于小型初创公司和研究机构而言。因此,仿真成为评估这些算法的重要方法。然而,免费和开源模拟器的可用性是有限的,安装和配置过程对于初学者和跨学科研究人员来说可能令人望而生畏。我们引入了具有逼真场景的自动驾驶模拟器,同时保持用户友好的工作流程。

Low-resolution Prior Equilibrium Network for CT Reconstruction
Authors Yijie Yang, Qifeng Gao, Yuping Duan
展开方法已被研究用于学习 X 射线计算机断层扫描中的变分模型。然而,据观察,直接通过梯度下降展开正则化模型并不能产生令人满意的结果。在本文中,我们提出了一种新颖的基于深度学习的CT重建模型,其中引入低分辨率图像以获得有效的正则化项以提高网络的鲁棒性。我们的方法涉及通过使用深度均衡架构实现的算法展开来构建主干网络架构。我们从理论上讨论了所提出的低分辨率先验均衡模型的收敛性,并提供了保证收敛的条件。

Addressing Noise and Efficiency Issues in Graph-Based Machine Learning Models From the Perspective of Adversarial Attack
Authors Yongyu Wang
鉴于现有的图构造方法无法为给定的数据集生成完美的图,基于图的算法总是受到构造图中存在的过多冗余和错误边的影响。在本文中,我们建议将这些噪声边缘视为对抗性攻击,并使用谱对抗鲁棒性评估方法来减少噪声边缘对图算法性能的影响。我们的方法识别那些不易受噪声边缘影响的点,并仅利用这些稳健的点来执行基于图的算法。

Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement
Authors Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song
高质量的全玻片扫描仪价格昂贵、复杂且耗时,从而限制了日常临床工作中高分辨率病理全玻片图像的采集和利用。基于深度学习的单图像超分辨率技术是通过从低分辨率图像合成高分辨率图像来解决这一问题的有效方法。然而,现有应用于病理图像的超分辨率模型只能在固定整数放大倍数下工作,大大降低了其适用性。尽管基于隐式神经表示的方法在自然图像的任意尺度超分辨率方面显示出了有希望的结果,但将它们直接应用于病理图像是不够的,因为它们具有不同于自然图像的独特的细粒度图像纹理。因此,我们提出了一种基于隐式自纹理增强的双分支框架 ISTE,用于病理图像的任意尺度超分辨率,以应对这一挑战。 ISTE包含像素学习分支和纹理学习分支,首先分别学习像素特征和纹理特征。然后,我们设计了两阶段纹理增强策略来融合两个分支的特征以获得超分辨率结果,其中第一阶段是基于特征的纹理增强,第二阶段是基于空间域的纹理增强。对三个公共数据集的大量实验表明,ISTE 在多个放大倍数下优于现有的固定尺度和任意尺度算法,有助于提高下游任务性能。据我们所知,这是第一个在病理图像中实现任意尺度超分辨率的工作。

MiTU-Net: A fine-tuned U-Net with SegFormer backbone for segmenting pubic symphysis-fetal head
Authors Fangyijie Wang, Guenole Silvestre, Kathleen Curran
超声测量已被视为预测阴道分娩成功可能性的潜在工具。进展角 AoP 是可在分娩初始阶段获得的可测量参数。 AoP 定义为沿耻骨联合 PS 纵轴的直线与从 PS 下缘到胎头前缘 FH 的线之间的角度。然而,在超声图像上测量 AoP 的过程非常耗时且容易出错。为了应对这一挑战,我们提出了 Mix Transformer U Net MiTU Net 网络,用于自动胎头耻骨联合分割和 AoP 测量。 MiTU Net模型基于编码器解码器框架,利用预先训练的高效变压器来增强特征表示。在高效的 Transformer 编码器中,该模型显着减少了编码器解码器模型的可训练参数。通过对最近的经会阴超声数据集进行的实验证明了所提出方法的有效性。我们的模型取得了有竞争力的性能,与现有方法相比排名第五。 MiTU Net 提供了一种有效的自动分割和 AoP 测量方法,可减少错误并协助超声检查人员进行临床实践。

Decentralized Gossip Mutual Learning (GML) for brain tumor segmentation on multi-parametric MRI
Authors Jingyun Chen, Yading Yuan
联邦学习 FL 支持医疗中心之间的协作模型训练,而无需共享私人数据。然而,由于集中式模型聚合的性质,传统的 FL 存在服务器故障和本地数据性能不佳的风险。为了解决这些问题,我们提出了 Gossip Mutual Learning GML,这是一个使用 Gossip 协议进行直接点对点通信的去中心化框架。此外,GML鼓励每个站点通过相互学习来优化其本地模型,以考虑不同站点之间的数据差异。

Open-RadVLAD: Fast and Robust Radar Place Recognition
Authors Matthew Gadd, Paul Newman
雷达位置识别通常涉及将实时扫描编码为矢量并将该矢量与数据库进行匹配,以便识别车辆位于其之前访问过的位置。雷达本质上对照明或天气条件具有鲁棒性,但该传感器的位置识别仍然受到 1 个视点变化(即平移和旋转)、2 个传感器伪影或噪声的影响。对于 360 度扫描雷达,可以通过以某种方式聚合方位角来轻松处理旋转。此外,我们在这项工作中认为,处理丰富的表示和传感器噪声比处理平移不变性更重要,特别是在城市驾驶中,车辆在重复路线时主要遵循同一车道。在我们的方法中,为了计算效率,我们仅使用极坐标表示。为了实现部分平移不变性和对信号噪声的鲁棒性,我们仅使用沿径向返回的一维傅立叶变换。我们还通过构建局部聚合描述符的向量来实现旋转不变性和非常有辨别力的描述符空间。我们的方法比所有先前的雷达位置识别工作经过了更全面的测试,对来自 30 个牛津雷达 RobotCar 数据集序列的所有 870 对轨迹进行了详尽的组合,每个轨迹大约 10 公里。

DeepGI: An Automated Approach for Gastrointestinal Tract Segmentation in MRI Scans
Authors Ye Zhang, Yulu Gong, Dongji Cui, Xinrui Li, Xinyu Shen
胃肠道癌症构成了全球健康挑战,需要精确的放射治疗计划才能获得最佳治疗结果。本文介绍了一种在磁共振成像 MRI 扫描中自动分割胃肠道区域的尖端方法。利用先进的深度学习架构,所提出的模型集成了用于初始分类的 Inception V4、用于 2.5D 数据的带有 VGG19 编码器的 UNet 以及用于灰度数据分割的 Edge UNet。

L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks
Authors Ping Guo, Fei Liu, Xi Lin, Qingchuan Zhao, Qingfu Zhang
在快速发展的机器学习领域,对抗性攻击对模型的鲁棒性和安全性提出了重大挑战。基于决策的攻击仅需要模型决策的反馈,而不需要详细的概率或分数,这种攻击特别阴险且难以防御。这项工作介绍了基于 L AutoDA 大语言模型的基于自动决策的对抗性攻击,这是一种利用大语言模型 LLM 的生成能力来自动设计这些攻击的新颖方法。通过在进化框架中与 LLM 迭代交互,L AutoDA 无需太多人力即可自动高效地设计竞争性攻击算法。我们展示了 L AutoDA 在 CIFAR 10 数据集上的功效,显示出在成功率和计算效率方面比基线方法有显着改进。

Multi-Robot Relative Pose Estimation in SE(2) with Observability Analysis: A Comparison of Extended Kalman Filtering and Robust Pose Graph Optimization
Authors Kihoon Shin, Hyunjae Sim, Seungwon Nam, Yonghee Kim, Jae Hu, Kwang Ki K. Kim
在本文中,我们考虑多机器人定位问题,重点是协作定位和相对位姿估计的可观察性分析。对于协作定位,每个机器人可以通过通信网络和消息传递获得额外的信息。如果目标机器人的里程计数据可以传输到自我机器人,那么它们的相对姿态估计的可观测性可以通过仅距离或仅方位测量来实现,前提是它们的线速度都非零。如果目标机器人的里程计数据不是直接传输的,而是由自我机器人估计的,那么必须有距离和方位测量,以保证相对位姿估计的可观察性。对于 ROS Gazebo 模拟,我们考虑了四种不同的传感和通信结构,其中扩展卡尔曼滤波 EKF 和位姿图优化 PGO 估计(具有不同鲁棒损失函数的过滤和平滑)以及不同批量大小的滑动窗口在估计精度方面进行了比较。

ParaTransCNN: Parallelized TransCNN Encoder for Medical Image Segmentation
Authors Hongkun Sun, Jing Xu, Yuping Duan
基于卷积神经网络的方法由于其出色的性能而在医学图像分割中变得越来越流行。然而,他们很难捕获长期依赖关系,这对于准确建模全局上下文相关性至关重要。由于能够通过扩展感受野来建模长距离依赖性,基于变压器的方法已经获得了重视。受此启发,我们结合卷积神经网络和 Transformer 架构提出了一种先进的 2D 特征提取方法。更具体地说,我们引入了一种并行编码器结构,其中一个分支使用 ResNet 从图像中提取局部信息,而另一个分支使用 Transformer 提取全局信息。此外,我们将金字塔结构集成到 Transformer 中,以不同分辨率提取全局信息,特别是在密集的预测任务中。为了在解码器阶段有效地利用并行编码器中的不同信息,我们使用通道注意模块来合并编码器的特征并通过跳过连接和瓶颈传播它们。对主动脉血管树、心脏和多器官数据集进行了密集的数值实验。通过与最先进的医学图像分割方法进行比较,我们的方法具有更好的分割精度,特别是在小器官上。

CascadedGaze: Efficiency in Global Context Extraction for Image Restoration
Authors Amirhosein Ghasemabadi, Mohammad Salameh, Muhammad Kamran Janjua, Chunhua Zhou, Fengyu Sun, Di Niu
图像恢复任务传统上依赖于卷积神经网络。然而,考虑到卷积算子的局部性质,它们很难捕获全局信息。 Transformers 中的注意力机制有望避免这个问题,但它是以大量计算开销为代价的。最近图像恢复方面的许多研究都集中在通过 Transformer 变体解决平衡性能和计算成本的挑战。在本文中,我们提出了 CascadedGaze Network CGNet,这是一种采用全局上下文提取器 GCE 的编码器解码器架构,这是一种捕获全局信息以进行图像恢复的新颖且有效的方法。 GCE 模块利用跨卷积层的小内核来学习全局依赖性,而不需要自我关注。

AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations
Authors Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee, Junsong Yuan, Yu Ping Chang
分析群体对话期间的个人情绪对于开发能够进行自然人机交互的智能代理至关重要。虽然可靠的情绪识别技术依赖于不同模态的文本、音频、视频,但这些模态之间固有的异质性以及受个体独特行为模式影响的动态跨模态交互使得情绪识别任务非常具有挑战性。这种困难在群体环境中更加复杂,其中情绪及其时间演变不仅受到个人的影响,而且还受到外部环境的影响,例如观众的反应和正在进行的对话的环境。为了应对这一挑战,我们提出了一种多模态注意力网络,通过共同学习其特定于模式的外围和中央网络的交互群,捕获不同空间抽象级别的跨模态交互。所提出的 MAN 通过模式特定中央查询网络的每一层内的外围键值对注入跨模式注意力。然后使用自适应融合技术组合生成的交叉参与模式特定描述符,该技术使模型能够将判别性和互补模式特定数据模式集成到实例特定多模式描述符内。给定由一系列话语表示的对话,所提出的 AMuSE 模型将空间和时间特征压缩为两个密集描述符:说话者级别和话语级别。

Improving Fairness of Automated Chest X-ray Diagnosis by Contrastive Learning
Authors Mingquan Lin, Tianhao Li, Zhaoyi Sun, Gregory Holste, Ying Ding, Fei Wang, George Shih, Yifan Peng
目的 探索解决和增强放射学领域模型公平性的具体方法或途径的研究有限。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(视觉,计算机视觉,Papers,计算机视觉,视听重建,GaussianSplat,视觉行为分析)