【cs.CV】25.1.14 arxiv更新110篇
=====
摘要: 我们提出了Omni-RGPT,这是一种多模态大型语言模型,旨在促进图像和视频的区域级理解。为了在时空维度上实现一致的区域表示,我们引入了Token Mark,一组在视觉特征空间中高亮目标区域的标记。这些标记通过区域提示(例如框或掩码)直接嵌入到空间区域中,并同时融入文本提示以指定目标,从而在视觉和文本标记之间建立了直接连接。为了进一步支持无需tracklets的稳定视频理解,我们引入了一种辅助任务,通过利用标记的一致性来引导Token Mark,实现视频中稳定的区域解释。此外,我们引入了一个大规模的区域级视频指令数据集(RegVID-300k)。Omni-RGPT在基于图像和视频的常识推理基准上达到了最先进的结果,同时在标题生成和指称表达理解任务中表现出强劲的性能。
总结: Omni-RGPT通过引入Token Marks和大规模数据集,实现了图像与视频区域级理解的创新突破,达到了领先的性能表现。
###【arXiv编号】2501.08326v1
###【git】
###【期刊】
###【领域】计算机视觉,多模态学习
=====
摘要: 生成游戏引擎有潜力通过自主创建新内容和减少人工工作量来彻底改变游戏开发。然而,现有基于视频的游戏生成方法未能解决场景泛化的关键挑战,限制了它们对具有固定风格和场景的现有游戏的适用性。在本文中,我们提出了GameFactory,这是一个专注于探索游戏视频生成中场景泛化的框架。为了实现完全新颖和多样化的游戏创建,我们利用在开放域视频数据上训练的预训练视频扩散模型。为了弥合开放域先验和小规模游戏数据集之间的领域差距,我们提出了一种多阶段训练策略,将游戏风格学习与动作控制解耦,既保持开放域泛化能力,又实现了动作可控性。以Minecraft作为我们的数据来源,我们发布了GF-Minecraft,这是一个高质量和多样化的带有动作注释的视频数据集,用于研究。此外,我们将我们的框架扩展为支持自回归动作可控的游戏视频生成,允许生产无限长度的交互游戏视频。实验结果表明,GameFactory有效地生成了开放域、多样化和动作可控的游戏视频,代表了AI驱动游戏生成的一个重要进展。我们的数据集和项目页面在https://vvictoryuki.github.io/gamefactory/ 上公开。
总结: GameFactory框架通过预训练的视频扩散模型和多阶段训练策略,实现了开放域、多样化且动作可控的AI驱动游戏视频生成。
###【arXiv编号】2501.08325v1
###【期刊】
###【领域】计算机视觉,游戏生成,人工智能
GameFactory在游戏生成领域引入了创新的场景泛化和动作可控方法,具有较高的创新性和实用性。
=====
摘要: 扩散模型被广泛应用于图像和视频生成,但其迭代生成过程缓慢且成本高。尽管现有的蒸馏方法在图像领域展示了一步生成的潜力,但仍存在显著的质量下降。在本研究中,我们提出了针对真实数据的对抗后训练(APT),在扩散预训练之后用于一步视频生成。为了提高训练的稳定性和质量,我们对模型架构和训练过程进行了多项改进,并引入了近似的R1正则化目标。实验证明,我们的对抗后训练模型Seaweed-APT能够在单次前向评估步骤中实时生成2秒、1280x720、24fps的视频。此外,我们的模型还能够在一步内生成1024像素的图像,其质量可与最先进的方法相媲美。
总结: 本文提出了一种通过对抗后训练优化扩散模型,实现一步实时高质量视频及图像生成的方法。
###【arXiv编号】2501.08316v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 准确的不确定性估计对于在如医疗诊断等风险敏感应用中部署神经网络至关重要。蒙特卡洛Dropout是一种广泛用于通过在推理期间执行带Dropout的随机前向传递来近似预测不确定性的技术。然而,在所有层和输入上使用静态Dropout率可能导致不理想的不确定性估计,因为它无法适应单个输入和网络层的不同特征。现有的方法在训练期间使用带标签的数据优化Dropout率,导致固定的推理时参数,无法适应新的数据分布,从而在蒙特卡洛模拟中损害不确定性估计。在本文中,我们提出了Rate-In,一种通过量化每层特征图中Dropout引起的信息损失来在推理期间动态调整Dropout率的算法。通过将Dropout视为受控噪声注入并利用信息论原理,Rate-In无需地面真实标签即可根据每层和每个输入实例自适应调整Dropout率。通过量化特征图中的功能信息损失,我们自适应地调整Dropout率以在各种医疗成像任务和架构配置中保持感知质量。我们在合成数据和现实世界的医疗成像任务上的广泛实证研究表明,与固定或启发式Dropout率相比,Rate-In在不牺牲预测性能的情况下改善了校准性和锐化了不确定性估计。Rate-In提供了一种实用的、无监督的、推理时的方法,以优化Dropout,为关键应用中更可靠的预测不确定性估计提供支持。
总结: Rate-In通过信息驱动的动态调整Dropout率,提高了推理时神经网络的不确定性估计,适用于关键的医疗成像应用。
###【arXiv编号】2412.07169v3
###【git】
###【期刊】
###【领域】机器学习, 计算机视觉, 统计学
=====
摘要: 理解人类使用物体的能力对人工智能改善日常生活至关重要。现有研究集中于静态情境中的人-物模式(例如接触、空间关系、方向),而对动态情境下的人-物交互(即人和物体的运动)的研究相对较少。本文介绍了一种新型的可供性称为动态可供性。给定输入的3D物体网格,我们学习动态可供性,模拟在交互过程中(1)人类运动和(2)人类引导的物体姿态的分布。作为核心思想,我们提出了一种从合成生成的2D视频中学习3D动态可供性的方法,利用预训练的视频扩散模型。具体来说,我们提出了一个流水线,首先从3D物体生成2D人-物交互视频,然后将其提升到3D以生成4D人-物交互样本。一旦我们在各种目标物体上生成了多样的4D人-物交互样本,即可训练我们的DAViD,其中我们提出了一种基于低秩适配(LoRA)模块的方法,用于预训练的人类运动扩散模型(MDM)和带有人体姿态引导的物体姿态扩散模型。我们的人类运动扩散模型扩展到了多物体交互,展示了我们的流水线与LoRA结合使用物体使用概念的优势。通过广泛的实验,我们证明了DAViD在生成具有HOIs的人类运动方面优于基线模型。
总结: 本文提出了一种创新方法,通过预训练视频扩散模型学习3D物体的动态可供性,显著提升了人机交互的生成效果。
###【arXiv编号】2501.08333v1
###【git】暂无
###【期刊】暂无
###【领域】计算机视觉、人机交互、人工智能
=====
摘要: 源自扩散模型,MangaNinja专注于参考引导的线条艺术着色任务。我们结合了两个周到的设计以确保精确的角色细节转录,包括一个补丁随机化模块,以促进参考彩色图像与目标线条艺术之间的对应学习,以及一个点驱动的控制方案,以实现细粒度的颜色匹配。在自建的基准测试上的实验表明,我们的模型在精确着色方面优于当前解决方案。我们进一步展示了所提出的交互式点控制在处理具有挑战性的案例、跨角色着色、多参考协调等方面的潜力,这些都是现有算法难以实现的。
总结: MangaNinja通过创新的模块设计,实现了高精度的线条艺术自动上色,显著优于现有方法。
###【arXiv:2501.08332v1】
###【git】
###【期刊】
###【领域】计算机视觉
=====
总结: 提出了实时扭曲噪声的噪声扭曲算法,增强了视频扩散模型的运动控制能力,且无需更改模型架构。
###【arXiv编号】2501.08331v1
###【git】https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow
###【期刊】
###【领域】计算机视觉
=====
摘要: 我们提出了HaPTIC,一种从单目视频中推断连贯4D手部轨迹的方法。当前基于视频的手部姿态重建方法主要关注通过相邻帧来改进逐帧的3D姿态,而不是研究空间上连贯的4D手部轨迹。尽管有额外的时间线索,它们由于缺乏注释视频数据,通常表现不如基于图像的方法。为了解决这些问题,我们重新利用了最先进的基于图像的Transformer,输入多帧并直接预测连贯的轨迹。我们引入了两种类型的轻量级注意力层:用于融合时间信息的跨视角自注意力层,以及用于引入更大空间上下文的全局跨注意力层。我们的方法能够推断出与地面真实值相似的4D手部轨迹,同时保持强大的2D重投影对齐。我们将该方法应用于自我视角和他人视角视频中。它在全局轨迹准确性方面显著优于现有方法,并在单图像姿态估计方面与最先进的方法相当。
总结: HaPTIC方法通过引入轻量级注意力层,从单目视频中高效且准确地推断出4D手部轨迹,显著提升了轨迹准确性。
###【arXiv编号】2501.08329v1
###【git】无
###【期刊】预印本
###【领域】计算机视觉
该研究在从单目视频中预测4D手部轨迹方面提出了创新的方法,利用Transformer架构和新型注意力机制显著提升了轨迹的准确性和一致性,具有较高的学术价值和实际应用潜力。
摘要: 我们介绍了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,这些模型在处理更长上下文方面提供了优越的能力,同时在性能上可与顶级模型相媲美。核心在于闪电注意力及其高效扩展。为了最大化计算能力,我们将其与专家混合模型(MoE)集成,创建了一个拥有32个专家和4560亿个总参数的模型,其中每个token激活45.9亿个参数。我们为MoE和闪电注意力开发了优化的并行策略以及高效的计算-通信重叠技术。这种方法使我们能够以可负担的成本对具有数百亿参数的模型进行高效的训练和推理,并处理跨越数百万token的上下文。MiniMax-Text-01的上下文窗口在训练时可达到100万token,推理时可推断到400万token。我们的视觉-语言模型MiniMax-VL-01是通过继续训练5120亿视觉-语言token构建的。在标准和内部基准测试上,实验表明我们的模型在性能上与GPT-4o和Claude-3.5-Sonnet等最先进的模型相匹配,同时提供了20-32倍更长的上下文窗口。我们公开发布了MiniMax-01,网址为 https://github.com/MiniMax-AI.
总结: MiniMax-01系列通过闪电注意力和专家混合模型,实现了在更长上下文下高效训练和推理的能力,性能媲美先进模型。
###【arXiv编号】 arXiv:2501.08313v1
###【git】 https://github.com/MiniMax-AI
###【期刊】
暂无
###【领域】 自然语言处理、计算机视觉
=====
摘要: 语义未来预测对于在动态环境中导航的自主系统非常重要。本文介绍了FUTURIST,这是一种用于多模态未来语义预测的方法,采用统一且高效的视觉序列变换器架构。我们的方法结合了多模态掩码视觉建模目标和一种为多模态训练设计的新颖掩码机制。这使得模型能够有效地整合来自各种模态的可见信息,提高预测准确性。此外,我们还提出了一种无VAE的分层标记化过程,降低了计算复杂性,简化了训练流程,并使得能够使用高分辨率、多模态输入进行端到端训练。我们在Cityscapes数据集上验证了FUTURIST,证明了其在短期和中期预测中的未来语义分割方面达到了最先进的性能。我们在https://github.com/Sta8is/FUTURIST提供了实现代码。
总结: 本文提出的FUTURIST方法在多模态未来语义预测领域表现出色,具有创新性和实用性。
###【arXiv:2501.08303v1】
###【https://github.com/Sta8is/FUTURIST】
###【期刊】
###【计算机视觉】
=====
LayerAnimate: Layer-specific Control for Animation
摘要: 动画视频将前景和背景元素分离到不同的层中,采用各自独立的描绘、完善、上色和补间过程。现有的视频生成方法通常将动画视为一个整体的数据域,缺乏对单独层级的精细控制。在本文中,我们介绍了LayerAnimate,这是一种新颖的架构方法,增强了视频扩散模型中对单个动画层级的精细控制,允许用户在不同的层中独立操作前景和背景元素。为了解决层级特定数据有限的挑战,我们提出了一种数据策划流程,包括自动元素分割、运动状态分层合并和运动一致性优化。通过量化和质化比较以及用户研究,我们证明了LayerAnimate在动画质量、控制精度和可用性方面优于现有方法,使其成为专业动画师和业余爱好者的理想工具。该框架为层级特定的动画应用和创作灵活性开辟了新的可能性。我们的代码可在https://layeranimate.github.io获得。
总结: LayerAnimate 提供了一种增强动画层级控制的新方法,显著提升了动画生成的质量和可操作性。
###【arXiv编号】
arXiv:2501.08295
###【git】
https://layeranimate.github.io
###【期刊】
尚未发布期刊信息
###【领域】
计算机视觉,动画生成
=====
摘要: 当前个性化神经头部头像面临一个权衡:轻量级模型缺乏细节和逼真度,而高质量、可动画化的头像需要大量计算资源,使其不适用于普通设备。为了解决这一差距,我们引入了高斯特征模型(GEM),它提供了高质量、轻量级且易于控制的头部头像。GEM利用3D高斯基元来表示外观,并结合高斯点云进行渲染。在mesh基础的3D可变形面部模型(3DMM)成功的基础上,我们将GEM定义为用于表示特定个体头部外观的线性特征基的集合。具体而言,我们构建了用于表示3D高斯的位置、尺度、旋转和不透明度的线性基。这使我们能够通过基向量的线性组合高效地生成特定头型的高斯基元,仅需一个包含相应系数的低维参数向量。我们提出通过蒸馏高质量的计算密集型基于CNN的高斯头像模型来构建这些线性基(GEM),这些模型能够生成依赖于表情的外观变化,如皱纹。这些高质量模型在多视角视频上训练,并通过一系列主成分分析进行蒸馏。一旦获得了表示特定人类可动画外观空间的基,我们便学习一个回归器,该回归器接受单张RGB图像作为输入,并预测与所示面部表情相对应的低维参数向量。在一系列实验中,我们将GEM的自我再现和跨人物再现结果与最先进的3D头像方法进行了比较,证明了GEM在视觉质量和对新表情的泛化能力方面更优。
总结: 高斯特征模型(GEM)通过使用3D高斯基元和线性特征基,实现了高质量、轻量级且易控制的个性化头部头像,提升了视觉效果和表情泛化能力。
###【arXiv编号】2407.04545v2
###【git】
###【期刊】
###【领域】计算机视觉、3D建模、面部动画
GEM在保持高质量和细节的同时显著降低了计算资源需求,适用于多种设备,并在自我及跨人物表情再现中表现优异,展示了其在个性化头像生成领域的创新性和实用性。
=====
摘要: 面部识别技术在各种应用中使用日益增多,但它们容易受到面部欺骗攻击。这些欺骗攻击通常涉及独特的三维结构,如打印的纸张或移动设备屏幕。尽管立体深度相机可以有效检测此类攻击,但其高成本限制了其广泛采用。相反,未经外部校准的双传感器系统虽然具有成本效益,但无法使用立体技术计算深度。本文提出了一种方法,通过利用面部属性导出视差信息并估计相对深度,用于非校准系统的反欺骗目的。我们引入了一种多模态反欺骗模型,称为视差模型(Disparity Model),该模型在两个原始传感器模态的基础上加入了创建的视差图作为第三种模态。我们使用从英特尔RealSense ID解决方案F455收集的综合数据集展示了视差模型在对抗各种欺骗攻击中的有效性。我们的方法优于现有文献中的方法,在1%的假阳性率(FPR)下,实现了1.71%的等错误率(EER)和2.77%的假阴性率(FNR)。这些错误分别比最佳对比方法降低了2.45%和7.94%。此外,我们还引入了一个模型集成,同样解决了3D欺骗攻击,在1%的假阳性率下,实现了2.04%的等错误率和3.83%的假阴性率。总体而言,我们的工作为缺乏深度信息的非校准系统中具有挑战性的反欺骗任务提供了最先进的解决方案。
总结: 该研究提出了一种利用视差信息的多模态反欺骗模型,有效提升了非校准系统中面部识别的防欺骗能力。
###【arXiv:2410.24031v2】
###【git】
###【期刊】
###【领域】计算机视觉,人工智能
=====
摘要: VINGS-Mono 是一个针对大规模场景设计的单目(惯性)高斯斑点式 SLAM 框架。该框架包括四个主要部分:VIO 前端、2D 高斯地图、NVS 循环闭合和动态擦除器。在 VIO 前端,RGB 帧通过密集束调整和不确定性估计处理,以提取场景几何和位姿。基于此输出,映射模块增量构建和维护一个 2D 高斯地图。2D 高斯地图的关键组成部分包括采样栅格器、评分管理器和位姿优化,它们共同提高了映射速度和定位精度。这使得 SLAM 系统能够处理大规模城市环境,包含多达 5000 万个高斯椭球体。为了确保大规模场景的全局一致性,我们设计了一个循环闭合模块,创新性地利用高斯斑点的新的视图合成(NVS)能力进行循环闭合检测和高斯地图的校正。此外,我们提出了一个动态擦除器,以解决现实世界户外场景中不可避免的动态物体问题。在室内和室外环境中的广泛评估表明,我们的方法在定位性能上与视觉惯性里程计相当,同时超越了最近的 GS/NeRF SLAM 方法。它在映射和渲染质量方面也显著优于所有现有方法。此外,我们开发了一个移动应用程序,并验证了我们的框架可以仅使用智能手机摄像头和低频 IMU 传感器实时生成高质量的高斯地图。据我们所知,VINGS-Mono 是第一个能够在户外环境中运行并支持公里尺度大场景的单目高斯 SLAM 方法。
总结: VINGS-Mono 是首个能够在户外环境中实时运行并支持大规模场景的单目高斯 SLAM 系统。
###【arXiv编号】2501.08286v1
###【git】
###【期刊】
###【领域】计算机视觉、机器人、智能交通
=====
摘要: 机器学习模型的输入可能存在噪声或不确定性,但这些通常被忽略且未被建模。目前尚不清楚贝叶斯神经网络及其近似方法是否能够考虑输入的不确定性。本文构建了一个双输入贝叶斯神经网络(均值和标准差),并通过集成方法、MC-Dropout和Flipout等不同方法评估其对输入不确定性估计的能力。结果表明,只有部分用于近似贝叶斯神经网络的不确定性估计方法能够建模输入不确定性,特别是集成方法和Flipout。
总结: 研究表明,部分贝叶斯神经网络的近似方法能够有效建模输入不确定性,尤其是集成方法和Flipout。
###【期刊】
###【领域】
计算机科学 - 机器学习, 计算机视觉
本文系统评估了贝叶斯神经网络在建模输入不确定性方面的能力,发现集成方法和Flipout在这方面表现出色,对于提高模型的鲁棒性和可信度具有重要意义,具有较高的创新性和实用性。
=====
摘要: 最近多模态大型语言模型(MLLM)的进展展示了令人鼓舞的成果,然而现有方法在同时有效处理时空定位方面仍存在困难。这一挑战源于两个关键问题:首先,纳入时空定位会引入大量的坐标组合,复杂化了语言与视觉坐标表示的对齐;其次,在视频特征压缩过程中对细粒度时空信息进行编码本质上是困难的。为了解决这些问题,我们提出了LLaVA-ST,一种用于细粒度时空多模态理解的MLLM。在LLaVA-ST中,我们提出了语言对齐位置嵌入,将文本坐标特殊标记嵌入视觉空间,简化了细粒度时空对应关系的对齐。此外,我们设计了时空封装器,将时间和空间分辨率的特征压缩解耦为两个独立的点对区域注意力处理流。此外,我们提出了包含430万训练样本的ST-Align数据集,用于细粒度时空多模态理解。通过ST-Align,我们呈现了一个渐进式训练流程,通过顺序的粗到细阶段对齐视觉和文本特征。此外,我们引入了ST-Align基准,用于评估细粒度时空交织理解任务,包括时空视频定位(STVG)、事件定位与描述(ELC)以及时空视频定位(SVG)。LLaVA-ST在11个要求细粒度时间、空间或时空交织多模态理解的基准测试中表现出色。我们的代码、数据和基准将发布在https://github.com/appletea233/LLaVA-ST。
总结: LLaVA-ST通过创新的语言对齐位置嵌入和时空封装器,实现了细粒度时空多模态理解的显著提升。
###【arXiv编号】arXiv:2501.08282v1
###【git】https://github.com/appletea233/LLaVA-ST
###【期刊】暂无
###【领域】计算机视觉、多模态大语言模型、时空定位
=====
摘要: 目标移除迄今为止主要依赖于掩码-修补范式,其中掩码区域被排除在输入之外,使得模型依赖于未掩盖的区域来修补缺失的部分。然而,这种方法缺乏对掩码区域的上下文信息,常常导致性能不稳定。在本研究中,我们引入了SmartEraser,它基于一种新的移除范式——蒙版区域指导。该范式保留输入中的蒙版区域,用作移除过程的指导。它具有几个明显的优势:(a)指导模型准确识别要移除的物体,防止其在输出中再生;(b)由于用户的掩码通常超出物体本身,它有助于在最终结果中保留周围的上下文。利用这种新范式,我们提出了Syn4Removal,一个大规模的目标移除数据集,其中实例分割数据被用于将目标物体复制并粘贴到图像上作为移除目标,原始图像作为地面实况。实验结果表明,SmartEraser显著优于现有方法,在复杂场景和精细构图中尤其表现出色。
总结: SmartEraser通过蒙版区域指导显著提升图像中复杂目标的移除性能。
###【arXiv编号】2501.08279v1
###【git】
###【期刊】
###【领域】计算机视觉
该研究在图像目标移除领域提出了创新的蒙版区域指导范式和大规模数据集,展示了显著的性能提升,具有较高的创新性和实用性。
=====
摘要: 随着最近的视频目标分割(VOS)基准发展到具有挑战性的场景,我们重新审视了一个简单但被忽视的策略:限制内存库的大小。这与普遍扩展内存库以容纳大量历史信息的做法不同。我们特别设计的“内存解码”研究提供了支撑这一策略的关键见解:尽管扩展内存库看似有益,实际上由于冗余信息带来的混淆,增加了VOS模块解码相关特征的难度。通过将内存库限制在有限数量的关键帧,我们在VOS准确性上取得了显著提高。这个过程平衡了帧的重要性和新鲜度,以在有限容量内保持一个信息丰富的内存库。此外,与持续扩展相比,限制内存库减少了训练和推理过程中内存长度的不一致性。这为时间推理创造了新的机会,并使我们能够引入之前被忽视的“时间位置信息嵌入”。最后,我们的见解体现在“RMem”(“R”代表限制)中,这是一种简单而有效的VOS修改,能够在具有挑战性的VOS场景中表现出色,并在对象状态变化(在VOST数据集上)和长视频(在Long Videos数据集上)中确立了新的最先进水平。我们的代码和演示可在 https://restricted-memory.github.io/ 获得。
总结: 通过限制内存库的大小,RMem显著提升了视频目标分割的准确性和效率。
###【arXiv编号】2406.08476v2
###【git】https://restricted-memory.github.io/
###【期刊】
###【领域】计算机科学 - 计算机视觉, 人工智能
该研究通过限制内存库大小而非扩展,突破性地提升了视频目标分割的性能,展现出较高的创新性和实用性,适用于复杂场景下的VOS任务。
=====
摘要: 相机重定位方法涵盖了从密集图像对齐到直接从查询图像回归相机位姿的各种技术。在这些方法中,稀疏特征匹配以其高效、多用途和通常较轻量的优点脱颖而出,具有广泛的应用。然而,基于特征的方法常常在视角和外观变化显著的情况下遇到困难,导致匹配失败和位姿估计不准确。为克服这一限制,我们提出了一种新颖的方法,利用2D特征的全局稀疏但局部密集的3D表示。通过在一系列帧中跟踪和三角化地标,我们构建了一个稀疏体素图,该图被优化以渲染在跟踪过程中观察到的图像块描述符。给定初始位姿估计后,我们首先使用体积渲染从体素中合成描述符,然后执行特征匹配以估计相机位姿。这种方法能够生成未见视角的描述符,增强了对视角变化的鲁棒性。我们在7-Scenes和Cambridge Landmarks数据集上对我们的方法进行了广泛评估。结果表明,我们的方法在室内环境中显著优于现有最先进的特征表示技术,中位数平移误差提高了高达39%。此外,我们的方法在户外场景中也与其他方法的结果相当,同时保持较低的内存和计算成本。
总结: 本文提出了一种通过体素渲染生成特征描述符以提高相机重定位鲁棒性的新方法,在室内环境中显著优于现有技术,并在户外场景中保持优良性能。
###【arXiv:2409.07571v3】
###【期刊】暂缺
###【领域】计算机视觉, 机器人
=====
摘要: 模拟到现实的鸿沟长期以来一直是机器人在模拟中学习的一个重大挑战,阻碍了在现实世界中部署所学模型。以前的工作主要集中在领域随机化和系统识别来减轻这一鸿沟。然而,这些方法通常受到模拟和图形引擎固有限制的限制。在这项工作中,我们提出了Vid2Sim,一个新颖的框架,通过可扩展且成本有效的real2sim管道用于神经3D场景重建和模拟,有效地弥合了sim2real鸿沟。给定单目视频作为输入,Vid2Sim可以生成逼真且物理可交互的3D模拟环境,以在复杂的城市环境中启用视觉导航代理的强化学习。大量实验证明,与使用先前模拟方法训练的代理相比,Vid2Sim在数字孪生和现实世界中的城市导航性能显著提高了31.2%和68.3%的成功率。
总结: Vid2Sim通过从单目视频生成逼真且可交互的3D模拟环境,显著提升了城市导航代理在数字孪生和现实世界中的性能。
###【arXiv编号】arXiv:2501.06693v2
###【git】无
###【期刊】无
###【领域】计算机视觉、机器人学
=====
摘要: 洪灾是主要的自然灾害,每年导致大量人员伤亡和经济损失,且由于气候变化其发生频率不断增加。快速且准确的洪灾检测与监测对于减轻这些影响至关重要。本研究比较了三种深度学习模型——UNet、ResNet和DeepLabv3,在像素级水体分割中的性能,以辅助洪灾检测,利用无人机图像、实地观察和社交媒体图像。本研究创建了一个新的数据集,扩展了知名基准数据集,增加了洪灾特定图像,从而提高了模型的鲁棒性。测试了UNet、ResNet和DeepLabv3架构在不同环境条件和地理位置下的有效性,并讨论了每种模型的优缺点,提供了其在不同场景中的适用性见解,通过预测图像分割掩码实现。这种全自动化方法使这些模型能够在图像中隔离洪水区域,显著减少了与传统半自动方法相比的处理时间。本研究的结果是预测每张受洪灾影响图像的分割掩码以及这些模型的验证准确性。这一方法促进了及时和持续的洪灾监测,为应急响应团队提供了重要数据,以减少生命损失和经济损失。它在生成洪水地图所需的时间上提供了显著减少,缩短了手动处理时间。此外,我们提出了未来研究的方向,包括整合多模态数据源和开发专门针对洪灾检测任务的鲁棒深度学习架构。总体而言,我们的工作通过创新性地使用深度学习技术促进了洪灾管理策略的发展。
总结: 本研究通过比较深度学习模型提升洪灾监测的水体分割效果,为应急响应提供高效的自动化工具。
###【arXiv:2501.08266v1】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉,人工智能,机器学习,图像与视频处理
=====
摘要: 传统的基于补丁的对抗性攻击学习过程是在数字域中进行,然后应用于物理域(例如,通过打印的贴纸),由于对抗性补丁从数字域到物理域的转移能力有限,可能导致性能下降。鉴于之前的研究已经考虑使用投影仪来实施对抗性攻击,我们提出了一个问题:是否可以使用投影仪在物理域中完全进行对抗性学习(即补丁生成)?在本文中,我们提出了物理域对抗性补丁学习增强(PAPLA)框架,这是一个新颖的端到端(E2E)框架,利用投影仪将对抗性学习从数字域转换到物理域。我们在多个场景中评估了PAPLA,包括受控实验室环境和现实户外环境,证明其在确保攻击成功方面优于传统的数字学习-物理应用(DL-PA)方法。我们还分析了环境因素(如投影表面颜色、投影仪强度、环境光、目标物体与摄像头的距离和角度)对投影补丁效果的影响。最后,我们在现实世界的户外环境中演示了对停车汽车和停止标志的攻击可行性。我们的结果表明,在特定条件下,物理域中的端到端对抗性学习消除了转移问题,并确保了对物体检测器的规避。最后,我们就将对抗性学习应用于物理域的挑战和机遇提供了见解,并解释了这种方法在何处比使用贴纸更为有效。
总结: 本文提出了一个端到端的物理域对抗性学习框架,显著提升了对抗性补丁在实际环境中的攻击效果,解决了数字到物理转移的问题。
###【arXiv编号】 2501.08258v1
###【领域】 计算机视觉, 对抗性机器学习
=====
摘要: 我们提出了深度压缩自编码器(DC-AE),这是一类用于加速高分辨率扩散模型的新型自编码器模型。现有的自编码器模型在中等空间压缩比(例如8倍)下展示了令人印象深刻的结果,但在高空间压缩比(例如64倍)下无法保持令人满意的重构精度。我们通过引入两项关键技术来解决这一挑战:(1)残差自编码,其中我们设计的模型基于空间到通道转换的特征来学习残差,从而缓解高空间压缩自编码器的优化难度;(2)解耦的高分辨率适应,这是一种高效的解耦三阶段训练策略,用于减轻高空间压缩自编码器的泛化惩罚。通过这些设计,我们将自编码器的空间压缩比提高到128倍,同时保持重构质量。将我们的DC-AE应用于潜在扩散模型,我们实现了显著的速度提升而没有准确性下降。例如,在ImageNet 512x512上,我们的DC-AE在H100 GPU上针对UViT-H实现了19.1倍推理速度提升和17.9倍训练速度提升,同时实现了比广泛使用的SD-VAE-f8自编码器更好的FID。我们的代码可在 GitHub 获取。
总结: DC-AE通过创新的残差自编码和解耦训练策略,大幅提升了高分辨率扩散模型的压缩效率和计算速度。
=====
摘要: CRATE是一种旨在学习压缩和稀疏表示的白盒变换器架构,由于其固有的数学可解释性,它为标准视觉变换器(ViTs)提供了一个有趣的替代方案。尽管已经对语言和视觉变换器的扩展行为进行了广泛研究,CRATE的可扩展性仍然是一个未解之谜,本文旨在解决这一问题。具体而言,我们提出了CRATE-α,针对CRATE架构中的稀疏编码块进行了战略性的最小修改,并设计了一种轻量级训练方法,以提高CRATE的可扩展性。通过大量实验,我们证明CRATE-α能够有效地随着模型规模和数据集的扩大而扩展。例如,我们的CRATE-α-B在ImageNet分类上的准确率比之前最好的CRATE-B模型提高了3.7%,达到83.2%的准确率。同时,进一步扩展时,我们的CRATE-α-L在ImageNet分类上的准确率达到了85.1%。更值得注意的是,这些模型性能的提升是在保持甚至可能增强所学CRATE模型的可解释性的同时实现的,我们通过展示训练的CRATE-α模型中日益增大的学得标记表示在图像的无监督对象分割中产生了日益高质量的结果来证明这一点。项目页面:https://rayjryang.github.io/CRATE-alpha/
总结: CRATE-α通过优化架构和训练方法,显著提升了白盒变换器在视觉任务中的性能和可解释性。
###【arXiv编号】2405.20299
###【git】无
###【期刊】无
###【领域】计算机视觉
=====
摘要: 医学影像的深度学习面临适应和泛化到新环境的挑战。此外,它通常缺乏特定任务所需的足够标注数据,这需要大量的注释工作。持续学习(CL)通过允许从数据流中终身学习,同时减少之前学习知识的遗忘,来解决适应性和泛化性问题。主动学习(AL)减少了有效训练所需的注释数量。本文探索了这两种方法(CAL),以开发一个用于稳健医学图像分析的新框架。基于图像特征变化的自动识别,Replay-Base Architecture for Context Adaptation (RBACA) 采用 CL 重演方法从不同的上下文中持续学习,并采用 AL 组件选择最具信息量的实例进行注释。建立了一种评估 CAL 方法的新方法,使用定义的指标 IL-Score,该指标允许对迁移学习、遗忘和最终模型性能进行同时评估。我们展示了 RBACA 在领域增量和类别增量学习场景中的有效性,通过评估其在心脏图像分割和诊断上的 IL-Score。结果显示,RBACA 在各种内存大小和注释预算下优于没有 CAL 的基线框架和最先进的 CAL 方法。我们的代码可在 https://github.com/RuiDaniel/RBACA 获得。
总结: RBACA 通过结合持续学习和主动学习,有效提升了医学影像分析的适应性和性能。
###【arXiv:2501.08245v1】
###【git】
https://github.com/RuiDaniel/RBACA
###【期刊】
无
###【领域】
医学影像分析,计算机视觉,机器学习
=====
摘要: 新冠肺炎疫情已对全球数十亿人口造成了深远影响。由于其快速传播和严重的呼吸系统影响,新冠肺炎对公共卫生和医疗系统构成了挑战。减轻新冠肺炎疫情的有效策略涉及整合测试以识别感染个体。尽管RT-PCR被认为是诊断新冠肺炎的金标准,但它存在一些限制,如假阴性的风险。为解决这一问题,本文介绍了一种新型深度学习诊断系统,该系统集成了预训练的深度卷积神经网络(DCNN)在集成学习框架中,以实现对胸部X射线(CXR)图像中新冠肺炎病例的精确识别。我们使用Choquet积分结合预训练DCNN的最终隐藏层的特征向量,以捕捉不同DCNN之间线性方法无法捕捉的相互作用。我们采用Sugeno-λ测度理论为网络子集导出模糊测度,以实现聚合。我们利用差分进化来估计模糊密度。由于聚合特征向量涉及的复杂性,我们开发了基于TensorFlow的Choquet操作层,以促进高效聚合。COVIDx数据集上的实验结果表明,我们的集成模型在三类分类中达到98%的准确率,在二分类中达到99.50%,优于其组成部分-DenseNet-201(三类97%,二类98.75%)、Inception-v3(三类96.25%,二类98.50%)和Xception(三类94.50%,二类98%)-并超过了许多以往的方法。
总结: 本文提出了一种基于Choquet积分和差分进化优化的集成模型,用于从胸部X射线图像中精确识别COVID-19病例,取得了优异的分类准确率。
###【arXiv:2501.08241v1】
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,机器学习,图像与视频处理
=====
摘要: 基础模型(FMs)是使用大规模数据集和自监督学习方法开发的大型深度学习模型。这些模型作为不同下游任务的基础,包括医疗保健。基础模型已在医疗保健的各个领域广泛应用。现有的基于医疗保健的调查尚未涵盖所有这些领域。因此,我们提供了一份关于基础模型在医疗保健中的详细综述。我们聚焦于基础模型的历史、学习策略、旗舰模型、应用和挑战。我们探讨了如BERT和GPT系列等基础模型如何重塑各种医疗保健领域,包括临床大型语言模型、医学图像分析和组学。此外,我们提供了基础模型推动的医疗保健应用的详细分类,如临床自然语言处理、医学计算机视觉、图学习和其他生物相关任务。尽管基础模型提供了有希望的机会,但它们也存在若干相关挑战,我们详细解释了这些挑战。我们还概述了开放的研究问题和潜在的经验教训,为研究人员和从业者提供了关于基础模型在医疗保健中的能力的见解,以促进其部署并减轻相关风险。
总结: 该综述全面分析了基础模型在医疗保健领域的应用、优势与挑战,为未来研究提供了宝贵的见解。
###【arXiv编号】2406.10729v2
###【git】无
###【期刊】无
###【领域】医疗保健中的人工智能和深度学习应用
=====
摘要: 文本到图像的人物检索(TIPR)的目标是根据给定的文本描述检索特定的人物图像。该任务的主要挑战在于弥合视觉和文本模态之间的巨大表征差距。现有方法将文本和图像映射到统一的嵌入空间进行匹配,但文本与图像之间复杂的语义对应关系仍未有效构建。为了解决这一问题,我们提出了一种新颖的TIPR框架,构建了图像与相应文本之间的细粒度交互和对齐。具体而言,通过微调对比语言-图像预训练(CLIP)模型,首先构建了一个视觉-文本双编码器,初步对齐图像和文本特征。其次,提出了一种文本引导的图像恢复(TIR)辅助任务,将抽象的文本实体映射到具体的图像区域,改善局部文本和视觉嵌入之间的对齐。此外,提出了一种跨模态三元组损失来处理难样本,进一步增强模型对微小差异的辨别能力。此外,提出了一种基于剪枝的文本数据增强方法,以增强对描述中关键要素的关注,从而避免模型过度关注次要信息。实验结果表明,我们提出的方法在三个流行的基准数据集上优于最先进的方法,代码将公开在https://github.com/Delong-liu-bupt/SEN上。
总结: 本文提出了一种基于CLIP模型的TIPR新框架,通过细粒度对齐和文本引导的图像恢复,显著提升了文本到图像的人物检索性能。
###【arXiv编号】2307.09059v3
###【git】https://github.com/Delong-liu-bupt/SEN
###【期刊】无
###【领域】计算机视觉、人工智能、跨模态检索
该研究在TIPR领域提出了创新性的框架,通过结合CLIP模型和细粒度语义对齐,有效缩小了文本与图像之间的表征差距,实验结果优于现有方法,具有较高的创新性和实用价值。
=====
摘要:
胶质母细胞瘤是一种高度侵袭性的脑肿瘤,由于其预后不良和高发病率,带来了重大挑战。基于偏微分方程的模型通过模拟患者特定的肿瘤行为,有望提升放射治疗规划的疗效。然而,由于蒙特卡罗采样和进化算法等优化方法的高计算需求,模型校准仍然是一个瓶颈。为了解决这一问题,我们最近提出了一种利用神经前向求解器和基于梯度的优化方法的方法,显著减少了校准时间。这种方法需要一个高度精确且完全可微分的前向模型。我们研究了多种架构,包括(i) 增强的TumorSurrogate,(ii) 修改后的nnU-Net,以及(iii) 3D视觉变换器(ViT)。优化后的TumorSurrogate在肿瘤轮廓匹配和肿瘤细胞浓度的体素级预测方面取得了最佳的整体结果,与基线模型相比,其均方误差减少了一半,并在所有肿瘤细胞浓度阈值下达到了最高的Dice分数。我们的研究展示了前向求解器性能的显著提升,并概述了未来的重要研究方向。
总结: 本文通过优化深度学习前向求解器,大幅提升了脑肿瘤生长模型的计算效率与预测精度。
###【arXiv编号】2501.08226v1
###【git】
###【期刊】
###【领域】计算机视觉,机器学习
该研究在深度学习与肿瘤生长模型结合方面具有创新性,显著提高了模型校准的效率和精度,对智慧医疗和个性化治疗规划具有重要应用价值。
=====
摘要: 交互式图像编辑允许用户通过绘制、点击和拖拽等视觉交互操作来修改图像。现有方法通过视频构建此类监督信号,因为视频捕捉了物体在各种物理交互下的变化。然而,这些模型通常基于文本到图像的扩散模型,因此需要(i)大量的训练样本和(ii)额外的参考编码器来学习现实世界的动态和视觉一致性。本文将此任务重新表述为图像到视频的生成问题,从而继承了强大的视频扩散先验以降低训练成本并确保时间一致性。具体而言,我们引入了FramePainter作为这一表述的高效实例。FramePainter初始化自Stable Video Diffusion,仅使用轻量级的稀疏控制编码器来注入编辑信号。考虑到时间注意力在处理两帧之间的大幅运动时的局限性,我们进一步提出了匹配注意力,以扩大感受野并促进编辑图像标记与源图像标记之间的密集对应。我们在各种编辑信号下突显了FramePainter的有效性和效率:它在训练数据远少于之前的最先进方法的情况下,显著优于前者,实现了高度无缝和连贯的图像编辑,例如自动调整杯子的反射。此外,FramePainter在现实世界视频中不存在的场景中也表现出卓越的泛化能力,例如将小丑鱼变形成鲨鱼形态。我们的代码将公开在https://github.com/YBYBZhang/FramePainter。
总结: FramePainter通过重构图像编辑任务为图像到视频生成问题,利用视频扩散先验实现高效且一致的交互式图像编辑。
###【arXiv编号】2501.08225v1
###【git】https://github.com/YBYBZhang/FramePainter
###【期刊】暂无
###【领域】计算机视觉
FramePainter通过创新地将图像编辑任务转化为图像到视频生成问题,利用视频扩散模型显著提高了编辑的效率和一致性,且在较少的训练数据下表现出色,具有较高的学术价值和应用潜力。
=====
摘要: 群等变卷积(GConv)能够从原始数据中捕捉旋转等变性。它假设所有特征在特定群的变换下具有统一且严格的旋转等变性。然而,现实世界数据的表现或分布很少符合严格的旋转等变性,通常称为系统或数据集中的旋转对称性破缺(RSB),这使得GConv无法有效适应这一现象。基于此,我们提出了一种简单但高效的方法,通过利用一组可学习的偏置称为 G G G-偏置来打破严格的群约束,从而实现了放松的旋转等变卷积(RREConv)。为了验证RREConv的效率,我们在离散旋转群 C n \mathcal{C}_n Cn上进行了广泛的消融实验。实验表明,基于RREConv的方法在自然图像数据集上的分类和二维目标检测任务中相较于现有的GConv方法取得了优异的性能。
总结: 本文提出了一种通过 G G G-偏置放松旋转等变限制的卷积方法,显著提升了分类和目标检测任务的性能。
###【arXiv编号】2408.12454v3
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能
该研究针对群等变卷积在现实数据中的旋转对称性破缺问题,提出了创新性的解决方案RREConv,通过引入 G G G-偏置有效提升了模型在分类和目标检测任务中的表现,具有较高的创新性和实用性。
=====
摘要: 面部表情在人类交流中起着至关重要的作用,是表达各种情绪的强有力和有影响力的手段。随着人工智能和计算机视觉的进步,深度神经网络已成为面部情感识别的有效工具。在本文中,我们提出了EmoNeXt,这是一种基于改进的ConvNeXt架构网络的面部表情识别新型深度学习框架。我们集成了空间变换网络(STN)以聚焦面部的富特征区域,并使用Squeeze-and-Excitation块来捕捉通道间的依赖关系。此外,我们引入了自注意力正则化项,鼓励模型生成紧凑的特征向量。我们在FER2013数据集上展示了我们的模型在情感分类准确性方面优于现有最先进的深度学习模型。
总结: 本文提出了EmoNeXt,一种改进的ConvNeXt架构,用于提高面部情感识别的准确性。
###【arXiv编号】
arXiv:2501.08199v1
###【领域】
计算机视觉,人工智能
=====
摘要: 高光谱图像通常由数百个狭窄且连续的光谱波段组成,每个波段包含关于被成像场景材料组成的信息。然而,这些图像可能会受到各种噪声、失真或数据丢失的影响,显著降低其质量和实用性。本文介绍了一种收敛保证的算法 LRS-PnP-DIP(1-Lip),成功解决了之前报道的 DHP 不稳定性问题。所提出的算法扩展了成功的联合低秩和稀疏模型,进一步利用了传统且有时限制性的子空间模型组合之外的基础数据结构。稳定性分析保证了在温和假设下所提出算法的收敛性,这对于其在真实世界场景中的应用至关重要。大量实验表明,所提出的解决方案在图像补全结果方面始终提供视觉和定量上优越的表现,确立了最先进的性能。
总结: 提出了一种具有收敛性保证的算法,显著提高高光谱图像补全的性能,达到了最先进的效果。
###【arXiv编号】2501.08195v1
###【git】无
###【期刊】无
###【领域】计算机视觉, 机器学习
=====
摘要: 尽管近期的基础模型在单目深度估计方面取得了显著突破,但在现实世界中实现安全可靠的部署仍然没有明确的路径。度量深度估计涉及预测绝对距离,尤其具有挑战性,因为即使是最先进的基础模型仍容易出现关键性错误。由于不确定性量化已成为解决这些限制并实现可信部署的有前景的努力,我们将五种不同的不确定性量化方法与当前最先进的DepthAnythingV2基础模型融合起来。为了涵盖广泛的度量深度领域,我们在四个不同的数据集上评估了它们的性能。我们的研究发现,使用高斯负对数似然损失(GNLL)进行微调是一种特别有前景的方法,它在提供可靠的不确定性估计的同时,维持了与基线在预测性能和计算效率方面相当的水平,包括训练和推理时间。通过在单目深度估计的背景下融合不确定性量化和基础模型,本文为未来旨在改进模型性能和可解释性的研究奠定了关键基础。将这种不确定性量化与基础模型的关键综合扩展到其他关键任务,如语义分割和姿态估计,为更安全和更可靠的机器视觉系统提供了令人兴奋的机会。
总结: 该研究通过融合多种不确定性量化方法与先进基础模型,显著提升了单目深度估计的可靠性和可解释性,为未来机器视觉任务的安全部署奠定了基础。
###【arXiv编号】2501.08188v1
###【git】无
###【期刊】无
###【领域】计算机视觉、人工智能、机器学习
=====
摘要: 情感计算领域在探索情感与新兴技术关系方面取得了显著进展。本文通过引入一个专门为情感识别设计的综合法语多模态数据集,为该领域提供了新颖且有价值的贡献。该数据集涵盖了三个主要模态:面部表情、语音和手势,提供了对情感的全面视角。此外,该数据集具有整合自然语言处理(NLP)等其他模态的潜力,以扩展情感识别研究的范围。数据集通过让参与者参与卡牌游戏会话精心策划而成,在游戏中参与者被要求表达一系列情感并回答各种问题。研究包括10个会话,共20名参与者(9名女性和11名男性)。该数据集为推进情感识别研究提供了宝贵资源,并为探索人类情感与数字技术之间的复杂联系提供了途径。
总结: 本文介绍了一个通过卡牌游戏精心构建的多模态法语情感识别数据集,涵盖面部表情、语音和手势,为情感计算研究提供了宝贵资源。
###【arXiv编号】2501.08182v1
###【领域】情感识别、情感计算、人机交互
=====
摘要: 扩散模型在图像生成方面取得了尖端性能。然而,其冗长的去噪过程和计算密集的分数估计网络阻碍了其在低延迟和资源受限场景中的可扩展性。后训练量化(PTQ)在不重新训练的情况下压缩和加速扩散模型,但不可避免地引入了额外的量化噪声,导致均值和方差偏差。在本研究中,我们提出了D²-DPM,一种双重去噪机制,旨在精确减轻量化噪声对噪声估计网络的不利影响。具体而言,我们首先将量化噪声对采样方程的影响分解为两个组成部分:均值偏差和方差偏差。均值偏差改变了采样方程的漂移系数,影响轨迹趋势,而方差偏差放大了扩散系数,影响采样轨迹的收敛。所提出的D²-DPM因此被设计为在每个时间步对量化噪声进行去噪,然后通过逆扩散迭代去噪噪声样本。实验结果表明,D²-DPM实现了更优的生成质量,相较于全精度模型降低了1.42的FID,同时实现了3.99倍的压缩和11.67倍的位操作加速。
总结: D²-DPM通过双重去噪机制有效减轻量化噪声,提高了扩散模型的生成质量和计算效率。
###【arXiv编号】2501.08180v1
###【git】
###【期刊】
###【领域】计算机视觉、机器学习
D²-DPM提出了一种创新的双重去噪机制,成功缓解了量化噪声对扩散模型的影响,显著提升了模型的生成质量和计算效率,具有较高的实用性和应用潜力。
=====
摘要: 当前的高斯点云方法虽在重建整个场景方面表现出色,但缺乏针对特定物体的功能,导致计算成本高且不适用于以物体为中心的应用。我们提出了一种新颖的方法,利用物体掩模实现有针对性的重建,从而生成以物体为中心的模型。此外,我们引入了一种遮挡感知的修剪策略,在不降低质量的前提下,最小化高斯点的数量。我们的方法能够重建紧凑的物体模型,生成的以物体为中心的高斯和网格表示相比基线模型小了最多96%,训练速度快了最多71%,同时保持了竞争力的质量。这些表示可以立即用于下游应用,如外观编辑和物理仿真,无需额外处理。
总结: 该方法通过物体中心化和遮挡感知修剪,大幅提升了高斯点云模型的紧凑性和训练效率,具有广泛的应用潜力。
###【arXiv:2501.08174v1】
###【git】: 无
###【期刊】: 暂无
###【领域】: 计算机视觉
该论文在高斯点云重建领域引入了物体中心化和遮挡感知修剪的方法,显著提高了模型的紧凑性和训练速度,具有较高的创新性和实用性,适用于多种下游应用。
=====
=====
摘要: 自动化对象检测在各类应用中变得越来越有价值,然而高效、高质量的注释仍然是一个持续的挑战。本文介绍了一种旨在交互式改进对象检测模型的平台的开发和评估。该平台允许上传和注释图像以及微调对象检测模型。用户可以手动审核和完善注释,进一步创建改进的快照,这些快照用于后续图像上传时的自动对象检测——这一过程我们称之为半自动注释,显著提高了注释效率。尽管为了加速注释过程,模型结果的迭代优化已成为常见实践,但我们是首个定量评估其在时间、精力和交互节省方面的益处的研究。我们的实验证明,与手动注释相比,半自动注释在时间上显著减少了最高达53%。重要的是,这些效率提升并未降低注释质量,同时匹配甚至偶尔超过了手动注释的准确性。这些发现展示了我们轻量级注释平台在创建高质量对象检测数据集方面的潜力,并为未来注释平台的发展提供了最佳实践指导。该平台是开源的,前端和后端存储库都位于GitHub上(https://github.com/ml-lab-htw/iterative-annotate)。为了支持对我们标注过程的理解,我们已创建了一个说明性视频,演示了使用E. coli细菌显微镜图像作为示例的方法。视频可在YouTube上观看(https://www.youtube.com/watch?v=CM9uhE8NN5E)。
总结: 该研究开发了一个半自动注释平台,通过迭代改进对象检测模型显著提高注释效率并保障质量。
###【arXiv编号】2411.19835v2
###【git】https://github.com/ml-lab-htw/iterative-annotate
###【期刊】
###【领域】计算机视觉、机器学习
=====
摘要: 本文介绍了一个用于评估多模态模型在分析和解释图像方面能力的基准测试。该基准测试聚焦于七个关键视觉方面:主要对象、附加对象、背景、细节、主导颜色、风格和视角。使用来自多样化文本提示生成的14,580张图像的数据集,对七个领先的多模态模型的性能进行了评估。这些模型在准确识别和描述每个视觉方面的能力上进行了测试,提供了对它们在全面图像理解方面的优势和劣势的洞察。该基准测试的发现对多模态模型在各种图像分析任务中的开发和选择具有重要意义。
总结: 该研究通过基准测试评估多模态模型在细粒度图像分析中的综合表现。
###【arXiv:2501.08170v1】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉
=====
摘要: 本研究提出了一种整合方法,利用先进的深度学习模型(如MobileNetV3、ResNet50和EfficientNet-B2)进行阿拉伯手语(ArSL)的识别,并通过可解释人工智能(XAI)技术提升模型的可解释性。研究采用了ArSL2018和RGB阿拉伯字母手语(AASL)数据集,EfficientNet-B2分别在这两个数据集上达到了99.48%和98.99%的最高准确率。主要创新包括采用复杂的数据增强方法来缓解类别不平衡问题,实施分层5折交叉验证以提高泛化性能,以及使用Grad-CAM实现模型决策的清晰透明。所提出的系统不仅在识别准确率上设立了新标准,还强调了可解释性,适用于医疗、教育和包容性通信技术等应用领域。
总结: 本文通过结合先进的深度学习和可解释AI技术,显著提高了阿拉伯手语识别的准确性和模型透明度,适用于多个实际应用场景。
###【arXiv:2501.08169v1】
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,机器学习
=====
ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection
摘要: 尽管面部关键点检测(FLD)取得了显著进展,现有的FLD方法在部分不可见的面部(如有遮挡或在极端光照条件或姿势下的面部)上仍然表现不佳。为了解决这个问题,我们提出了ORFormer,这是一种新颖的基于变压器的方法,能够检测不可见区域并从可见部分恢复其缺失特征。具体来说,ORFormer将每个图像补丁标记与一个额外的可学习标记(称为使者标记)相关联。使者标记从除其补丁之外的所有补丁中聚合特征。通过这种方式,可以通过参考其常规和使者嵌入之间的相似性来评估补丁与其他补丁之间的一致性,从而识别不可见区域。然后,我们的方法使用使者标记聚合的特征恢复被遮挡的补丁。利用恢复的特征,ORFormer为下游的FLD任务编译高质量的热图。广泛的实验证明,我们的方法生成的热图对部分遮挡具有较高的鲁棒性。通过将生成的热图集成到现有的FLD方法中,我们的方法在诸如WFLW和COFW等具有挑战性的数据集上优于现有的最新方法。
总结: ORFormer通过变压器模型有效地检测并恢复被遮挡区域的特征,提升了面部关键点检测在遮挡情况下的准确性。
###【arXiv编号】
arXiv:2412.13174v2
###【git】
无
###【期刊】
无
###【领域】
计算机视觉、人工智能、机器学习
=====
摘要: 加速的MRI重建由于k空间中显著的欠采样,成为一个具有挑战性的病态逆问题。深度神经网络,如卷积神经网络(CNN)和视觉Transformer(ViT),在该任务上展示了显著的性能提升,但在全局感受野与高效计算之间面临困境。为此,本文首次探索了具有线性复杂度的长程依赖建模新范式Mamba,以实现高效且有效的MRI重建。然而,直接将Mamba应用于MRI重建面临三个重大问题:(1)Mamba的逐行和逐列扫描扰乱了k空间的独特频谱,未能发挥其在k空间学习中的潜力。(2)现有的Mamba方法通过多条冗长的扫描路径展开特征图,导致长程遗忘和高计算负担。(3)Mamba在空间变化内容处理上存在困难,导致局部表示的多样性有限。为解决这些问题,我们提出了一种双域多尺度Mamba用于MRI重建,包括以下方面:(1)我们率先在k空间学习中引入视觉Mamba。定制的圆形扫描有利于频谱展开,促进k空间的全局建模。(2)我们提出了一种在图像域和k空间域中具有高效扫描策略的多尺度Mamba。它缓解了长程遗忘,并在效率与性能之间达到了更好的平衡。(3)我们开发了一个局部多样性增强模块,以提升Mamba的空间变化表示。我们在三个公共数据集上,在各种欠采样模式下进行了广泛的MRI重建实验。综合结果表明,我们的方法在较低的计算成本下显著优于最先进的方法。
总结: 本文提出了一种双域多尺度Mamba模型,有效解决了k空间学习中的挑战,显著提升了MRI重建性能并降低了计算成本。
###【arXiv:2501.08163v1】
###【git: https://github.com/XiaoMengLiLiLi/DM-Mamba】
###【期刊】未指定
###【领域】医学成像,深度学习,计算机视觉
=====
摘要: 视频中的时间句子定位(TSGV)面临由于公开TSGV数据集包含显著的时间偏差所带来的挑战,这些偏差归因于目标时刻的时间分布不均。现有方法生成增强视频,将目标时刻强制放置在不同的时间位置。然而,由于给定数据集的视频长度变化较小,仅改变时间位置导致在不同长度视频中的泛化能力较差。本文提出了一种新颖的训练框架,辅以多样化的数据增强和领域鉴别器。数据增强生成具有各种长度和目标时刻位置的视频,以多样化时间分布。然而,增强视频不可避免地表现出不同的特征分布,可能引入噪声。为解决这一问题,我们设计了一个领域适应辅助任务,以减少原始和增强视频之间的特征差异。我们还鼓励模型为具有相同文本查询但不同时刻位置的视频产生不同的预测,以促进无偏训练。在Charades-CD和ActivityNet-CD数据集上的实验表明,我们的方法在多种定位结构中具有有效性和泛化能力,达到了最先进的结果。
总结: 本文提出了一种结合多样化数据增强和领域适应的新框架,成功提升了视频时间句子定位的效果和泛化能力。
###【arXiv:2501.06746v2】
###【领域】计算机视觉、视频理解
该研究通过创新性地结合数据增强与领域适应方法,解决了视频时间句子定位中的偏差问题,并在多个数据集上取得了最先进的结果,具有较高的实用性和潜在的应用价值。
=====
摘要: Vision Transformer(ViT)因其在建模长距离依赖关系方面的强大能力,在各种视觉任务中展示了显著潜力。然而,这种成功在很大程度上依赖于大量样本的训练。在实际应用中,大规模数据集并不总是可得,如果仅在小规模数据集(称为小数据集)上训练,ViT 的性能不如卷积神经网络(CNN),因为它需要大量的训练数据以确保其表达能力。本文提出了一种具有多尺度自注意力机制和卷积块的小型 ViT 架构(称为 MSCViT),以在每一层建模不同尺度的注意力。首先,引入了小波卷积,选择性地将通过频率划分获得的高频成分与卷积通道结合起来以提取局部特征。然后,开发了一种轻量级的多头注意力模块,以减少令牌数量和计算成本。最后,将骨干网络中的位置编码(PE)替换为局部特征提取模块。与原始 ViT 相比,MSCViT 参数高效,特别适用于小数据集。在小数据集上进行了大量实验,模型在未经大规模数据集预训练的情况下,在 CIFAR-100 上以14.0M参数和2.5 GFLOPs实现了84.68%的准确率。
总结: 本文提出了一种适用于小规模数据集的新型小型 Vision Transformer 架构 MSCViT,通过多尺度自注意力机制和卷积模块显著提升了ViT在小数据集上的性能。
###【arXiv编号】2501.06040
###【git】
###【期刊】
###【领域】计算机视觉
该研究在Vision Transformer的小数据集应用上引入了多尺度自注意力机制和轻量化设计,具有较高的创新性和实用性,能够显著提升ViT在资源受限环境下的表现。
=====
摘要: 深度学习(DL)的兴起增加了计算复杂性和能源消耗,促使采用应用专用集成电路(ASIC)以实现边缘和移动设备的能源效率。然而,最近的研究表明,这些加速器易受到能源攻击的威胁。尽管先前的研究开发了各种推理时的能源攻击,但后门能源攻击仍未被探索。在本文中,我们设计了一种针对在基于稀疏性的加速器上运行的深度神经网络(DNN)的创新能源后门攻击。我们的攻击分为两个不同的阶段:后门注入和后门隐蔽性。使用在CIFAR-10和Tiny ImageNet数据集上训练的ResNet-18和MobileNet-V2模型的实验结果表明,我们提出的攻击在触发样本上增加了能源消耗,同时保持模型对清洁/常规输入的性能。这证明了DNNs 对能源后门攻击的脆弱性。我们的攻击源代码可在以下地址获得:https://github.com/hbrachemi/energy_backdoor。
总结: 本研究展示了深度神经网络在稀疏加速器上易受到能源后门攻击的威胁。
###【arXiv编号】2501.08152v1
###【git】https://github.com/hbrachemi/energy_backdoor
###【期刊】
###【领域】计算机视觉
该研究在能源后门攻击领域具有创新性,揭示了深度神经网络在实际应用中的潜在安全风险,具有较高的实用价值。
=====
摘要: 最近先进的GAN逆转模型旨在通过使用生成器调整或高维特征学习的方法,将原始图像的高保真信息传递到生成器。尽管做出了这些努力,由于训练和结构方面的固有限制,准确重建图像特定细节仍然是一个挑战,导致偏向于低频信息。本文研究了GAN逆转中广泛使用的像素损失,揭示了其主要关注低频特征的重建。然后,我们提出了WINE,一种基于Wavelet的GAN逆转与编辑模型,它通过新提出的wavelet损失和wavelet融合方案,通过小波系数转移高频信息。值得注意的是,WINE是首次尝试在频域中解释GAN逆转。我们的实验结果展示了WINE在保留高频细节和增强图像质量方面的精确性。即使在编辑场景中,WINE也优于现有最先进的GAN逆转模型,实现了可编辑性和重建质量之间的良好平衡。
总结: WINE模型通过小波引导的方法显著提升了GAN逆转在高频细节保留和图像编辑中的表现。
###【arXiv编号】2210.09655v2
###【git】
###【期刊】
###【领域】计算机视觉、机器学习、图像与视频处理
=====
摘要: 现代机器学习技术显示出巨大的潜力,尤其是在相机图像上的目标检测方面。因此,这些技术也被用于实现诸如自主无人机飞行等安全关键的自动化过程。我们展示了一项关于目标检测的研究,旨在实现无人机飞行中的“检测与规避”这一安全关键功能,该功能在自动飞行过程中检测空中交通以确保安全。一个困难的问题是生成良好的、尤其是大型的数据集,因为检测本身就是一个极端情况。大多数模型在原始数据中的地面真相有限,例如记录的空中交通或小型飞机的正面飞行,这常常导致较差和关键的检测率。我们通过使用修复方法来初始化数据集,明确包含原始数据的极端情况,克服了这个问题。我们提供了修复方法和生成模型的概述,并展示了在一个小型注释数据集上的示例流程。我们通过生成一个高分辨率的数据集来验证我们的方法,并将其公开提供给一个完全在真实数据上训练的独立目标检测器。
总结: 本文通过高分辨率修复方法扩充数据集,提升了无人机自动飞行中“检测与规避”功能的目标检测性能。
###【arXiv编号】2501.08142v1
###【git】
###【期刊】
###【领域】计算机视觉,机器学习,自动化飞行
=====
摘要: 本文提出了一种音视频深度伪造检测方法,旨在捕捉音频和视频模态之间的细粒度时间不一致性。为此,引入了架构和数据合成策略。从架构角度看,设计了时间距离图和注意力机制,以捕捉这些不一致性,同时最小化不相关时间子序列的影响。此外,我们探索了新颖的伪假生成技术来合成本地不一致性。我们的方法在DFDC和FakeAVCeleb数据集上与最新方法进行了评估,证明了其在检测音视频深度伪造方面的有效性。
总结: 提出了一种通过捕捉音视频之间的时间不一致性来有效检测深度伪造的新方法。
=====
摘要: 利用多层感知器(MLP)的连续表示能力,隐式神经表示(INR)已成功应用于任意尺度超分辨率(ASR)。然而,MLP中线性层的有限感受野限制了INR的表示能力,同时多次查询MLP以渲染每个像素也导致计算成本高昂。最近,高斯斑点(GS)在3D任务中在视觉质量和渲染速度方面展示了相对于INR的优势,这激励我们探索GS是否可以应用于ASR任务。然而,直接将GS应用于ASR非常具有挑战性,因为原始GS是一种通过过拟合每个单独场景的基于优化的方法,而在ASR中,我们旨在学习一个能够泛化到不同图像和缩放因子的单一模型。我们通过开发两项新技术克服了这些挑战。首先,为了使GS泛化于ASR,我们精心设计了一种架构,以前馈方式预测输入低分辨率图像的相应图像条件高斯。其次,我们实现了一种高效的可微分2D GPU/CUDA基于尺度感知的光栅化,通过从预测的连续高斯中采样离散的RGB值来渲染超分辨率图像。通过端到端训练,我们优化的网络,称为GSASR,能够对任何图像和未见过的缩放因子执行ASR。大量实验验证了我们所提方法的有效性。
总结: 本文提出了一种新的高斯斑点方法GSASR,实现了任意尺度的高效超分辨率,适用于各种图像和缩放因子。
###【arXiv:2501.06838v2】
###【期刊】
###【领域】
计算机视觉, 图像和视频处理
=====
摘要: 遥感视觉问答(RSVQA)是一项自动从卫星图像中提取信息并处理问题,以预测文本形式的答案的任务,帮助解释图像。尽管已经有不同的方法被提出用于从具有不同光谱波段和分辨率的光学图像中提取信息,但尚未有方法被提出用于回答来自合成孔径雷达(SAR)图像的问题。SAR图像捕捉场景的电磁信息,受大气条件(如云)的影响较小。在本研究中,我们的目标是将SAR引入RSVQA任务,寻找使用这种模态的最佳方法。我们对不同的RSVQA任务管道进行了研究,考虑了来自SAR和光学数据的信息。为此,我们还提供了一个数据集,允许在RSVQA框架中引入SAR图像。我们提出了两种不同的模型来包含SAR模态。第一种是端到端方法,在其中为SAR模态添加了一个额外的编码器。第二种方法基于两阶段框架。首先,从SAR和可选的光学数据中提取相关信息。这些信息随后被翻译成自然语言,用于仅依赖语言模型提供答案的第二步。我们发现,第二个管道允许我们仅使用SAR图像获得良好结果。随后,我们尝试了各种类型的融合方法同时使用SAR和光学图像,发现决策级融合在所提出的数据集上达到了最佳结果。我们展示了,当与光学模态融合时,SAR数据提供了额外的信息,特别是对于与特定土地覆盖类别相关的问题,如水域。
总结: 本文首次将合成孔径雷达图像应用于遥感视觉问答任务,并通过多种模型与融合方法展示了其在特定应用中的优势。
###【arXiv编号】2501.08131v1
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 鸟瞰视角的感知模型需要大量数据才能有效运行和泛化。虽然传统数据集通常提供来自不同地点的大量驾驶场景,但情况并非总是如此。因此,最大化现有训练数据的利用率至关重要。随着DINOv2和Metric3Dv2等大型基础模型的出现,一个相关的问题是:这些模型能否被集成到现有的架构中,以不仅减少所需的训练数据,还能超过当前模型的性能?我们选择了车辆分割领域中的两种架构进行修改:Lift-Splat-Shoot 和 Simple-BEV。对于Lift-Splat-Shoot,我们探索了使用冻结的DINOv2进行特征提取和Metric3Dv2进行深度估计的实现,结果在使用仅一半的训练数据和迭代次数的情况下,IoU提高了7.4。此外,我们创新性地将Metric3Dv2的深度信息作为PseudoLiDAR点云整合到Simple-BEV架构中,取代了传统的LiDAR。这种整合使得与仅使用摄像头的模型相比,IoU提高了+3。
总结: 通过整合DINOv2和Metric3Dv2,本文显著提升了鸟瞰感知模型的性能,同时减少了所需的训练数据量。
###【arXiv编号】2501.08118v1
###【git】
###【期刊】
###【领域】计算机视觉
该研究成功地将大型基础模型融入现有架构中,不仅有效减少了训练数据需求,还显著提升了模型性能,具有较高的创新性和实用价值。
=====
摘要: 手部特定定位在计算机视觉领域引起了极大兴趣。尽管有许多来自不同角度和场景的带有手部标注的数据集,但域转移技术在手术环境中经常表现不佳。这主要是由于手套手部实例的有限可用性以及手术室(OR)独特的挑战。因此,针对OR环境定制的手部检测模型需要大量训练和昂贵的标注过程。为克服这些挑战,我们提出了“RoHan”——一种在OR中鲁棒手部检测的新方法,利用先进的半监督域适应技术解决手术环境中常见的不同录制条件、多样的手套颜色和遮挡问题。我们的方法包括两个主要阶段:(1)利用“人工手套”数据增强策略,即通过合成穿戴手套的手部图像来增强公开的手部数据集;(2)半监督域适应流程,通过迭代预测优化和高效帧过滤,提升在真实OR环境中的检测性能。我们使用两个数据集进行评估:模拟肠切口修复和腓静脉移植。“RoHan”显著减少了大量标注和模型训练的需求,为手部检测技术在医疗环境中的实际应用铺平了道路。
总结: 本文提出了一种利用半监督域适应和数据增强技术,在手术室环境中实现鲁棒手部检测的方法,显著降低了标注和训练成本。
###【arXiv编号】2501.08115v1
###【git】无
###【期刊】无
###【领域】计算机视觉,机器学习
=====
摘要: 变化描述已成为准确描述多时相遥感数据变化的关键,为通过自然语言直观地监测地球动态提供了一种直观方式。然而,现有的变化描述方法面临两个关键挑战:由于多阶段融合策略,计算需求高;由于从单个图像中提取的语义有限,目标描述细节不足。为了解决这些挑战,我们提出了基于Transformer模型的SAT-Cap,用于遥感变化描述的单阶段特征融合。具体而言,SAT-Cap整合了空间-通道注意力编码器、差异引导融合模块和描述解码器。与典型的在Transformer编码器和融合模块中需要多阶段融合的模型相比,SAT-Cap仅使用基于余弦相似度的简单融合模块进行信息集成,降低了模型架构的复杂性。通过在空间和通道信息中联合建模空间-通道注意力编码器,我们的方法显著增强了模型从多时相遥感图像中的目标提取语义信息的能力。大量实验证实了SAT-Cap的有效性,在LEVIR-CC数据集上实现了140.23%的CIDEr分数,在DUBAI-CC数据集上实现了97.74%,超越了当前的最先进方法。代码和预训练模型将在线提供。
总结: SAT-Cap通过单阶段融合和空间-通道注意力编码器,提升了遥感变化描述的效率和准确性,超越了现有的先进方法。
###【arXiv编号】2501.08114v1
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 本文介绍了EarthView,这是一个专为遥感数据自监督学习设计的综合数据集,旨在增强地球监测任务中的深度学习应用。该数据集涵盖了15太像素的全球遥感数据,结合了来自多种来源的图像,包括NEON、Sentinel和Satellogic的1米空间分辨率数据。我们的数据集提供了广泛的图像数据,具有不同的分辨率,来自不同的传感器,并以统一的方式组织成可访问的HuggingFace parquet格式数据集。这些数据跨越五年(2017年至2022年)。随数据集一起,我们还介绍了EarthMAE,这是一种定制的掩码自编码器,旨在解决遥感数据的独特挑战。EarthMAE以自监督的方式训练,有效地处理不同的数据模态,如高光谱、多光谱、地形数据、分割图和时间结构。该模型帮助我们展示了在Satellogic数据上进行预训练可以提高下游任务的性能。尽管在处理异构数据的MAE方面仍有差距需要填补,但我们认为,这种大规模、多样化的数据集与适用于自监督学习的多功能模型的创新组合是地球监测深度学习领域的一大进步。
总结: EarthView数据集和EarthMAE模型的结合为遥感数据的自监督学习提供了创新和实用的工具,推动了地球监测的深度学习应用。
###【arXiv编号】2501.08111v1
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 终身学习(CL)已经展示出有希望的结果,并且在完全监督的方式下表现与一次性学习相当。然而,CL策略通常需要大量的标记样本,这使得其在实际部署中具有挑战性。在本研究中,我们专注于半监督终身学习(SSCL),即模型从部分标记的数据中逐步学习,且类别未知。我们对SSCL进行了全面分析,并证明不可靠的未标记数据分布导致训练不稳定以及进展阶段的细化。这个问题严重影响了SSCL的性能。为了解决这些限制,我们提出了一种名为动态子图蒸馏(DSGD)的新方法,用于半监督终身学习,该方法利用语义和结构信息在未标记数据上实现更稳定的知识蒸馏,并展示了对分布偏差的鲁棒性。首先,我们形式化了结构蒸馏的一般模型,并为终身学习过程设计了动态图构建。接着,我们定义了结构蒸馏向量,并设计了动态子图蒸馏算法,使端到端训练和适应规模化任务成为可能。整个提出的方法适用于各种CL方法和监督设置。最后,在三个数据集CIFAR10、CIFAR100和ImageNet-100上进行的实验,采用不同的监督比例,展示了我们提出的方法在缓解半监督终身学习场景中灾难性遗忘问题方面的有效性。
总结: 本文提出了一种动态子图蒸馏方法,有效提升了半监督终身学习的稳定性和鲁棒性,显著缓解了灾难性遗忘问题。
###【arXiv编号】 arXiv:2312.16409v2
###【git】
无
###【期刊】
无
计算机科学-机器学习, 计算机科学-计算机视觉
=====
摘要: 肝细胞癌是全球最常见的原发性肝脏癌症(约占肝脏肿瘤的80%)。HCC诊断的金标准是肝活检。然而,在临床常规中,专业放射科医师通过根据标准化协议LI-RADS解释肝脏CT扫描,提供视觉诊断,该协议使用五个放射学标准和相关的决策树。本文提出了一种自动方法,从CT图像中预测经组织学证实的HCC,以减少放射科医师之间的变异性。我们首先展示了标准的深度学习方法在一个具有挑战性的数据库上无法准确预测CT扫描中的HCC,并提出了一种受LI-RADS系统启发的两步方法来提高性能。与使用不同架构训练的深度学习基线相比,我们在AUC上提升了6到18个百分点。我们还提供了我们方法的临床验证,结果优于非专家放射科医师,并与专家相当。
总结: 提出了一种受LI-RADS启发的两步自动方法,通过CT图像准确预测肝细胞癌,显著提升了诊断性能,并在临床验证中表现优异。
###【arXiv编号】2501.08097v1
###【领域】计算机视觉,人工智能
该研究通过结合深度学习与手工设计的放射学特征,显著提升了肝细胞癌的自动分类准确性,具有较高的创新性和实用性,能够有效减少临床中的诊断变异性。
=====
摘要: 肺腺癌(LUAD)是一种形态上异质性较高的疾病,具有五种主要的组织学生长模式。这些模式的分类非常重要,因为它们与预后直接相关,但高主观性和观察者变异性带来了重大挑战。尽管已有多项研究开发了用于生长模式分类的机器学习方法,但这些方法要么仅报告每个切片的主要模式,要么缺乏适当的评估。我们提出了一个通用的机器学习流程,能够将肺组织分类为五种模式之一或非肿瘤。该流程的优势在于一种新颖的紧凑的细胞组织图(cellOMaps)表示,它从Hematoxylin和Eosin全切片图像(WSI)中捕捉细胞空间模式。在对内部未见过的切片和外部数据集进行评估时,所提出的流程在LUAD生长模式分类方面提供了最先进的性能,显著优于现有方法。此外,我们的初步结果表明,模型的输出可用于预测患者的肿瘤突变负荷(TMB)水平。 总结: 该研究提出了一种基于cellOMaps的机器学习方法,有效分类肺腺癌生长模式并预测患者的TMB水平。
###【arXiv:2501.08094v1】
###【领域】
计算机视觉在医学影像分析中的应用
=====
AgentPose: Progressive Distribution Alignment via Feature Agent for Human Pose Distillation
**摘要:**人体姿态估计中广泛采用姿态蒸馏来减小模型规模。然而,现有方法主要强调教师知识的转移,而常常忽视了教师与学生之间容量差距造成的性能下降。为了解决这一问题,我们提出了AgentPose,一种新颖的姿态蒸馏方法,该方法整合了特征代理来建模教师特征的分布,并逐步对齐学生特征的分布与教师特征的分布,有效克服了容量差距并增强了知识转移的能力。我们在COCO数据集上进行的综合实验验证了我们方法在知识转移方面的有效性,特别是在容量差距较大的情况下。
**总结:**AgentPose通过特征代理逐步对齐教师和学生模型的特征分布,有效缓解了容量差距问题,提升了人体姿态估计中的知识蒸馏效果。
2501.08088v1
无
无
计算机视觉
AgentPose在姿态蒸馏方法中引入特征代理进行分布对齐,具有较高的创新性和实用性,能够有效解决教师与学生模型间的容量差距问题,适合在相关研究和应用中参考。
=====
摘要: 在过去的一个世纪中,深度学习模型已成为解决复杂计算机视觉问题的最新标准。这些现代计算机视觉模型拥有数百万个参数,带来了两个主要挑战:(1)增加的计算需求阻碍了在资源受限的环境(如移动或物联网设备)中的部署,以及(2)向人类解释这样复杂的网络决策具有挑战性。网络剪枝是一种减少模型复杂性的技术方法,通过移除不太重要的参数。本研究探讨了这种技术复杂性的减少是否也有助于提高感知的可解释性。为此,我们进行了一个预研和两个以人为基础的实验,评估了不同剪枝比例对可解释性的影响。总体而言,我们评估了四种不同的压缩率(即2、4、8和32),在Mechanical Turk上进行了37,500个任务。结果表明,较低的压缩率对可解释性有正面影响,而较高的压缩率则产生负面影响。此外,我们能够确定既提高感知可解释性又提升模型性能的最佳平衡点。
总结: 研究表明适度的网络剪枝可以提高卷积神经网络的可解释性,同时保持模型性能。
###【arXiv编号】2302.08878v3
###【期刊】无
###【领域】计算机视觉与人工智能
=====
摘要: 深度神经网络(DNN)在复杂的开放世界领域如自动驾驶(AD)中依然面临分布偏移的挑战:无法保证对未知的新颖物体(语义偏移)或风格如光照条件(协变量偏移)的绝对鲁棒性。因此,需可靠的运行时监控器来识别训练数据分布外(OOD)的场景。目前的OOD分类方法在复杂领域如AD中未经测试,检测的偏移类型有限,甚至需要OOD样本的监督。为应对未预见的偏移,我们建立了一个基于原则的、无监督的、与模型无关的方法框架,统一检测所有类型的偏移:构建训练数据特征分布的完整模型,然后使用新点的密度作为内部分布(ID)得分。为实现这一点,我们提出将新可用的视觉基础模型(VFM)作为特征提取器与四种替代密度建模技术之一相结合。在对四种VFM与20种基线的广泛基准测试中,我们展示了VFM特征编码在性能上优于特定偏移的OOD监测器。此外,我们发现复杂的架构优于更大的潜在空间维度;尽管不依赖模型,我们的方法能识别在下游任务中具有较高错误风险的样本。这表明VFM有望在复杂视觉任务中实现与模型无关的、无监督的、可靠的安全监控器。
总结: 本文展示了视觉基础模型在自动驾驶中作为特征提取器在分布偏移检测中的优越性,提供了一种无监督且与模型无关的安全监控方法。
###【arXiv编号】
arXiv:2501.08083v1
###【git】
无
###【期刊】
无
###【领域】
计算机视觉,自动驾驶,机器学习
=====
摘要: 由于在大量图像文本配对数据上的可扩展性,视觉语言基础模型在众多下游任务中表现出显著的成功。然而,在应用于下游任务(如细粒度图像分类)时,这些模型也显示出明显的局限性,这是由于“决策捷径”阻碍了它们的泛化能力。在本文中,我们发现CLIP模型拥有丰富的特征集,包括期望的不变因果特征和不期望的决策捷径。此外,CLIP在下游任务上的性能不足源于其无法有效利用预训练特征以符合特定任务需求。为了解决这一挑战,我们提出了一种简单而有效的方法——虚假特征消除器(Spurious Feature Eraser,SEraser),通过消除虚假特征来减轻决策捷径的影响。具体来说,我们引入了一种测试时提示调优范式,优化可学习的提示,从而迫使模型在推理阶段利用不变特征,同时忽略决策捷径。所提出的方法有效减轻了对潜在误导性虚假信息的过度依赖。我们对比了各种方法,验证了所提出方法的显著优越性。
总结: 本文提出的虚假特征消除器(SEraser)在测试时适应过程中去除了CLIP模型中的误导性捷径特征,提升了其在下游任务中的表现。
###【arXiv编号】2403.00376v3
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 最近的生成模型能够生成几乎与真实照片和艺术作品无异的高真实度图像。这些模型的潜在有害用途使得需要创建强大的合成图像检测器。然而,当前领域中的数据集包含质量可疑的生成图像,或者只有一种主要内容类型的示例,导致检测器的泛化能力较差。我们发现,在各种内容类型中整理平衡数量的高分辨率生成图像对于检测器的泛化能力至关重要,因此引入了ImagiNet,这是一个包含200K个示例的数据集,涵盖四个类别:照片、绘画、人脸和杂项。ImagiNet中的合成图像由开源和专有生成器生成,而每种内容类型的真实对应物则从公共数据集中收集。ImagiNet的结构允许两轨评估系统:i) 分类为真实或合成,ii) 识别生成模型。为了建立强大的基线,我们使用自监督对比目标(SelfCon)训练了ResNet-50模型用于每个轨道,在涉及压缩和调整大小的条件下,评估AUC最高达到0.99,平衡准确率范围从86%到95%。提供的模型具有足够的泛化能力,即使在零样本情况下,也能在以前的合成检测基准上实现最先进的性能。我们提供了消融实验以证明内容类型的重要性,并发布了代码和数据。
总结: ImagiNet数据集通过提供多内容类型和高质量的合成图像,显著提升了合成图像检测器的泛化能力。
###【arXiv编号】2407.20020v3
###【git】无
###【期刊】无
###【领域】计算机视觉、机器学习
该研究提出了一个大规模、内容多样且高质量的合成图像检测数据集,显著提升检测器的泛化能力,并提供了公开的代码和数据,具有较高的创新性和实用性。
=====
摘要: 人脸识别系统的准确性在过去几年显著提高,这得益于大量数据的收集和神经网络架构的进步。然而,这些大规模数据集通常在未经明确同意的情况下收集,带来了伦理和隐私问题。为了解决这一问题,已有提议使用合成数据集来训练人脸识别模型。然而,这些模型仍依赖于真实数据来训练生成模型,并且通常表现不如在真实数据集上训练的模型。其中一个数据集,DigiFace,使用图形管线生成不同的身份和类内变化,训练模型时不使用真实数据。然而,这种方法在人脸识别基准上表现不佳,可能是由于图形管线生成的图像缺乏现实感。在本工作中,我们引入了一种新颖的现实感转移框架,旨在增强合成生成的人脸图像的现实感。我们的方法利用大规模人脸基础模型,并适应管线以增强现实感。通过将图形管线的可控方面与我们的现实感增强技术相结合,我们生成了大量的现实变化,结合了两种方法的优点。我们的实证评估表明,使用我们增强的数据集训练的模型在基准测试中显著提高了人脸识别系统的性能。源代码和数据集将在以下链接公开访问: https://www.idiap.ch/paper/digi2real
总结: 本文提出了一种利用基础模型增强合成人脸图像现实感的框架,有效提升了人脸识别系统的性能。
###【arXiv编号】2411.02188v4
###【git】https://www.idiap.ch/paper/digi2real
###【期刊】预印本
###【领域】计算机视觉
=====
摘要: 自动字体生成仍然是一项具有挑战性的研究问题,主要由于汉字数量庞大,每个汉字都有独特且复杂的结构。我们对以往研究的调查揭示了固有的偏差,可能导致字符结构的变化。具体来说,在生成与训练样本中相似但不同的汉字时,偏差容易纠正或忽略这些细微的变化。为了解决这一问题,我们提出了一种新颖的骨架和字体生成网络(SFGN),以实现更稳健的汉字字体生成。我们的方法包括一个骨架构建器和一个字体生成器。骨架构建器使用低资源的文本输入合成内容特征,使我们的方法能够独立于内容图像输入实现字体生成。与之前将字体风格视为全局嵌入的字体生成方法不同,我们引入了一个字体生成器,在偏旁级别上对齐内容和风格特征,这是字体生成的全新视角。除了常见字符外,我们还对错别字字符进行了实验,其中相当一部分与常见字符略有不同。我们的方法在生成图像的有效性上具有直观表现,且优于当前最先进的字体生成方法。此外,我们认为错别字字符生成具有重要的教学意义,并通过实验验证了这一假设。我们使用生成的错别字字符作为数据增强在汉字错误纠正任务中,模拟了学生在错别字字符的帮助下学习手写汉字的情景。错误纠正任务性能的显著提升证明了我们所提出方法的有效性以及错别字字符生成的价值。
总结: 本文提出了一种新颖的骨架和字体生成网络,有效提升了汉字字体生成的稳健性,并在错误纠正任务中展示了其应用价值。
###【arXiv编号】2501.08062v1
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 姿态合成是人机交互的重要领域,广泛应用于电影、机器人和虚拟现实等各个领域。近期的进展利用扩散模型和注意力机制来改善姿态合成。然而,由于这些技术的计算复杂度高,生成长且多样的序列同时保持低延迟仍然是一个挑战。我们探索了状态空间模型(SSM)在解决这一挑战中的潜力,采用离散运动先验的两阶段建模策略以提升姿态的质量。利用基础的Mamba模块,我们提出了MambaTalk,通过多模态集成增强了姿态的多样性和节奏。大量实验表明,我们的方法的性能与最先进的模型相当甚至更优。
总结: 本文提出了一种基于状态空间模型的高效姿态合成方法,显著提升了姿态的多样性和质量。
###【arXiv编号】2403.09471v5
###【git】
###【期刊】
###【领域】计算机视觉, 人机交互
该研究在姿态合成领域提出了创新性的模型,显著提升了生成质量和多样性,具有较高的实用价值。
=====
摘要: 我们介绍了Audio-Agent,这是一个基于文本或视频输入的音频生成、编辑和组合的多模态框架。传统的文本到音频(TTA)任务方法通常从文本描述中进行单次推理。虽然直接,但当给出复杂的文本条件时,这种设计难以生成高质量的音频。我们的方法中,利用预训练的TTA扩散网络作为音频生成代理,与GPT-4协同工作,GPT-4将文本条件分解为原子、具体的指令,并调用代理进行音频生成。通过这样,Audio-Agent能够生成与所提供的文本或视频紧密对应的高质量音频,能够展示复杂和多重事件,同时支持可变长度和可变音量的生成。对于视频到音频(VTA)任务,大多数现有方法需要训练时间戳检测器以同步视频事件与生成的音频,这一过程可能繁琐且耗时。相反,我们提出了一种更简单的方法,微调预训练的大型语言模型(LLM),例如Gemma2-2B-it,以获得同时连接视频和音频模态的语义和时间条件。因此,我们的框架为TTA和VTA任务提供了全面的解决方案,而无需在训练中承担大量的计算开销。
总结: Audio-Agent通过结合预训练的TTA扩散网络和GPT-4,实现了文本和视频到音频的高质量生成和编辑。
###【arXiv编号】2410.03335v2
###【git】
###【期刊】
###【领域】音频生成与编辑,跨模态处理
=====
摘要: 脉冲神经网络(SNNs)因其事件驱动机制在低功耗计算中具有前景,但相比于人工神经网络(ANNs)往往准确度较低。ANN到SNN的知识蒸馏可以提高SNN的性能,但先前的方法要么仅关注标签信息,忽略了有价值的中间层特征,要么采用逐层方法,忽视了空间和时间语义不一致性,导致性能下降。为解决这些限制,我们提出了一种新颖的方法,称为自注意力时空校准(SASTC)。SASTC使用自注意力来识别ANN和SNN之间在空间和时间上语义对齐的层对,从而实现相关语义信息的自主转移。大量实验表明,SASTC优于现有方法,有效解决了不匹配问题。卓越的准确率结果包括在静态数据集CIFAR-10上达到95.12%,CIFAR-100上2时间步达到79.40%,ImageNet上4时间步达到68.69%;在神经形态数据集DVS-Gesture和DVS-CIFAR10上分别达到97.92%和83.60%。这是SNN首次在CIFAR-10和CIFAR-100上超过ANN,揭示了SNN的潜在应用前景。
总结: 提出了一种新型自注意力时空校准方法,显著提升了脉冲神经网络的性能,首次使其在多个数据集上超过传统人工神经网络。
###【arXiv编号】2501.08049v1
###【git】
###【期刊】
###【领域】人工智能, 计算机视觉, 机器学习
=====
摘要: 荣格肉瘤(ES)以高密度的无结构小圆蓝细胞为特征,特别是在10至19岁的青少年中,成为一个显著的健康问题。基于人工智能的系统用于自动化分析组织病理图像,有望为ES的精确诊断做出贡献。在此背景下,本研究首次探索了不同预训练策略在区分ES与其他形态相似的软组织或骨肉瘤的数字化组织微阵列中的特征提取能力。将视觉语言监督(VLS)与完全监督的ImageNet预训练在多实例学习范式中进行比较。研究结果表明,使用领域内数据集进行VLS调整显著提高了诊断准确率。值得注意的是,这些模型不仅提高了预测类别的准确性,还显著减少了可训练参数数量和计算成本。
总结: 本文通过比较不同预训练策略,证明视觉语言监督在荣格肉瘤诊断中的有效性,提升了准确性并降低了计算成本。
###【arXiv编号】2501.08042v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 医学诊断
本研究创新性地将视觉语言模型应用于荣格肉瘤的诊断,展示了较传统方法更高的准确性和更低的计算成本,具有较高的实用价值和应用前景。
=====
摘要: 在极低光环境下,低能见度和高ISO噪声对人体姿态估计构成重大挑战。当前方法由于依赖像素级增强导致语义信息受损,以及无法有效处理极端低光条件下的特征学习,未能提供高质量的表示。在本研究中,我们提出了一种基于频域的低光人体姿态估计框架,基于“分而治之”的原则。我们的方法并非均匀增强整个图像,而是聚焦于与任务相关的信息。通过对低频部分应用动态光照校正和对高频部分进行低秩去噪,我们有效地增强了姿态估计所需的语义和纹理信息。因此,这种有针对性的增强方法生成了稳健、高质量的表示,显著提高了姿态估计性能。大量实验证明了其在各种具有挑战性的低光场景中优于最先进方法的优越性。
总结: 提出了一种基于频域的有针对性增强方法,显著提升了极低光环境下的人体姿态估计性能。
=====
摘要: 最近,多模态大型语言模型(MLLMs)在视频理解领域取得了显著进展。尽管它们在内容推理和指令跟随能力方面表现出色,但与图像领域相比,视频大型语言模型(VideoLLMs)的幻觉问题尚未得到充分探讨。为缩小这一差距,我们提出了EventHallusion,一个专注于评估VideoLLMs在事件幻觉方面的诊断基准,事件是视频分析的核心。从幻觉归因的角度,EventHallusion基准旨在评估VideoLLM对语言先验和视觉-语言偏差的敏感性。另一方面,我们还提出了一种简单而有效的方法,称为时序对比解码(Temporal Contrastive Decoding,TCD),以解决VideoLLMs的幻觉问题。所提出的TCD方法通过比较原始视频与时间线索被破坏的修改版,在解码阶段纠正模型对先验的偏见。通过对八个开源和两个闭源VideoLLMs在EventHallusion基准上的综合评估,我们观察到开源模型显著受到幻觉问题的困扰,而闭源模型表现明显更好。通过进一步为开源VideoLLMs配备所提出的TCD方法,在EventHallusion基准的大多数指标上都实现了明显的性能提升。我们的代码和基准数据可在GitHub获取。
总结: 本文提出了EventHallusion基准和时序对比解码方法,以诊断和缓解视频大型语言模型中的事件幻觉问题。
###【arXiv编号】2409.16597v3
###【git】https://github.com/Stevetich/EventHallusion
###【领域】计算机视觉
=====
摘要: 准确且高分辨率的地球系统模型(ESM)模拟对于评估人类气候变化的生态和社会经济影响至关重要,但在足够高的空间分辨率下运行计算成本过高。近期的机器学习方法在ESM模拟下采样方面显示出有希望的结果,优于最先进的统计方法。然而,现有方法需要为每个ESM进行计算成本高昂的再训练,并且对于训练时未见过的气候状态外推能力较差。我们通过学习一致性模型(CM)来解决这些不足,该模型无需再训练即可以零次运行的方式高效准确地下采样任意ESM模拟。我们的方法在下采样任务上以仅受观测参考数据限制的分辨率生成概率下采样场。我们展示了CM以一小部分计算成本优于最先进的扩散模型,同时在下采样任务上保持高可控性。此外,我们的方法可以泛化到训练时未见过的气候状态,无需明确定义的物理约束。
总结: 本文提出了一种无需再训练的生成机器学习方法,能够高效、适应不同规模且具有不确定性感知地对地球系统模型模拟进行下采样。
###【arXiv编号】2403.02774v3
###【领域】计算机视觉、机器学习、地球系统模型
该研究在地球系统模型下采样领域具有较高的创新性和实用性,提出的一致性模型提高了效率并增强了泛化能力,适用于气候变化影响评估的高分辨率模拟。
=====
摘要: 群等变性已成为深度学习中的一种有价值的归纳偏置,增强了模型的泛化能力、数据效率和鲁棒性。传统上,群等变性方法需要预先知道感兴趣的群,但这在真实世界的数据中可能不现实。此外,内置固定的群等变性可能对模型架构施加过于严格的限制。这凸显了需要能够动态发现并应用对称性的软约束的方法。对于神经网络架构,等变性通常通过对规范权重张量进行群变换来实现,从而在给定的群 (G) 上实现权重共享。在本研究中,我们提出通过定义一组可学习的双随机矩阵,这些矩阵作为规范权重张量上的软置换矩阵,来学习这种权重共享方案,这些矩阵可以将常规群表示作为一种特例。这产生了可学习的核变换,这些变换与下游任务共同优化。我们展示了当数据集表现出强对称性时,置换矩阵将收敛到常规群表示,我们的权重共享网络实质上成为了常规群卷积。此外,该方法的灵活性使其能够有效地捕捉部分对称性。
总结: 本文提出了一种通过双随机张量学习权重共享的新方法,能够动态发现并应用对称性,从而提升深度学习模型的泛化能力和灵活性。
###【arXiv编号】2412.04594v2
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习; 计算机视觉
=====
摘要: 生成式人工智能技术能够生成越来越逼真的图像,尽管它在创意应用方面具有潜力,但也可能被滥用于制作具有误导性和有害的内容。因此,合成图像检测(SID)方法对于识别在线的AI生成内容至关重要。最先进的SID方法通常由于架构或计算限制对输入图像进行调整大小或中心裁剪,这阻碍了在高分辨率图像中检测到出现的伪影。为了解决这一限制,我们提出了TextureCrop,这是一种图像预处理组件,可以插入任何预训练的SID模型以提高其性能。通过关注生成伪影普遍存在的高频图像部分,TextureCrop在可控的内存需求下增强了SID性能。实验结果显示,与中心裁剪相比,在来自Forensynths、Synthbuster和TWIGMA数据集的高分辨率图像上,不同检测器的AUC一致提高了6.1%,与调整大小相比提高了15%。代码可在GitHub上获取。
总结: TextureCrop通过聚焦高频图像区域显著提升了现有合成图像检测模型在高分辨率图像上的性能。
###【arXiv编号】2407.15500v3
###【git】https://github.com/mever-team/texture-crop
###【期刊】暂无
###【领域】计算机视觉,人工智能
=====
摘要: 随着Transformers大型语言模型的显著进展,自然语言处理(NLP)凭借其在文本生成和用户交互方面的增强能力,已经扩展到许多研究领域。其中一个受益匪浅的领域是网络安全。在网络安全中,许多需要保护和在发送者与接收者之间交换的参数以文本和表格数据的形式存在,使得NLP成为增强通信协议安全措施的有价值工具。本调查论文提供了对Transformers和大型语言模型在网络威胁检测系统中的应用的全面分析。本文概述了论文选择的方法论和文献计量分析,以建立一个评估现有研究的严格框架。讨论了Transformers的基本原理,包括关于各种网络攻击和该领域常用数据集的背景信息。调查探讨了Transformers在入侵检测系统中的应用,重点关注不同的架构,如基于注意力的模型,BERT和GPT等大型语言模型,CNN/LSTM-Transformer混合模型,新兴方法如ViTs等。此外,还探讨了基于Transformers和大型语言模型的入侵检测系统已经实施的多样化环境和应用,包括计算机网络、物联网设备、关键基础设施保护、云计算、软件定义网络以及自动驾驶车辆。本文还讨论了该领域的研究挑战和未来方向,确定了可解释性、可扩展性以及适应不断演变的威胁等关键问题。最后,结论总结了研究发现,强调了Transformers和大型语言模型在增强网络威胁检测能力方面的重要性,同时概述了进一步研究和开发的潜在途径。
总结: 本文全面调查了Transformers和大型语言模型在提高网络威胁检测系统效率方面的应用,强调了其在多种环境中的重要性及未来发展方向。
###【领域】
网络安全、人工智能、自然语言处理、计算机视觉、电气工程与系统科学
=====
摘要: 离群检测(OOD)在许多应用中具有重要意义。虽然语义和领域偏移的OOD问题已被广泛研究,本研究聚焦于协变量偏移——数据分布中微妙的变化可能降低机器学习性能。我们假设检测这些微妙的偏移可以改善我们对分布内边界的理解,最终提升OOD检测。在使用批归一化(BN)训练的对抗判别器中,真实样本和对抗样本形成独特的域,具有独特的批统计特性——这一性质被我们用于OOD检测。我们引入了DisCoPatch,这是一种无监督的对抗变分自编码器(VAE)框架,利用这一机制。在推理过程中,批次由来自同一图像的补丁组成,确保数据分布的一致性,使模型能够依赖批统计。DisCoPatch使用VAE的次优输出(生成和重构)作为负样本来训练判别器,从而提高其描绘分布内样本与协变量偏移之间边界的能力。通过收紧这一边界,DisCoPatch在公开的OOD检测基准上达到最先进的结果。该模型不仅在检测协变量偏移方面表现出色,在ImageNet-1K(-C)上达到95.5%的AUROC,而且在公共的近OOD基准上超越了所有先前方法,达到95.0%。凭借25MB的紧凑模型大小,其在现有方法显著更低的延迟下实现了高效的OOD检测性能,使其成为现实世界OOD检测应用中高效且实用的解决方案。代码将公开
总结: DisCoPatch通过利用批统计特性实现了高效且精确的OOD检测,超越了现有方法。
###【arXiv编号】2501.08005v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,电子与电气工程系统
DisCoPatch在检测协变量偏移方面取得了显著成果,既具有高创新性,又在实际应用中表现优异,尤其是其高效性和较低的模型延迟。
=====
摘要: 随着我们从狭义人工智能向超人工智能过渡,用户对其隐私和机器学习(ML)技术的可信度日益关注。可信度度量的一个共同点是量化深度学习(DL)算法中固有的不确定性,特别是在模型参数、输入数据和模型预测中。解决DL中与隐私相关问题的常见方法之一是采用分布式学习,如联邦学习(FL),其中用户之间不共享私有原始数据。尽管FL中有隐私保护机制,但其在可信度方面仍面临挑战。具体来说,恶意用户在训练过程中可以系统地创建恶意模型参数,以破坏模型的预测和生成能力,导致对其可靠性产生高度不确定性。为了展示恶意行为,我们提出了一种新颖的模型中毒攻击方法,称为Delphi,旨在最大化全局模型输出的不确定性。我们通过利用局部模型第一隐藏层的模型参数与不确定性之间的关系来实现这一点。Delphi采用两种类型的优化方法,即贝叶斯优化和最小二乘信赖区域,来搜索最佳的污染模型参数,分别命名为Delphi-BO和Delphi-LSTR。我们使用KL散度量化不确定性,以最小化预测概率分布与模型输出的不确定分布之间的距离。此外,我们建立了数学证明以展示该攻击在FL中的有效性。数值结果表明,Delphi-BO比Delphi-LSTR引发了更高程度的不确定性,凸显了FL系统对模型中毒攻击的脆弱性。
总结: 本文提出了一种基于贝叶斯优化的新型模型中毒攻击方法Delphi,以最大化联邦学习中的全局模型不确定性,从而揭示FL系统的脆弱性。
###【arXiv:2501.08002v1】
###【git】
###【期刊】
###【领域】 联邦学习,机器学习安全,隐私保护
=====
摘要: 我们研究了结合从MRI中提取的影像特征和形状特征,用于临床相关的脑龄预测和阿尔茨海默病分类任务。我们提出的模型将ResNet提取的图像嵌入与定制图神经网络提取的形状嵌入融合起来。形状嵌入来源于15个脑结构的表面网格,捕捉了详细的几何信息。结合T1加权图像的外观特征后,我们观察到在两个任务的预测性能上都有所提升,分类任务的提升尤为显著。我们使用包括CamCAN、IXI和OASIS3在内的公共数据集对该模型进行了评估,证明了融合影像和形状特征在脑部分析中的有效性。
总结: 该研究通过融合MRI影像和形状特征,显著提升了阿尔茨海默病分类和脑龄预测的性能。
###【arXiv:2501.07994v1】
###【git】
###【期刊】
###【领域】计算机视觉,机器学习,医学影像分析
该研究在结合影像与形状特征方面具有创新性,且在阿尔茨海默病分类和脑龄预测任务中展示了实质性的性能提升,具有较高的实用价值。
=====
摘要: 最新的基于Transformer的语义分割方法通常采用Transformer解码器,通过跨注意力从图像嵌入中提取额外的嵌入,利用自注意力细化其中一种或两种嵌入,并通过点积将图像嵌入投影到额外的嵌入上。尽管这些经验设计取得了显著成功,但仍缺乏理论上的论证或解释,从而阻碍了潜在的原则性改进。本文论证了语义分割与压缩之间存在基本联系,特别是Transformer解码器与主成分分析(PCA)之间的联系。从这种角度出发,我们提出了一种白盒、完全注意力机制的原则性语义分割解码器(DEPICT),其解释如下:1) 自注意力操作细化图像嵌入,构建与监督一致并保留大部分信息的理想主子空间;2) 跨注意力操作寻求对细化后的图像嵌入的低秩近似,期望为主子空间的一组正交基,并对应预定义的类别;3) 点积操作为图像嵌入生成紧凑的分割掩码表示。在ADE20K数据集上进行的实验发现,DEPICT在性能上持续优于其黑盒对应的Segmenter,并且更轻便且更具鲁棒性。
总结: DEPICT通过将Transformer解码器视为主成分分析,实现了更轻量且性能更优的基于Transformer的语义分割。
###【arXiv:2411.03033v3】
###【git】: 无
###【期刊】: 未发表
###【领域】: 计算机视觉,机器学习
=====
摘要: 多模态磁共振成像(MRI)提供了从不同视角获取病变信息,用于计算机辅助诊断。深度学习算法适用于识别特定解剖结构、分割病灶和分类疾病。由于高昂的成本,手动标注有限,阻碍了准确性的进一步提升。自监督学习,尤其是掩码图像建模(MIM),在利用未标注数据方面展现出潜力。然而,我们在将MIM应用于多模态MRI数据集时发现了模型崩溃现象,导致下游任务性能未见提升。为了解决模型崩溃问题,我们从完全崩溃和维度崩溃两方面进行分析并提出解决方案。完全崩溃是由于多模态MRI数据集中的损失值跌破正常收敛值所致,因此引入了混合掩码模式(HMP)策略,以提升损失值至正常收敛水平,避免完全崩溃。此外,维度崩溃源于MIM中特征一致性不足,我们通过引入金字塔巴洛夫双子(PBT)模块作为显式正则化方法来缓解。综合以上方法,构建了增强型MIM(E-MIM),通过HMP和PBT模块有效避免了多模态MRI上的模型崩溃。在三个多模态MRI数据集上的实验验证了该方法在防止两种类型模型崩溃方面的有效性,通过防止模型崩溃,模型训练更加稳定,进而显著提升了分割和分类任务的性能。代码可在GitHub获取。
总结: 提出了通过混合掩码模式和金字塔巴洛夫双子模块增强的掩码图像建模方法,有效防止多模态MRI数据集上的模型崩溃,提升了分割和分类任务的性能。
###【arXiv编号】2407.10377v3
###【git】https://github.com/LinxuanHan/E-MIM
###【期刊】
###【领域】计算机科学 - 人工智能,计算机视觉
该研究针对多模态MRI数据集中的模型崩溃问题提出了创新且实用的解决方案,显著提升了模型在实际医学图像分析中的表现,具有较高的应用价值。
=====
摘要: 具身AI在未知环境中行动方面取得了显著进展。然而,诸如目标搜索等任务主要集中在高效的策略学习上。在本研究中,我们识别出当前搜索方法存在的几个不足:它们主要关注过时的感知模型,忽视了时间聚合,并且在测试时直接从真实情况过渡到嘈杂的感知,而未能考虑感知状态中的过度自信。我们通过校准的感知概率和在聚合与决策中的不确定性来解决这些问题,从而使模型适应于序贯任务。所提出的方法可以直接与预训练模型集成到现有广泛的搜索方法中,无需额外的训练成本。我们对不同语义感知模型和策略的聚合方法进行了广泛评估,确认了在聚合和决策中校准不确定性的重要性。我们将在 https://semantic-search.cs.uni-freiburg.de 提供代码和训练模型。
总结: 本文通过校准感知概率和不确定性,提升了具身AI在目标搜索任务中的性能。
###【arXiv编号】2408.02297v2
###【git】https://semantic-search.cs.uni-freiburg.de
###【期刊】预印本
###【领域】计算机视觉、机器人学
=====
摘要: 深度补全是自主驾驶中的关键任务,旨在通过图像引导将稀疏的LiDAR深度测量值补全为高质量的密集深度图。然而,现有方法通常将深度图视为彩色图像的一个附加通道,或直接对稀疏数据进行卷积,未能充分利用深度图中的三维几何信息,特别是在复杂边界和稀疏区域的表现有限。为解决这些问题,本文提出了一种结合通道注意机制和三维全局特征感知的深度补全网络(CGA-Net)。主要创新包括:1)利用PointNet++从稀疏深度图中提取全局三维几何特征,增强低线LiDAR数据的场景感知能力;2)设计基于通道注意的多模态特征融合模块,高效整合稀疏深度、RGB图像和三维几何特征;3)将残差学习与CSPN++结合,优化深度细化阶段,进一步提升边缘区域和复杂场景中的补全质量。在KITTI深度补全数据集上的实验表明,CGA-Net能够显著提高密集深度图的预测精度,达到新的最先进水平,并展示了对稀疏和复杂场景的强大鲁棒性。
总结: CGA-Net通过结合通道注意力和三维几何特征,有效提升了自主驾驶中深度补全的精度和鲁棒性。
###【arXiv编号】2501.07988v1
###【领域】计算机视觉, 人工智能
该论文在深度补全领域提出了创新性的网络结构,结合了通道注意力机制和三维几何特征,有效提升了补全精度,具有较高的实用性和创新性,适用于自主驾驶等实际应用场景。
=====
摘要: 遥感图像的语义分割对于植被监测、灾害管理和城市规划等多种应用至关重要。以往研究表明,自注意力机制(SA)是设计能够捕捉长距离像素依赖关系的分割网络的有效方法。SA使网络能够建模输入特征之间的全局依赖,从而提高了分割结果的准确性。然而,该机制中使用的高密度注意力特征图导致计算复杂度呈指数增加。此外,它还引入了冗余信息,负面影响了特征表示。受传统阈值分割算法的启发,我们提出了一种新颖的阈值注意机制(TAM)。该机制显著减少了计算量,同时更好地建模了特征图不同区域之间的相关性。基于TAM,我们提出了一种用于语义分割的阈值注意网络(TANet)。TANet由用于浅层特征的全局特征增强模块(AFEM)和用于获取不同尺度深层特征信息的阈值注意金字塔池化模块(TAPP)组成。我们在ISPRS Vaihingen和Potsdam数据集上进行了广泛的实验,结果证明了我们提出的TANet相较于最先进模型的有效性和优越性。
总结: 提出了通过阈值注意机制优化的TANet,显著提升了遥感图像语义分割的效率与准确性。
###【arXiv:2501.07984v1】
###【git】
###【期刊】
###【领域】计算机视觉、遥感图像处理
=====
V-Trans4Style: Visual Transition Recommendation for Video Production Style Adaptation
摘要: 我们介绍了V-Trans4Style,这是一种针对动态视频内容编辑需求的创新算法。该算法旨在将视频适应不同的制作风格,如纪录片、剧情片、故事片或特定YouTube频道的视频制作技术。我们的算法通过更自下而上的方法推荐最佳视觉转换,以实现这种灵活性。我们首先采用基于Transformer的编码器-解码器网络,仅使用输入视频学习推荐时间上连续且视觉上无缝的视觉转换序列。然后,我们引入了一个风格条件模块,利用该模型通过激活最大化迭代调整解码器获得的视觉转换。通过在新引入的AutoTransition++数据集上进行的实验,我们展示了方法的有效性。该数据集是AutoTransition数据集的6K视频版本,此外还将视频分类为不同的制作风格类别。我们的编码器-解码器模型在Recall@K和平均排名值方面比最先进的转换推荐方法提高了10%到80%。我们的风格条件模块在捕捉所需的视频制作风格特征方面,比其他方法在相似性指标上平均提高了约12%。我们希望我们的工作能为进一步探索和理解视频制作风格奠定基础。
总结: 本文提出了一种基于Transformer的算法,能够有效推荐适应不同视频制作风格的视觉转换,显著提升了转换推荐的准确性和风格一致性。
###【arXiv编号】
2501.07983v1
###【领域】
计算机视觉
该研究在视频风格适应和视觉转换推荐方面具有显著的创新性和实用性,通过引入Transformer架构和风格条件模块,显著提升了转换推荐的效果,且实验结果优于现有方法,具有较高的学术和应用价值。
=====
摘要: 面部表情字幕在各个领域得到了广泛应用。最近,视频多模态大型语言模型(MLLMs)的出现显示了在一般视频理解任务中的潜力。然而,在视频中描述面部表情对这些模型提出了两个主要挑战:(1)缺乏足够的数据集和基准测试;(2)视频MLLMs的视觉令牌容量有限。为了解决这些问题,本文介绍了一个针对动态面部表情字幕的新指令跟随数据集。该数据集包括5033个高质量视频剪辑,经过手动注释,包含超过70万个令牌。其目的是提高视频MLLMs辨别细微面部差异的能力。此外,我们提出了FaceTrack-MM,该模型利用有限数量的令牌来编码主角的面部。即使在复杂的多人场景中,该模型在跟踪面部和关注主角面部表情方面表现出色。此外,我们引入了一种结合事件提取、关系分类和最长公共子序列(LCS)算法的新型评估指标,以评估生成文本的内容一致性和时间序列一致性。此外,我们提出了FEC-Bench,这是一个旨在评估现有视频MLLMs在这一特定任务中表现的基准。所有数据和源代码将公开提供。
总结: 本文提出了新的数据集和模型,显著提升了视频多模态大型语言模型在面部表情感知和上下文理解方面的能力。
###【arXiv编号】2501.07978v1
###【领域】计算机视觉, 人工智能
=====
摘要: 视频时刻检索(VMR)的目标是预测视频中与给定语言查询语义匹配的时间跨度。现有基于多模态大型语言模型(MLLM)的VMR方法过度依赖昂贵的高质量数据集和耗时的微调。尽管一些近期研究引入了零样本设置以避免微调,但它们忽视了查询中的固有语言偏差,导致定位错误。为解决上述挑战,本文提出了Moment-GPT,这是一种利用冻结的MLLM进行零样本VMR的无需调优的流程。具体来说,我们首先使用LLaMA-3修正和重新表述查询以减轻语言偏差。随后,我们设计了一个结合MiniGPT-v2的跨度生成器以自适应生成候选跨度。最后,为了利用MLLM的视视频理解能力,我们应用VideoChatGPT和跨度评分器来选择最合适的跨度。我们的方法在多个公共数据集上,包括QVHighlights、ActivityNet-Captions和Charades-STA,显著优于最先进的基于MLLM和零样本模型的方法。
总结: 提出了一种无需微调的零样本视频时刻检索方法,显著提升了检索性能。
###【arXiv编号】arXiv:2501.07972v1
###【git】
###【期刊】
###【领域】计算机科学, 多媒体, 计算机视觉
Moment-GPT方法创新性强,成功解决了现有视频时刻检索方法对高质量数据集和微调的依赖问题,并在多个公共数据集上表现优异,具有较高的实用价值。但由于尚未提供代码仓库和期刊发表信息,实用性评分未达最高。
=====
摘要: 最近,基于文本的图像编辑取得了显著成功。然而,现有方法在更改对象纹理时只能应用简单的纹理如木材或金属,而复杂的纹理如云或火则面临挑战。这一限制源于目标提示需要同时包含输入图像内容和<纹理>,从而限制了纹理表示。本文提出了TextureDiffusion,这是一种无需调优的图像编辑方法,适用于各种纹理转移。首先,目标提示直接设置为“<纹理>”,使纹理与输入图像内容解耦,以增强纹理表示。随后,利用自注意力中的查询特征和残差块中的特征来保留输入图像的结构。最后,引入编辑定位技术,通过融合自注意力结果和中间潜变量来保持背景。全面实验表明,TextureDiffusion能够和谐地转移各种纹理,同时出色地保持结构和背景。代码公开可用于 GitHub。
总结: TextureDiffusion实现了无需调优的多样化复杂纹理转移,同时有效保留图像结构和背景。
###【arXiv编号】2409.09610v2
###【git】https://github.com/THU-CVML/TextureDiffusion
###【期刊】arXiv预印本
###【领域】计算机视觉
该研究在复杂纹理转移领域展现了创新性和实用性,通过无需调优的方法有效提升了纹理表示能力,并成功保留了图像结构和背景,具有较高的研究和应用价值。
=====
摘要: 逐增异常检测在动态工业场景中连续识别新类别中的异常区域。由于知识覆盖和特征冲突,这仍然是一个高度挑战性的问题,导致灾难性遗忘。本文提出了ONER,一种端到端的在线经验回放方法,能够在以最低成本适应新任务的同时有效减轻灾难性遗忘。具体而言,我们的框架利用来自过去任务的两种经验:分解的提示和语义原型,分别解决模型参数更新和特征优化问题。分解的提示由可学习的组件组成,组装以产生基于注意力的提示。这些提示重用先前学到的知识,使模型能够有效地学习新任务。语义原型在像素和图像层面上操作,在潜在特征空间中执行正则化,以防止跨不同任务的遗忘。大量实验证明,我们的方法在逐增异常检测中实现了最先进的性能,显著减少了遗忘,并以最小的成本高效适应了新类别。这些结果确认了ONER的效率和稳定性,使其成为现实世界应用的强大解决方案。
总结: 提出了一种名为ONER的在线经验回放方法,有效地在逐增异常检测中减轻了灾难性遗忘,并以最低成本适应新任务。
###【arXiv编号】2412.03907v2
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 本文提出了一种用于冬季运动环境下交互式分割的新型架构。交互式分割领域通过用户的引导信息(如点击提示)来预测高质量的分割掩码。在本研究中,引导信息由点击提示组成。首先,我们提出了一个基线架构,专门针对每次点击后的快速响应。随后,我们阐述并描述了一系列架构修改,提升了在WSESeg数据集上分割冬季运动装备的性能。在WSESeg类别的平均NoC@85指标上,我们比SAM和HQ-SAM分别减少了2.336和7.946次点击。当应用于HQSeg-44k数据集时,我们的系统在NoC@90和NoC@95上分别达到了6.00和9.89的最新结果。此外,我们在一个包含滑雪中人类掩码的新数据集上测试了我们的模型。
总结: 本文通过创新性的架构改进显著提升了冬季运动环境下的交互式图像分割性能,达到或超过当前最先进的结果。
###【arXiv:2501.07960v1】
###【领域】计算机视觉
=====
摘要: 本文介绍了AI Guide Dog (AIGD),一种针对视障人士的轻量级自我中心导航辅助系统,旨在在智能手机上实现实时部署。AIGD通过采用仅基于视觉的多标签分类方法来预测方向指令,确保在多样化环境中的安全行走,从而解决盲人导航的关键挑战。我们提出了一种新颖的技术,结合GPS信号和高层次指令,实现基于目标的户外导航,同时解决了目标自由的室内导航中的不确定多路径预测问题。我们的通用模型是首个能够处理室内外环境中基于目标和探索性导航场景的导航辅助系统,建立了盲人导航的新状态。我们展示了方法、数据集、评估以及部署见解,以鼓励助导航系统的进一步创新。
总结: AIGD是首个在智能手机上实时部署,能够在室内外环境中为视障人士提供目标导向和探索性导航支持的创新导航辅助系统。
###【arXiv编号】2501.07957v1
###【领域】辅助导航系统, 视觉障碍者支持
=====
摘要: 高光谱图像(HSI)融合解决了从高分辨率多光谱图像(HR-MSI)和低分辨率高光谱图像(LR-HSI)重建高分辨率HSI(HR-HSI)的挑战,这是由于获取高质量HSI的高成本和硬件限制而成为关键任务。虽然现有方法利用了空间和光谱关系,但它们往往存在感受野有限和特征利用不足的问题,导致性能不佳。此外,高质量HSI数据的稀缺性突显了高效利用数据以最大化重建质量的重要性。为了解决这些问题,我们提出了HyFusion,这是一种新颖的双耦合网络(DCN)框架,旨在增强跨领域特征提取并实现有效的特征图重用。该框架首先通过专用子网络处理HR-MSI和LR-HSI输入,这些子网络在特征提取过程中相互增强,保留互补的空间和光谱细节。HyFusion的核心是增强感受野块(ERFB),它结合了平移窗口注意力和密集连接,以扩展感受野,有效捕捉长距离依赖关系,同时最大限度地减少信息丢失。大量实验表明,HyFusion在HR-MSI/LR-HSI融合中实现了最先进的性能,显著提高了重建质量,同时保持了紧凑的模型大小和计算效率。通过将增强的感受野和特征图重用集成到耦合网络架构中,HyFusion为资源受限的场景下的HSI融合提供了实用而有效的解决方案,在高光谱成像领域树立了新的基准。我们的代码将公开可用。
总结: HyFusion通过增强感受野和特征图重用的双耦合网络框架,实现了高效的高光谱图像融合,提升了重建质量和计算效率。
###【arXiv编号】2501.04665v3
###【git】
###【期刊】
###【领域】计算机视觉与图像处理
=====
鲁棒高光谱图像全色融合基于稀疏空间-光谱表示
摘要: 高分辨率高光谱成像在各种遥感应用中起着关键作用,但由于硬件限制,其获取通常面临基本的局限性。本文介绍了S 3 ^{3} 3RNet,这是一种新颖的高光谱图像全色融合框架,通过稀疏的空间-光谱表示有效地结合了低分辨率高光谱图像(LRHSI)和高分辨率多光谱图像(HRMSI)。S 3 ^{3} 3RNet的核心是多分支融合网络(MBFN),它采用并行分支来捕捉不同空间和光谱尺度上的互补特征。与传统方法对所有特征一视同仁不同,我们的空间-光谱注意力权重模块(SSAWB)动态调整特征权重,以在抑制噪声和冗余的同时保持稀疏表示。为了增强特征传播,我们引入了密集特征聚合模块(DFAB),通过密集连接模式高效地聚合输入特征。这种集成设计使S 3 ^{3} 3RNet能够在保持计算效率的同时,选择性地强调来自不同尺度的最有信息量的特征。全面的实验表明,S 3 ^{3} 3RNet在多个评估指标上实现了最先进的性能,特别是在具有挑战性的噪声条件下仍能保持高重建质量。代码将公开提供。
总结: 本文提出的S 3 ^{3} 3RNet通过稀疏空间-光谱表示和多分支融合网络,实现了高效且鲁棒的高光谱图像全色融合,显著提升了重建质量。
###【arXiv编号】arXiv:2501.07953v1
###【git】暂无
###【期刊】暂无
###【领域】计算机视觉、高光谱图像处理、遥感技术
该研究提出了创新的多分支融合网络和注意力机制,有效提升了高光谱图像全色融合的性能,具有较高的学术价值和实际应用潜力。
摘要: 最近的生成模型在合成摄影图像方面展示了令人印象深刻的性能,使人类难以区分它们与原始图像,尤其是在逼真的合成面部图像上。以往的研究大多集中在从大量视觉数据中挖掘判别性伪迹。然而,它们通常缺乏对先验知识的探索,并且很少关注训练类别(如自然和室内物体)与测试类别(如细粒度的人脸图像)之间的领域转移,导致检测性能不尽如人意。为了解决这些问题,我们提出了一种新颖的知识引导提示学习方法用于深度伪造面部图像检测。具体而言,我们从大型语言模型中检索与伪造相关的提示作为专家知识,以指导可学习提示的优化。此外,我们详细阐述了测试时提示调整,以缓解领域转移,实现显著的性能提升,并促进在现实场景中的应用。在DeepFakeFaceForensics数据集上的大量实验表明,我们提出的方法明显优于最先进的方法。
总结: 本文提出了一种新颖的知识引导提示学习方法,显著提升了深度伪造面部图像的检测性能。
###【arXiv编号】2501.00700v2
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 本文研究了时空视频预测任务的挑战,即基于历史时空观测流生成未来视频帧。现有方法通常利用外部信息如语义图来提高视频预测的准确性,但往往忽视了视频中固有的物理知识。此外,它们高昂的计算成本可能阻碍其在高分辨率视频中的应用。为了解决这些限制,我们提出了一种新颖的框架,称为物理辅助时空网络(PastNet),用于高质量的视频预测。PastNet的核心在于在傅里叶域中引入谱卷积算子,有效地引入了来自底层物理规律的归纳偏差。此外,我们使用具有估计内在维数的记忆库来离散化处理复杂时空信号过程中的局部特征,从而降低计算成本并促进高分辨率视频的高效预测。在各种广泛使用的时空视频基准测试上的大量实验证明,所提出的PastNet在高分辨率场景下相比一系列最先进的方法具有更高的有效性和效率。
总结: PastNet通过引入物理归纳偏差和傅里叶域谱卷积,提升了高分辨率时空视频预测的效率与准确性。
###【arXiv编号】
arXiv:2305.11421v3
###【git】
无
###【期刊】
无
###【领域】
计算机视觉、人工智能、视频处理
PastNet在时空视频预测领域引入了物理归纳偏差,显著提高了高分辨率视频预测的效率和准确性,具备较高的创新性和实用价值。
=====
摘要: 视频显微镜结合机器学习是一种有前景的工具,用于研究体外受精牛胚胎的早期发展,并尽早评估其可转移性。我们的目标是在四天内预测胚胎的可转移性,输入为二维时间推移显微镜视频。我们将此问题表述为监督式二分类问题,类别为可转移和不可转移。挑战在于:1)外观和运动区分度低,2)类别歧义,3)标注数据量少。我们提出了一种包含三个通道的三维卷积神经网络,使其在时间上具有多尺度性,并能够以不同方式处理外观和运动。训练时,我们保留了焦点损失。我们的模型SFR与其他方法相比效果良好。实验表明,在这一具有挑战性的生物任务中,该模型的有效性和准确性。
总结: 提出了一种新的三维卷积神经网络模型,有效预测牛胚胎的可转移性。
###【arXiv编号】2501.07945v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、生物量化方法
=====
摘要: 当前的新颖视图合成任务主要依赖于高质量和清晰的图像。然而,在有雾场景中,散射和衰减会显著降低重建和渲染质量。尽管已经开发了基于NeRF的去雾重建算法,但它们使用深度全连接神经网络和每光线采样策略,导致计算成本高。此外,NeRF的隐式表示在从有雾场景中恢复细节方面存在困难。相比之下,最近在3D高斯点渲染方面取得的进展,通过明确地将点云建模为3D高斯,实现了高质量的3D场景重建。本文提出利用显式高斯表示,通过物理准确的前向渲染过程来解释有雾图像的形成过程。我们引入了DehazeGS,这是一种能够仅使用多视图有雾图像作为输入,从参与性介质中分解和渲染无雾背景的方法。我们在每个高斯分布中建模传输,以模拟雾气的形成。在此过程中,我们共同学习大气光和散射系数,同时优化有雾场景的高斯表示。在推理阶段,我们消除散射和衰减对高斯的影响,并将它们直接投影到二维平面上以获得清晰的视图。在合成和真实世界的有雾数据集上的实验表明,DehazeGS在渲染质量和计算效率方面均实现了最先进的性能。
总结: DehazeGS通过3D高斯表示和物理渲染过程,实现了高效且高质量的有雾场景去雾与视图合成。
###【arXiv编号】: 2501.03659v2
###【git】: 无
###【期刊】: arXiv预印本
###【领域】: 计算机视觉,图像处理,三维重建
本文提出的方法在有雾场景的视图合成和去雾任务中实现了领先的渲染质量和计算效率,具有高度的创新性和实用性。
=====
摘要: 在医疗、金融和制造等行业,分析非结构化文本数据在分析和决策制定方面面临重大挑战。揭示大规模语料库中的模式并理解其语义影响至关重要,但这依赖于领域专家或资源密集型的手动审查。为此,我们在这篇系统展示论文中介绍了Spacewalker,一款用于跨多模态分析、探索和注释数据的交互式工具。它允许用户提取数据表示,将其可视化在低维空间中,并通过探索性或查询感兴趣区域的方式穿梭于大规模数据集。我们通过广泛的实验和注释研究评估了Spacewalker在提高数据完整性验证和注释方面的有效性。我们表明,Spacewalker相比传统方法减少了时间和精力。本工作的代码是开源的,可以在:https://github.com/code-lukas/Spacewalker 找到。
总结: Spacewalker是一款开源的交互式工具,旨在快速探索和注释非结构化数据,显著提高数据分析的效率。
###【arXiv编号】2409.16793
###【git】https://github.com/code-lukas/Spacewalker
###【领域】计算机视觉、人机交互、信息检索
=====
摘要: 细粒度遥感图像分割对于准确识别遥感图像中的详细对象至关重要。近期,在大规模数据集上预训练的视觉变换器模型(VTMs)展示了强大的零样本泛化能力。然而,直接将其应用于特定任务可能导致域偏移。我们引入了一种结合知识指导和域精炼的全端到端学习范式以增强性能。我们提出了两个关键组件:特征对齐模块(FAM)和特征调制模块(FMM)。FAM通过通道转换和空间插值对CNN基础模型的特征与预训练VTM编码器的特征进行对齐,并通过KL散度和L2归一化约束进行知识转移。FMM进一步将知识适应于特定域以应对域偏移。我们还引入了一个细粒度草地区分割数据集,并通过在两个数据集上的实验表明,与草地区数据集相比,我们的方法在草地区数据集上实现了2.57的mIoU提高,在云数据集上实现了3.73的mIoU提高。结果突显了结合知识转移和域自适应以克服与域相关的挑战和数据限制的潜力。项目页面可访问这里。
总结: 本文提出了一种结合知识转移与域自适应的方法,显著提升了细粒度遥感图像分割的性能。
###【arXiv编号】2412.06664v3
###【git】无
###【期刊】预印本
###【领域】计算机视觉
=====
摘要: 由于各种不可控因素,如物体姿态、光照条件和拍摄环境,在野外图像中实现一致性编辑仍然是一个技术挑战。Edicho 提供了一种基于扩散模型的无训练解决方案,其基本设计原则是使用显式的图像对应关系来指导编辑。具体而言,关键组件包括注意力操控模块和精心优化的无分类器指导(CFG)去噪策略,这两者都考虑了预估的对应关系。这种推理时算法具有即插即用的特性,并且兼容大多数基于扩散的编辑方法,如 ControlNet 和 BrushNet。大量结果展示了 Edicho 在多样化设置下实现一致的跨图像编辑的有效性。我们将发布代码以促进未来的研究。
总结: Edicho 利用扩散模型实现了在复杂环境下的图像一致性编辑,具有广泛的兼容性和实用性。
###【arXiv编号】2412.21079v3
###【git】
###【期刊】
###【领域】计算机视觉
=====
VENOM: Text-driven Unrestricted Adversarial Example Generation with Diffusion Models
摘要: 对抗攻击已被证明通过微妙地改变输入图像来欺骗机器学习模型,促使近年来的广泛研究。传统方法将扰动限制在 l p l_p lp-范数范围内,但无约束对抗样本(UAEs)的进展允许更复杂、基于生成模型的操控。扩散模型由于在稳定性和图像质量方面优于生成对抗网络(GANs),现已成为UAE生成的主导方法。然而,现有的基于扩散的UAE方法仅限于使用参考图像,并在直接从随机噪声生成自然对抗样本(NAEs)时面临挑战,通常会产生不受控或失真的输出。在本研究中,我们引入了VENOM,这是第一个通过扩散模型生成高质量无约束对抗样本的文本驱动框架。VENOM将图像内容生成和对抗合成统一到一个反向扩散过程,实现了高保真度的对抗样本,同时不牺牲攻击成功率(ASR)。为稳定这一过程,我们采用了带动量的自适应对抗指导策略,确保生成的对抗样本 x ∗ x^* x∗与自然图像分布 p ( x ) p(x) p(x)对齐。大量实验证明,VENOM在攻击成功率和图像质量方面优于先前的方法,标志着对抗样本生成的重要进展,并为改进防御开发提供了模型脆弱性的见解。
总结: VENOM通过扩散模型和文本驱动的方法,实现了高质量的无约束对抗样本生成,显著提升了攻击成功率和图像质量。
###【arXiv:2501.07922v1】
###【期刊】
###【领域】
计算机视觉
=====
摘要: 尽管基于提示的多模态融合方法在参数效率上表现出色,其有限的适应性和表现力常导致与其他调优方法相比性能次优。本文介绍了提示专家混合(MoPE),这是首个旨在通过分解标准提示以自适应捕捉实例级特征来克服这些限制的技术。基于这种分解,MoPE通过利用多模态配对先验动态路由每个实例最有效的提示,从而增强了提示融合的表现力。与基础提示相比,基于MoPE的融合方法表现出更强的表现力,更有效地随着训练数据和可训练参数数量的增加而扩展。我们还研究了专家路由的正则化项,这导致了专家的突现式专门化,具有增强的适应性和可解释性。在涵盖四种模态的六个多模态数据集上的广泛实验表明,提示融合达到最先进的性能,匹配甚至超过了微调的性能,同时仅需0.8%的可训练参数。项目主页:https://github.com/songrise/MoPE
总结: 提出了一种参数高效且可扩展的多模态融合方法,利用提示专家混合来提升模型表现。
###【arXiv编号】2403.10568v3
###【git】https://github.com/songrise/MoPE
###【期刊】
###【领域】计算机科学 - 机器学习, 人工智能, 计算语言学, 计算机视觉
=====
摘要: 光学遥感图像在地球表面的观测中起着至关重要的作用。然而,由于云层覆盖,获取完整的光学遥感图像具有挑战性。重建无云光学图像已成为近年来的主要任务。本文提出了一种两流极化合成孔径雷达(PolSAR)-光学数据融合云移除算法(PODF-CR),该算法实现了缺失光学图像的重建。PODF-CR由编码模块和解码模块组成。编码模块包括两个并行分支,提取PolSAR图像特征和光学图像特征。为了解决PolSAR图像中的散斑噪声问题,我们在PolSAR分支中引入了动态滤波器进行图像去噪。为了更好地促进多模态光学图像和PolSAR图像之间的融合,我们提出了基于交叉跳跃连接的融合块,以实现多模态数据信息的交互。通过注意力机制对获得的融合特征进行细化,为后续的融合图像解码提供更好的条件。在解码模块中,引入多尺度卷积以获取多尺度信息。此外,为了更好地利用综合散射信息和极化特性来辅助光学图像的恢复,我们使用了一个名为OPT-BCFSAR-PFSAR的云恢复数据集,该数据集包括从PolSAR数据和光学图像中获得的后向散射系数特征图像和极化特征图像。实验结果表明,该方法在定性和定量评估中均优于现有方法。
总结: 利用极化合成孔径雷达与光学数据融合的两流残差网络,有效地移除了遥感图像中的云层,提升了图像重建的质量。
###【arXiv:2501.07901v1】
###【领域】计算机视觉, 遥感图像处理
=====
摘要: 面部图像质量评估(FIQA)算法正在被集成到在线身份管理应用中。这些应用允许用户上传面部图像作为其文件发放过程的一部分,图像随后通过质量评估过程以确保其符合质量和合规性要求。鉴于生物识别系统可能引发的社会影响,人们对人口统计偏见提出了担忧。因此,评估FIQA算法中的人口统计变异性至关重要,以便制定缓解措施。在本研究中,我们研究了ISO/IEC 29794-5国际标准中包含的所有面部图像质量度量在三个人口统计变量:年龄、性别和肤色上的变异性。结果相当令人鼓舞,显示大多数度量对任何特定人口群体没有明显偏见。仅有两个质量度量在肤色变量上对不同群体的结果表现出相当的变化。
总结: 研究表明大多数面部图像质量评估算法在不同人口统计群体中无明显偏见,仅肤色变量下有少数度量表现出差异。
###【arXiv编号】2501.07898v1
###【git】
###【期刊】
###【领域】计算机视觉
=====
摘要: 我们介绍了Tarsier2,这是一种先进的大规模视觉语言模型(LVLM),旨在生成详细且准确的视频描述,同时展现出卓越的通用视频理解能力。Tarsier2通过三个关键升级实现了显著进步:(1)将预训练数据规模从1100万对视频文本对扩展至4000万对,丰富了数据量和多样性;(2)在监督微调期间执行细粒度的时间对齐;(3)使用基于模型的采样自动构建偏好数据并应用DPO训练进行优化。大量实验表明,Tarsier2-7B在详细视频描述任务上持续超越领先的专有模型,包括GPT-4o和Gemini 1.5 Pro。在DREAM-1K基准测试中,Tarsier2-7B的F1值比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在人类并排评估中,Tarsier2-7B相较于GPT-4o和Gemini-1.5-Pro分别表现出+8.6%和+24.9%的性能优势。Tarsier2-7B还在涵盖视频问答、视频定位、幻觉测试和具身问答等15个公共基准测试中创下新的最先进结果,展示了其作为一个强大通用视觉语言模型的多功能性。
总结: Tarsier2通过扩展数据规模和精细调优,在视频理解任务中显著优于现有领先模型,展现出强大的综合视频理解能力。
###【arXiv编号】2501.07888v1
###【领域】计算机视觉,人工智能
=====
摘要: 本研究描述了一种应用因果建模来检测和缓解多类分类问题中算法偏见的过程。数据集来源于FairFace数据集,并辅以DeepFace预训练模型生成的情感标签。开发了一个定制的卷积神经网络(CNN),由四个卷积块组成,后接全连接层和Dropout层以减缓过拟合。在CNN模型的分类中发现了性别偏见:女性更可能被分类为“快乐”或“悲伤”,而男性更可能被分类为“中性”。为了解决这一问题,采用了一对多(OvA)技术。为每个情感类别构建了一个因果模型,以调整CNN模型的预测类别概率。然后通过选择概率最高的类别来聚合各种类别的调整后概率。结果显示,去偏后的分类在所有类别中都表现出增强的性别公平性,对整体准确性几乎没有影响,甚至略有提升。本研究强调了算法公平性与准确性不一定是一个权衡关系。本研究的所有数据和代码都公开可供下载。
总结: 该研究通过因果建模方法有效缓解了多类别CNN分类中的性别算法偏见,同时保持甚至提升了模型的整体准确性。
###【arXiv编号】2501.07885v1
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习、计算机视觉
研究创新性地结合因果建模与一对多技术,成功缓解了CNN分类中的性别偏见,提升了算法的公平性,同时保持了高准确性,具有较高的实用价值。
=====
摘要: 视觉-语言模型(VLM)的发展依赖于大规模和多样化的多模态数据集。然而,由于缺乏跨生物学和医学的注释且公开可访问的数据集,通用生物医学VLM的进展受限。现有努力局限于狭窄的领域,未能涵盖科学文献中编码的完整生物医学知识多样性。为解决这一差距,我们引入了BIOMEDICA,这是一个可扩展的开源框架,用于提取、注释和序列化PubMed Central开放获取子集的全部内容,生成一个易于使用、公开可访问的数据集。我们的框架产生了一个全面的档案,包括来自超过600万篇文章的2400多万个独特图像文本对。还提供了元数据和专家指导的注释。我们通过发布BMCA-CLIP验证了我们资源的实用性和可访问性,这是一套通过流式传输在BIOMEDICA数据集上持续预训练的CLIP风格模型,消除了本地下载27 TB数据的需要。平均而言,我们的模型在40项任务中实现了最先进的性能——涵盖病理学、放射学、眼科学、皮肤病学、外科、分子生物学、寄生虫学和细胞生物学——在零样本分类中平均提升了6.56%(在皮肤病学和眼科学中分别高达29.8%和17.5%),并且在图像文本检索方面表现更强,同时使用了10倍更少的计算资源。为了促进可重复性和合作,我们向更广泛的研究社区发布了我们的代码库和数据集。
总结: BIOMEDICA 提供了一个全面的开源生物医学图像-文本数据集和视觉-语言模型,有助于推动通用生物医学人工智能的发展。
###【arXiv编号】2501.07171v2
###【git】
###【期刊】
###【领域】计算机科学(计算机视觉、计算语言学)、生物医学
=====
摘要: 本报告介绍了Make-A-Character 2,这是一个先进的系统,能够从单张肖像照片生成高质量的3D角色,理想用于游戏开发和数字人类应用。Make-A-Character 2在其前身基础上进行了若干显著改进,以增强基于图像的头部生成。我们使用IC-Light方法纠正输入照片中非理想光照,并应用基于神经网络的色彩校正,以统一照片与游戏引擎渲染之间的肤色。我们还采用层次表示网络捕捉高频面部结构,并进行自适应骨骼校准,以实现准确而富有表现力的面部动画。整个从图像到3D角色的生成过程不到2分钟。此外,我们利用变换器架构生成同步讲话的面部和手势动作,使生成的角色能够实现实时对话。这些技术已集成到我们的对话式AI头像产品中。
总结: 提出了一种高效的图像到3D角色生成系统,适用于游戏和AI头像应用。
=====
摘要: deepTerra 是一个综合平台,旨在利用机器学习和卫星图像促进地表特征的分类。该平台包括数据收集、图像增强、训练、测试和预测等模块,简化了图像分类任务的整个工作流程。本文详细概述了 deepTerra 的功能,展示了其在各个研究领域的应用,并讨论了其未来可能的发展方向。
总结: deepTerra 提供了一个全面的工具平台,用于通过机器学习和卫星图像高效地分类地表特征。
###【arXiv编号】2501.07859v1
###【git】
###【期刊】
###【领域】土地表面特征分类
=====
Recognizing Artistic Style of Archaeological Image Fragments Using Deep Style Extrapolation
摘要: 古代艺术作品在考古发掘中通常会遭受一定程度的碎片化和物理退化。通常,同一遗址可能会发现来自不同时期或不同艺术风格的多个文物碎片。由于每个碎片仅包含关于其来源的部分信息,并且不同物体的碎片混合在一起,基于视觉线索对破碎文物进行分类可能是一个具有挑战性的任务,即使对于专业人士也是如此。由于分类是许多机器学习模型的常见功能,现代架构的强大功能可以被利用来实现高效且准确的碎片分类。在本研究中,我们提出了一个通用的深度学习框架,用于预测图像碎片的艺术风格,实现了对具有不同风格和几何形状的碎片的最先进的结果。
总结: 本文提出了一个通用的深度学习框架,有效地识别和分类考古图像碎片的艺术风格,并取得了最先进的成果。
###【arXiv编号】
2501.00836v2
###【git】
无
###【期刊】
无
###【领域】
计算机视觉
=====
摘要: 图像超分辨率(SR)旨在从受特定降解过程影响的低分辨率图像中恢复高分辨率图像,通过增强细节和视觉质量来实现。最近基于Transformer的方法的进展已经通过实现超越以前的深度学习方法(如CNN和GAN)的高质量重建,重新塑造了图像超分辨率。这有效地解决了以前方法的局限性,如有限的感受野、全球上下文捕捉不足以及高频细节恢复的挑战。此外,本文回顾了基于Transformer的SR模型的最新趋势和进展,探讨了将Transformer与传统网络相结合以平衡全球和局部上下文的各种创新技术和架构。这些新颖的方法被批判性地分析,揭示了有前景但尚未探索的空白和未来研究的潜在方向。为了促进对最新趋势的全面理解,本文包括了多个模型和技术的可视化。该工作旨在为处于深度学习前沿的研究人员提供一个结构化的路线图,特别是探索Transformer对超分辨率技术的影响。
总结: 本文综述了基于Transformer的图像超分辨率模型的最新技术、挑战及其应用,并提出了未来研究的潜在方向。
###【arXiv编号】2501.07855v1
###【git】
###【期刊】
###【领域】计算机视觉
本文系统性地总结了Transformer在图像超分辨率中的应用,提供了有价值的参考资料,但作为综述性文章,其创新性相对有限。
=====
摘要: 提高从CT血管造影 (CTA) 图像中分割冠状动脉粥样硬化斑块的精度对于高级冠状动脉粥样硬化分析 (CAA) 至关重要,后者依赖于通过弯曲平面重塑重建的血管横截面图像。由于斑块和血管的边界和结构不清晰,导致当前深度学习模型的性能不足,加上注释此类复杂数据的固有困难,使得完成此任务面临重大挑战。为了解决这些问题,我们提出了一种新颖的双一致性半监督框架,整合了帧内拓扑一致性 (ITC) 和跨帧拓扑一致性 (CTC),以利用有标签和无标签的数据。ITC 采用双任务网络同时进行分割掩码和骨架感知距离变换 (SDT) 预测,通过一致性约束实现拓扑结构的相似预测,无需额外注释。与此同时,CTC 利用无监督估计器分析相邻帧的骨架和边界之间的像素流,确保空间连续性。在两个CTA数据集上的实验证明,我们的方法超越了现有的半监督方法,并接近监督方法在CAA上的性能。此外,我们的方法在ACDC数据集上的表现也优于其他方法,展示了其泛化能力。
总结: 提出了一种结合帧内和跨帧拓扑一致性的半监督学习框架,显著提升了CTA图像中冠状动脉粥样硬化斑块的分割精度。
###【arXiv编号】2501.07850v1
###【git】
###【期刊】
###【领域】计算机视觉,医疗图像处理,机器学习