【AI视野·今日CV 计算机视觉论文速览 第263期】Mon, 9 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 9 Oct 2023
Totally 54 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第263期】Mon, 9 Oct 2023_第1张图片

Daily Computer Vision Papers

Alice Benchmarks: Connecting Real World Object Re-Identification with the Synthetic
Authors Xiaoxiao Sun, Yue Yao, Shengjin Wang, Hongdong Li, Liang Zheng
对于对象重新识别 re ID,从合成数据中学习已成为一种有前景的策略,可以廉价地获取大规模带注释的数据集和有效模型,并且几乎不存在隐私问题。这种策略产生了许多有趣的研究问题,例如,如何缩小合成源与现实世界目标之间的域差距。为了促进开发更多从合成数据中学习的新方法,我们引入了 Alice 基准,这是为研究社区提供基准和评估协议的大规模数据集。在 Alice 基准测试中,提供了人和车辆重新识别两个对象重新识别任务。我们收集并注释了两个具有挑战性的现实世界目标数据集AlicePerson和AliceVehicle,在各种光照、图像分辨率等条件下捕获。作为我们真实目标的一个重要特征,其训练集的可聚类性并不能手动保证使其更接近真实目标域适应测试场景。相应地,我们重用现有的 PersonX 和 VehicleX 作为合成源域。主要目标是从合成数据中训练可以在现实世界中有效运行的模型。在本文中,我们详细介绍了 Alice 基准的设置,对现有常用的领域适应方法进行了分析,并讨论了一些有趣的未来方向。

CIFAR-10-Warehouse: Broad and More Realistic Testbeds in Model Generalization Analysis
Authors Xiaoxiao Sun, Xingjian Leng, Zijian Wang, Yang Yang, Zi Huang, Liang Zheng
分析各种看不见的环境中的模型性能是机器学习社区的一个关键研究问题。为了研究这个问题,重要的是构建一个具有广泛覆盖环境差异的分布测试集的测试平台。然而,现有的测试床通常要么具有少量的域,要么是通过图像损坏合成的,阻碍了展示现实世界有效性的算法设计。在本文中,我们介绍了 CIFAR 10 Warehouse,它由通过各种方式提示图像搜索引擎和扩散模型收集的 180 个数据集组成。数据集的大小通常在 300 到 8,000 张图像之间,包含自然图像、卡通、某些颜色或不自然出现的物体。通过 CIFAR 10 W,我们的目标是在各种分布式环境下增强评估并加深对域泛化和模型精度预测这两个泛化任务的理解。我们进行了广泛的基准测试和比较实验,结果表明 CIFAR 10 W 提供了这些任务固有的新的、有趣的见解。

FedConv: Enhancing Convolutional Neural Networks for Handling Data Heterogeneity in Federated Learning
Authors Peiran Xu, Zeyu Wang, Jieru Mei, Liangqiong Qu, Alan Yuille, Cihang Xie, Yuyin Zhou
联邦学习 FL 是机器学习中的一种新兴范例,其中使用来自多个设备的数据协作学习共享模型,以降低数据泄漏的风险。虽然最近的研究认为 Vision Transformer ViT 在解决 FL 数据异构性方面优于卷积神经网络 CNN,但支撑这一优势的具体架构组件尚未阐明。在本文中,我们系统地研究了不同架构元素(例如激活函数和标准化层)对异构 FL 性能的影响。

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
Authors Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, Hang Zhao
潜在扩散模型 LDM 在合成高分辨率图像方面取得了显着的成果。然而,迭代采样过程计算量大,导致生成速度慢。受到一致性模型歌曲等人的启发。 ,我们提出了潜在一致性模型 LCM,可以在任何预先训练的 LDM 上以最少的步骤进行快速推理,包括稳定扩散 rombach 等人。将引导反向扩散过程视为求解增强概率流 ODE PF ODE ,LCM 旨在直接预测潜在空间中此类 ODE 的解,从而减少大量迭代的需要并允许快速、高保真度采样。高质量 768 x 768 2 4 步 LCM 从预训练的无分类器引导扩散模型中高效提取,仅需 32 A100 GPU 小时即可进行训练。此外,我们还引入了潜在一致性微调 LCF,这是一种专为在定制图像数据集上微调 LCM 而定制的新颖方法。对 LAION 5B Aesthetics 数据集的评估表明,LCM 只需很少的推理步骤即可实现最先进的文本到图像生成性能。

SwimXYZ: A large-scale dataset of synthetic swimming motions and videos
Authors Fiche Gu nol , Sevestre Vincent, Gonzalez Barral Camila, Leglaive Simon, S guier Renaud
技术在体育运动中发挥着越来越重要的作用,并成为从中受益的运动员的真正竞争优势。其中,动作捕捉的使用正在各种运动中发展,以优化运动姿势。不幸的是,传统的动作捕捉系统价格昂贵且受到限制。由于水生环境,最近开发的基于计算机视觉的方法在某些运动中也遇到困难,例如游泳。性能差距的原因之一是缺乏带有游泳视频的标记数据集。为了解决这个问题,我们引入了 SwimXYZ,一个游泳动作和视频的合成数据集。 SwimXYZ 包含 340 万个带有地面真实 2D 和 3D 关节注释的帧,以及 SMPL 参数格式的 240 个游泳运动序列。

Distributed Deep Joint Source-Channel Coding with Decoder-Only Side Information
Authors Selim F. Yilmaz, Ezgi Ozyilkan, Deniz Gunduz, Elza Erkip
当相关辅助信息仅出现在 Wyner Ziv 场景的接收器端时,我们考虑通过嘈杂的无线通道进行低延迟图像传输。特别是,我们对使用数据驱动的联合源信道编码 JSCC 方法开发实用方案感兴趣,该方法先前已被证明在实际有限块长度机制中优于传统的基于分离的方法,并提供信道质量的优雅降级。我们提出了一种新颖的神经网络架构,该架构在接收器侧的多个阶段合并了仅解码器的辅助信息。我们的结果表明,所提出的方法成功地集成了辅助信息,根据这里考虑的各种失真标准,在所有信道噪声水平上产生了改进的性能,特别是在低信道信噪比 SNR 和小带宽比 BR 下。

Towards A Robust Group-level Emotion Recognition via Uncertainty-Aware Learning
Authors Qing Zhu, Qirong Mao, Jialin Zhang, Xiaohua Huang, Wenming Zheng
群体级情感识别GER是人类行为分析不可分割的一部分,旨在识别多人场景中的整体情感。然而,现有的方法致力于组合不同的情感线索,而忽略了无约束环境下固有的不确定性,例如群体内发生的拥塞和遮挡。此外,由于只有群体级别的标签可用,一组中个体之间不一致的情绪预测可能会使网络感到困惑。在本文中,我们提出了一种不确定性感知学习 UAL 方法来为 GER 提取更稳健的表示。通过对每个个体的不确定性进行显式建模,我们利用从高斯分布中提取的随机嵌入而不是确定性点嵌入。这种表示捕获了不同情绪的概率,并在推理阶段通过这种随机性生成不同的预测。此外,不确定性敏感分数被自适应地分配为每个组内个体面临的融合权重。此外,我们开发了图像增强模块来增强模型对严重噪声的鲁棒性。整个三分支模型,包括面部、物体和场景组件,以比例加权融合策略为指导,并集成所提出的不确定性感知方法以产生最终的组级输出。

Assessing Robustness via Score-Based Adversarial Image Generation
Authors Marcel Kollovieh, Lukas Gosch, Yan Scholten, Marten Lienen, Stephan G nnemann
大多数对抗性攻击和防御都集中在小范数约束内的扰动。然而,ellp威胁模型无法捕获所有相关的语义保留扰动,因此鲁棒性评估的范围是有限的。在这项工作中,我们引入了基于分数的对抗性生成 ScoreAG,这是一种新颖的框架,它利用基于分数的生成模型的进步来生成超出 ell p 范数约束的对抗性示例,即所谓的无限制对抗性示例,克服了它们的局限性。与传统方法不同,ScoreAG 保持了图像的核心语义,同时通过转换现有图像或完全从头开始合成新图像来生成真实的对抗性示例。我们进一步利用 ScoreAG 的生成能力来净化图像,凭经验增强分类器的鲁棒性。我们广泛的实证评估表明,ScoreAG 在多个基准测试中与最先进的攻击和防御性能相匹配。这项工作强调了研究受语义而非规范约束限制的对抗性示例的重要性。

Collaborative Camouflaged Object Detection: A Large-Scale Dataset and Benchmark
Authors Cong Zhang, Hongbo Bi, Tian Zhu Xiang, Ranwan Wu, Jinghui Tong, Xiufang Wang
在本文中,我们对称为协作伪装对象检测 CoCOD 的新任务进行了全面的研究,该任务旨在从一组相关图像中同时检测具有相同属性的伪装对象。为此,我们精心构建了第一个大规模数据集,称为 CoCOD8K,它由 8,528 张精心挑选的高质量图像组成,带有对象掩模注释,涵盖 5 个超类和 70 个子类。该数据集涵盖了广泛的自然和人工伪装场景,具有不同的物体外观和背景,这使其成为 CoCOD 非常具有挑战性的数据集。此外,我们提出了 CoCOD 的第一个基线模型,名为双边分支网络 BBNet,它分别探索和聚合单个图像内和组内图像之间的共同伪装线索,以在给定图像中准确检测伪装对象。这是通过图像间协作特征探索 CFE 模块、图像内对象特征搜索 OFS 模块和局部全局细化 LGR 模块来实现的。我们在所提出的 CoCOD8K 数据集上根据 5 个广泛使用的评估指标对 18 个最先进的模型进行了基准测试,包括 12 个 COD 算法和 6 个 CoSOD 算法。大量的实验证明了该方法的有效性以及与其他竞争对手相比显着优越的性能。我们希望我们提出的数据集和模型能够促进 COD 社区的发展。

Semantic segmentation of longitudinal thermal images for identification of hot and cool spots in urban areas
Authors Vasantha Ramani, Pandarasamy Arjunan, Kameshwar Poolla, Clayton Miller
这项工作对在邻里范围内收集的语义分段、纵向和空间丰富的热图像进行了分析,以识别城市地区的热点和冷点。红外观测站运行了几个月,收集新加坡国立大学教育校园内不同类型建筑的热图像。热图像数据集的子集用于训练最先进的深度学习模型,以分割各种城市特征,如建筑物、植被、天空和道路。据观察,与 DeepLabV3、DeeplabV3、FPN 和 PSPnet 等其他模型相比,具有 resnet34 CNN 主干的 U Net 分割模型在测试数据集上的 mIoU 得分最高,为 0.99。然后使用分割模型生成的掩模从热图像中提取温度并校正各种城市特征的发射率差异。此外,使用预测分割掩模提取的温度的各种统计测量结果显示与使用地面实况掩模提取的温度紧密匹配。最后,这些掩模被用来识别不同时间点的城市特征中的热点和冷点。

Enhancing the Authenticity of Rendered Portraits with Identity-Consistent Transfer Learning
Authors Luyuan Wang, Yiqian Wu, Yongliang Yang, Chen Liu, Xiaogang Jin
尽管计算机图形学取得了飞速的进步,但创建高质量的照片般逼真的虚拟肖像的成本却高得令人望而却步。此外,渲染肖像中众所周知的恐怖谷效应会对用户体验产生重大影响,特别是当描绘非常类似于人类时,任何微小的人工制品都会引起怪异和令人厌恶的感觉。在本文中,我们提出了一种新颖的照片逼真肖像生成框架,可以有效减轻恐怖谷效应并提高渲染肖像的整体真实性。我们的关键想法是利用迁移学习来学习从渲染肖像的潜在空间到真实肖像的潜在空间的身份一致映射。在推理阶段,输入的头像肖像可以在保持面部身份的情况下通过改变其外观风格直接转换为真实肖像。为此,我们收集了一个新的数据集 Daz Rendered Faces HQ DRFHQ ,它是专门为渲染风格肖像而设计的。我们利用这个数据集来微调 StyleGAN2 生成器,使用我们精心设计的框架,这有助于保留与面部身份相关的几何和颜色特征。我们使用具有不同性别、年龄和种族差异的肖像来评估我们的框架。

Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases
Authors Xinpeng Liu, Yong Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu
运动理解的目标是在运动和动作语义之间建立可靠的映射,但这是一个具有挑战性的多对多问题。抽象的动作语义,即向前行走,可以通过感知上不同的动作“举起手臂行走”或“摆动”来传达,而一个动作可以携带不同的语义。它的背景和意图。这使得它们之间的优雅映射变得困难。先前的尝试采用了可靠性有限的直接映射范例。此外,当前的自动度量无法对动作和动作语义之间的一致性提供可靠的评估。我们将这些问题的根源确定为两种模式之间的巨大差距。为了缩小这一差距,我们提出了运动学短语 KP,它采用具有适当抽象、可解释性和通用性特征的人体运动的客观运动学事实。以KP为中介,我们可以统一运动知识库,构建运动理解系统。同时,KP 可以自动从运动转换为文本描述,没有主观偏见,启发了 Kinematic Prompt Generation KPG 作为一种新颖的自动运动生成基准。在广泛的实验中,我们的方法显示出优于其他方法的优越性。

DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions
Authors Sanket Kalwar, Mihir Ungarala, Shruti Jain, Aaron Monis, Krishna Reddy Konda, Sourav Garg, K Madhava Krishna
恶劣天气场景下的语义分割是自动驾驶系统的一项关键任务。虽然基础模型已显示出希望,但为了处理更具挑战性的场景,对专用适配器的需求变得明显。我们引入了 DiffPrompter,这是一种新颖的可微分视觉和潜在提示机制,旨在扩展基础模型中现有适配器的学习能力。我们提出的 nabla HFC 图像处理模块尤其在恶劣的天气条件下表现出色,而传统方法在这种情况下往往达不到要求。此外,我们研究了联合训练视觉提示和潜在提示的优势,证明这种组合方法可以显着提高分发场景外的性能。我们的可微视觉提示利用并行和串行架构来生成提示,有效改进不利条件下的对象分割任务。通过一系列全面的实验和评估,我们提供了经验证据来支持我们方法的有效性。

Degradation-Aware Self-Attention Based Transformer for Blind Image Super-Resolution
Authors Qingguo Liu, Pan Gao, Kang Han, Ningzhong Liu, Wei Xiang
与基于 CNN 的方法相比,基于 Transformer 的方法由于能够对远程依赖关系进行建模而实现了令人印象深刻的图像恢复结果。然而,如何将基于Transformer的方法应用于盲超分辨率SR领域,并进一步使SR网络适应退化信息仍然是一个悬而未决的问题。在本文中,我们提出了一种新的基于退化感知自注意力的 Transformer 模型,其中我们将对比学习纳入 Transformer 网络中,以学习具有未知噪声的输入图像的退化表示。特别是,我们将 CNN 和 Transformer 组件集成到 SR 网络中,首先使用由退化信息调制的 CNN 来提取局部特征,然后使用退化感知 Transformer 来提取全局语义特征。我们将我们提出的模型应用于几个流行的大规模基准数据集进行测试,并与现有方法相比实现了最先进的性能。特别是,我们的方法在 2 倍尺度的 Urban100 数据集上产生了 32.43 dB 的 PSNR,比 DASR 高 0.94 dB,在 4 倍尺度的 Urban100 数据集上产生了 26.62 dB 的 PSNR,比 KDSR 提高了 0.26 dB,在该领域树立了新的基准。区域。

Entropic Score metric: Decoupling Topology and Size in Training-free NAS
Authors Niccol Cavagnero, Luca Robbiano, Francesca Pistilli, Barbara Caputo, Giuseppe Averta
神经网络设计是一项复杂且常常令人畏惧的任务,特别是对于移动规模模型典型的资源受限场景。神经架构搜索是一种很有前途的自动化该过程的方法,但现有的竞争方法需要大量的训练时间和计算资源来生成准确的模型。为了克服这些限制,本文贡献了一种新颖的免训练度量,称为熵分数,通过其激活的聚合元素明智熵来估计模型表达能力,一种循环搜索算法来单独但协同地搜索模型大小和拓扑。 Entropic Sc​​ore 在搜索网络拓扑方面表现出了卓越的能力,并且与 LogSynflow 适当结合来搜索模型大小,产生了在不到 1 GPU 小时的时间内完全设计出适用于边缘应用的高性能混合变压器的卓越能力,从而获得了

Improving Neural Radiance Field using Near-Surface Sampling with Point Cloud Generation
Authors Hye Bin Yoo, Hyun Min Han, Sung Soo Hwang, Il Yong Chun
神经辐射场 NeRF 是一种新兴的视图合成方法,它对三维 3D 空间中的点进行采样并估计它们的存在和颜色概率。 NeRF 的缺点是需要较长的训练时间,因为它采样了许多 3D 点。此外,如果从遮挡区域或不太可能存在对象的空间中采样点,NeRF 的渲染质量可能会下降。这些问题可以通过估计 3D 场景的几何形状来解决。本文提出了一种近表面采样框架来提高NeRF的渲染质量。为此,所提出的方法使用训练集的深度图像来估计 3D 对象的表面,并且仅在该表面周围进行采样。为了获得新视图的深度信息,本文提出了一种 3D 点云生成方法和一种用于从点云投影深度的简单细化方法。实验结果表明,与原始 NeRF 和基于最先进深度的 NeRF 方法相比,所提出的近表面采样 NeRF 框架可以显着提高渲染质量。

Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning
Authors Yinda Chen, Wei Huang, Shenglong Zhou, Qi Chen, Zhiwei Xiong
现有监督神经元分割方法的性能高度依赖于准确注释的数量,特别是当应用于大规模电子显微镜 EM 数据时。通过从未标记数据中提取语义信息,自监督方法可以提高下游任务的性能,其中掩模图像模型MIM由于其简单且有效地从掩模图像中恢复原始信息而被广泛使用。然而,由于电磁图像中高度的结构局部性,以及大量噪声的存在,许多体素包含很少的判别信息,使得MIM预训练在神经元分割任务上效率低下。为了克服这一挑战,我们提出了一种基于决策的 MIM,利用强化学习 RL 自动搜索最佳图像遮蔽比和遮蔽策略。由于探索空间巨大,使用单智能体强化学习进行体素预测是不切实际的。因此,我们将每个输入补丁视为具有共享行为策略的代理,从而允许多代理协作。此外,这种多智能体模型可以捕获体素之间的依赖关系,这有利于下游分割任务。在代表性 EM 数据集上进行的实验表明,我们的方法在神经元分割任务上比其他自监督方法具有显着优势。

TiC: Exploring Vision Transformer in Convolution
Authors Song Zhang, Qingzhong Wang, Jiang Bian, Haoyi Xiong
虽然源自 Vision Transformers ViT 的模型在语音上一直在飙升,但预先训练的模型在不改变架构和配置(例如采样位置编码)的情况下无法无缝适应任意分辨率的图像,从而限制了它们执行各种视觉任务的灵活性。例如,基于 ViT Huge 的 Segment Anything Model SAM 要求将所有输入图像的大小调整为 1024 乘以 1024。为了克服这一限制,我们提出了多头自注意力卷积 MSA Conv,它将自注意力合并到广义卷积中,包括标准、扩张的和深度的。与 ViT 中的全局注意力相比,MSA Conv 的使用使 Transformer 能够处理不同大小的图像,而无需重新训练或重新缩放,这进一步降低了计算成本,而 ViT 中的全局注意力随着图像大小的增加而变得昂贵。随后,我们提出了卷积 TiC 中的视觉变换器,作为 MSA Conv 图像分类的概念证明,其中通过在令牌之间建立长距离连接,提出了两种容量增强策略,即多向循环移位机制和互池机制并扩大有效感受野。已经进行了大量的实验来验证 TiC 的整体有效性。此外,消融研究证实了 MSA Conv 和两种容量增强策略分别取得的性能改进。请注意,我们的提案旨在研究 ViT 中使用的全局注意力的替代方案,而 MSA Conv 通过使 TiC 与 ImageNet 1K 上的最新技术相当来满足我们的目标。

VI-Diff: Unpaired Visible-Infrared Translation Diffusion Model for Single Modality Labeled Visible-Infrared Person Re-identification
Authors Han Huang, Yan Huang, Liang Wang
由于跨模态数据标注的成本高昂,现实场景中的可见红外人员重新识别 VI ReID 提出了重大挑战。不同的传感摄像头(例如用于良好的不良照明条件的 RGB IR 摄像头)使得跨模式识别同一个人的成本高昂且容易出错。为了克服这个问题,我们探索在 VI ReID 任务中使用单模态标记数据,这更具成本效益和实用性。通过仅以一种模态(例如可见图像)标记行人并以另一种模态(例如红外图像)检索,我们的目标是使用不成对的图像到图像转换技术创建一个包含原始标记数据和模态转换数据的训练集。在本文中,我们提出了 VI Diff,一种有效解决可见红外人图像翻译任务的扩散模型。通过全面的实验,我们证明 VI Diff 优于现有的扩散和 GAN 模型,使其成为具有单模态标记数据的 VI ReID 的有前途的解决方案。我们的方法可以成为具有单一模态标记数据的 VI ReID 任务的有前途的解决方案,并作为未来研究的良好起点。

Dense Random Texture Detection using Beta Distribution Statistics
Authors Soeren Molander
本文描述了一种使用在图像边缘采样的完全连接点来检测密集随机纹理的方法。边缘图像随机采样点,计算邻域内所有连接点之间的标准 L2 距离。对于每个点,都会检查该点是否与图像边缘相交。如果是这种情况,则将单位值添加到距离中,否则为零。由此,计算 1.0..2.0 范围内的全连接边图的边多余指数,其中 1.0 表示没有边。该比率可以解释为概率未知的采样伯努利过程。概率的贝叶斯后验估计可以与其共轭先验相关联,共轭先验是 Beta alpha 、 beta 分布,其中超参数 alpha 和 beta 与边缘交叉的数量相关。较低的 beta 值表示纹理丰富的区域,较高的值表示纹理较不丰富。

Automated 3D Segmentation of Kidneys and Tumors in MICCAI KiTS 2023 Challenge
Authors Andriy Myronenko, Dong Yang, Yufan He, Daguang Xu
肾脏和肾脏肿瘤分割挑战 KiTS 2023 为研究人员提供了一个平台,将他们的解决方案与 3D CT 分割进行比较。在这项工作中,我们描述了我们使用 MONAI 中提供的 Auto3DSeg 自动分段提交的挑战。

ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer
Authors Yifan Xu, Pourya Shamsolmoali, Jie Yang
视觉地点识别 VPR 是一项极具挑战性的任务,具有广泛的应用,包括机器人导航和自动驾驶车辆。由于复杂场景中重复区域的存在以及对小物体缺乏关注,导致识别偏差,VPR尤其困难。在本文中,我们提出了 ClusVPR,这是一种解决重复区域和小物体表示中冗余信息的具体问题的新颖方法。与依赖卷积神经网络 CNN 生成特征图的现有方法不同,ClusVPR 引入了一种独特的范例,称为基于聚类的加权变换网络 CWTNet。 CWTNet 利用基于聚类的加权特征图的力量并集成全局依赖性来有效解决大规模 VPR 问题中遇到的视觉偏差。我们还引入了优化的 VLAD OptLAD 层,可显着减少参数数量并提高模型效率。该层专门设计用于聚合​​从按比例缩放的图像块获得的信息。此外,我们的金字塔自监督策略侧重于从尺度图像块而不是整个图像中提取代表性和多样化的信息,这对于在 VPR 中捕获代表性和多样化的信息至关重要。

End-to-End Chess Recognition
Authors Athanasios Masouris, Jan van Gemert
国际象棋识别是指从棋盘图像中识别棋子配置的任务。与旨在通过棋盘检测、方格定位和棋子分类的流程来解决此任务的主要方法相反,我们依靠深度学习模型的力量,并引入两种新颖的方法来绕过此流程并直接预测棋盘配置整个图像。这样做,我们避免了顺序方法固有的错误积累和中间注释的需要。此外,我们还引入了一个新的数据集,即国际象棋识别数据集 ChessReD,专为国际象棋识别而设计,由 10,800 张图像及其相应的注释组成。与现有角度有限的合成数据集相比,该数据集包含使用智能手机摄像头从各个角度捕获的国际象棋阵型的真实图像的多样化集合,传感器的选择是为了确保现实世界的适用性。我们使用该数据集来训练我们的模型并评估其性能并将其与当前最先进的技术进行比较。

A Deeply Supervised Semantic Segmentation Method Based on GAN
Authors Wei Zhao, Qiyu Wei, Zeng Zeng
近年来,在交通系统自动化和效率需求不断增长的推动下,智能交通领域取得了快速发展。交通安全是智能交通系统不可或缺的任务之一,需要准确识别和定位各种道路要素,例如道路裂缝、车道和交通标志。语义分割在实现此任务中发挥着关键作用,因为它能够将图像划分为具有准确边界的有意义的区域。在这项研究中,我们提出了一种改进的语义分割模型,它将对抗性学习的优势与最先进的语义分割技术相结合。该模型将生成对抗网络 GAN 框架集成到传统的语义分割模型中,增强了模型在捕获交通图像中复杂而微妙的特征方面的性能。与现有方法(textit,即 SEGAN)相比,我们方法的有效性通过道路裂缝数据集的性能显着提升得到了证明。这种改进可以归因于对抗性学习和语义分割的协同效应,从而可以更精细和准确地表示道路结构和条件。

Excision and Recovery: Enhancing Surface Anomaly Detection with Attention-based Single Deterministic Masking
Authors YeongHyeon Park, Sungho Kang, Myung Jin Kim, Yeonho Lee, Juneho Yi
由于异常数据稀缺的数量不平衡问题,表面检测中的异常检测 AD 是制造业中一项重要但具有挑战性的任务。为了克服上述问题,广泛采用仅使用无异常样本进行训练的重建编码器解码器ED,例如自动编码器或U Net,希望未见的异常会产生比正常情况更大的重建误差。近年来,通过修复进行自监督重建的研究已有报道。他们掩盖可疑缺陷区域进行修复,以使重建ED看不到它们,故意造成异常重建不准确。然而,它们的局限性是由于事先不知道缺陷区域,因此需要多次随机屏蔽来覆盖整个输入图像。我们提出了一种新颖的通过修复方法进行重建的方法,称为切除和恢复 EAR,其特征是单一确定性掩蔽。为此,我们利用预先训练的空间注意模型来预测应被屏蔽的潜在可疑缺陷区域。我们还采用 U Net 的变体作为我们的 ED,以进一步限制 U Net 模型对异常的重建能力,其中可以选择性地禁用不同层的跳跃连接。在训练阶段,所有跳跃连接都被打开,以充分利用 U Net 架构的优势。相反,对于推理,我们只保留较深的跳过连接,而关闭较浅的连接。我们使用针对常用表面 AD 数据集 KolektorSDD2 的 MNIST 预训练注意力来验证 EAR 的有效性。实验结果表明,与最先进的方法相比,EAR 实现了更好的 AD 性能和更高的吞吐量。

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation
Authors Md Kaykobad Reza, Ashley Prater Bennette, M. Salman Asif
多模态学习旨在利用多个来源的数据来提高下游任务的整体性能。数据中的冗余使得多模态系统对于某些相关模态中缺失或损坏的观测具有鲁棒性是可取的。然而,我们观察到,如果测试时缺少一种或多种模态,则几个现有多模态网络的性能会显着恶化。为了实现对缺失模态的鲁棒性,我们为预训练的多模态网络提出了简单且参数有效的适应程序。特别是,我们利用低阶适应和中间特征的调制来补偿缺失的模式。我们证明,这种适应可以部分弥补由于缺少模态而导致的性能下降,并且在某些情况下优于针对可用模态组合训练的独立专用网络。所提出的适应需要极少量的参数,例如,在大多数实验中少于总参数的 0.7。我们进行了一系列实验,以突出我们提出的方法的稳健性,使用不同的数据集进行 RGB 热和 RGB 深度语义分割、多模态材料分割和多模态情感分析任务。

CUPre: Cross-domain Unsupervised Pre-training for Few-Shot Cell Segmentation
Authors Weibin Liao, Xuhong Li, Qingzhong Wang, Yanwu Xu, Zhaozheng Yin, Haoyi Xiong
虽然对象检测任务(例如上下文中的常见对象 COCO 1)的预训练可以显着提高细胞分割的性能,但它仍然消耗大量精细注释的细胞图像 2,其中每个细胞的每个细胞都有边界框、掩模和细胞类型。图像,以微调预训练的模型。为了降低注释成本,这项工作考虑了预训练 DNN 模型用于少数镜头细胞分割的问题,其中大量未标记的细胞图像可用,但只有一小部分被注释。因此,我们提出跨域无监督预训练,即 CUPre,将从 COCO 中学习到的常见视觉对象的对象检测和实例分割能力转移到使用未标记图像的细胞的视觉域。给定具有骨干、颈部和头部模块的标准 COCO 预训练网络,CUPre 采用备用多任务预训练 AMT2 程序,在预训练的每次迭代中都有两个子任务,AMT2 首先使用来自多个细胞数据集的细胞图像来训练骨干无监督动量对比学习 MoCo 3 ,然后通过实例分割使用普通 COCO 数据集训练整个模型。预训练后,CUPre 使用一些带注释的图像对细胞分割任务的整个模型进行微调。我们使用 LIVECell 2 和 BBBC038 4 数据集在少量镜头实例分割设置中进行了大量实验来评估 CUPre。

Sub-token ViT Embedding via Stochastic Resonance Transformers
Authors Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto
我们发现 Vision Transformers ViT 中存在量化伪影,这是由于这些架构中固有的图像标记化步骤而产生的。这些伪影会导致粗量化的特征,这会对性能产生负面影响,尤其是在下游密集预测任务上。我们提出了一种零样本方法来改进预先训练的 ViT 处理空间量化的方式。特别是,受随机共振(一种传统应用于气候动力学和信号处理的方法)的启发,我们建议通过子标记空间平移来集成从扰动输入图像获得的特征。我们将我们的方法称为“随机共振变换器 SRT”,我们证明该方法可以有效地超解析预训练 ViT 的特征,捕获更多可能因标记化而被忽略的局部细粒度结构。 SRT 可以应用于任何层、任何任务,并且不需要任何微调。当应用于单目深度预测时,前者的优势是显而易见的,我们表明,在中间 ViT 特征上应用 SRT 时,集成模型输出是有害的,在三个维度的 RMSE 和 RMSE 日志指标上,平均优于基线模型 4.7 和 14.9不同的架构。当应用于半监督视频对象分割时,SRT 还在所有指标上均匀地优于基线模型,F J 分数平均提高 2.4。我们进一步表明,这些量化伪影可以通过自蒸馏在一定程度上减弱。在无监督显着区域分割上,SRT 在 maxF 指标上比基本模型平均提高了 2.1。

Towards Increasing the Robustness of Predictive Steering-Control Autonomous Navigation Systems Against Dash Cam Image Angle Perturbations Due to Pothole Encounters
Authors Shivam Aarya Johns Hopkins University
汽车制造商正在竞相为其车辆创建自主导航和转向控制算法。这些软件旨在处理各种现实生活场景,例如避障和车道操纵。目前正在进行一些研究,将坑洼避免纳入这些自主系统中。然而,关于撞坑对使用摄像头做出驾驶决策的自主导航软件的影响的研究却很少。遇到坑洼时摄像机角度的扰动可能会导致预测的转向角度出现错误。在本文中,我们提出了一种新模型来补偿此类角度扰动并减少转向控制预测算法中的任何错误。我们根据公开数据集的扰动评估了我们的模型,并表明我们的模型可以将扰动图像的估计转向角误差减少到 2.3 ,从而使自主转向控制对汽车一个车轮翻倒时引起的行车记录仪图像角度扰动具有鲁棒性

Gradient Descent Provably Solves Nonlinear Tomographic Reconstruction
Authors Sara Fridovich Keil, Fabrizio Valdivia, Gordon Wetzstein, Benjamin Recht, Mahdi Soltanolkotabi
在计算机断层扫描 CT 中,正演模型由线性 Radon 变换和根据比尔朗伯定律基于光衰减的指数非线性组成。传统的重建通常涉及将这种非线性反转作为预处理步骤,然后求解凸反问题。然而,使用氡变换所需的这种非线性测量预处理在高密度材料(例如金属)附近的条件很差。这种预处理使得 CT 重建方法对数值敏感,并且容易受到高密度区域附近伪影的影响。在本文中,我们研究了一种通过非线性前向模型从原始测量结果直接重建信号的技术。尽管这种优化是非凸的,但我们证明梯度下降可以以几何速率收敛到全局最优值,从而用几乎最少数量的随机测量完美地重建基础信号。我们还在未确定的环境中证明了类似的结果,其中测量的数量明显小于信号的维度。这是通过通过对优化变量的约束强制执行有关信号的先验结构信息来实现的。我们通过锥形束 CT 实验在合成和真实 3D 体积上说明了直接非线性 CT 重建的好处。

ILSH: The Imperial Light-Stage Head Dataset for Human Head View Synthesis
Authors Jiali Zheng, Youngkyoon Jang, Athanasios Papaioannou, Christos Kampouris, Rolandos Alexandros Potamias, Foivos Paraperas Papantoniou, Efstathios Galanakis, Ales Leonardis, Stefanos Zafeiriou
本文介绍了 Imperial Light Stage Head ILSH 数据集,这是一种新颖的光舞台捕获的人体头部数据集,旨在支持人体头部的视图合成学术挑战。 ILSH 数据集旨在促进多种方法,例如场景特定或通用神经渲染、多视图几何、3D 视觉和计算机图形,以进一步推进照片逼真的人类化身的开发。本文详细介绍了专门用于捕捉高分辨率 4K 人体头部图像的光平台的设置,并描述了解决预处理挑战和收集高质量数据的道德问题的过程。除了数据收集之外,我们还将数据集分为训练集、验证集和测试集。我们的目标是为这个新颖的数据集设计和支持公平视图综合挑战任务,以便在使用测试集时可以保持和预期类似的性能水平,就像使用验证集时一样。

Hard View Selection for Contrastive Learning
Authors Fabio Ferreira, Ivo Rapant, Frank Hutter
许多对比学习 CL 方法将其模型训练为对图像输入的不同视图不变,而良好的数据增强管道至关重要。虽然相当多的努力是为了改进前置任务、架构或鲁棒性,例如 Siamese 网络或教师 softmax 中心化,但这些方法中的大多数仍然强烈依赖于图像增强管道内操作的随机采样,例如随机调整大小的裁剪或色彩失真操作。在本文中,我们认为视图生成的作用及其对性能的影响迄今为止尚未受到足够的重视。为了解决这个问题,我们提出了一种简单、免学习但功能强大的硬视图选择 HVS 策略,旨在扩展随机视图生成,以便在 CL 训练期间将预训练模型暴露给更难的样本。它包含以下迭代步骤 1 随机采样多个视图并创建两个视图对,2 在当前训练的模型上为每个视图对运行前向传递,3 对抗性地选择产生最差损失的对,4 运行反向传递选定的对。在我们的实证分析中,我们表明,在幕后,HVS 通过在预训练期间控制视图联合的交集来增加任务难度。只需 300 epoch 预训练,HVS 就能够与 800 epoch DINO 基线相媲美,即使考虑到 HVS 额外转发引起的减速,该基线仍然非常有利。

Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation
Authors Kashu Yamazaki, Taisei Hanyu, Khoa Vo, Thang Pham, Minh Tran, Gianfranco Doretto, Anh Nguyen, Ngan Le
精确的 3D 环境测绘对于机器人技术至关重要。现有方法通常在训练期间依赖于预定义的概念,或者在生成语义图时非常耗时。本文介绍了 Open Fusion,这是一种使用 RGB D 数据进行实时开放词汇 3D 映射和可查询场景表示的突破性方法。 Open Fusion 利用预训练视觉语言基础模型 VLFM 的强大功能进行开放集语义理解,并采用截断符号距离函数 TSDF 进行快速 3D 场景重建。通过利用 VLFM,我们提取基于区域的嵌入及其相关的置信图。然后使用增强的基于匈牙利的特征匹配机制将它们与来自 TSDF 的 3D 知识集成。值得注意的是,Open Fusion 为开放词汇提供了出色的无注释 3D 分割,无需额外的 3D 培训。针对领先的零样本方法对 ScanNet 数据集进行的基准测试凸显了 Open Fusion 的优越性。此外,它无缝结合了基于区域的 VLFM 和 TSDF 的优势,促进实时 3D 场景理解,包括对象概念和开放世界语义。

Coloring Deep CNN Layers with Activation Hue Loss
Authors Louis Fran ois Bouchard, Mohsen Ben Lazreg, Matthew Toews
本文提出了一种新的类似色调的角度参数来对深度卷积神经网络 CNN 激活空间的结构进行建模,称为 em 激活色调,以正则化模型以实现更有效的学习。激活色调将标准 3 通道 RGB 强度空间中的色调角度概念推广到 N 通道激活空间。基于带有预训练网络的激活向量的最近邻索引的一系列观察表明,类信息激活集中在 x,y 图像平面和多通道激活空间中的角度 theta 附近。提出了一种像角度 theta 标签这样的色调形式的正则化项来补充标准的热损失。

Characterizing the Features of Mitotic Figures Using a Conditional Diffusion Probabilistic Model
Authors Cagla Deniz Bahadir, Benjamin Liechty, David J. Pisapia, Mert R. Sabuncu
组织学图像中的有丝分裂图检测是一项难以定义但具有临床意义的任务,其中标签是根据病理学家的解释生成的,并且没有金标准独立的基本事实。然而,众所周知,这些基于解释的标签通常不可靠,部分原因是专业水平和人类主观性的差异。在本文中,我们的目标是阐明有丝分裂标签固有的不确定性,并以人类可解释的方式描述有丝分裂图分类任务。我们训练概率扩散模型来合成给定有丝分裂标签条件的细胞核斑块。使用这个模型,我们可以生成一系列合成图像,这些图像对应于过渡到有丝分裂状态的相同细胞核。这使我们能够识别与有丝分裂相关的不同图像特征,例如细胞质粒度、核密度、核不规则性以及细胞核与细胞体之间的高对比度。

Consistency Regularization Improves Placenta Segmentation in Fetal EPI MRI Time Series
Authors Yingcheng Liu, Neerav Karani, Neel Dey, S. Mazdak Abulnaga, Junshen Xu, P. Ellen Grant, Esra Abaci Turk, Polina Golland
胎盘在胎儿发育中起着至关重要的作用。胎儿 EPI MRI 的自动 3D 胎盘分割有望推动产前护理。本文提出了一种有效的半监督学习方法,用于改进胎儿 EPI MRI 时间序列中的胎盘分割。我们采用一致性正则化损失来提高同一图像的空间变换下的一致性以及时间序列中相邻图像之间的时间一致性。实验结果表明,该方法提高了整体分割精度,并为异常值和硬样本提供了更好的性能。评估还表明我们的方法提高了预测的时间一致性,这可能导致更准确地计算时间胎盘生物标志物。这项工作有助于胎盘研究和产前临床决策。

OpenIncrement: A Unified Framework for Open Set Recognition and Deep Class-Incremental Learning
Authors Jiawen Xu, Claas Grohnfeldt, Odej Kao
在大多数深度增量学习研究工作中,假设预先识别新样本以进行神经网络再训练。然而,实际的深度分类器经常会错误地识别这些样本,从而导致错误的预测。这种错误分类可能会降低模型性能。

Less is More: On the Feature Redundancy of Pretrained Models When Transferring to Few-shot Tasks
Authors Xu Luo, Difan Zou, Lianli Gao, Zenglin Xu, Jingkuan Song
将预训练模型转移到下游任务就像使用目标数据进行线性探测一样简单,即根据从预训练模型中提取的冻结特征来训练线性分类器。由于预训练和下游数据集之间可能存在显着差距,因此人们可能会问预训练特征的所有维度是否对给定的下游任务都有用。我们表明,对于线性探测,当下游数据稀缺或镜头很少时,预训练的特征可能会极其冗余。对于某些情况,例如 5 路 1 镜头任务,仅使用 1 个最重要的特征维度就能够恢复使用完整表示所实现的性能。有趣的是,大多数维度仅在少镜头设置下是冗余的,并且当镜头数量增加时逐渐变得有用,这表明特征冗余可能是表征少镜头转移问题的少镜头性质的关键。我们对这种现象给出了理论上的理解,并展示了高方差和类质心之间的小距离的维度如何作为混杂因素,在少数镜头设置下严重干扰分类结果。作为解决这个问题的尝试,我们发现冗余特征很难用少量的训练样本准确识别,但我们可以根据估计的特征重要性使用软掩模调整特征大小。

Integrating Audio-Visual Features for Multimodal Deepfake Detection
Authors Sneha Muppalla, Shan Jia, Siwei Lyu
Deepfakes 是人工智能生成的媒体,其中图像或视频经过了数字修改。深度造假技术的进步导致了隐私和安全问题。大多数深度伪造检测技术依赖于单一模态的检测。现有的视听检测方法并不总是优于基于单一模态的分析方法。因此,本文提出了一种基于视听的深度伪造检测方法,该方法将细粒度深度伪造识别与二元分类相结合。我们通过组合特定于每种单一模态的标签将样本分为四种类型。

WLST: Weak Labels Guided Self-training for Weakly-supervised Domain Adaptation on 3D Object Detection
Authors Tsung Lin Tsou, Tsung Han Wu, Winston H. Hsu
在 3D 对象检测的域适应 DA 领域,大部分工作致力于无监督域适应 UDA。然而,在没有任何目标注释的情况下,UDA 方法和完全监督方法之间的性能差距仍然很明显,这对于现实世界的应用程序来说是不切实际的。另一方面,弱监督域适应 WDA 是一项尚未充分探索但实际的任务,只需要在目标域上进行很少的标记工作。为了以经济有效的方式提高 DA 性能,我们提出了一种通用的弱标签引导自训练框架 WLST,专为 3D 对象检测上的 WDA 设计。通过将自动标记器(可以从 2D 边界框生成 3D 伪标签)合并到现有的自训练管道中,我们的方法能够生成更强大且一致的伪标签,这将有利于目标域上的训练过程。大量实验证明了我们的 WLST 框架的有效性、鲁棒性和检测器不可知性。

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models
Authors Andy Zhou, Kai Yan, Michal Shlapentokh Rothman, Haohan Wang, Yu Xiong Wang
虽然大型语言模型法学硕士在一系列决策任务中表现出了令人印象深刻的性能,但它们依赖于简单的执行过程,无法作为自主代理进行广泛部署。我们引入了 LATS 语言代理树搜索,这是一个通用框架,可以协同法学硕士在规划、行动和推理方面的能力。受到基于模型的强化学习中蒙特卡罗树搜索的启发,LATS 采用 LLM 作为代理、价值函数和优化器,重新利用其潜在优势来增强决策。该方法的关键是使用外部反馈环境,它提供了一种更加深思熟虑和适应性更强的问题解决机制,超越了现有技术的限制。我们跨不同领域(例如编程、HotPotQA 和 WebShop)的实验评估说明了 LATS 在推理和行动方面的适用性。

Convergent ADMM Plug and Play PET Image Reconstruction
Authors Florent Sureau, Mahdi Latreche, Marion Savanier, Claude Comtat
在这项工作中,我们研究了混合 PET 重建算法,该算法基于耦合基于模型的变分重建和 ADMM 即插即用框架中单独学习的深度神经网络算子 DNN 的应用。根据最近的优化结果,可以通过在学习过程中对网络参数施加额外的约束来实现该方案的定点收敛。我们提出了这样的 ADMM 算法,并在现实的 18F FDG 合成大脑测试中表明,所提出的方案确实通过实验导致收敛到有意义的固定点。

Graph learning in robotics: a survey
Authors Francesca Pistilli, Giuseppe Averta
图的深度神经网络已经成为学习复杂非欧几里德数据的强大工具,这种数据在各种不同的应用中变得越来越普遍。然而,尽管它们的潜力已在机器学习社区中得到广泛认可,但对于机器人应用等下游任务,图学习在很大程度上尚未得到探索。为了充分释放它们的潜力,因此,我们提出从机器人角度对图神经架构进行回顾。本文涵盖了基于图的模型的基础知识,包括其架构、训练过程和应用程序。它还讨论了应用环境中出现的最新进展和挑战,例如与感知、决策和控制的整合相关的进展和挑战。最后,本文对各种受益于图结构学习的机器人应用进行了广泛的回顾,例如身体和接触建模、机器人操纵、动作识别、舰队运动规划等等。

Compositional Servoing by Recombining Demonstrations
Authors Max Argus, Abhijeet Nayak, Martin B chner, Silvio Galesso, Abhinav Valada, Thomas Brox
基于图像输入的学习操纵策略通常表现出较弱的任务转移能力。相比之下,视觉伺服方法可以在高精度场景下实现高效的任务转移,同时只需要少量演示。在这项工作中,我们提出了一个框架,将视觉伺服任务表述为图遍历。我们的方法不仅扩展了视觉伺服的鲁棒性,而且还基于一些特定任务的演示实现了多任务能力。我们通过拆分现有演示并重新组合它们来构建演示图。为了遍历推理案例中的演示图,我们利用相似性函数来帮助为特定任务选择最佳演示。这使我们能够计算穿过该图的最短路径。最终,我们表明,重新组合演示可以带来更高的任务各自的成功。

Whole Slide Multiple Instance Learning for Predicting Axillary Lymph Node Metastasis
Authors Glejdis Shk mbi, Johanna P. M ller, Zhe Li, Katharina Breininger, Peter Sch ffler, Bernhard Kainz
乳腺癌是全球女性健康的一个主要问题,腋窝淋巴结ALN转移的识别对于预后评估和治疗指导至关重要。本文提出了一种深度学习 DL 分类流程,用于量化数字核心针活检 CNB 图像中的临床信息,比现有方法少一步。使用包含 1058 名患者的公开数据集来评估最先进的 SOTA DL 模型的不同基线在基于 CNB 图像对 ALN 转移状态进行分类时的性能。还对各种数据增强技术进行了广泛的消融研究。

Aorta Segmentation from 3D CT in MICCAI SEG.A. 2023 Challenge
Authors Andriy Myronenko, Dong Yang, Yufan He, Daguang Xu
主动脉提供身体的主要血液供应。主动脉成像筛查有助于早期主动脉疾病的检测和监测。在这项工作中,我们描述了 3D CT 挑战中主动脉 SEG.A.231 分割的解决方案。我们使用 MONAI 中提供的自动分割方法 Auto3DSeg。我们的解决方案的平均 Dice 得分为 0.920,Hausdorff Distance HD95 的第 95 个百分位数为 6.013,排名第一并赢得了 SEG.A。

In the Blink of an Eye: Event-based Emotion Recognition
Authors Haiwei Zhang, Jiqing Zhang, Bo Dong, Pieter Peers, Wenwei Wu, Xiaopeng Wei, Felix Heide, Xin Yang
我们引入了一种可穿戴单眼情绪识别设备和一种实时方法,可以通过对情绪的部分观察来识别情绪,这种方法对照明条件的变化具有鲁棒性。我们方法的核心是基于生物启发事件的相机设置和新设计的轻量级尖眼情感网络 SEEN。与传统相机相比,基于事件的相机提供高达 140 dB(相对于 80 dB)的更高动态范围和更高的时间分辨率。因此,捕获的事件可以在具有挑战性的照明条件下编码丰富的时间线索。然而,这些事件缺乏纹理信息,给有效解码时间信息带来了问题。 SEEN 从两个不同的角度解决这个问题。首先,我们采用卷积尖峰层来利用尖峰神经网络解码相关时间信息的能力。其次,SEEN 学习从相应的强度帧中提取基本的空间线索,并利用新颖的权重复制方案在训练和推理过程中向卷积尖峰层传达空间注意力。我们在专门收集的基于单眼事件的情感 SEE 数据集上广泛验证并证明了我们方法的有效性。

Understanding prompt engineering may not require rethinking generalization
Authors Victor Akinwande, Yiding Jiang, Dylan Sam, J. Zico Kolter
提示视觉语言模型中的零样本学习,即在没有显式训练过程的情况下制作提示来构建分类器的实践,在许多环境中取得了令人印象深刻的性能。这一成功提出了一个看似令人惊讶的观察结果,这些方法受到过度拟合的影响相对较小,即,当手动设计提示以在给定训练集上实现低错误从而使该方法不再实际上是零样本时,该方法在保留时仍然表现良好测试数据。在本文中,我们表明我们可以通过求助于经典 PAC 贝叶斯界限来很好地解释这种性能。具体来说,我们表明提示的离散性质与语言模型给出的 PAC 贝叶斯先验相结合,导致泛化界限按照文献标准非常严格,例如,ImageNet 分类器的泛化界限通常在真实测试误差的几个百分点。我们凭经验证明,这适用于现有的手工提示和通过简单的贪婪搜索生成的提示。此外,所得的界限非常适合模型选择,具有最佳界限的模型通常也具有最佳的测试性能。

Diffusion Models as Masked Audio-Video Learners
Authors Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell Horton
在过去的几年中,音频和视觉信号之间的同步已被用来学习更丰富的视听表示。借助大量未标记视频的帮助,许多无监督训练框架在各种下游音频和视频任务中表现出了令人印象深刻的结果。最近,Masked Audio Video Learners MAViL 已成为最先进的音频视频预训练框架。 MAViL 将对比学习与屏蔽自动编码相结合,通过融合两种模态的信息来联合重建音频频谱图和视频帧。在本文中,我们研究了扩散模型和 MAViL 之间的潜在协同作用,寻求从这两个框架中获得共同利益。将扩散纳入 MAViL,并结合各种训练效率方法(包括使用掩蔽比课程和自适应批量大小调整),可将预训练浮点运算 FLOPS 显着减少 32 倍,预训练挂钟时间减少 18 倍。

TWICE Dataset: Digital Twin of Test Scenarios in a Controlled Environment
Authors Leonardo Novicki Neto, Fabio Reway, Yuri Poledna, Maikol Funk Drechsler, Eduardo Parente Ribeiro, Werner Huber, Christian Icking
确保自动驾驶汽车在恶劣天气下安全可靠的运行仍然是一个重大挑战。为了解决这个问题,我们开发了一个综合数据集,由在真实测试赛道中获取并在实验室中针对相同测试场景复制的传感器数据组成。提供的数据集包括摄像头、雷达、LiDAR、惯性测量单元IMU以及雨、夜间和下雪等恶劣天气条件下记录的GPS数据。我们使用汽车、骑自行车的人、卡车和行人等感兴趣的对象记录测试场景,其中一些受 EURONCAP 欧洲新车评估计划的启发。实验室生成的传感器数据是通过在循环环境中的硬件中执行基于仿真的测试以及每个真实测试场景的数字孪生来获取的。该数据集包含超过2小时的记录,总计超过280GB的数据。因此,对于自动驾驶汽车领域的研究人员来说,在恶劣天气条件下测试和改进算法以及探索模拟与现实的差距是宝贵的资源。

Accelerated Neural Network Training with Rooted Logistic Objectives
Authors Zhu Wang, Praveen Raj Veluswami, Harsh Mishra, Sathya N. Ravi
现实世界场景中部署的许多神经网络都是使用基于交叉熵的损失函数进行训练的。从优化的角度来看,众所周知,梯度下降等一阶方法的行为很大程度上取决于数据集的可分离性。事实上,即使在最简单的二元分类情况下,收敛速度也取决于两个因素:1 数据矩阵的条件数,2 数据集的可分离性。由于没有进一步的预处理技术,例如过度参数化、数据增强等,可分离性是所考虑的数据分布的内在量。我们专注于逻辑函数的景观设计,并推导了一系列新的严格凸函数,这些函数至少与逻辑损失一样严格。这些函数的最小值尽可能与最小范数解的最小值一致。导出函数的严格凸性可以扩展到微调最先进的模型和应用程序。在实证实验分析中,我们将提出的根逻辑目标应用于各种分类基准上的多个深度模型,例如完全连接的神经网络和变压器。我们的结果表明,使用根损失函数进行训练可以更快地收敛并获得性能提升。此外,我们还说明了新颖的根损失函数在基于生成建模的下游应用中的应用,例如使用根损失微调 StyleGAN 模型。

FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural Operator
Authors Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda Mahmood
由于 3D 医学图像分割的计算复杂性,使用下采样图像进行训练是深度学习中内存不足错误的常见补救措施。然而,由于标准空间卷积对图像分辨率的变化很敏感,因此当应用于原始分辨率时,使用下采样图像训练的卷积神经网络的准确性可能不是最佳的。为了解决这个限制,我们引入了 FNOSeg3D,这是一种基于傅立叶神经算子 FNO 的 3D 分割模型,对于训练图像分辨率具有鲁棒性。 FNO 是一种用于学习偏微分方程中函数之间映射的深度学习框架,具有零样本超分辨率和全局感受野等吸引人的特性。我们通过减少参数要求并通过残差连接和深度监督增强其学习能力来改进 FNO,从而形成参数高效且分辨率稳健的 FNOSeg3D 模型。

Functional data learning using convolutional neural networks
Authors Jose Galarza, Tamer Oraby
在本文中,我们展示了如何将卷积神经网络 CNN 用于噪声和非噪声函数数据的回归和分类学习问题。主要思想是将功能数据转换为 28 x 28 图像。我们使用特定但典型的卷积神经网络架构来执行参数估计和函数形式分类的所有回归练习。首先,我们使用一些带有和不带有随机噪声的功能数据的功能案例研究来展示新方法的优势。特别是,我们用它来估计指数增长和衰减率、正弦和余弦函数的带宽以及曲线峰值的大小和宽度。我们还用它来对函数数据的单调性和曲率、代数增长与指数增长以及函数数据的峰值数量进行分类。其次,我们将相同的卷积神经网络应用于噪声和非噪声混沌数据中的李雅普诺夫指数估计、从流行曲线估计疾病传播率以及检测药物溶出曲线的相似性。最后,我们将该方法应用于现实生活数据,以检测分类问题中的帕金森病患者。

Enhancing Healthcare with EOG: A Novel Approach to Sleep Stage Classification
Authors Suvadeep Maiti, Shivam Kumar Sharma, Raju S. Bapi
我们引入了一种使用 EOG 信号进行自动睡眠阶段分类的创新方法,解决了与 EEG 数据采集相关的不适和不切实际的问题。此外,值得注意的是,这种方法在该领域尚未开发,这凸显了其新颖见解和贡献的潜力。我们提出的 SE Resnet Transformer 模型根据原始 EOG 信号提供了五个不同睡眠阶段的准确分类。对公开数据库 SleepEDF 20、SleepEDF 78 和 SHHS 的广泛验证显示出显着的性能,宏 F1 分数分别为 74.72、70.63 和 69.26。我们的模型擅长识别快速眼动睡眠,这是睡眠障碍研究的一个重要方面。我们还使用 1D GradCAM 和 t SNE 图等技术深入了解模型的内部机制。我们的方法提高了睡眠阶段分类的可及性,同时减少了对脑电图模式的需求。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(视觉,计算机视觉,Papers,人工智能,计算机视觉,CV,diffusion,model,NERF,早期视觉,图像处理)