【AI视野·今日CV 计算机视觉论文速览 第244期】Fri, 15 Apr 2022

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 15 Apr 2022
Totally 70 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第244期】Fri, 15 Apr 2022_第1张图片

Daily Computer Vision Papers

A Level Set Theory for Neural Implicit Evolution under Explicit Flows
Authors Ishit Mehta, Manmohan Chandraker, Ravi Ramamoorthi
基于坐标的神经网络参数化隐式表面已经成为几何的有效表示。它们有效地充当参数水平集,其中零水平集定义了感兴趣的表面。我们提出了一个框架,该框架允许将为三角形网格定义的变形操作应用于此类隐式表面。这些操作中的一些可以被视为在显式表面上引起瞬时流场的能量最小化问题。我们的方法通过扩展水平集的经典理论,使用流场来变形参数隐式表面。我们还通过形式化与水平集理论的联系,为现有的可微表面提取和渲染方法得出了一个统一的观点。

Joint Forecasting of Panoptic Segmentations with Difference Attention
Authors Colin Graber, Cyril Jazra, Wenjie Luo, Liangyan Gui, Alexander Schwing
表征的预测对于安全和有效的自主性很重要。为此,在最近的工作中,全景分割已被研究为一种引人注目的表示。然而,最近全景分割预测的最新技术存在两个问题,首先,各个对象实例彼此独立处理,其次,各个对象实例预测以启发式方式合并。为了解决这两个问题,我们研究了一种新的全景分割预测模型,该模型使用基于差异注意力的变换器模型联合预测场景中的所有对象实例。它通过考虑深度估计来进一步细化预测。我们在 Cityscapes 和 AIODrive 数据集上评估提出的模型。我们发现差异注意力特别适合预测,因为位置等数量的差异使模型能够明确地推理速度和加速度。

Any-resolution Training for High-resolution Image Synthesis
Authors Lucy Chai, Michael Gharbi, Eli Shechtman, Phillip Isola, Richard Zhang
生成模型以固定分辨率运行,即使自然图像有各种尺寸。随着高分辨率细节被下采样,低分辨率图像被完全丢弃,宝贵的监督就丢失了。我们认为每个像素都很重要,并创建具有可变大小图像的数据集,以原始分辨率收集。利用这些数据具有挑战性,高分辨率处理成本高昂,而当前架构只能处理固定分辨率的数据。我们引入了连续尺度训练,这是一个以随机尺度对补丁进行采样以训练具有可变输出分辨率的新生成器的过程。首先,在目标尺度上调节生成器使我们能够生成比以前更高分辨率的图像,而无需向模型添加层。其次,通过以连续坐标为条件,我们可以采样仍然遵循一致的全局布局的补丁,这也允许在更高分辨率下进行可扩展的训练。受控 FFHQ 实验表明,我们的方法比离散多尺度方法更好地利用了多分辨率训练数据,获得了更好的 FID 分数和更清晰的高频细节。我们还训练了其他自然图像领域,包括教堂、山脉和鸟类,并展示了具有连贯全局布局和逼真局部细节的任意比例合成,在我们的实验中超过了 2K 分辨率。

MiniViT: Compressing Vision Transformers with Weight Multiplexing
Authors Jinnian Zhang, Houwen Peng, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan
Vision Transformer ViT 模型由于其高模型能力,最近在计算机视觉领域引起了广泛关注。然而,ViT 模型受到大量参数的影响,限制了它们在内存有限的设备上的适用性。为了缓解这个问题,我们提出了一种新的压缩框架 MiniViT,它在保持相同性能的同时实现了视觉变换器的参数减少。 MiniViT 的中心思想是多路复用连续变换器块的权重。更具体地说,我们使权重跨层共享,同时对权重进行转换以增加多样性。自注意力的权重蒸馏也用于将知识从大规模 ViT 模型转移到权重多路复用紧凑模型。综合实验证明了 MiniViT 的功效,表明它可以将预训练的 Swin B 变换器的大小减小 48 ,同时在 ImageNet 上的 Top 1 准确率提高 1.0。此外,使用单层参数,MiniViT 能够将 DeiT B 从 86M 压缩到 9M 参数 9.7 倍,而不会严重影响性能。最后,我们通过报告下游基准测试的性能来验证 MiniViT 的可迁移性。

What's in your hands? 3D Reconstruction of Generic Objects in Hands
Authors Yufei Ye, Abhinav Gupta, Shubham Tulsiani
我们的工作旨在重建给定单个 RGB 图像的手持物体。与通常假设已知 3D 模板并将问题简化为 3D 姿势估计的先前工作相比,我们的工作在不知道其 3D 模板的情况下重建通用手持对象。我们的主要见解是,手部的清晰度可以高度预测物体的形状,我们提出了一种基于清晰度和视觉输入有条件地重建物体的方法。给定一幅描绘手持物体的图像,我们首先使用现成的系统来估计潜在的手姿势,然后在归一化的以手为中心的坐标系中推断物体的形状。我们通过有符号距离对对象进行参数化,该距离由隐式网络推断,该网络利用来自视觉特征和关节感知坐标的信息来处理查询点。我们在三个数据集上进行了实验,并表明我们的方法始终优于基线,并且能够重建一组不同的对象。

Deformable Sprites for Unsupervised Video Decomposition
Authors Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, Noah Snavely
我们描述了一种从输入视频中提取动态场景的持久元素的方法。我们将每个场景元素表示为一个 emph Deformable Sprite,它由三个组件组成:1 个用于整个视频的 2D 纹理图像,2 个用于元素的每帧蒙版,以及 3 个将纹理图像映射到每个视频帧的非刚性变形。由此产生的分解允许诸如一致的视频编辑之类的应用。 Deformable Sprites 是一种针对单个视频进行优化的视频自动编码器模型,不需要在大型数据集上进行训练,也不依赖于预训练的模型。此外,我们的方法不需要对象掩码或其他用户输入,并且发现比以前的工作更广泛的移动对象。我们在标准视频数据集上评估我们的方法,并在各种互联网视频上展示定性结果。

Neighborhood Attention Transformer
Authors Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi
我们介绍了 Neighborhood Attention Transformer NAT,这是一种高效、准确且可扩展的分层转换器,适用于图像分类和下游视觉任务。它建立在 Neighborhood Attention NA 之上,这是一种简单灵活的注意机制,可将每个查询的感受野定位到其最近的相邻像素。 NA 是自我注意的局部化,随着感受野大小的增加而接近它。考虑到相同的感受野大小,它在 FLOP 和内存使用方面也等同于 Swin Transformer 的移位窗口注意力,同时受到的限制更少。此外,NA 包括局部感应偏差,从而消除了对像素移位等额外操作的需要。 NAT 上的实验结果是具有竞争力的 NAT Tiny 在 ImageNet 上达到了 83.2 的 top 1 准确度,只有 4.3 GFLOPs 和 28M 参数,在 MS COCO 上为 51.4 mAP,在 ADE20k 上为 48.4 mIoU。

GIFS: Neural Implicit Function for General Shape Representation
Authors Jianglong Ye, Yuntao Chen, Naiyan Wang, Xiaolong Wang
神经隐式函数的最新发展在高质量 3D 形状重建方面取得了巨大成功。然而,大多数作品将空间划分为形状的内部和外部,这将它们的表现力限制在单层和水密的形状上。这种限制导致繁琐的数据处理将非防水原始数据转换为防水以及无法表示现实世界中的一般对象形状。在这项工作中,我们提出了一种新的方法来表示一般形状,包括非防水形状和具有多层表面的形状。我们介绍了 3D 形状 GIFS 的通用隐式函数,它模拟了每两个点之间的关系,而不是点和曲面之间的关系。 GIFS 不是将 3D 空间划分为预定义的内部外部区域,而是编码两个点是否被任何表面隔开。 ShapeNet 上的实验表明,GIFS 在重建质量、渲染效率和视觉保真度方面优于以前最先进的方法。

DeiT III: Revenge of the ViT
Authors Hugo Touvron, Matthieu Cord, Herv J gou
Vision Transformer ViT 是一种简单的神经架构,可以服务于多个计算机视觉任务。与包含输入数据或特定任务的先验的最新架构相比,它具有有限的内置架构先验。最近的工作表明,ViT 受益于自我监督的预训练,特别是像 BeiT 这样的 BerT 预训练。在本文中,我们重新审视了 ViT 的监督训练。我们的程序建立在并简化了为训练 ResNet 50 引入的配方。它包括一个新的简单数据增强程序,只有 3 个增强,更接近自我监督学习的实践。我们对图像分类 ImageNet 1k 的评估,无论是否在 ImageNet 21k 上进行预训练、迁移学习和语义分割,都表明我们的程序大大优于之前针对 ViT 的完全监督训练方案。它还表明,我们经过监督训练的 ViT 的性能与最近的架构相当。

Look Back and Forth: Video Super-Resolution with Explicit Temporal Difference Modeling
Authors Takashi Isobe, Xu Jia, Xin Tao, Changlin Li, Ruihuang Li, Yongjie Shi, Jing Mu, Huchuan Lu, Yu Wing Tai
时间建模对于视频超分辨率至关重要。大多数视频超分辨率方法采用光流或可变形卷积进行显式运动补偿。然而,这种时间建模技术增加了模型的复杂性,并且在遮挡或复杂运动的情况下可能会失败,从而导致严重的失真和伪影。在本文中,我们建议探索显式时间差异建模在 LR 和 HR 空间中的作用。我们建议计算帧之间的时间差异,并根据差异程度将这些像素分成两个子集,而不是将连续帧直接输入到 VSR 模型中。它们分别用不同感受野的两个分支进行处理,以便更好地提取互补信息。为了进一步提高超分辨率结果,不仅提取了空间残差特征,还计算了高频域连续帧之间的差异。它允许模型利用未来和过去的中间 SR 结果来改进当前的 SR 输出。可以缓存不同时间步长的差异,以便可以将来自更远时间距离的信息传播到当前帧以进行细化。

Residual Swin Transformer Channel Attention Network for Image Demosaicing
Authors Wenzhu Xing, Karen Egiazarian
图像去马赛克是从原始传感器滤色器阵列数据中插值全分辨率彩色图像的问题。在过去十年中,深度神经网络已广泛用于图像恢复,特别是在去马赛克中,获得了显着的性能提升。近年来,视觉转换器已被设计并成功用于各种计算机视觉应用。最近基于 Swin Transformer ST 的图像恢复方法之一 SwinIR 展示了最先进的性能,其参数数量少于基于神经网络的方法。受 SwinIR 成功的启发,我们在本文中提出了一种新颖的基于 Swin Transformer 的图像去马赛克网络,称为 RSTCANet。为了提取图像特征,RSTCANet 堆叠了几个残差 Swin Transformer 通道注意块 RSTCAB ,为每两个连续的 ST 块引入通道注意。

Detection of Degraded Acacia tree species using deep neural networks on uav drone imagery
Authors Anne Achieng Osio, Ho ng n L , Samson Ayugi, Fred Onyango, Peter Odwe, S bastien Lef vre
基于深度学习的图像分类和目标检测已成功应用于树木监测。然而,对树冠和倒下的树木的研究,特别是在洪水淹没地区的研究,在很大程度上仍未得到探索。由于混合彩色图像背景,在水、泥滩和天然植被区域等自然环境中检测退化的树干具有挑战性。在本文中,使用带有嵌入式 RGB 摄像头的无人驾驶飞行器 UAV 或无人机从肯尼亚纳库鲁湖周围的六个指定地块捕获倒下的黄合欢树。由于需要检测湖周围倒下的树木,两个成熟的深度神经网络,即 Faster Region based Convolution Neural Network Faster R CNN 和 Retina Net 用于倒下树木检测。本研究共使用了 256 x 256 图像块上的三个类别的 7,590 个注释。

Weakly Supervised Attended Object Detection Using Gaze Data as Annotations
Authors Michele Mazzamuto, Francesco Ragusa, Antonino Furnari, Giovanni Signorello, Giovanni Maria Farinella
我们考虑检测和识别访问者观察到的对象的问题,即从自我中心的视觉中文化遗址中的参与对象。解决该问题的标准方法包括检测所有对象并选择与访问者的视线最重叠的对象,通过视线跟踪器进行测量。由于标记大量数据来训练标准对象检测器在成本和时间方面是昂贵的,因此我们提出了一个弱监督版本的任务,它仅依赖于注视数据和一个帧级标签,指示被关注对象的类别。为了研究这个问题,我们提出了一个由以自我为中心的视频和参观博物馆的对象的凝视坐标组成的新数据集。因此,我们比较了三个不同的基线,用于在收集的数据上进行弱监督的参与对象检测。结果表明,所考虑的方法以弱监督方式实现了令人满意的性能,相对于基于 Faster R CNN 的完全监督检测器而言,这可以显着节省时间。

SemiMultiPose: A Semi-supervised Multi-animal Pose Estimation Framework
Authors Ari Blau, Christoph Gebhardt, Andres Bendesky, Liam Paninski, Anqi Wu
多动物姿势估计对于研究神经科学和神经行为学中的动物社会行为至关重要。已经提出了先进的方法来支持多动物估计并实现最先进的性能。然而,这些模型很少在训练期间利用未标记的数据,即使现实世界的应用程序中未标记的帧比标记的帧多得多。为大量图像或视频手动添加密集注释是昂贵且劳动密集型的,尤其是对于多个实例。鉴于这些缺陷,我们提出了一种用于多动物姿势估计的新型半监督架构,利用行为视频中未标记帧中普遍存在的丰富结构来增强训练,这对于稀疏标记问题至关重要。

Panoptic Segmentation using Synthetic and Real Data
Authors Camillo Quattrocchi, Daniele Di Mauro, Antonino Furnari, Giovanni Maria Farinella
能够理解用户与周围环境之间的关系有助于在工作场所帮助用户。例如,从通过可穿戴设备收集的图像和视频中了解用户正在与哪些对象进行交互可能有助于告知工作人员特定对象的使用情况,从而提高生产力并防止事故发生。尽管现代视觉系统可以依靠先进的算法进行对象检测、语义和全景分割,但这些方法仍然需要大量特定领域的标记数据,这在工业场景中可能难以获得。受此观察的启发,我们提出了一个管道,该管道允许从真实环境和真实物体的 3D 模型生成合成图像。生成的图像会自动标记,因此很容易获得。利用所提出的管道,我们生成了一个数据集,其中包含自动标记为全景分割的合成图像。该集合由少量手动标记的真实图像补充,用于微调。

Egocentric Human-Object Interaction Detection Exploiting Synthetic Data
Authors Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria Farinella
我们考虑在工业环境中检测以自我为中心的 HumanObject Interactions EHOI 的问题。由于收集和标记大量真实图像具有挑战性,我们提出了一种管道和工具来生成照片逼真的合成第一人称视觉 FPV 图像,自动标记用于特定工业场景中的 EHOI 检测。为了解决 EHOI 检测问题,我们提出了一种检测手、场景中的对象并确定当前参与交互的对象的方法。我们将我们的方法的性能与一组最先进的基线进行比较。结果表明,使用合成数据集可以提高 EHOI 检测系统的性能,尤其是在可用的真实数据很少的情况下。

CroCo: Cross-Modal Contrastive learning for localization of Earth Observation data
Authors Wei Hsin Tseng, Ho ng n L , Alexandre Boulch, S bastien Lef vre, Dirk Tiede
在遥感图像上定位基于地面的 LiDAR 点云是很有趣的。在这项工作中,我们解决了这个问题的一个子任务,即在航空图像上映射从航空 LiDAR 点云栅格化的数字高程模型 DEM。我们提出了一种基于对比学习的方法,该方法在 DEM 和高分辨率光学图像上进行训练,并在不同的数据采样策略和超参数上对该框架进行实验。在最好的情况下,获得了 0.71 的 Top 1 得分和 0.81 的 Top 5 得分。所提出的方法有望用于从 RGB 和 DEM 进行特征学习以进行定位,并且也可能适用于其他数据源。

Activation Regression for Continuous Domain Generalization with Applications to Crop Classification
Authors Samar Khanna, Bram Wallace, Kavita Bala, Bharath Hariharan
卫星图像的地理差异会影响机器学习模型推广到新区域的能力。在本文中,我们将中等分辨率 Landsat 8 卫星图像中的地理泛化建模为连续域适应问题,展示了模型如何通过适当的域知识更好地泛化。我们开发了一个空间分布在整个美国大陆的数据集,提供了宏观洞察地理对多光谱和时间分布卫星图像中作物分类的影响。我们的方法展示了改进的通用性,1 将地理相关的气候变量与卫星数据一起传递到 Transformer 模型,2 回归模型特征以重建这些域变量。结合起来,我们为卫星图像中的地理概括提供了一种新颖的视角,以及一种利用领域知识的简单而有效的方法。

Q-TART: Quickly Training for Adversarial Robustness and in-Transferability
Authors Madan Ravi Ganesh, Salimeh Yasaei Sekeh, Jason J. Corso
原始深度神经网络 DNN 性能在现实世界中是不够的,计算负载、训练效率和对抗性安全性同样重要,甚至更重要。我们建议使用我们提出的算法 Q TART,快速训练对抗性鲁棒性和可迁移性,同时解决性能、效率和鲁棒性问题。 Q TART 遵循直觉,即高度易受噪声影响的样本会强烈影响 DNN 学习的决策边界,这反过来会降低其性能和对抗敏感性。通过识别和删除此类样本,我们展示了改进的性能和对抗鲁棒性,同时仅使用训练数据的一个子集。

Interpretability of Machine Learning Methods Applied to Neuroimaging
Authors Elina Thibeau Sutre, Sasha Collin, Ninon Burgos, Olivier Colliot
深度学习方法在处理自然图像方面变得非常流行,然后成功地适应了神经影像领域。由于这些方法是不透明的,因此需要可解释性方法来验证它们并确保它们的可靠性。事实上,已经表明,即使使用不相关的特征,深度学习模型也可以通过利用训练集中的偏差获得高性能。通过使用可解释性方法,可以潜在地检测到此类不良情况。最近,已经提出了许多解释神经网络的方法。但是,这个领域还不成熟。机器学习用户在解释他们的模型时面临两个主要问题,选择哪种方法,以及如何评估其可靠性在这里,我们旨在通过介绍最常见的可解释性方法和为评估其可靠性而开发的指标来回答这些问题,如以及它们在神经影像学方面的应用和基准。

Atmospheric Turbulence Removal with Complex-Valued Convolutional Neural Network
Authors Nantheera Anantrasirichai
大气湍流扭曲了视觉图像,并且对于人类和机器的信息解释总是有问题的。大多数成熟的消除大气湍流失真的方法都是基于模型的。然而,这些方法需要高计算量和大内存,从而阻碍了它们实时操作的可行性。因此,基于深度学习的方法获得了更多关注,但目前仅在静态场景上有效。本文提出了一种新颖的基于学习的框架,提供短时间跨度来支持动态场景。我们利用复值卷积作为相位信息,由大气湍流改变,比使用普通实值卷积更好地捕获。提出了两个级联模块。第一个模块旨在消除几何失真,如果内存足够,则应用第二个模块来细化视频的微观细节。

Cross-Image Relational Knowledge Distillation for Semantic Segmentation
Authors Chuanguang Yang, Helong Zhou, Zhulin An, Xue Jiang, Yongjun Xu, Qian Zhang
当前用于语义分割的知识蒸馏 KD 方法经常引导学生模仿教师从单个数据样本中生成的结构化信息。然而,他们忽略了对 KD 有价值的各种图像中像素之间的全局语义关系。本文提出了一种新颖的交叉图像关系KD CIRKD,它专注于将结构化的像素到像素以及像素到区域的关系在整个图像之间传递。动机是一个好的教师网络可以根据全局像素依赖关系构建一个结构良好的特征空间。 CIRKD 使学生从老师那里模仿更好的结构化语义关系,从而提高分割性能。 Cityscapes、CamVid 和 Pascal VOC 数据集的实验结果证明了我们提出的方法对最先进的蒸馏方法的有效性。

HyDe: The First Open-Source, Python-Based, GPU-Accelerated Hyperspectral Denoising Package
Authors Daniel Coquelin, Behnood Rasti, Markus G tz, Pedram Ghamisi, Richard Gloaguen, Achim Streit
与任何物理仪器一样,高光谱相机在采集的数据中会产生不同类型的噪声。因此,高光谱去噪是分析高光谱图像 HSI 的关键步骤。传统的计算方法很少使用 GPU 来提高效率,并且不是完全开源的。或者,基于深度学习的方法通常是开源的并使用 GPU,但对于许多研究人员来说,它们对现实世界应用程序的训练和利用仍然不是微不足道的。因此,我们提出 HyDe 是第一个开源的、基于 GPU 加速的 Python 的高光谱图像去噪工具箱,旨在提供大量方法和易于使用的环境。 HyDe 包括多种方法,从基于低秩小波的方法到深度神经网络 DNN 模型。 HyDe 的接口极大地提高了这些方法的互操作性和底层功能的性能。事实上,这些方法保持了与其原始实现相似的 HSI 去噪性能,同时消耗的能量减少了近十倍。此外,我们提出了一种训练 DNN 的方法,用于对与训练数据集在空间上不相关的 HSI 进行去噪,即在地面 HSI 上进行训练,以对其他角度的 HSI 进行去噪,包括机载、无人机载和太空载。为了利用经过训练的 DNN,我们展示了一种滑动窗口方法来有效地去噪 HSI,否则这需要超过 40 GB。

The multi-modal universe of fast-fashion: the Visuelle 2.0 benchmark
Authors Geri Skenderi, Christian Joppi, Matteo Denitto, Berniero Scarpa, Marco Cristani
我们展示了 Visuelle 2.0,这是第一个可用于应对快时尚公司必须日常管理的各种预测问题的数据集。此外,我们展示了计算机视觉在这种情况下的重要性。 Visuelle 2.0 包含意大利著名公司 Nuna Lie 的 6 季 5355 件服装产品的数据,该公司在该国不同地区拥有数百家商店。特别是,我们专注于一个特定的预测问题,即短期观察新产品销售预测 SO for 。 SOfore假设季节已经开始,并且一组新产品在不同商店的货架上。目标是预测特定范围内的销售额,给定过去几周的短暂可用时间,因为没有更早的统计数据可用。为了取得成功,SO 前沿方法应该捕捉到这一短暂的过去并利用其他模式或外生数据。为了实现这些目标,Visuelle 2.0 配备了商品商店级别的分类数据和每个服装商品的多模式信息,允许计算机视觉方法发挥作用。我们传递的主要信息是,使用具有深度网络的图像数据可以提高在长期预测场景中使用时间序列时获得的性能,将 WAPE 提高 8.2,MAE 提高 7.7。

Unsupervised Deep Learning Meets Chan-Vese Model
Authors Dihan Zheng, Chenglong Bao, Zuoqiang Shi, Haibin Ling, Kaisheng Ma
Chan Vese CV 模型是图像分割中基于区域的经典方法。然而,它的分段常数假设并不总是适用于实际应用。已经提出了许多改进,但问题仍然远未得到很好的解决。在这项工作中,我们提出了一种将 CV 模型与深度神经网络相结合的无监督图像分割方法,显着提高了原始 CV 模型的分割精度。我们的基本思想是应用深度神经网络将图像映射到潜在空间,以减轻对图像空间中分段常数假设的违反。我们在经典的贝叶斯框架下制定了这个想法,方法是用证据下界 ELBO 项近似似然,同时将前项保留在 CV 模型中。因此,我们的模型只需要输入图像本身,不需要从外部数据集进行预训练。此外,我们将该想法扩展到基于多阶段案例和数据集的无监督图像分割。

BEHAVE: Dataset and Method for Tracking Human Object Interactions
Authors Bharat Lal Bhatnagar, Xianghui Xie, Ilya A. Petrov, Cristian Sminchisescu, Christian Theobalt, Gerard Pons Moll
对自然环境中人与物体之间的交互进行建模是许多应用的核心,包括游戏、虚拟和混合现实,以及人类行为分析和人类机器人协作。这种具有挑战性的操作场景需要泛化到大量对象、场景和人类行为。不幸的是,不存在这样的数据集。此外,这些数据需要在不同的自然环境中获取,这排除了 4D 扫描仪和基于标记的捕获系统。我们提出了 BEHAVE 数据集,这是第一个具有多视图 RGBD 帧和相应的 3D SMPL 和对象拟合以及它们之间的注释接触的全身人体对象交互数据集。我们在 5 个位置记录了大约 15k 帧,其中 8 个对象与 20 个常见对象进行了广泛的交互。我们使用这些数据来学习一个模型,该模型可以通过易于使用的便携式多摄像头设置共同跟踪自然环境中的人和物体。我们的主要见解是预测从人和物体到统计身体模型的对应关系,以在交互过程中获得人类物体的接触。我们的方法不仅可以记录和跟踪人类和物体,还可以记录和跟踪它们的交互,以 3D 形式建模为表面接触。

SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos
Authors Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck
跟踪足球视频中的对象对于收集球员和球队统计数据非常重要,无论是估计总跑动距离、控球权还是球队阵型。视频处理可以帮助自动提取这些信息,而不需要任何侵入式传感器,因此适用于任何体育场的任何球队。然而,用于训练可学习模型和基准以评估通用测试平台上的方法的数据集的可用性非常有限。在这项工作中,我们提出了一个新的多目标跟踪数据集,由 200 个序列组成,每个序列 30 秒,代表具有挑战性的足球场景,以及一个完整的 45 分钟半场时间用于长期跟踪。该数据集使用边界框和 tracklet ID 进行了完全注释,从而能够在足球领域训练 MOT 基线,并在我们的隔离挑战集上对这些方法进行完整的基准测试。

Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly Supervised Object Detection
Authors Ze Chen, Zhihang Fu, Jianqiang Huang, Mingyuan Tao, Rongxin Jiang, Xiang Tian, Yaowu Chen, Xian sheng Hua
弱监督目标检测 WSOD 是一种仅使用图像级注释来训练目标检测模型的有效方法,引起了研究人员的极大关注。然而,大多数基于多实例学习 MIL 的现有方法倾向于将实例定位到显着对象的判别部分,而不是所有对象的全部内容。在本文中,我们提出了一个名为 Spatial Likelihood Voting with Self Knowledge Distillation Network SLV SD Net 的 WSOD 框架。在这个框架中,我们引入了空间似然投票 SLV 模块来收敛区域建议定位,而无需边界框注释。具体来说,在训练期间的每次迭代中,给定图像中的所有区域提议都充当投票者,对空间维度中每个类别的可能性进行投票。在对似然值较大的区域进行扩张对齐后,将投票结果正则化为边界框,然后将其用于最终分类和定位。基于 SLV,我们进一步提出了一个自知识蒸馏 SD 模块来细化给定图像的特征表示。 SLV 模块生成的似然图用于监督主干网络的特征学习,鼓励网络关注图像中更广泛和更多样化的区域。在 PASCAL VOC 2007 2012 和 MS COCO 数据集上的大量实验证明了 SLV SD Net 的出色性能。

Implicit Sample Extension for Unsupervised Person Re-Identification
Authors Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang
大多数现有的无监督人员重新识别 Re ID 方法使用聚类生成伪标签用于模型训练。不幸的是,聚类有时会将不同的真实身份混合在一起,或者将相同的身份拆分为两个或多个子集群。在这些嘈杂的集群上进行训练大大阻碍了 Re ID 的准确性。由于每个身份中的样本有限,我们认为可能缺少一些基础信息来很好地揭示准确的聚类。为了发现这些信息,我们提出了一种隐式样本扩展 OurWholeMethod 方法来生成我们所说的围绕集群边界的支持样本。具体来说,我们通过渐进式线性插值 PLI 策略从嵌入空间中的实际样本及其相邻簇生成支持样本。 PLI 用两个关键因素控制生成,即 1 从实际样本到其 K 个最近簇的方向和 2 混合来自 K 个最近簇的上下文信息的程度。同时,在给定支持样本的情况下,ISE 进一步使用标签保留损失将它们拉向对应的实际样本,从而压缩每个集群。因此,ISE 减少了子聚类和混合聚类错误,从而提高了 Re ID 性能。大量实验表明,所提出的方法是有效的,并且在无监督人员 Re ID 方面取得了最先进的性能。

Clothes-Changing Person Re-identification with RGB Modality Only
Authors Xinqian Gu, Hong Chang, Bingpeng Ma, Shutao Bai, Shiguang Shan, Xilin Chen
解决换衣服人重新识别的关键是提取与衣服无关的特征,例如面部、发型、体型和步态。目前大多数工作主要侧重于从多模态信息(例如剪影和草图)建模身体形状,但没有充分利用原始 RGB 图像中与衣服无关的信息。在本文中,我们提出了一种基于衣服的对抗性损失 CAL,通过惩罚 re id 模型 w.r.t 的预测能力,从原始 RGB 图像中挖掘衣服不相关的特征。衣服。大量实验表明,仅使用 RGB 图像,CAL 在广泛使用的换衣服人员重新识别基准上优于所有最先进的方法。此外,与图像相比,视频包含更丰富的外观和额外的时间信息,可用于建模适当的时空模式以辅助换衣服。由于没有公开可用的换衣服视频 re id 数据集,我们提供了一个名为 CCVID 的新数据集,并表明在建模时空信息方面存在很大的改进空间。

Human Identity-Preserved Motion Retargeting in Video Synthesis by Feature Disentanglement
Authors Jingzhe Ma, Shiqi Yu
人体动作视频合成中的大多数运动重定向方法将输入视频分解为运动动态信息和形状静态信息。但是,我们观察到如果将动态信息直接传递给另一个主体,则会导致不自然的合成运动。这种现象主要是由于忽略了运动中的主体相关信息造成的。为了解决这个问题,我们提出了一种新颖的运动重定向方法,该方法可以结合来自源视频的独立于主题的公共运动内容信息和来自目标视频的独立于主题的个性化身份运动信息。因此,它可以合成具有非常自然外观和身份保留运动的视频。在所提出的方法中,两个编码器分别用于提取身份和运动内容表示。我们使用生成器中的自适应实例归一化 AdaIN 层和运动内容编码器中的实例归一化 IN 层来合成新的运动。此外,我们还收集了一个名为 Chuang101 的数据集,共有 101 个主题。每个主体都执行相同的舞蹈动作,因此便于对每个主体的运动和身份进行特征解开。此外,通过步态识别设计了一种用于识别信息的有效量化指标。

Semi-Supervised Training to Improve Player and Ball Detection in Soccer
Authors Renaud Vandeghen, Anthony Cioppa, Marc Van Droogenbroeck
近年来,准确的球员和球检测对于运动分析变得越来越重要。由于大多数最先进的方法都依赖于以监督方式训练深度学习网络,因此它们需要大量注释数据,而这些数据很少可用。在本文中,我们提出了一种新颖的通用半监督方法,通过利用大型未标记的足球广播视频数据集来训练基于标记图像数据集的网络。更准确地说,我们设计了一种教师学生方法,其中教师在未标记的数据上生成代理注释,以便稍后用于训练与教师具有相同架构的学生。此外,我们引入了三种训练损失参数化,允许学生在训练期间根据提案置信度得分怀疑老师的预测。我们表明,在训练过程中包含未标记的数据可以显着提高仅在标记数据上训练的检测网络的性能。最后,我们提供了全面的性能研究,包括不同比例的标记和未标记数据,并在新的 SoccerNet v3 检测任务上建立了第一个基准,mAP 为 52.3。

OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor Scenes
Authors Jingrui Yu, Roman Seidel, Gangolf Hirtz
我们提出了一种基于卷积神经网络 CNNs 的用于顶视图全向室内场景的一步式人物检测器。虽然最先进的人体检测器在透视图像上达到了有竞争力的结果,但缺少 CNN 架构以及跟随全向图像失真的训练数据使得当前的方法不适用于我们的数据。该方法直接在全向图像中预测多人的边界框,无需透视变换,减少了前后处理的开销,并实现了实时性能。基本思想是利用迁移学习来微调在透视图像上训练的 CNN,并使用数据增强技术在全向图像中进行检测。我们微调了 Single Shot MultiBox 检测器 SSD 的两种变体。第一个使用 Mobilenet v1 FPN 作为特征提取器 moSSD 。第二个使用 ResNet50 v1 FPN resSSD 。这两个模型都在 Microsoft Common Objects in Context COCO 数据集中进行了预训练。我们在 PASCAL VOC07 ​​和 VOC12 数据集上对两个模型进行微调,特别是在班级人员上。除了原始SSD提出的方法外,还使用随机90度旋转和随机垂直翻转进行数据增强。在评估数据集上,我们使用 moSSD 达到 67.3 的平均精度 AP,使用 resSSD 达到 74.9。为了增强微调过程,我们添加了 HDA Person 数据集的子集和 PIROPO 数据库的子集,并将透视图像的数量减少到 PASCAL VOC07。 moSSD 的 AP 分别上升到 83.2 和 resSSD 的 86.3。使用 Nvidia Quadro P6000,moSSD 的平均推理速度为每张图像 28 毫秒,而 resSSD 的平均推理速度为 38 毫秒。

Modeling Indirect Illumination for Inverse Rendering
Authors Yuanqing Zhang, Jiaming Sun, Xingyi He, Huan Fu, Rongfei Jia, Xiaowei Zhou
隐式神经表示和可微渲染的最新进展使得从在未知静态照明下捕获的多视图 RGB 图像中同时恢复对象的几何形状和材料成为可能。尽管取得了有希望的结果,但在以前的方法中很少对间接照明进行建模,因为它需要昂贵的递归路径跟踪,这使得逆渲染在计算上难以处理。在本文中,我们提出了一种有效恢复空间变化间接照明的新方法。关键的见解是,间接照明可以方便地从从输入图像中学习到的神经辐射场导出,而不是与直接照明和材料一起估计。通过对直接照明的间接照明和可见性进行适当建模,可以恢复相互反射和无阴影反照率。合成数据和真实数据的实验证明了我们的方法与以前的工作相比具有优越的性能,并且能够在新的视点和光照下合成逼真的渲染。

Deep Vehicle Detection in Satellite Video
Authors Roman Pflugfelder, Axel Weissenfeld, Julian Wagner
这项工作提出了一种用于卫星视频中车辆检测的深度学习方法。由于车辆 4 10 像素的微小及其与背景的相似性,在单个 EO 卫星图像中可能无法进行车辆检测。相反,我们考虑通过车辆运动的时间一致性来克服空间信息缺乏的卫星视频。提出了一种新的紧凑 3 乘 3 卷积神经网络的时空模型,该模型忽略了池化层并使用了泄漏的 ReLU。然后我们使用输出热图的重新制定,包括非最大抑制 NMS 进行最终分割。两个新的带注释卫星视频的经验结果再次证实了这种方法对车辆检测的适用性。更重要的是,它们表明对 WAMI 数据进行预训练,然后对新视频的少量注释视频帧进行微调就足够了。在我们的实验中,只有五个带注释的图像在显示比拉斯维加斯视频更复杂的交通模式的新视频上产生了 0.81 的 F 1 分数。

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss
Authors Debapriya Maji, Soyeb Nagori, Manu Mathew, Deepak Poddar
我们介绍了 YOLO 姿势,一种用于联合检测的新型无热图方法,以及基于流行的 YOLO 对象检测框架的图像中的 2D 多人姿势估计。现有的基于热图的两阶段方法是次优的,因为它们不是端到端可训练的,并且训练依赖于不等于最大化评估指标的替代 L1 损失,即对象关键点相似性 OKS。我们的框架允许我们端到端地训练模型并优化 OKS 指标本身。所提出的模型学习在单次前向传递中联合检测多人的边界框及其相应的 2D 姿势,从而引入自上而下和自下而上方法的最佳效果。所提出的方法不需要对自下而上的方法进行后处理来将检测到的关键点分组到骨架中,因为每个边界框都有一个相关的姿势,从而导致关键点的固有分组。与自上而下的方法不同,多个前向传递被取消了,因为所有的人都在一次推理中与他们的姿势一起被定位。 YOLO 姿势在 COCO 验证 90.2 AP50 和测试开发集 90.3 AP50 上取得了最新的最新结果,在没有翻转测试、多尺度测试或任何其他测试时间增加的情况下,在单次前向传递中超越了所有现有的自下而上方法。与使用翻转测试和多尺度测试来提高性能的传统方法不同,本文报告的所有实验和结果都没有任何测试时间增加。

Pyramidal Attention for Saliency Detection
Authors Tanveer Hussain, Abbas Anwar, Saeed Anwar, Lars Petersson, Sung Wook Baik
显着对象检测 SOD 从输入图像中提取有意义的内容。基于 RGB 的 SOD 方法缺乏互补的深度线索,因此为复杂场景提供了有限的性能。同样,RGB D 模型处理 RGB 和深度输入,但测试期间深度数据的可用性可能会阻碍模型的实际适用性。本文仅利用 RGB 图像,从 RGB 估计深度,并利用中间深度特征。我们采用金字塔注意结构来提取多级卷积变换器特征来处理初始阶段的表示并进一步增强后续的表示。在每个阶段,主干变压器模型产生全局感受野并并行计算,以获得由我们的残差卷积注意力解码器细化的细粒度全局预测,以实现最佳显着性预测。我们报告了在 8 个 RGB 和 RGB D 数据集上分别针对 21 和 40 种最先进的 SOD 方法显着提高了性能。因此,我们提出了一种新的 SOD 视角,即在训练和测试期间无需获取深度数据即可生成 RGB D SOD,并通过深度线索辅助 RGB 方法以提高性能。

Explainable Analysis of Deep Learning Methods for SAR Image Classification
Authors Shenghan Su, Ziteng Cui, Weiwei Guo, Zenghui Zhang, Wenxian Yu
深度学习方法在合成孔径雷达 SAR 图像解释任务中表现出色。然而,这些是限制对其预测的理解的黑盒模型。因此,为了应对这一挑战,我们将可解释的人工智能 XAI 方法用于 SAR 图像分类任务。具体来说,我们在 OpenSARUrban 数据集上为每种极化格式训练了最先进的卷积神经网络,然后研究了八种解释方法来分析 SAR 图像的 CNN 分类器的预测。这些 XAI 方法也进行了定性和定量评估,这表明 Occlusion 在 Max Sensitivity 方面实现了最可靠的解释性能,但具有低分辨率的解释热图。

3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of Transformer-MLP Paradigm for Dense Prediction in Medical Volume
Authors Jianye Pang, Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi Wang, Jianhua Yao
医疗量的密集预测为临床分析提供了丰富的指导。由于缺乏远程依赖和全局上下文建模能力,CNN 主干网遇到了瓶颈。由于其强大的全局捕获能力和学习能力,最近的工作提出将视觉转换器与 CNN 结合起来。然而,大多数工作仅限于简单地应用具有几个致命缺陷的纯变压器,即缺乏归纳偏置、大量计算和很少考虑 3D 数据。因此,设计一个优雅而高效的视觉变换学习器用于医学体积的密集预测是有希望的和具有挑战性的。在本文中,我们提出了一种新的 3D Shuffle Mixer 网络,该网络是一种新的 Local Vision Transformer MLP 范式,用于医学密集预测。在我们的网络中,使用局部视觉转换器块从重新排列的体积的全视图切片中洗牌和学习空间上下文,剩余轴向 MLP 旨在以切片感知方式混合和捕获剩余体积上下文,MLP 视图聚合器是用于以视图感知的方式将学习的完整视图丰富的上下文投影到体积特征。此外,针对局部视觉转换器提出了一种自适应缩放增强快捷方式,以自适应地增强空间和通道维度的特征,并提出了一种交叉合并,以在金字塔架构中适当地跳过连接多尺度特征。

Visual-Inertial Odometry with Online Calibration of Velocity-Control Based Kinematic Motion Models
Authors Haolong Li, Joerg Stueckler
视觉惯性里程计 VIO 是具有功率和有效载荷约束的自主机器人的一项重要技术。在本文中,我们提出了一种带有立体摄像机的 VIO 新方法,该方法在线集成和校准基于速度控制的轮式移动机器人运动学运动模型。包括这样的运动模型可以帮助提高 VIO 的准确性。与之前提出的几种为此目的集成车轮里程计测量的方法相比,我们的方法不需要车轮编码器,并且可以在机器人运动可以使用基于速度控制的运动学运动模型进行建模时应用。我们使用径向基函数 RBF 内核来补偿控制命令和实际机器人运动之间的时间延迟和偏差。运动模型由VIO系统在线校准,可作为运动控制和规划的前向模型。

ViTOL: Vision Transformer for Weakly Supervised Object Localization
Authors Saurav Gupta, Sourav Lakhotia, Abhay Rawat, Rahul Tallamraju
弱监督对象定位 WSOL 旨在仅使用图像级类别标签来预测图像中的对象位置。图像分类模型在定位对象时遇到的常见挑战是,a 他们倾向于查看图像中最具辨别力的特征,将定位图限制在一个非常小的区域,b 定位图与类别无关,模型突出显示对象同一图像中的多个类,并且 c 定位性能受背景噪声的影响。为了缓解上述挑战,我们通过我们提出的方法 ViTOL 引入了以下简单的变化。我们利用基于视觉的转换器进行自我注意,并引入基于补丁的注意丢失层 p ADL 来增加定位图的覆盖范围,并使用梯度注意推出机制来生成依赖于类别的注意图。我们对 ImageNet 1K 和 CUB 数据集进行了广泛的定量、定性和消融实验。我们在两个数据集上分别获得了 70.47 和 73.17 的最新 MaxBoxAcc V2 定位分数。

RecurSeed and CertainMix for Weakly Supervised Semantic Segmentation
Authors Sang Hyun Jo, In Jae Yu, Kyung Su Kim
尽管仅使用图像级标签 WSSS IL 的弱监督语义分割可能有用,但其低性能和实现复杂性仍然限制了其应用。主要原因是 a 未检测和 b 错误检测现象 a 从现有的 WSSS IL 方法提炼的类激活图仍然只表示大尺度物体的部分区域, b 对于小尺度物体,过度激活导致它们偏离物体边缘.我们提出了 RecurSeed,它通过递归迭代交替减少非和错误检测,从而隐含地找到一个最佳连接点,以最小化这两个错误。为了最大化 RecurSeed 的有效性,我们还提出了一种新的数据增强 DA 方法,称为“CertainMix”,它虚拟地创建对象掩码并在结合分割结果时进一步表达它们的边缘,从而获得一种通过空间信息有效反映对象存在可靠性的新 DA 方法.我们在 PASCAL VOC 2012 和 MS COCO 2014 基准 VOC val 72.4 和 COCO val 45.0 上都取得了最新的性能。

Unsupervised Domain Adaptation with Implicit Pseudo Supervision for Semantic Segmentation
Authors Wanyu Xu, Zengmao Wang, Wei Bian
伪标记是一种用于语义分割的无监督域自适应的流行技术。然而,由于源域和目标域以及训练过程之间的差异,伪标签是嘈杂的,并且不可避免地存在确认偏差。在本文中,我们通过自身隐式产生的伪标签来训练模型,以学习有关目标领域的新补充知识。具体来说,我们提出了一种三学习架构,其中每两个分支产生伪标签来训练第三个。我们根据每两个分支的概率分布的相似性来对齐伪标签。为了进一步隐式利用伪标签,我们最大化不同类别的特征距离,并通过三元组损失最小化相同类别的距离。

Learning Convolutional Neural Networks in Frequency Domain
Authors Hengyue Pan
在过去的几十年里,卷积神经网络 CNN 在计算机视觉领域取得了令人瞩目的成功。作为 CNN 的核心,图像卷积运算有助于 CNN 在图像相关任务上取得良好的性能。然而,图像卷积很难实现和并行化。在本文中,我们提出了一种新的神经网络模型,即 CEMNet,它可以在频域中进行训练。这项研究最重要的动机是我们可以使用非常简单的元素乘法运算来代替基于互相关定理的频域图像卷积。我们进一步引入了权重固定机制来缓解过拟合,并分析了 Batch Normalization、Leaky ReLU 和 Dropout 在频域中的工作行为,为 CEMNet 设计了它们的对应项。此外,为了处理 DFT 带来的复杂输入,我们为 CEMNet 设计了两个分支网络结构。实验结果表明,CEMNet 在频域上运行良好,在 MNIST 和 CIFAR 10 数据库上取得了良好的性能。

HASA: Hybrid Architecture Search with Aggregation Strategy for Echinococcosis Classification and Ovary Segmentation in Ultrasound Images
Authors Jikuan Qian 1,2 and 3 , Rui Li 1,2 and 3 , Xin Yang 1,2 and 3 , Yuhao Huang 1,2 and 3 , Mingyuan Luo 1,2 and 3 , Zehui Lin 1,2 and 3 , Wenhui Hong 1,2 and 3 , Ruobing Huang 1,2 and 3 , Haining Fan 4 , Dong Ni 1,2 and 3 , Jun Cheng 1,2 and 3 1 aNational Regional Key Technology Engineering Laboratory for Medical Ultrasound, School of Biomedical Engineering, Health Science Center, Shenzhen University, Shenzhen, China, 2 Medical Ultrasound Image Computing MUSIC Laboratory, Shenzhen University, Shenzhen, China, 3 Marshall Laboratory of Biomedical Engineering, Shenzhen University, Shenzhen, China, 4 Qinghai University Affiliated Hospital, Xining, Qinghai, China
与手工制作的特征不同,深度神经网络可以从数据中自动学习特定任务的特征。由于这种数据驱动的性质,他们在各个领域都取得了显着的成功。然而,手动设计和选择合适的网络架构非常耗时,并且需要人类专家的大量努力。为了解决这个问题,研究人员提出了神经架构搜索 NAS 算法,该算法可以自动生成网络架构,但如果从头开始搜索,则会面临计算成本高和不稳定的问题。在本文中,我们提出了一种用于超声超声图像分类和分割的混合 NAS 框架。混合框架由一个预训练的主干和几个搜索单元组成,即网络构建块,它利用了 NAS 的优势和现有卷积神经网络的专家知识。具体来说,在候选操作中引入了两种有效且轻量级的操作,即混合深度卷积操作和挤压和激励块,以增强搜索单元的多样性和容量。这两个操作不仅减少了模型参数,而且提高了网络性能。此外,我们为搜索到的细胞提出了一种重新聚合策略,旨在进一步提高不同视觉任务的性能。我们在两个大型美国图像数据集上测试了我们的方法,包括一个包含 9566 个用于分类的图像的 9 类棘球蚴病数据集和一个包含 3204 个用于分割的图像的卵巢数据集。

MINSU (Mobile Inventory And Scanning Unit):Computer Vision and AI
Authors Jihoon Ryoo, Byungkon Kang, Dongyeob Lee, Seunghyeon Kim, Youngho Kim
MINSU Mobile Inventory and Scanning Unit算法采用计算视觉分析方法,记录柜体剩余量满度。为此,它通过五步方法进行对象检测、前景减法、K 均值聚类、百分比估计和计数。输入图像通过物体检测方法,以坐标分析橱柜的具体位置。这样做之后,它通过前景减法方法,通过去除背景,使图像更能聚焦到机柜本身,可能需要做一些手动工作,例如选择未被算法抓取的部分。在 K 均值聚类方法中,多色图像变成了 3 色单调图像,以便更快、更准确地进行分析。最后对图像进行百分比估计和计数。在这两种方法中,以百分比形式找到橱柜内部材料的比例,然后用于近似内部材料的数量。

Geometric Understanding of Sketches
Authors Raghav Brahmadesam Venkataramaiyer
素描被新手和专家都用作一种无处不在的表达工具。

A deep learning algorithm for reducing false positives in screening mammography
Authors Stefano Pedemonte, Trevor Tsue, Brent Mombourquette, Yen Nhi Truong Vu, Thomas Matthews, Rodrigo Morales Hoil, Meet Shah, Nikita Ghare, Naomi Zingman Daniels, Susan Holley, Catherine M. Appleton, Jason Su, Richard L. Wahl
筛查乳房 X 光检查通过实现早期发现和治疗来改善乳腺癌的预后。然而,筛查检查中额外成像的假阳性回调会导致不必要的程序、患者焦虑和经济负担。这项工作展示了一种 AI 算法,该算法通过识别不怀疑乳腺癌的乳房 X 线照片来减少误报。我们使用 123,248 份 2D 数字乳房 X 线照片 6,161 种癌症训练了该算法以确定是否存在癌症,并对来自 15 个美国和 3 个英国地点的 14,831 次筛查检查 1,026 种癌症进行了回顾性研究。在美国最大的网站上对算法进行回顾性评估 11,592 张乳房 X 线照片,101 种癌症 a 未影响癌症检出率 p = 0.02,每 1000 次检查非劣效性为 0.25 种癌症,b 与标准临床读数相比,诊断检查的回调减少了 31.1, c 在模拟临床工作流程中,良性穿刺活检减少了 7.4 次,并且 d 将需要放射科医生解释的筛查检查减少了 41.6 次。

A Novel Approach for Optimum-Path Forest Classification Using Fuzzy Logic
Authors Renato W. R. de Souza, Jo o V. C. de Oliveira, Leandro A. Passos, Weiping Ding, Jo o P. Papa, Victor Hugo C. de Albuquerque
在过去的几十年中,模糊逻辑在许多研究领域都发挥了重要作用。此外,基于图的模式识别已被证明非常重要,因为它可以灵活地使用图论的背景来划分特征空间。几年前,有人提出了一种用于监督、半监督和无监督学习的新框架,名为 Optimum Path Forest OPF,除了计算负担低之外,它在多个应用中都取得了具有竞争力的结果。在本文中,我们提出了模糊最优路径森林,这是标准 OPF 分类器的改进版本,它以无监督的方式学习样本成员资格,并在监督训练期间进一步结合。这些信息用于识别最相关的训练样本,从而改进分类步骤。

Adaptive Memory Management for Video Object Segmentation
Authors Ali Pourganjalikhan, Charalambos Poullis
基于匹配的网络通过将每 k 帧存储在外部存储库中以供将来推理,实现了视频对象分割 VOS 任务的最先进性能。存储中间帧预测为网络提供了更丰富的线索来分割当前帧中的对象。

Towards Metrical Reconstruction of Human Faces
Authors Wojciech Zielonka, Timo Bolkart, Justus Thies
人脸重建和跟踪是 AR VR、人机交互以及医疗应用中众多应用的组成部分。这些应用中的大多数依赖于对形状的度量正确预测,特别是当将重建的主体置于度量上下文中时,即当存在已知大小的参考对象时。测量对象的距离和尺寸的任何应用程序也需要度量重建,例如,虚拟地适合眼镜框架。用于从单个图像重建人脸的最先进方法以自我监督的方式在大型 2D 图像数据集上进行训练。然而,由于透视投影的性质,它们无法重建实际的人脸尺寸,甚至预测人脸的平均值在度量意义上也优于其中一些方法。为了学习人脸的实际形状,我们主张采用监督训练方案。由于此任务不存在大规模 3D 数据集,因此我们对中小型数据库进行了注释和统一。生成的统一数据集仍然是具有超过 2k 个身份的中等规模数据集,仅在其上进行训练会导致过度拟合。为此,我们利用在大规模 2D 图像数据集上预训练的人脸识别网络,该网络为不同的人脸提供不同的特征,并且对表情、照明和相机变化具有鲁棒性。使用这些特征,我们以有监督的方式训练我们的人脸形状估计器,继承了人脸识别网络的鲁棒性和泛化性。

Deep Relation Learning for Regression and Its Application to Brain Age Estimation
Authors Sheng He, Yanfang Feng, P. Ellen Grant, Yangming Ou
大多数时间回归的深度学习模型直接输出基于单个输入图像的估计,忽略不同图像之间的关系。在本文中,我们提出了用于回归的深度关系学习,旨在学习一对输入图像之间的不同关系。四种非线性关系被认为是累积关系、相对关系、最大关系和最小关系。这四种关系是从一个深度神经网络同时学习的,该网络具有特征提取和关系回归两部分。我们使用高效的卷积神经网络从输入图像对中提取深度特征,并应用 Transformer 进行关系学习。所提出的方法在一个包含 6,049 名年龄为 0 97 岁的受试者的合并数据集上进行评估,使用 5 折交叉验证完成脑年龄估计任务。

Illumination-Invariant Active Camera Relocalization for Fine-Grained Change Detection in the Wild
Authors Nan Li, Wei Feng, Qian Zhang
主动相机重定位 ACR 是计算机视觉中的一个新问题,它显着减少了细粒度变化检测 FGCD 中由于相机位姿未对准导致的图像失真引起的误报。尽管 ACR 可以支持取得丰硕的成果,但由于相对姿态估计的结果不稳定,它仍然是一个具有挑战性的问题,特别是对于光照条件失控的户外场景,即两次观测可能具有高度变化的光照。本文研究了一种光照不变的主动摄像机重定位方法,它在相对姿态估计和尺度估计方面都有所改进。我们使用平面片段作为中间表示来促进特征匹配,从而进一步提高光照变化下的姿态估计鲁棒性和可靠性。此外,我们构建了一个线性系统,通过最小化图像扭曲误差来获得每次 ACR 迭代中的绝对尺度,从而显着减少 ACR 过程的时间消耗,比最先进的 ACR 策略快近 1.6 倍。我们的工作极大地扩展了现实世界中文化遗产细粒度变化监测任务的可行性。

OccAM's Laser: Occlusion-based Attribution Maps for 3D Object Detectors on LiDAR Data
Authors David Schinagl, Georg Krispel, Horst Possegger, Peter M. Roth, Horst Bischof
虽然 LiDAR 点云中的 3D 对象检测在学术界和工业界已经很成熟,但这些模型的可解释性在很大程度上是一个尚未探索的领域。在本文中,我们提出了一种为检测到的对象生成属性图的方法,以便更好地理解此类模型的行为。这些地图表明每个 3D 点在预测特定对象中的重要性。我们的方法适用于黑盒模型我们不需要任何架构的先验知识,也不需要访问模型的内部结构,如参数、激活或梯度。我们基于有效扰动的方法通过使用随机生成的输入点云子集测试模型,凭经验估计每个点的重要性。我们的子采样策略考虑了 LiDAR 数据的特殊特性,例如与深度相关的点密度。我们展示了对归因图的详细评估,并证明它们是可解释的且信息量很大。

Character-focused Video Thumbnail Retrieval
Authors Shervin Ardeshir, Nagendra Kamath, Hossein Taghavi
我们探索检索以字符为中心的视频帧作为视频缩略图的候选者。为了根据其中存在的角色评估视频的每一帧,从两个方面评估角色面部面部表情我们训练一个 CNN 模型来测量面部是否具有可接受的面部表情以出现在视频缩略图中。该模型经过训练,可以区分从艺术品缩略图中提取的人脸和从随机视频帧中提取的人脸。突出和交互 缩略图中的字符应该是视频中的重要字符,以防止算法将非代表性帧建议为候选。我们使用人脸聚类来识别视频中的角色,并形成一个图表,其中捕获了角色 s 的出现频率及其交互共现。我们使用该图来推断每个候选帧中存在的字符的相关性。

Estimating Structural Disparities for Face Models
Authors Shervin Ardeshir, Cristina Segalin, Nathan Kallus
在机器学习中,差异度量通常是通过测量模型在不同子群体数据点组中的性能或结果的差异来定义的。因此,视差量化的输入包括模型 s 预测 hat y、预测 y 的真实标签和数据点的组标签 g。每个组的模型性能是通过比较特定组内数据点的 hat y 和 y 来计算的,因此,可以计算不同组之间的性能差异。然而,在许多现实世界的场景中,组标签 g 在训练和验证期间可能无法大规模使用,或者收集它们可能不可行或不可取,因为它们通常可能是敏感信息。因此,评估跨类别组的差异度量是不可行的。另一方面,在许多情况下,可以使用某种形式的代理获得嘈杂的分组,这将允许测量子群体之间的差异度量。在这里,我们探索对人脸训练的计算机视觉模型以及人脸属性预测和影响估计等任务进行此类分析。

Masked Siamese Networks for Label-Efficient Learning
Authors Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
我们提出了 Masked Siamese Networks MSN,这是一种用于学习图像表示的自我监督学习框架。我们的方法将包含随机掩码补丁的图像视图的表示与原始未掩码图像的表示相匹配。这种自我监督的预训练策略在应用于视觉转换器时特别具有可扩展性,因为网络只处理未屏蔽的补丁。因此,MSN 提高了联合嵌入架构的可扩展性,同时产生了在低镜头图像分类上具有竞争力的高语义级别表示。例如,在 ImageNet 1K 上,只有 5,000 个带注释的图像,我们的基础 MSN 模型达到了 72.4 的 top 1 准确率,并且使用 1 个 ImageNet 1K 标签,我们达到了 75.7 的 top 1 准确率,为自我监督学习设置了新的技术状态这个基准。

End-to-end Learning for Joint Depth and Image Reconstruction from Diffracted Rotation
Authors Mazen Mel, Muhammad Siddiqui, Pietro Zanuttigh
由于手头问题的病态性质,单目深度估计仍然是一个开放的挑战。基于深度学习的技术已经被广泛研究并证明能够产生可接受的深度估计精度,即使在单个 RGB 输入图像中缺乏有意义和鲁棒的深度线索分别限制了它们的性能。使用相位和幅度掩模的基于编码孔径的方法通过深度相关的点扩展函数 PSF 以降低图像质量为代价对 2D 图像内的强深度线索进行编码。在本文中,我们提出了一种新颖的端到端学习方法,用于衍射旋转的深度。产生作为散焦函数的旋转点扩展函数 RPSF 的相位掩模与深度估计神经网络的权重联合优化。为此,我们引入了孔径掩模的可微物理模型,并利用相机成像管道的精确模拟。我们的方法需要一个明显不那么复杂的模型和更少的训练数据,但在室内基准的单目深度估计任务中它优于现有方法。

Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for Robotic Bin-picking
Authors Kai Chen, Rui Cao, Stephen James, Yichuan Li, Yun Hui Liu, Pieter Abbeel, Qi Dou
在本文中,我们提出了一种迭代自训练框架,用于从 sim 到真实 6D 对象姿态估计,以促进具有成本效益的机器人抓取。给定一个垃圾箱拾取场景,我们建立了一个逼真的模拟器来合成大量的虚拟数据,并用它来训练一个初始姿态估计网络。然后,该网络扮演教师模型的角色,为未标记的真实数据生成姿势预测。通过这些预测,我们进一步设计了一个全面的自适应选择方案来区分可靠的结果,并将它们用作伪标签来更新学生模型,以便在真实数据上进行姿态估计。为了不断提高伪标签的质量,我们通过将训练好的学生模型作为新教师来迭代上述步骤,并使用细化的教师模型重新标记真实数据。我们在公共基准和我们新发布的数据集上评估我们的方法,分别实现了 11.49 和 22.62 的 ADD S 改进。

Autonomous Satellite Detection and Tracking using Optical Flow
Authors David Zuehlke, Daniel Posada, Madhur Tiwari, Troy Henderson
在本文中,使用光流实现了一种在图像中进行卫星检测和跟踪的自主方法。光流用于估计一系列空间图像中检测到的物体的图像速度。鉴于图像中的大多数对象都是星星,因此使用来自星星运动的整体图像速度来估计图像的逐帧运动。然后将被视为以不同于整体图像速度的速度剖面移动的物体被分类为潜在的常驻空间物体。使用模拟的星图和卫星的地面图像来执行检测算法。

From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks
Authors Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich
本文研究了不同标准环境声音表示谱图对受害者残差卷积神经网络(即 ResNet 18)的识别性能和对抗性攻击鲁棒性的影响。我们关注这种前端分类器而不是其他复杂架构的主要动机是平衡识别准确率和训练参数总数。在这里,我们测量了生成更多信息所需的不同设置的影响 Mel 频率倒谱系数 MFCC、短时傅里叶变换 STFT 和离散小波变换 DWT 表示对我们的前端模型的影响。该测量涉及比较分类性能与对抗性鲁棒性。我们在攻击者分配的平均预算和攻击成本的平衡上,针对六种基准攻击算法证明了识别准确度和模型鲁棒性之间的反比关系。此外,我们的实验结果表明,虽然在 DWT 频谱图上训练的 ResNet 18 模型实现了很高的识别准确率,但攻击该模型对对手来说比其他 2D 表示的成本相对更高。

Medical Application of Geometric Deep Learning for the Diagnosis of Glaucoma
Authors Alexandre H. Thiery, Fabian Braeu, Tin A. Tun, Tin Aung, Michael J.A. Girard
目的 1 评估几何深度学习 PointNet 在诊断青光眼方面的性能,从单次光学相干断层扫描 OCT 3D 扫描视神经乳头 ONH 2 将其性能与使用标准 3D 卷积神经网络 CNN 和黄金获得的性能进行比较

LEFM-Nets: Learnable Explicit Feature Map Deep Networks for Segmentation of Histopathological Images of Frozen Sections
Authors Dario Sitnik, Ivica Kopriva
医学图像的准确分割对于疾病的诊断和治疗至关重要。这些问题通过高度复杂的模型来解决,例如深度网络 DN,需要大量的标记数据进行训练。因此,许多 DN 拥有特定于任务或成像模式的架构,其决策过程通常难以解释和解释。在这里,我们提出了一个框架,将现有的 DN 嵌入到由可学习的显式特征映射 LEFM 层诱导的低维子空间中。与现有的 DN 相比,该框架增加了一个超参数,只是适度增加了可学习参数的数量。该方法旨在但不限于分割低维医学图像,例如染色冷冻切片的彩色组织病理学图像。由于 LEFM 层中的特征是原始特征的多项式函数,因此提出的 LEFM 网络有助于网络决策的可解释性。在这项工作中,我们将 LEFM 与已知的网络 DeepLabv3、UNet、UNet 和 MA 网络相结合。新的 LEFM 网络被应用于从苏木精和伊红 H E 染色的冷冻切片图像中分割肝脏中的结肠腺癌。 LEFM Nets 还对十个人体器官的 H E 染色冷冻切片图像的细胞核分割进行了测试。在第一个问题上,LEFM Nets 在微平衡精度和 F 1 分数方面比原始网络取得了统计上显着的性能提升。在第二个问题上,与原始网络相比,LEFM 网络仅取得了更好的性能。

Geometric Deep Learning to Identify the Critical 3D Structural Features of the Optic Nerve Head for Glaucoma Diagnosis
Authors Fabian A. Braeu, Alexandre H. Thi ry, Tin A. Tun, Aiste Kadziauskiene, George Barbastathis, Tin Aung, Micha l J.A. Girard
目的 在青光眼的发展和进展过程中,视神经乳头 ONH 经历了复杂而深层次的 3D 形态变化。光学相干断层扫描 OCT 是当前可视化和量化这些变化的黄金标准,但是由此产生的 3D 深层组织信息尚未完全用于青光眼的诊断和预后。

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis
Authors Jiamin Liang, Xin Yang, Yuhao Huang, Haoming Li, Shuangchi He, Xindi Hu, Zejian Chen, Wufeng Xue, Jun Cheng, Dong Ni
超声超声成像广泛用于临床诊断中的解剖结构检查。新的超声医师培训和基于深度学习的美国图像分析算法通常需要大量数据。然而,获取和标记大规模美国成像数据并非易事,尤其是对于发病率较低的疾病。逼真的美国图像合成可以在很大程度上缓解这个问题。在本文中,我们提出了一种基于生成对抗网络 GAN 的图像合成框架。我们的主要贡献包括 1 我们提出了第一个可以合成具有高分辨率和自定义纹理编辑功能的逼真 B 模式 US 图像的工作 2 以增强生成图像的结构细节,我们建议将辅助草图引导引入条件 GAN。我们将边缘草图叠加到对象掩码上,并使用复合掩码作为网络输入 3 来生成高分辨率 US 图像,我们采用渐进式训练策略从低分辨率图像逐渐生成高分辨率图像。此外,提出了一种特征损失来最小化生成图像和真实图像之间高级特征的差异,从而进一步提高生成图像的质量 4 所提出的美国图像合成方法非常普遍,也可以推广到美国图像除了在我们的研究肺、髋关节和卵巢中测试的三个解剖结构之外,我们还对三个大型美国图像数据集进行了 5 次广泛的实验,以验证我们的方法。

Ensuring accurate stain reproduction in deep generative networks for virtual immunohistochemistry
Authors Christopher D. Walsh, Joanne Edwards, Robert H. Insall
免疫组织化学是一种有价值的癌症病理学诊断工具。然而,它需要专业的实验室和设备,耗时且难以复制。因此,长期目标是提供一种重建物理免疫组织化学染色的数字方法。生成对抗网络在将一种图像类型映射到另一种图像类型方面已经变得非常先进,并且在从苏木精和伊红推断免疫染色方面显示出了希望。然而,当与病理图像一起使用时,它们有一个很大的弱点,因为它们可以制造原始数据中不存在的结构。 CycleGAN 可以减轻病理图像映射中发明的组织结构,但具有产生不准确染色区域的相关倾向。在本文中,我们描述了对 CycleGAN 损失函数的修改,以通过在保留组织结构的同时强制执行逼真的染色复制来提高其对病理图像的映射能力。我们的方法通过在模型训练期间考虑结构和染色来改进其他方法。我们使用 Fr chet Inception 距离评估我们的网络,并结合我们提出的一种新技术来评估虚拟免疫组织化学的准确性。这通过颜色反卷积、阈值处理和 Sorensen Dice 系数来评估推断图像和地面实况图像中每个染色成分之间的重叠。与真实的 AE1 AE3 载玻片相比,我们修改后的损失函数导致虚拟染色的 Dice 系数为 0.78。这优于未改变的 CycleGAN 得分 0.74。此外,我们的损失函数将重建的 Fr chet Inception 距离从 76.47 提高到 74.54。

Interpretable Vertebral Fracture Quantification via Anchor-Free Landmarks Localization
Authors Alexey Zakharov, Maxim Pisov, Alim Bukharaev, Alexey Petraikin, Sergey Morozov, Victor Gombolevskiy, Mikhail Belyaev
椎体压缩性骨折是骨质疏松症的早期征兆。尽管这些骨折在计算机断层扫描 CT 图像上是可见的,但放射科医生在临床环境中经常会错过它们。先前对椎体骨折分类自动方法的研究证明了其可靠的质量,然而,现有方法提供难以解释的输出,有时无法处理具有严重异常的病例,例如高度病理性椎骨或脊柱侧凸。我们提出了一种新的两步算法来定位 3D CT 图像中的脊柱,然后检测单个椎骨并同时在 2D 中量化骨折。我们使用简单的基于 6 个关键点的注释方案为这两个步骤训练神经网络,这与当前的临床建议完全对应。我们的算法没有排除标准,在单个 GPU 上 2 秒内处理 3D CT,并提供可解释和可验证的输出。该方法接近专家级性能,并在椎骨 3D 定位中展示了最先进的结果,平均误差为 1 mm,椎骨 2D 检测精度和召回率为 0.99,患者级别的骨折识别 ROC AUC 高达 0.96。

High-performance Evolutionary Algorithms for Online Neuron Control
Authors Binxu Wang, Carlos R. Ponce
最近,优化已成为神经科学家研究神经代码的新兴工具。在视觉系统中,神经元以分级和嘈杂的反应对图像做出反应。引起最高反应的图像模式是神经元编码内容的诊断。为了找到这些模式,我们使用黑盒优化器来搜索 4096d 图像空间,从而导致图像的进化最大化神经元反应。

Information fusion approach for biomass estimation in a plateau mountainous forest using a synergistic system comprising UAS-based digital camera and LiDAR
Authors Rong Huang, Wei Yao, Zhong Xu, Lin Cao, Xin Shen
林地在全球气候、生态系统、农业和人类生活环境中发挥着至关重要的作用。因此,森林生物量估算方法对于监测森林结构和功能的变化是必不可少的,这是自然资源研究的关键数据。尽管准确的森林生物量测量在森林清查和评估中很重要,但涉及机载光检测和在大山区低飞行高度测距 LiDAR 的高密度测量非常昂贵。本研究的目的是量化高原山区森林保护区的地上生物量 AGB,该系统将基于无人机系统 UAS 的数字航空相机和 LiDAR 协同组合,以利用它们的互补优势。在本研究中,我们利用具有速度快、空间分辨率高、成本低等独特优势的数字航空摄影测量 DAP,弥补了基于无人机系统的 LiDAR 林业库存需要跟随飞行进行高分辨率数据采集的不足。结合高空高速UAS获取的稀疏LiDAR点进行地形提取,可以得到密集的归一化DAP点云,生成准确、高分辨率的冠层高度模型CHM。基于从多光谱图像获得的 CHM 和光谱属性,我们以相当高的成本效率估计和映射了感兴趣区域的 AGB。我们的研究通过利用 DAP 和 LiDAR 测量之间的互补性,支持开发大规模墙到墙 AGB 映射的预测模型。

Wassmap: Wasserstein Isometric Mapping for Image Manifold Learning
Authors Keaton Hamm, Nick Henscheid, Shujie Kang
在本文中,我们提出了 Wasserstein Isometric Mapping Wassmap,这是一种无参数的非线性降维技术,它为现有的全局非线性降维算法在成像应用中的一些缺陷提供了解决方案。 Wassmap 通过 Wasserstein 空间中的概率度量来表示图像,然后使用相关度量之间的成对二次 Wasserstein 距离来产生低维、近似等距嵌入。我们表明该算法能够准确地恢复一些图像流形的参数,包括由固定生成度量的平移或膨胀生成的参数。此外,我们展示了该算法的离散版本通过提供理论桥梁将恢复结果从功能数据传输到离散数据,从离散测量生成的流形中检索参数。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(Papers,计算机视觉,计算机视觉,CV,图像压缩,可微渲染,transformer)