【AI视野·今日CV 计算机视觉论文速览 第231期】Mon, 5 Jul 2021

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 5 Jul 2021
Totally 43 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第231期】Mon, 5 Jul 2021_第1张图片

Daily Computer Vision Papers

HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural Networks
Authors Jameel Malik, Soshi Shimada, Ahmed Elhayek, Sk Aziz Ali, Christian Theobalt, Vladislav Golyanik, Didier Stricker
从单个深度地图的3D手形状和姿势估计是许多应用程序的新的和具有挑战性的计算机视觉问题。现有方法通过2D卷积神经网络直接回归手网格,这导致由于图像中的透视失真导致伪影。为了解决现有方法的限制,我们开发HandvoxNet,即基于Voxel的深网络,3D和图形卷轴以完全监督的方式训练。对我们网络的输入是基于截短的符号距离功能TSDF的3D体轴深度图。 Handvoxnet依赖于两种手形式表示。第一个是手形的3D体形胶网,它不保留网状拓扑,这是最准确的表示。第二个表示是保留网状拓扑的手表面。通过将手表面与基于新的神经图卷曲的网格注册GCN Meshreg或经典段明智的非刚性重力方法NRGA不依赖于训练数据,将手表面与Voxized手形状对齐,通过将手表面与体形状的形状对准,将手表面与Voxized手形的形状组合在一起。在三个公共基准的广泛评估中,即Synhand5M,基于深度的Hand19挑战和何3D,所提出的Handvoxnet实现了最先进的性能。在本期刊延长我们以前的方法呈现在CVPR 2020,我们分别获得41.09和13.7在Synhand5m和13.7上更高的形状对准精度。我们的方法首先在Ablus19挑战DataSet任务1在2020年8月提交到门户网站时基于3D攻击数据集任务1深度的3D手姿态估计。

How Incomplete is Contrastive Learning? AnInter-intra Variant Dual Representation Method forSelf-supervised Video Recognition
Authors Lin Zhang, Qi She, Zhengyang Shen, Changhu Wang
应用于自我监督的代表学习的对比学习已经看到了深度模型中的复兴。在本文中,我们发现,对自我监督视频识别的现有对比学习的解决方案侧重于差异编码,但忽略了同一视频内的剪辑中存在的帧内方差。因此,我们建议学习每个剪辑的双表示,每个剪辑通过扫描等级借口任务romannumeral 2通过时间相干对比丢失对帧间差异进行编码。实验结果表明,我们的方法在平衡和内差异方面发挥着重要作用,并在多个骨架和对比学习框架上带来一致的性能增益。与SIMCLR集成并在动力学400上预先预订,我们的方法分别在UCF101和HMDB51测试集上实现了TextBF 82.0和TextBF 51.2下游分类准确性,TextBF 46.1视频检索精度在UCF101上,优于基于借口任务和基于对比的学习的基于对比的对应。

NTIRE 2021 Multi-modal Aerial View Object Classification Challenge
Authors Jerrick Liu, Nathan Inkawhich, Oliver Nina, Radu Timofte, Sahil Jain, Bob Lee, Yuru Duan, Wei Wei, Lei Zhang, Songzheng Xu, Yuxuan Sun, Jiaqi Tang, Xueli Geng, Mengru Ma, Gongzhe Li, Xueli Geng, Huanqia Cai, Chengxue Cai, Sol Cummings, Casian Miron, Alexandru Pasarica, Cheng Yen Yang, Hung Min Hsu, Jiarui Cai, Jie Mei, Chia Ying Yeh, Jenq Neng Hwang, Michael Xin, Zhongkai Shangguan, Zihe Zheng, Xu Yifei, Lehan Yang, Kele Xu, Min Feng
在本文中,我们在CVPR的NTIRE 2021车间结合NTIRE 2021车间介绍了多模态鸟瞰图对象分类MAVOC的第一个挑战。这一挑战由使用EO和SAR图像的两条不同的轨道组成。 EO和SAR传感器均具有不同的优点和缺点。本次竞争的目的是分析如何以互补方式使用两组感官信息。我们讨论为本竞争提交的最高方法,并在盲目测试集中评估其结果。我们的挑战结果表现出从我们目前的基线获得超过15个精度的显着提高

Visual Relationship Forecasting in Videos
Authors Li Mi, Yangjun Ou, Zhenzhong Chen
现实世界的情景通常需要预期未知的未来对象互动,这将有助于人类和代理人的决策过程。为满足这一挑战,我们展示了一个名为Visual关系预测VRF的新任务,以探索以推理方式探索视觉关系的预测。具体地,给出与H现有帧的主题对象对,VRF旨在预测下一个T帧的未来相互作用而无需视觉证据。为了评估VRF任务,我们介绍了名为VRF AG和VRF Vidor的两个视频数据集,其中一系列Spatio在视频中暂时本地化的视觉关系注释。这两个数据集分别密集地注释了1923年和13447个视频剪辑的13和35视觉关系。此外,我们介绍了一种新颖的图表卷积式变压器GCT框架,其捕获了Spatio时间图卷积网络和变压器的对象级和帧级依赖性。 VRF AG和VRF Vidor数据集上的实验结果表明,GCT优于视觉关系预测上的最先版序列建模方法的状态。

Audio-visual Attentive Fusion for Continuous Emotion Recognition
Authors Su Zhang, Yi Ding, Ziquan Wei, Cuntai Guan
我们提出了一种音频视觉空间时间深神经网络,其中包含普雷雷雷的2D CNN的一个视觉块,其次是时间卷积网络TCN 2,其包含多个并行TCN和3的透射跟随器分子融合块组合音频视觉信息。具有大历史覆盖的TCN使我们的模型能够利用在更大的窗口长度内的空间时间信息,而不是来自最重要的方法和最先进方法的300。,36或48。融合块强调使用帧间模块注意力机制利用嘈杂的听觉模型进行视觉模块。为了充分利用数据并减轻拟合,在培训和验证集上进行交叉验证。一致性相关系数CCC居中用于将结果与每个折叠的结果合并。在开发集上,实现的CCC为0.410,适用于唤醒0.661,显着优异地优于基线方法,其相应的CCC为0.210和0.230的价和唤醒。代码可用

A Survey on Deep Learning Technique for Video Segmentation
Authors Wenguan Wang, Tianfei Zhou, Fatih Porikli, David Crandall, Luc Van Gool
视频分割,即将视频帧分区到多个段或对象中,在广泛的实际应用中扮演关键作用,例如,在电影中的视觉效果辅助,在自动驾驶中的场景理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系文艺复兴,一直涌入了众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在本调查中,我们通过引入各自的任务设置,背景概念,感知需要,开发历史和主要挑战,全面审查这一领域的两种基本研究,即视频和视频语义细分中的未知类别的未知类别。 。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能性。

Collaborative Visual Navigation
Authors Haiyang Wang, Wenguan Wang, Xizhou Zhu, Jifeng Dai, Liwei Wang
作为人工智能的基本问题,多代理系统MAS正在进行进步,主要由多售后强化学习Marl技术驱动。然而,以前的Marl方法主要集中在视觉富裕环境中的网格世界或游戏环境中的MAS仍然较少探索。为了缩小这个差距并强调感知在MAS中的关键作用,我们提出了一个大规模的3D数据集,Collavn,用于多代理视觉导航Mavn。在COLLAVN中,多个代理必须合作地浏览照片现实环境以达到目标位置。探索不同的MAVN变体,使我们的问题更加普遍。此外,提出了一种存储器增强通信框架。每个代理都配备了私有的外部存储器,以持久地存储通信信息。这允许代理更好地利用过去的通信信息,从而实现更高效的协作和强大的长期规划。在我们的实验中,设计了几个基线和评估指标。我们还经验验证了我们提出的MAVN方法跨不同的MAVN任务设置的效果。

Ensemble of Loss Functions to Improve Generalizability of Deep Metric Learning methods
Authors Davood Zabihzadeh
深度指标学习DML从输入数据中获取非线性语义嵌入,该输入数据在一起,同时保持不同的数据彼此远离。为此,在过去十年中提出了许多不同的方法,其中有希望在各种应用中产生。 DML算法的成功大大取决于其损耗功能。但是,没有损失函数是完美的,并且它只处理最佳相似性嵌入的一些方面。此外,在测试阶段期间,DML对看不见类别的概括性是现有损失职能不考虑的重要事项。为了解决这些挑战,我们提出了新的方法来结合在共享深度特征提取器之上的不同损失。拟议的损失合并强制实施深入模型,以提取与所有损失一致的功能。由于所选损失是多样的,并且每个损失都强调了最佳语义嵌入的不同方面,因此我们的有效组合方法对任何个人损失产生了相当大的改进,并概括了未经证明的类别。在这里,选择损耗函数没有限制,我们的方法可以与任何一组现有的方法一起使用。此外,它们可以优化每个损耗功能以及其重量在端到端范式中,无需调整任何超参数。我们在传统的零拍摄学习ZSL设置中从机床视图中的一些流行数据集中评估我们的方法。结果非常令人鼓舞,并表明我们的方法优于所有数据集中的大型余量的所有基线损耗。

Comparison of end-to-end neural network architectures and data augmentation methods for automatic infant motility assessment using wearable sensors
Authors Manu Airaksinen, Sampsa Vanhatalo, Okko R s nen
使用智能可穿戴物的婴儿运动性评估是评估婴儿神经生理发展的有希望的新方法,并且有效的信号分析起到核心作用的位置。本研究调查了不同端到端神经网络架构,用于处理来自可穿戴传感器的婴儿运动数据。我们专注于替代传感器编码器和时间序列建模模块及其组合的性能和计算负担。此外,我们探讨了数据增强方法在理想和非理想记录条件下的好处。该实验是使用7个月大婴儿的多传感器运动记录进行的实验,如最近提出的智能连衣裤捕获的婴儿运动性评估。我们的结果表明,编码器模块的选择对分类器性能产生了重大影响。对于传感器编码器,通过对所有传感器的共用重量进行平行二维卷积获得最佳性能。结果还表明,在传感器特征提取内可以获得相对紧凑的特征表示,而不急剧损失分类器性能。时间序列模型的比较显示,使用剩余和跳过连接的饲料前进扩张卷曲优于性能,培训时间和训练稳定性的所有基于RNN的模型。实验还表明,数据增强在模拟数据包丢失或传感器丢失方案中提高了模型稳健性。特别地,基于信号和传感器丢失的增强策略为性能提供了相当大的提升,而不会对基线性能产生负面影响。总体而言,结果提供了有关如何优化多通道移动传感器数据的端到端神经网络训练的有形建议。

Cooperative Training and Latent Space Data Augmentation for Robust Medical Image Segmentation
Authors Chen Chen, Kerstin Hammernik, Cheng Ouyang, Chen Qin, Wenjia Bai, Daniel Rueckert
基于深度学习的细分方法容易在部署期间不可预见的数据分布班次,例如,在本文中,不同扫描仪,意想不到的成像伪像等引起的图像外观或对比度。在本文中,我们向训练图像分割模型和用于产生硬示例的潜在空间增强方法的协同框架。这两种贡献都改善了具有有限数据的模型泛化和鲁棒性。合作培训框架包括一个快速思维网络FTN和慢速思维网络STN。 FTN了解用于图像重建和分割任务的解耦图像特征和形状特征。 STN了解分割修正和细化的形状前视图。两个网络以合作方式培训。潜伏空间增强产生挑战的例子,以通过掩盖渠道明智和空间明智的方式的解耦潜在空间来训练。我们对公共心脏成像数据集进行了广泛的实验。与单一站点仅使用10个科目进行培训,与强大的基线方法相比,我们证明了改善的横向网站分割性能,并增加了各种无法预料的成像伪影的鲁棒性。特别是,与标准训练方法相比,具有潜在空间数据增强的合作培训在平均骰子评分方面产生了15种。

Magnification-independent Histopathological Image Classification with Similarity-based Multi-scale Embeddings
Authors Yibao Sun, Xingru Huang, Yaqi Wang, Huiyu Zhou, Qianni Zhang
组织病理学图像的分类在癌症诊断和病理研究中具有很大的价值。然而,多种原因,例如由放大因子和类别不平衡引起的变化,使其成为一个具有挑战性的任务,其中在许多情况下,从图像标签数据集中学习的传统方法。我们观察到同一级别的肿瘤经常分享常见的形态模式。为了利用这一事实,我们提出了一种学习基于相似性的多尺度嵌入SMSE的方法,用于放大无关的组织病理学图像分类。特别地,利用一对损耗和三重态损耗来从图像对或图像三联体学习基于嵌入的相似性。学习的嵌入提供了对图像之间的相似性的准确测量,其被认为是比正常图像特征的组织病理学形态的更有效形式。此外,为了确保所生成的模型是无关的,在学习多尺度嵌入的训练期间,在不同放大因子中获取的图像同时馈送到网络。除了SMSE之外,消除类别不平衡的影响,而不是使用直观丢弃一些简单的样本的硬样品挖掘策略,我们引入了一种新的增强焦损,同时惩罚了硬扫描的样本,同时抑制了容易良好的分类样品。实验结果表明,与先前的方法相比,SMSE通过大幅度通过大的边缘来提高乳腺癌和肝癌的组织病理学图像分类任务的性能。特别是,与使用传统特征的先前方法相比,SMSE在突破性基准上实现了突破性基准的最佳性能。

Optical Braille Recognition using Circular Hough Transform
Authors Zeba Khanam, Atiya Usmani
盲文有授权视觉挑战的社区阅读和写作。但与此同时,由于非盲文用户普遍理解盲文脚本,它创造了一个缺口。这种差距推动了研究人员,提出了光学盲文识别技术,将盲文文件转换为自然语言。这项工作的主要动机是通过翻译盲人学生的个人文件来解决学术机构的沟通差距。这是通过提出使用智能手机相机数字化盲文文件的经济和有效技术来实现的。对于任何给定的盲文图像,提出了一种基于Hough变换的点检测机构,其不变于偏斜,噪声和其他威慑力。然后使用基于距离的聚类算法将检测到的点聚集到盲文单元中。连续,每个盲文单元的标准物理参数估计为特征提取和分类为自然语言字符。在拟议的54枚盲文脚本的拟议数据集中对该技术的综合评价已达到98.71的准确性。

Sub-millisecond Video Synchronization of Multiple Android Smartphones
Authors Azat Akhmetyanov, Anastasiia Kornilova, Marsel Faizullin, David Pozo, Gonzalo Ferrer
本文介绍了构建实惠易于安装的多视图相机系统的问题,这是对高动态环境中的许多计算机视觉和机器人应用的需求。在我们的工作中,我们提出了解决此问题的解决方案,可公开可用的Android应用程序,用于多个智能手机上的同步视频录制,具有子毫秒精度。我们为Android智能手机提供了一般性化的时间戳,并在47个不同的物理设备上证明了其适用性。此外,我们估计这些智能手机的时间漂移​​参数,对于大多数考虑的设备,每分钟小于1.2毫秒,这使得智能手机相机系统成为专业多视图系统的价值模拟。最后,我们在用Android智能手机上制造的相机系统上展示了Android应用程序性能,显示了少于300微秒的同步误差,并定性在全景拼接任务上。

Unsupervised Single Image Super-resolution Under Complex Noise
Authors Zongsheng Yue, Qian Zhao, Jianwen Xie, Lei Zhang, Deyu Meng
虽然对单幅图像超分辨率SISR的研究特别配备有深度神经网络DNN,但最近取得了巨大的成功,它们仍然遭受了两个主要限制。首先,真实的图像劣化通常是从一个到另一个到另一个的尚未变化的,使得训练单个模型非常困难以处理一般的SISR任务。其次,目前的大部分方法主要关注下采样过程的降解,但忽略或低估不可避免的噪音污染。例如,常用的独立和相同分布的i.i.d.高斯噪声分布​​始终偏离真实的图像噪声,例如,相机传感器噪声,这限制了它们在真实情况下的性能。为了解决这些问题,本文提出了一种基于模型的无人监督的SISR方法来处理具有未知降级的普通SISR任务。而不是传统的i.i.d.高斯噪声假设,基于新型补丁的非I.I.D。提出了噪声建模方法以适应复杂的真实噪声。此外,由DNN参数化的深发电器用于将潜变量映射到高分辨率图像,并且传统的超级拉普拉斯人也被精心嵌入到这样的发电机中以进一步约束图像梯度。最后,蒙特卡洛EM算法旨在解决我们的模型,它提供了一般推理框架,用于更新图像生成器w.r.t.潜在变量和网络参数。综合实验表明,该方法可以显着超越最新的技术系统,不仅具有0.34米的较小型号,而且更快的速度。

Ultrasound Video Transformers for Cardiac Ejection Fraction Estimation
Authors Hadrien Reynaud, Athanasios Vlontzos, Benjamin Hou, Arian Beqiri, Paul Leeson, Bernhard Kainz
心脏超声成像用于诊断各种心脏病。常见的分析管道涉及专家临床医生手动处理视频帧。这遭受了内部和间观察者间变异性。我们提出了一种基于残余自动编码器网络的变压器架构的超声波视频分析的新方法,以及适于令牌分类的BERT模型。这使得能够处理任何长度的视频。我们将模型应用于结束收缩期ES和最终舒张ED帧检测的任务以及左心室喷射分数的自动计算。我们在任意长度的视频上实现了ES和7.17帧的平均帧距离为3.36帧。我们的最终学习方法可以估计每台视频0.95和0.52的MAE的喷射级分,显示分割不是预测喷射分数的唯一方法。代码和型号可用

Parasitic Egg Detection and Classification in Low-cost Microscopic Images using Transfer Learning
Authors Thanaphon Suwannaphong, Sawaphob Chavana, Sahapol Tongsom, Duangdao Palasuwan, Thanarat H. Chalidabhongse, Nantheera Anantrasirichai
肠道寄生虫感染导致全世界人类的几个病理,特别是在热带国家。传统的诊断通常依赖于由于不同寄生卵的形态相似性和样品中的杂质的形态相似性而易于对人体错误的手动分析。许多研究已经开发出用于寄生虫蛋检测的自动系统,以减少人类工作量。然而,他们与高质量的显微镜一起工作,不幸的是在一些农村地区仍然不足。因此,我们的工作利用低成本USB显微镜的好处。然而,由于放大率10x的限制,该仪器提供了差的图像质量差,导致寄生虫检测和物种分类难度。在本文中,我们提出了一种基于CNN的技术,使用转移学习策略提高了劣质微观图像中自动寄生虫分类的效率。采用滑动窗口的基于贴片技术来搜索卵的位置。两个网络,AlexNet和Reset50,在架构规模和分类性能之间进行折衷。结果表明,我们所提出的框架优于现有物体识别方法的状态。我们的系统与专家的最终决定相结合,可以通过低成本显微镜来改善真正的粪便检查。

Evaluating the Usefulness of Unsupervised monitoring in Cultural Heritage Monuments
Authors Charalampos Zafeiropoulos, Ioannis N. Tzortzis, Ioannis Rallis, Eftychios Protopapadakis, Nikolaos Doulamis, Anastasios Doulamis
在本文中,我们仔细审查了各种聚类技术的有效性,调查其在文化遗产监测应用中的适用性。在本文的上下文中,我们在利用高光谱图像的罗德斯河墙上的分解和腐蚀水平。在一组14个不同的矫正高光谱图像上,共评估了6种不同的聚类方法。本研究中的实验设置涉及K表示,光谱,易移,DBSCAN,桦木和光学算法。对于这些技术中的每一种,我们通过使用绩效指标来评估其性能,例如Calinski Harabasz,Davies Bouldin指标和轮廓值。在这种方法中,我们通过将它们与一组注释图像进行比较来评估聚类方法的结果,该图像表示关于原始图像的分解和或腐蚀区域的基础事实。结果描述了在给定的数据集上应用了一些聚类技术成功,精度,精度,召回和F1分数成功。最终,观察到劣化,非常准确地检测到劣化。

Mixed Supervision Learning for Whole Slide Image Classification
Authors Jiahui Li, Wen Chen, Xiaodi Huang, Zhiqiang Hu, Qi Duan, Hongsheng Li, Dimitris N. Metaxas, Shaoting Zhang
对分类标签的薄弱监督学习在各种任务中表现出高性能。当几个像素级精细注释也是实惠的,它是自然的,利用例如分割和图像级别的杠杆化,例如分割和图像级别。,分类注释,以进一步提高性能。然而,在计算病理学中,这种弱或混合的监督学习仍然是一个具有挑战性的任务,因为整个幻灯片图像的高分辨率使得能够对分类模型的结束训练执行结束。一种替代方法是通过补丁基础模型训练,即,使用自我监督学习来分析这些数据来为修补程序生成像素级伪标签。然而,这种方法通常具有模型漂移问题,即难以收敛,因为噪声在自培训过程中累积。为了处理这些问题,我们向超高分辨率图像提出了一种混合监督学习框架,以有效地利用其各种标签,例如,足够的图像级粗糙注释和几个像素级精细标签。在补丁培训阶段,该框架可以利用粗略图像级标签来改进自我监督的学习并产生高质量的像素级伪标签。提出了一种综合策略来抑制像素级误报和假底片。具有大量图像的三个真实世界数据集,即,超过10,000个整个幻灯片图像和各种类型的标签用于评估混合监督学习的有效性。与本领域的状态相比,我们在图像级别分类的任务中减少了与本领域的状态相比的误报率大约三分之一。

MSN: Multi-Style Network for Trajectory Prediction
Authors Conghao Wong, Beihao Xia, Qinmu Peng, Xinge You
必须挑战,以预测复杂场景中的各种代理的未来轨迹。无论是内部人格因素的代理商,邻里的互动行为,还是周围环境的影响,它会对他们未来的行为风格产生影响。这意味着即使对于相同的物理类型的代理商而言,他们的行为偏好存在巨大差异。虽然最近的作品在学习代理的多种模式规划中取得了重大进展,但大多数人仍然对所有代理商施加相同的预测策略,这使得它们难以充分展示多种款式的广阔代理商。在本文中,我们提出了多样式网络MSN,通过将代理偏好风格分成多个隐藏行为类别,并自适应地将每个类别的预测网络分开,因此同时为代理提供代理。实验表明,我们的确定性MSN D和生成的MSN G优于最近最近的现有技术,并在可视化结果中显示了更好的多种风格特征。

HO-3D_v3: Improving the Accuracy of Hand-Object Annotations of the HO-3D Dataset
Authors Shreyas Hampali, Sayan Deb Sarkar, Vincent Lepetit
HO 3D是提供使用手和物体的3D姿势向化的各种手对象交互方案的图像序列,并最初被引入HO 3D V2。通过在原始纸上引入的优化方法,自动获得注释。 HO 3D V3为手和物体姿势提供更准确的注释,从而导致手和物体之间的接触区域更好地估计。在本报告中,我们详细说明了对汉语方法的改进,并提供了对比较HO 3D V2和HO 3D V3的准确性的评估。与手部姿势的HO 3D V2相比,HO 3D V3的精度高4毫米,同时呈现出具有物体表面的更高的接触区域。

Cross-view Geo-localization with Evolving Transformer
Authors Hongji Yang, Xiufan Lu, Yingying Zhu
在这项工作中,我们解决了跨视图地理定位问题,该问题通过将其与Geo标记的航空图像数据库匹配来估计街道视图图像的地理空间位置。由于视图的巨大外观和几何差异,横视匹配任务非常具有挑战性。与主要的方法不同,主要是在CNN上倒回CNN,这里我们设计了一种新颖的演化地理定位变换器EGOTR,它利用变压器自我注意的性质来模拟全球依赖性,从而显着降低了跨视图地理定位的视觉模糊性。我们还利用变压器的位置编码来帮助Egotr理解并对应地面和空中图像之间的几何配置。与对几何知识产生强烈假设的技术方法相比,EGOTR通过训练目标灵活地学习位置嵌入,因此在许多现实世界方案中变得更加实际。尽管变压器非常适合我们的任务,但其香草自我关注机制在每层的图像补丁中独立地交互,忽略了层之间的相关性。相反,本文提出了一种简单而有效的自信给予提高机制,以提高学习象征的质量。自信给在相邻层之间模拟全局依赖性,在图像补丁之间相关,同时建模功能如何在上一层中发展。因此,提出的自我跨关注导致更稳定的培训,提高泛化能力,并鼓励随着网络更深的方式继续不断发展的陈述。广泛的实验表明,我们的EGOTR对标准,精细粒度和交叉数据集跨视图地理定位任务的现有技术的最有利。

1st Place Solutions for UG2+ Challenge 2021 -- (Semi-)supervised Face detection in the low light condition
Authors Pengcheng Wang, Lingqiao Ji, Zhilong Ji, Yuan Gao, Xiao Liu
在本技术报告中,我们简要介绍了我们在CVPR 2021中的UG2挑战的低光状况中进行了Semi监督脸检测的解决方案。通过用流行的图像增强方法和图像传递方法进行多项实验,我们拉低了光图像和正常图像到更近的域。并且观察到,使用这些数据训练可以实现更好的性能。我们还调整几种流行的对象检测框架,例如探测器,级联RCNN和像Swin变压器这样的大骨干。最后,我们集合了几种型号,在测试集上达到了Map 74.89,在最终排行榜上排名第一。

MMF: Multi-Task Multi-Structure Fusion for Hierarchical Image Classification
Authors Xiaoni Li, Yucan Zhou, Yu Zhou, Weiping Wang
通过提供多粒预测并鼓励更好的错误,分层分类对于复杂任务非常重要。随着标签结构决定其性能,许多现有方法试图构建优异的标签结构以促进分类结果。在本文中,我们认为不同的标签结构提供了各种先验知识的类别识别,因此融合它们是有助于实现更好的分层分类结果。此外,我们提出了一种多任务多结构融合模型来集成不同的标签结构。它包含两种分支机构是传统的分类分支来分类公共子类,另一个是识别不同标签结构定义的异构超类。除了多个标签结构的效果外,我们还探讨了更好的入学分类的深层模型的体系结构,并调整多个标签结构的分层评估度量。 CIFAR100和CAR196上的实验结果表明,我们的方法比使用具有任何单个标签结构的平面分类器或分级分类器获得的结果明显更好。

Polarized Self-Attention: Towards High-quality Pixel-wise Regression
Authors Huajun Liu, Fuqiang Liu, Xinyi Fan, Dong Huang
像素明智的回归可能是细粒度计算机视觉任务中最常见的问题,例如估计关键点热手和分段掩码。这些回归问题非常具有挑战性,特别是因为它们需要在低计算开销时,在高分辨率输入输出上建模长距离依赖性以估计高度非线性像素明智语义。虽然深度卷积神经网络的注意机制DCNNS已经变得倾向于提升长距离依赖性,但元素的注意力(例如非局部块)是高度复杂的和噪声对学习敏感,而且大多数简化的关注杂种试图达到多个中的最佳折衷任务类型。在本文中,我们介绍了偏振的自我注意力PSA块,其结合了两个临界设计,其高质量的像素明显回归1偏振滤波,在通道和空间注意计算中保持高内部分辨率,同时沿着它们的对应尺寸完全折叠输入张量。 2增强构成非线性,直接适合典型的细粒度回归的输出分布,例如2D高斯分布键点热插拔,或2D双向分布二进制分割掩模。 PSA似乎只用其频道内的表示容量耗尽,仅限空间分支,使得其顺序和并行布局之间只有边缘度量差异。实验结果表明,PSA将标准基线提升2点4分,并在2D姿势估计和语义分割基准测试中提升了1 2分的艺术状态。

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
Authors Yunhe Gao, Mu Zhou, Dimitris Metaxas
变压器架构已经出现在许多自然语言处理任务中成功。但是,其对医疗愿景的应用仍然很大程度上是未开发的。在这项研究中,我们展示了UTNET,这是一个简单而强大的混合变压器架构,它将自我关注集成到卷积神经网络中,以增强医学图像分割。 UTNET在编码器和解码器中应用自我注意模块,以捕获不同尺度的长距离依赖性,其开销最小。为此,我们提出了一种有效的自我注意机制以及相对位置编码,其从O N 2显着降低了自我注意力操作的复杂性以近似O n。还提出了一种新的自我注意解码器,以从编码器中的跳过连接中恢复细粒度细节。我们的方法解决了变压器需要大量数据来学习视觉归纳偏差的困境。我们的混合层设计允许将变压器初始化为卷积网络,而无需预培训。我们在多标签上进行了评估了UTNET,多供应商心脏磁共振成像队列。 UTNET展示了卓越的分割性能和对现有技术方法的鲁棒性,并使承诺在其他医学图像分割上呈现良好。

Passing a Non-verbal Turing Test: Evaluating Gesture Animations Generated from Speech
Authors Manuel Rebol, Christian G tl, Krzysztof Pietroszek
在现实生活中,人们使用语音和非言语信号(如手势,面部表达或身体姿势)进行沟通。非言语信号以丰富的方式影响口语的含义。没有非言语信号冒出了通信过程。然而,当用户表示为头像时,难以将非言语信号与语音一起转换为虚拟世界,而无需专门的运动捕获硬件。在本文中,我们提出了一种新颖的数据驱动技术,用于直接从语音产生手势。我们的方法是基于生成的对抗性神经网络GAN来模拟相关性而不是语音和手势之间的因果关系。这种方法近似神经科学表明如何与言语通信如何相关。我们创建一个大型数据集,由我们的模型学习扬声器特定相关性的3D人类姿势格式中的语音和相应的手势组成。我们评估了通过图灵测试启发的用户研究中的提出的技术。对于研究,我们为虚拟字符上生成的手势设置生动。我们发现用户无法区分生成和录制的手势。此外,用户能够识别与给定话语相关或无关的合成手势。

Blind Image Super-Resolution via Contrastive Representation Learning
Authors Jiahui Zhang, Shijian Lu, Fangneng Zhan, Yingchen Yu
由于近年来卷积神经网络CNNS的进展,图像超级分辨率SR研究表现出令人印象深刻的进展。然而,大多数现有的SR方法是非盲的,并且假设降解具有单个固定和已知的分布,例如,在处理通常遵循多模态,空间变体和未知分布的现实世界数据中争取的双方斗争。最近的盲目SR通过劣化估算解决了这个问题,但它们并不概括到多源劣化并且无法处理空间变体劣化。我们设计CRL SR,一个对比表示学习网络,专注于具有多模态和空间变体分布的图像的盲目SR。 CRL SR从两个角度讨论盲人SR挑战。首先是对比解耦编码,其引入了对比的学习,提取了在双向对比损失的指导下提取了决议不变的嵌入和丢弃分辨率嵌入的嵌入。第二种是对比特征细化,在条件对比损失的指导下,在有条件对比损失的指导下产生丢失或损坏的高频细节。对合成数据集的广泛实验和实图像表明,所提出的CRL SR可以在盲设置下有效地处理多模态和空间变化的降解,并且定性和定量地优于现有技术的SR方法的状态。

Intrinsic Image Transfer for Illumination Manipulation
Authors Junqing Huang, Michael Ruzhansky, Qianying Zhang, Haihui Wang
本文提出了一种用于照明操作的新型内在图像转移IIT算法,其在两个照明表面之间产生局部图像转换。该模型构建在基于优化的框架上,包括由由内在图像分解的子层定义的三个照片逼真损失组成。我们说明了所有损失可以减少,而无需在众所周知的空间变化照明照明不变的反射率之前占用内在图像分解。此外,通过一系列放松,所有这些都可以在图像上直接定义,给出用于图像照明操作的封闭式解决方案。这种新的范例不同于基于RetineX的算法,因为它提供了处理每像素图像照明的隐式方法。我们终于展示了它的多功能性和益处,以及照明补偿,图像增强和高动态范围HDR图像压缩,并显示了自然图像数据集的高质量结果。

Unsupervised Image Segmentation by Mutual Information Maximization and Adversarial Regularization
Authors S. Ehsan Mirsadeghi, Ali Royat, Hamid Rezatofighi
语义分割是自主代理的基本但重要的场景之一。最近监督机器学习和神经网络的发展良好的成功越来越成功,提高了这项任务的最新技术的表现。但是,它们的卓越性能非常依赖于大规模注释数据集的可用性。在本文中,我们提出了一种新颖的完全无监督的语义分割方法,所谓的信息最大化和对抗正规化分割犯了。灵感来自人类感知,其将场景解析为感知组,而不是单独地分析每个像素,我们所提出的方法首先将输入图像分区为有意义的区域,也称为超像性。接下来,它利用相互信息最大化,然后进行对抗的培训策略将这些区域聚集成语义有意义的课程。为了定制对问题的侵犯训练方案,我们将对抗性像素噪声以及空间扰动掺入,以施加在深神经网络上的光学和几何不变性。我们的实验表明,我们的方法实现了两个常用的无人监督的语义细分数据集,可可材料和波茨坦的最新性能。

Aerial Map-Based Navigation Using Semantic Segmentation and Pattern Matching
Authors Youngjoo Kim
本文提出了一种对无人机地图导航系统的新方法。所提出的系统尝试标签标签匹配,而不是图像与航空图像和地图数据库之间的图像匹配。通过使用语义分割,标记地面对象并使用对象的配置用于在地图数据库中找到相应的位置。使用深度学习技术作为提取高级特征的工具将基于图像的定位问题降低到模式匹配问题。本文提出了一种模式匹配算法,其不需要高度信息或相机模型来估计绝对水平位置。利用模拟图像的可行性分析显示了所提出的基于地图的导航,可以用所提出的模式匹配算法实现,并且能够提供给定标记对象的位置。

Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE
Authors Junya Chen, Zhe Gan, Xuan Li, Qing Guo, Liqun Chen, Shuyang Gao, Tagyoung Chung, Yi Xu, Belinda Zeng, Wenlian Lu, Fan Li, Lawrence Carin, Chenyang Tao
近年来,基于对比的对比代表学习者,如SIMCLR,这一直非常成功。然而,这些对比方案是臭名昭着的资源要求,因为他们的有效性随着小批量训练而崩溃,即Log K诅咒,而K是批次尺寸。在这项工作中,我们在数学上揭示了为什么对比的学习者在小批量大小制度中失败,并呈现出一个名为Flatnce的新颖简单,非琐碎的对比物镜,这解决了这个问题。与InfoNce不同,我们的Flatnce不再明确上诉对比学习的歧视分类目标。从理论上讲,我们显示Flatnce是InfoNce的数学双重制定,从而弥合了能源建模和经验的古典文学,我们证明,随着代码的最小修改,Flatnce使得能够独立于主题工程努力实现即时性能。通过对比度学习技术的强大概括以及引入新工具来监测和诊断对比培训的新工具的重要性,进一步推动了这项工作的重要性。我们在CiFar10,ImageNet和其他数据集上证实了我们的索赔,其持续优于Innocce。

On Measuring and Controlling the Spectral Bias of the Deep Image Prior
Authors Zenglin Shi, Pascal Mettes, Subhransu Maji, Cees G. M. Snoek
深度图像先前已经证明了未经训练的网络可以通过在仅在单个降级图像上优化的情况下解决逆成像问题的显着能力,例如去噪,避免和超级分辨率。尽管有希望,它遭受了两个局限性。首先,它仍然不明确人们如何控制网络架构的选择。其次,它需要一个Oracle来确定何时停止优化,因为在到达峰值后性能下降。在本文中,我们在频谱偏压前的视角来研究了深度图像,以解决这些问题。通过引入频带对应测量,我们观察到在优化期间的逆成像的深度图像前导者在优化期间表现出光谱偏压,其中低频图像信号比高频噪声信号更快且更好地学习。当优化在正确的时间停止时,这个精确地确定为什么可以被降级或染色。基于我们的观察,我们建议在防止性能下降和加速优化收敛之前控制深图中的光谱偏压。我们这样做在两个核心层类型的逆成像网络中卷积层和上采样层。我们为上采样层展示了旋转卷积和高斯控制方法的Lipschitz受控方法。我们进一步引入了停止标准以避免多余的计算。关于去噪,染色和超级分辨率的实验表明,我们的方法在优化期间不再遭受性能下降,从而使我们不需要早期停止。我们进一步勾勒出停止标准以避免多余的计算。最后,我们表明我们的方法获得了与当前方法相比的有利恢复结果,遍布所有任务。

WiCluster: Passive Indoor 2D/3D Positioning using WiFi without Precise Labels
Authors Ilia Karmanov, Farhad G. Zanjani, Simone Merlin, Ishaque Kadampot, Daniel Dijkman
我们使用射频RF信道状态信息CSI介绍了一种新的机器学习ML方法,用于被动室内定位的方法。 Wicluster可以预测区域级位置和精确的2D或3D位置,而不使用训练期间的任何精确位置标签。现有的基于CSI的室内定位工作依赖于使用数字信号处理DSP的非参数方法,并且最近,参数方法例如,完全监督ML方法。然而,这些不处理现实世界环境的复杂性,不符合大规模商业部署的要求,基于DSP的方法的准确性在非瞄准条件下显着恶化,而监督ML方法需要大量难以获得厘米精度位置标签。相比之下,Wicluster既精确,需要易于收集的标签信息较弱。我们的第一种贡献是一种新的规范减少方法,用于图表。它结合了多尺度聚类损耗的三态丢失来将高维CSI表示映射到2D 3D潜空间。我们的第二款贡献是两个弱监督损失,将此潜在空间映射到笛卡尔地图中,导致仪表精度位置结果。这些损失仅需要简单地获取地板的草图,接入点位置的近似位置和少数几个CSI数据包,这些数据包标有平面图中的相应区域。第三,我们报告了一个楼层办公楼2D定位的结果和稳健性研究,并在两个楼层中的3D定位展示了我们方法的稳健性。

ResIST: Layer-Wise Decomposition of ResNets for Distributed Training
Authors Chen Dun, Cameron R. Wolfe, Christopher M. Jermaine, Anastasios Kyrillidis
我们提出了RM Texttt抗拒,一种用于残留网络的新型分布式训练协议。 RM TextTT抵御将全局reset随机分解成几种浅子resnet,该浅子resnet以分布式方式培训,以便在使其更新同步并聚合到全局模型中。在下一轮中,随机生成新的子址并重复过程。通过施工,每个迭代,RM TextTT抵抗仅将一小部分网络参数传送到每台计算机,并且在训练期间从未使用完整的模型。因此,RM TextTT抵押抗蚀剂减少了Reset培训的通信,内存和时间要求,仅为先前方法的要求的一小部分。与与局部SGD的数据并行训练和数据并行训练相比,RM Texttt抗蚀剂产生壁时钟训练时间的减少,同时对模型性能具有竞争力。

LensID: A CNN-RNN-Based Framework Towards Lens Irregularity Detection in Cataract Surgery Videos
Authors Negin Ghamsarian, Mario Taschwer, Doris Putzgruber Adamitsch, Stephanie Sarny, Yosuf El Shabrawi, Klaus Schoeffmann
白内障手术后的关键并发症是镜片植入物的脱位,导致视觉劣化和眼睛创伤。为了降低这种并发症的风险,在手术期间发现风险因素至关重要。然而,使用众多视频研究镜头位错与其可疑危险因素之间的关系是一个时间广泛的程序。因此,外科医生需要一种自动方法来实现更大的规模,并因此更可靠。在本文中,我们提出了一种新颖的框架作为透镜不规则检测的主要步骤。特别地,我们提出了最后的结束经常性神经网络,以识别透镜植入阶段和II一种新颖的语义分割网络,以在植入阶段之后分段镜片和瞳孔。阶段识别结果揭示了所提出的外科阶段识别方法的有效性。此外,与最先进的竞争对手方法相比,分割结果证实了所提出的分割网络S的效力。

Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets
Authors Hayeon Lee, Eunyoung Hyung, Sung Ju Hwang
尽管最近的神经结构中搜索NAS方法的成功,但是在已经显示出的输出网络的各种任务中,但是传统的NAS方法主要解决了对单个任务数据集的网络架构搜索的优化,这不概括跨多个任务数据集。此外,由于这种任务特定方法从划痕寻找每个给定任务的神经架构,因此它们产生了大的计算成本,当时间和货币预算有限时存在问题。在本文中,我们提出了一个高效的NAS框架,它在由数据集和掠夺网络组成的数据库上培训一次,并且可以迅速搜索新型数据集的神经架构。建议的Metad2a Meta数据集到架构模型可以通过通过摊销元学习学习的跨模型潜在空间来随机从给定集数据集随机生成图形架构。此外,我们还提出了元性能预测器来估计,并选择最佳架构,而无需对目标数据集进行直接培训。实验结果表明,我们的模型META在ImageNet 1K和来自NAS BECH 2的架构的子集上学到的,从NAS BECH 2搜索空间成功地推广到包括CIFAR 10和CIFAR 100的多个看不见的数据集,其平均搜索时间为33 GPU秒。即使在MobileNetv3搜索空间下,METAD2A也比NSGONETV2更快,可转换NAS方法,具有可比性的性能。我们认为,Metad2a为快速NAS提出了新的研究方向,以及利用过去几年积累的数据集和架构的丰富数据库知识的方法。代码可用

Target-dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots
Authors Shintaro Ishikawa, Komei Sugiura
目前,国内服务机器人通过语言自然地互动的能力不足。这是因为理解人类指令因各种歧义和缺少信息而复杂化。在现有方法中,指定对象之间的关系的引用表达式是不够建模的。在本文中,我们提出了目标依赖的界限,通过专注于图像内的相关区域而不是整个图像,直接学习目标对象和其他对象之间的关系。我们的方法是基于偶联的变压器的扩展,可以在通用数据集上预先磨损。我们通过引入用于处理目标候选人的新架构来扩展Uniter方法。我们的模型在两个标准数据集上验证,结果表明,目标相关的终端在分类准确性方面优于基线方法。

Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions
Authors Motonari Kambara, Komei Sugiura
机器人有很多研究,以提高国内服务机器人的沟通技巧。然而,大多数研究没有完全受益于深度神经网络的最近进步,因为训练数据集不够大。在本文中,我们的目的是基于跨型语言生成模型来增加数据集。我们提出了壳体关系变压器CRT,它从图像中生成提取指令句子,例如将蓝色触发器移动到左下框。与现有方法不同,CRT使用变压器集成图像中对象的视觉功能和几何特征。由于案例关系块,CRT可以处理对象。我们进行了比较实验和人类评估。实验结果表明CRT优于基线方法。

Overcoming Obstructions via Bandwidth-Limited Multi-Agent Spatial Handshaking
Authors Nathaniel Glaser, Yen Cheng Liu, Junjiao Tian, Zsolt Kira
在本文中,我们解决了带宽限制和障碍倾向于协作感知,具体在多代理语义分割的背景下。此设置具有几个关键挑战,包括处理和交换未注册的机器人群图像。为了成功,解决方案必须有效地利用多个非静态和间歇地重叠的RGB视角,同时引起带宽约束并克服不需要的前景障碍物。因此,我们建议结束到最终学习能力的多代理空间握手网络MASH以处理,压缩和传播机器人群中的视觉信息。我们的分布式通信模块直接且专门用于原始图像数据,而无需额外的输入要求,例如姿势,深度或翘曲数据。我们展示了我们模型的卓越性能,而是在照片逼真的多机器人空气环境中与几个基线相比,特别是在图像遮挡的情况下。我们的方法通过强大的基线实现了绝对的11 IOU。

Enhancing Multi-Robot Perception via Learned Data Association
Authors Nathaniel Glaser, Yen Cheng Liu, Junjiao Tian, Zsolt Kira
在本文中,我们解决了多机器人协作感知问题,特别是在多视图infilling用于分布式语义分割的上下文中。此设置需要几个真实世界的挑战,尤其是与未注册的多代理图像数据有关的挑战。解决方案必须有效利用多重,非静态和间歇性地重叠RGB视角。为此,我们提出了多代理infilling网络的可扩展神经结构,可以以分布式方式部署到机器人群中的每个代理。具体地,每个机器人负责本地编码和解码视觉信息,并且可扩展的神经机制允许不确定性意识和基于上下文的中间特征交换。我们在现实的多机器人AiRSIM数据集上展示了改进的性能。

Mitigating Uncertainty of Classifier for Unsupervised Domain Adaptation
Authors Shanu Kumar, Vinod Kumar Kurmi, Praphul Singh, Vinay P Namboodiri
了解无监督的域名适应一直是一项很好的探索任务。然而,各种各样的方法尚未详细分析分类器的性能的作用。在本文中,我们在匹配源和目标分布方面彻底检查了分类器的作用。我们通过匹配特征分布,B样本和C确定性激活映射的特征分布来专门调查分类器能力。我们的分析表明,使用这三个分布确实会导致所有数据集的始终如一地提高性能。因此,我们的工作扩展了关于从分类器获得的各种分布的作用,旨在解决无监督域适应的各种分布的作用。

SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios
Authors Suraj Kothawade, Nathan Beck, Krishnateja Killamsetty, Rishabh Iyer
通过选择最具信息丰富的样本,已证明主动学习可用于最小化标记成本。但是,现有的活动学习方法在未标记的集合中的分发数据之类的现实方案中不适用于诸如不平衡或稀有类别的现实方案,以及冗余。在这项工作中,我们提出了类似的基于子模具信息测量的主动学习,使用最近提出的子模块信息测量SIM作为采集功能的统一主动学习框架。我们认为类似不仅在标准的主动学习中工作,而且还可以轻松扩展到上面考虑的现实设置,并充当一个停止解决方案,即积极学习,可扩展到大型真实世界数据集。在经验上,我们认为,在罕见的类别和510的情况下,在罕见数据的情况下,在罕见的数据之外的情况下,如CiFar 10,Mnist和Imagenet等几个图像分类任务的情况,类似于518,类似的活动学习算法类似。

Long-Short Ensemble Network for Bipolar Manic-Euthymic State Recognition Based on Wrist-worn Sensors
Authors Ulysse C t Allard, Petter Jakobsen, Andrea Stautland, Tine Nordgreen, Ole Bernt Fasmer, Ketil Joachim Oedegaard, Jim Torresen
双相情感疾病的躁狂事件可能导致不共享的行为和妄想精神病,通常对受影响的人和周围环境的破坏性后果。躁狂发作的早期检测和干预对于防止升级,医院入学和过早死亡至关重要。然而,具有双相情感障碍的人可能无法认识到他们正在经历躁狂事件和诸如兴奋的症状,并且提高生产力也可以阻止受影响的人寻求帮助。这项工作提出基于在躁狂症期间和恢复Euthymia的腕带磨损装置中获取的戏法和电墓活动来执行用户独立的自动情绪状态检测。本文提出了一种新的基于深度学习的合奏方法,杠杆长20小时,短5分钟时间间隔,以区分情绪状态。当在47名双极患者测试时,所提出的分类方案在Euthymic躁狂情绪状态识别中实现了91.59的平均准确性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页



pic from pexels.com

你可能感兴趣的:(Papers,计算机视觉,计算机视觉,transformer,目标检测,三维重建,多模态融合)