【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 25 Jun 2021
Totally 63 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第1张图片

Interesting:

*****VOLO, 基于局域编码增强token的新型视觉识别模块(from Sea AI Lab National University of Singapore)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第2张图片code:https://github.com/sail-sg/volo
图像分类指标榜单:https://paperswithcode.com/sota/image-classification-on-imagenet


***Video Swin Transformer, 视觉transformer用于视频预测(from MSRA)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第3张图片
code:https://github.com/SwinTransformer/Video-Swin-Transformer

***Learning by Planning, 基于语言的全局图像编辑模型 (from 罗彻斯特大学 cvpr2021)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第4张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第5张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第6张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第7张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第8张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第9张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第10张图片

code: https://jshi31.github.io/T2ONet/


***AudioCLIP, 文本、语音和视频 模型多模态(from TU Kaiserslautern)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第11张图片
code:https://github.com/AndreyGuzhov/AudioCLIP
dataset: Composite CLIP Dataset ImageNet AudioSet UrbanSound8K ESC-50


**MatchVIE, 实体相关性抽取与匹配。(from 南方科技大学)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第12张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第13张图片

code: https://www.pazhoulab.com/ scut.edu.cn

FaDIV-Syn, 与深度独立的快速场景合成 (from 波恩大学)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第14张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第15张图片

Sparse Needlets, 场景光源估计新方法 (from 南洋理工)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第16张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第17张图片


SGTBN,单根激光雷达探测线辅助的深度估计方法。(from )
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第18张图片


自动驾驶中多模态三维目标检测综述, (from 中科大)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第19张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第20张图片


Florida Wildlife Camera Trap Dataset,触发相机的小动物数据集 (from University of Central Florida)


, (from )

AVHYAS, 开放的高光谱数据处理分析平台(from Space Applications Centre, ISRO, Ahmedabad, Gujarat, India)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第21张图片
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第22张图片

Deep Fake Detection综述, (from AITR india )

Fuji,开源生物图像处理软件。 (from …)
【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第23张图片【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021_第24张图片

code:https://imagej.net/software/fiji/


Daily Computer Vision Papers

Video Swin Transformer
Authors Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu
愿景界正在目睹从CNN到变形金刚的模型转变,纯变压器架构在主要视频识别基准上实现了最高准确性。这些视频型号全部基于整体跨空间和时间尺寸的变压器图层构建。在本文中,我们提倡视频变压器中的局部局部偏差,与之前的方法相比,与空间时间分解相比,与以前的方法计算出自我注意的方法,导致更好的速度准确性折衷。通过调整为图像域设计的Swin变压器来实现所提出的视频架构的局部性,同时继续利用预训练图像模型的功率。我们的方法在广泛的视频识别基准上实现了最新的技术准确性,包括在动作识别84.9上的动力学400和86.1前1个精度。 69.6在v2的东西上的1个高精度。代码和模型将公开可用

HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields
Authors Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin Brualla, Steven M. Seitz
神经辐射田间NERF能够重建具有前所未有的保真度的场景,并且各种最近的作品延长了NERF来处理动态场景。重建这种非刚性场景的常见方法是通过使用从每个输入图像中的坐标中的学习变形字段映射到规范模板坐标空间。然而,这些基于变形的方法努力模拟拓扑的变化,因为拓扑变化需要变形场中的不连续性,但这些变形字段必须连续。我们通过将NERFS提升到更高的尺寸空间,并且通过将每个单独的输入图像表示为切片,通过该超空间来解决这些限制。我们的方法是通过级别设置方法的启发,该方法将表面的演变模拟通过更高的尺寸表面作为切片。我们在两个任务中评估我的方法,即在瞬间,即场景的配置之间平稳地,在输入图像中看到的,同时保持视觉合理性,以及在固定时刻的综合。我们展示我们的方法,我们将Hivernerf提供优于两项任务的现有方法,通过显着的利润。与NERFIES相比,HypernerF通过LPIP测量的新型视图合成的插值和8.8来减少8.6的平均误差率。

AutoAdapt: Automated Segmentation Network Search for Unsupervised Domain Adaptation
Authors Xueqing Deng, Yi Zhu, Yuxin Tian, Shawn Newsam
当大量注释的数据可用时,神经网络的语义分割已经取得了显着的结果,即在监督箱中。然而,这些数据收集昂贵,因此已经开发了方法以适应培训的模型,这些模型通常是易于获得的标签的合成数据。当前的适应方法不考虑这些模型对网络架构的泛化可转移性的依赖性。在本文中,我们执行神经结构搜索NAS,为域适应提供体系结构级透视和分析。我们确定搜索域为无监督域适应的架构时存在的优化差距,这使得该NAS问题唯一困难。我们提出通过使用最大平均差异和区域加权熵来弥合来估计准确度指标的缩小。关于若干广泛采用的基准测试的实验结果表明,我们提出的Autoadapt框架确实发现了提高了许多现有适应技术的性能的架构。

Depth Confidence-aware Camouflaged Object Detection
Authors Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong
伪装的物体检测鳕鱼旨在掩盖掩藏环境中的伪装物体,这是由于伪装物体及其周围环境的类似外观而挑战。生物学研究表明,深度可以为伪装的物体发现提供有用的对象定位提示,因为所有动物都有3D感知能力。但是,未被利用深度信息以伪装对象检测。为了探索伪装检测的深度的贡献,我们介绍了一个深度引导的伪装对象检测网络,具有来自现有单眼深度估计方法的预计算机深度映射。由于深度估计数据集和我们的伪装对象检测数据集之间的域间隙,所生成的深度可能不足以直接在我们的框架中使用。然后,我们引入深度质量评估模块,以评估基于RGB COD分支和RGB D COD分支的模型预测的深度质量。在培训期间,只使用高质量的深度来更新多模态学习的模态交互模块。在测试期间,我们的深度质量评估模块可以有效地确定深度的贡献,并选择RGB分支或RGB D分支以进行伪装预测。各种伪装对象检测数据集的广泛实验证明了我们解决方案在探索伪装对象检测的深度信息方面的有效性。我们的代码和数据在URL上公开提供

GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed Silhouettes
Authors Youssef A.Mejjati, Isa Milefchik, Aaron Gokaslan, Oliver Wang, Kwang In Kim, James Tompkin
我们提出了一种算法,该算法从未曝光的多视图2D掩码监控学习对象的粗略3D表示,然后使用它来生成详细的掩码和图像纹理。与基于Voxel基于的未铺设的对象重建的方法相比,我们的方法学习通过透视照相机代表生成的形状和姿势,并通过透视照相机和每个图像变换的一组自我监督的规范3D各向异性高斯。我们表明这种方法可以强大地估计相机和对象的3D空间,而最近的基线有时会在此设置中重建相位的3D空间。我们在具有现实照明的合成数据集上显示结果,并用交互式摆展示对象插入。通过我们的工作,我们帮助转向结构化的表示,这些表现在基于学习的物体重建中处理了更多的世界变化。

Handling Data Heterogeneity with Generative Replay in Collaborative Learning for Medical Imaging
Authors Liangqiong Qu, Niranjan Balachandar, Miao Zhang, Daniel Rubin
协作学习,可以在隐私保存方式下在多个机构中进行协作和分散培训深神经网络,并在医疗保健应用中迅速涌现为宝贵的技术。然而,其分布式性质通常导致机构数据分布中的显着异质性。现有的协作学习方法通​​常不会占机构之间数据中的异质性,或者仅研究了轻度倾斜标签分布。在本文中,我们提出了一种新的生成重播策略,以解决协作学习方法中数据异质性的挑战。而不是直接培训用于任务性能的模型,利用最近的图像综合技术来开发一种新型双模型体系结构,初级模型学习所需的任务,而辅助生成重放模型合成密切地类似于输入图像的图像或帮助提取潜伏变量。生成重播策略是灵活的,可以使用,可以纳入现有的协作学习方法,以提高其在机构跨机构处理数据异质性的能力,或者被用作被称为联邦交叉口的新颖和个人协作学习框架以降低通信成本。实验结果表明了跨机构处理异构数据的方法的能力。在高度异构的数据分区上,与糖尿病视网膜病分类数据集的预测准确性有49.8,与骨龄预测数据集的预测准确性的提高有关,与最新的协作学习方法相比,49.8分别对骨龄预测数据集进行了49.8。

When Differential Privacy Meets Interpretability: A Case Study
Authors Rakshit Naidu, Aman Priyanshu, Aadith Kumar, Sasikanth Kotti, Haofan Wang, Fatemehsadat Mireshghallah
鉴于在医学成像和诊​​断等任务中使用个人数据的使用增加,DNN的差异私人培训在重要性中飙升,并且有一个巨大的工作致力于提供更好的隐私式贸易。但是,对这些模型的可解释性具有很少的关注,以及DP的应用程度如何影响解释的质量。我们提出了广泛的研究在APTOS数据集上对DP培训对DNN训练的影响,特别是在医学成像应用程序上。

Driver-centric Risk Object Identification
Authors Chengxi Li, Stanley H. Chan, Yi Ting Chen
大量的流量死亡是由于驾驶员错误。为了减少死亡人,开发智能驾驶系统,协助司机识别潜在风险的迫切需要。风险情况通常根据现有研究中的碰撞预测来定义。但是,碰撞只是交通方案中的一种风险。我们相信需要更通用的定义。在这项工作中,我们提出了一种新颖的驾驶员中心风险定义,即风险对象影响驾驶员行为。基于此定义,介绍了一种新的任务,称为风险对象识别。我们将任务作为原因效果问题,并提出了一种新颖的两个阶段风险对象识别框架,从事情况意识和因果推断的模型采取灵感。策划驾驶员中心风险对象识别ROI数据集以评估所提出的系统。与ROI数据集上的强基线相比,我们展示了艺术风险对象识别性能的状态。此外,我们进行了广泛的消融研究,以证明我们的设计选择。

FitVid: Overfitting in Pixel-Level Video Prediction
Authors Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan
能够预测接下来发生什么的代理可以通过规划没有任何额外的培训来执行各种任务。此外,这种代理可以在内部代表现实世界的复杂动态,因此可以获得对各种视觉感知任务的表示。这使得预测视频的未来帧,在观察到的过去和可能未来的行动上,这是一个有趣的任务,尽管最近的进步,尽管仍然存在异常具有挑战性。现有的视频预测模型在简单的窄基准测试中显示了有希望的结果,但它们在具有更复杂的动态或更广泛的域的现实生活数据集上产生低质量的预测。还有一种日益增长的证据,即训练数据的贴筑是低质量预测的主要原因之一。在本文中,我们认为当前视频模型中参数的低效使用是底层的主要原因。因此,我们介绍了一个名为FITVID的新架构,它能够在公共基准上严重过度拟合,同时具有与最新的艺术模型的当前状态相似的参数计数。我们分析过度装备的后果,说明它如何产生意外结果,例如通过重复训练数据来产生高质量的输出,以及如何使用现有的图像增强技术来减轻它。因此,FITVID在四个不同度量上的四个不同视频预测基准上占据了本领域的当前状态。

Differential Morph Face Detection using Discriminative Wavelet Sub-bands
Authors Baaria Chaudhary, Poorya Aghdaie, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi
面部识别系统非常容易受到变形攻击的影响,其中变形面部参考图像可以被成功验证为两个或更多个不同的身份。在本文中,我们提出了一种变形攻击检测算法,其利用未传定的2D离散小波变换DWT来识别变形面部图像。我们框架的核心是在空间频域中可以更容易地识别由图像域中不可辨别的变形过程产生的伪像。鉴别的小波频带可以突出真实和变形图像之间的视差。为此,将多级DWT应用于所有图像,每个图像都产生48个中频和高频子带。每个子带的熵分布是单独计算的真实和变形图像。对于一些子频带,在真人般的图像中的子带的熵和变形图像中的相同子带S熵之间存在明显的差异。因此,我们采用Kullback Leebler Divergence KLD利用这些差异,并将这些差异隔离为最判别的子频段。我们测量子频带是如何通过其KLD值的差异,并且选择具有最高KLD值的22个子带进行网络培训。然后,我们使用这22个选择的子带来训练深度暹罗神经网络,用于差异变形攻击检测。我们研究了变形攻击检测的鉴别小波子带的功效,并表明在这些子带上培训的深神经网络可以准确地识别变形图像。

Learning by Planning: Language-Guided Global Image Editing
Authors Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu
最近,语言引导的全球形象编辑利用日益增长的应用潜力提高了不断的关注。然而,以前的GaN基方法不仅限于特定的域,低分辨率数据,而且缺乏可解释性。为了克服集体困难,我们开发一个文本到操作模型,以将模糊的编辑语言请求映射到一系列编辑操作中,例如,更改对比度,亮度和饱和度。每个操作都是可解释和可微分的。此外,任务中唯一的监督是目标图像,这不足以稳定地训练顺序决策。因此,我们提出了一种新颖的操作规划算法,以从目标图像生成可能的编辑序列,作为伪基础。新收集的MA5K REQ数据集和Gier DataSet上的比较实验显示了我们的方法的优势。代码可用

FaDIV-Syn: Fast Depth-Independent View Synthesis
Authors Andre Rochow, Max Schwarz, Michael Weinmann, Sven Behnke
我们介绍了Fadiv Syn,一个快速深度独立的视图合成方法。我们的多视图方法解决了观看合成方法的问题通常受到深度估计阶段的限制,其中不正确的深度预测可能导致大的投影错误。为避免此问题,我们将多个输入图像有效地将多个输入图像横发到目标帧中,以进行一系列假定的深度平面。由此产生的张量表示被馈送到具有门控卷积的U NET等CNN中,其直接产生新颖的输出视图。因此,我们侧行显式深度估计。这提高了透明,反射性和功能较少的场景部件的效率和性能。 Fadiv Syn可以处理在大规模Realestate10K数据集上的内插和外推任务和优于最佳推出方法的状态。与可比方法相比,由于其轻量级架构,它能够实时运行。我们进一步通过较少的示例从较少的示例中培训来展示Fadiv Syn的数据效率,以及在严重深度离散化下的更高分辨率和任意深度范围内的概率。

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers
Authors Katelyn Morrison, Benjamin Gilby, Colton Lipchak, Adam Mattioli, Adriana Kovashka
最近,已经开发了视觉变换器和基于MLP的模型,以解决卷积神经网络中的一些普遍缺陷。由于在该领域使用的变压器的新颖性以及自我关注机制,因此这些架构对损坏的鲁棒程度仍然不清楚。尽管有些作品提出,数据增强对模型对腐败的稳健仍然是必不可少的,但我们建议探讨架构对腐败鲁棒性的影响。我们发现视觉变形金刚架构本质上对损坏具有比Reset 50和MLP混频器更强大。我们还发现,比Reset 50更少的参数的视觉变压器具有更多的形状偏差。我们的代码可用于复制。

VOLO: Vision Outlooker for Visual Recognition
Authors Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
视觉识别多年来一直由卷积作业网络中的CNN主导。虽然最近,预vailing视觉变压器Vits在Imagenet Classifica中显示了基于自我关注的潜力,但它们的性能仍然不如最新的SOTA CNNSIF,没有提供额外的数据。在这项工作中,我们的目标是为了收取性能差距,并证明基于的注意力确实能够优于CNN。我们发现限制了IMA遗传分类VITS性能的主要因素是它们在编码细水位特征到令牌表示中的低功效。对于解决方案,我们介绍了一个新颖的agooutlook注意力和一般建筑,被称为愿景Outlooker沃罗。与专注于粗糙水平的全球凭证建模的自我关注不同,展望Aimsto有效地编码更精细的级别特征和上下文intotokens,这些功能对于每个格式的识别至关重要,但在很大程度上被自我关注忽略了识别。实验证明我们的沃洛实现了87.1前面1精度的ImageNet 1K分类,是第一个在这个竞争基准上超过87准确性的模型,毫无尊重培训数据。此外,预训练过滤良好地转移到下游任务,例如Seman TIC分段。我们在ChecityScapes验证集中达到84.3 miou得分和ADE20K Valida Tion集的54.3。代码可用

Sparse Needlets for Lighting Estimation with Spherical Transport Loss
Authors Fangneng Zhan, Changgong Zhang, Wenbo Hu, Shijian Lu, Feiying Ma, Xuansong Xie, Ling Shao
准确的照明估算是挑战,对于许多计算机视觉和计算机图形任务,如高动态范围HDR致密的挑战性问题是至关重要的。现有方法在频域或空间域中的模型照明,其不足以表示场景中的复杂照明条件,并且倾向于产生不准确的估计。本文呈现了一种新的照明估计模型,该模型代表了针对针的照明,并共同允许在频域和空间域中的照明估计。最佳阈值函数旨在实现稀疏针头,其修剪冗余照明参数,并展示了照明表示的卓越的定位特性。此外,基于最佳运输理论设计了一种新的球形传输损失,该优化传输理论是考虑空间信息来回归照明表示参数。此外,我们提出了一种新的指标,它通过直接评估估计的照明映射而不是渲染的图像来简明扼要的公制。广泛的实验表明,与现有技术的状态相比,针状智能概括在多种评估指标上一致地实现了卓越的照明估计。

ChaLearn Looking at People: Inpainting and Denoising challenges
Authors Sergio Escalera, Marti Soler, Stephane Ayache, Umut Guclu, Jun Wan, Meysam Madadi, Xavier Baro, Hugo Jair Escalante, Isabelle Guyon
处理不完整信息是在机器学习和计算智能的背景下进行了良好的问题。然而,在计算机视觉的上下文中,仅在特定场景中研究了问题,例如,特定类型的图像中的某些类型的闭塞,但是在视觉数据中具有不完整的信息。本章介绍了一个专注于侵染WCCI2018竞争计划的图像和视频序列的学术竞争的设计,并将卫星活动与ECCV2018合作。看着人们的挑战,旨在通过促进图像和视频恢复丢失和封闭信息的方法来推进挑战的挑战。提出了三条曲目,其中视觉染色可能有用,但仍然具有挑战性的人体姿势估计,文本覆盖和指纹去噪。本章介绍了挑战的设计,包括释放三个新型数据集,以及评估度量,基线和评估协议的描述。分析并详细分析挑战的结果,并详细讨论并讨论了从该事件中得出的结论。

Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks
Authors Takuhiro Kaneko
了解来自2D预计的自然图像的3D世界是计算机视觉和图形中的根本挑战。最近,由于其在数据收集方面的优势,无监督的学习方法已经得到了相当大的关注。然而,为了缓解训练限制,典型方法需要施加视点分布的假设,例如,包含各种视点图像或对象形状的数据集。,对称对象。这些假设通常将应用程序限制为非刚性物体或从类似视点捕获的图像的应用程序,例如,花或鸟图像仍然是一个挑战。为了补充这些方法,我们提出了孔径渲染生成的对策网络AR GAN,它在GAN的顶部装备光圈渲染,并采用焦点提示来学习未标记的自然图像的现场DOF效果的深度和深度。为了解决由无监督设置触发的含糊不清的含糊之处,即在光滑的纹理和焦影之间以及前景和背景模糊之间,我们开发DOF混合学习,这使得发电机能够在产生各种DOF图像的同时学习真实的图像分布。此外,我们在引导学习方向之前设计一个中心重点。在实验中,我们展示了AR GAN在各种数据集中的AR GAN的有效性,例如花,鸟和面部图像,通过将它们结合到其他3D表示学习GAN来证明它们的可移植性,并验证其在浅水渲染中的适用性。

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021
Authors Ke Han Lu, Bo Han Fang, Kuan Yu Chen
在本文中,灵感来自Visionlanguage预训练模型的成功以及来自对抗攻击的培训的益处,我们通过纳入VQA挑战2021的两个概念来提出一种新型变换基础跨模型融合建模。具体地,所提出的模型是最重要的VINVL模型19的架构和对抗训练策略4的应用程序用于使模型稳健和广义。此外,我们的系统中也使用了两个实现技巧以获得更好的结果。实验表明,新颖的框架可以在VQAV2测试STD集上实现76.72。

A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks
Authors Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu, Yongdong Zhang
现有场景文本删除方法主要培训具有配对图像的详细网络,以实现文本本地化和背景重建的功能同时,但存在两个问题1缺乏文本区域的详尽擦除,导致过度擦除到无自由区域。为了处理这些问题,本文提供了一种新颖的基于区域的场景文本橡皮擦Pert,其介绍基于区域的修改策略,以逐步删除仅文本区域的像素。首先,Pert将str任务分解为几个删除阶段。由于每个阶段旨在朝文本移除图像而不是直接回归到最终结果,因此分解的操作减少了每个阶段的学习难度,并且可以通过迭代具有共享的轻质擦除块来获得详尽的擦除结果参数。然后,Pert介绍基于区域的修改策略,以确保通过从擦除过程中解耦文本本地化来指导删除的文本定位的完整性。受益于简单架构,Pert是一种简单而强大的基线,很容易遵循和开发。广泛的实验表明Pert获得了合成和现实世界数据集的最新状态。代码是可用的,Athttps github.com王莹,87 Pert。

Exploring Stronger Feature for Temporal Action Localization
Authors Zhiwu Qing, Xiang Wang, Ziyuan Huang, Yutong Feng, Shiwei Zhang, jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang
时间操作本地化旨在通过行动类别本地化启动和结束时间。受GPU内存的限制,主流方法为每个视频提取特征。因此,特征质量决定了检测性能的上限。在本技术报告中,我们探讨了基于经典的卷积的骨干和最近的变压器底座震荡。我们发现基于变压器的方法可以实现比基于卷积更好的分类性能,但它们无法生成准确性的行动提案。另外,提取具有更大帧分辨率的特征以减少空间信息的丢失也可以有效地提高时间动作定位的性能。最后,我们通过简单的组合BMN Tcanet实现了验证的验证集42.42,这是一个简单的BMN Tcanet,它比2020 S多模型集合的结果高1.87。最后,我们在CVPR2021 HACS监督时间行动本地化挑战中实现了第1次。

SGTBN: Generating Dense Depth Maps from Single-Line LiDAR
Authors Hengjie Lu, Shugong Xu, Shan Cao
深度完成旨在从稀疏深度图生成密集深度图并对齐RGB图像。但是,当前深度完成方法使用极其昂贵的64行LIDAR约100,000以获得稀疏深度图,这将限制其应用方案。与64线LIDAR相比,单行LIDAR更便宜,更强大。因此,我们提出了一种解决单线深度完成问题的方法,其中我们的目标是从单行LIDAR信息和对准的RGB图像产生密集的深度图。基于现有的64行深度完成数据集Kitti提出了单行深度完成数据集。为此任务提出了一个名为Semantic引导的两个分支网络SGTBN,其中包含全局和本地分支以提取和保险丝全局和本地信息。我们的网络中使用了一个语义引导深度上采样模块,以充分利用RGB图像中的语义信息。除了通常的MSE亏损外,我们添加了虚拟正常丢失,以增加我们网络中高阶3D几何的约束。我们的网络在单行深度完成任务中优于现有技术。此外,与单眼深度估计相比,我们的方法在精度和模型尺寸方面也具有显着的优势。

Evaluation of deep lift pose models for 3D rodent pose estimation based on geometrically triangulated data
Authors Indrani Sarkar, Indranil Maji, Charitha Omprakash, Sebastian Stober, Sanja Mikulovic, Pavol Bauer
对实验室动物行为的评估是对现代神经科学研究的核心兴趣。通常在姿势变化方面研究了行为,其理想地捕获三维。这需要通过多摄像机系统进行三角测量,该系统从不同的角度观看动物。然而,由于闭塞和其他技术限制,这在现实实验室设置中具有挑战性。在这里,我们提出了升降机姿势模型,其允许从单个视图相机视图自由移动啮齿动物的鲁棒3D姿态估计。为了获得用于姿势升降的高质量训练数据,我们首先在涉及底部的相机设置中执行几何校准以及表现动物的侧视图。然后,我们根据给定推理的观点评估两个先前提出的模型架构的性能,并且得出结论可以使用时间卷积获得可靠的3D姿势推断。通过这项工作,我们希望为在神经科学区广泛的实验和设置方面,为自由移动啮齿动物提供更强大和多样化的行为跟踪。

Relationship between pulmonary nodule malignancy and surrounding pleurae, airways and vessels: a quantitative study using the public LIDC-IDRI dataset
Authors Yulei Qin, Yun Gu, Hanxiao Zhang, Jie Yang, Lihui Wang, Feng Yao, Yue Min Zhu
为了研究非对比计算断层摄影术的胸膜,气道和血管是否可以区分良性和恶性肺结核。 LIDC IDRI DataSet是最大的公开可用的CT数据库之一,被利用进行学习。共有1556名来自694名患者的结节涉及统计分析,其中具有平均速度3和3的结节分别表示为良性和恶性肿瘤。此外,来自113名诊断患者的339名结节是独立评估的。将计算机算法开发成肺部结构,并量化胸膜表面,气道和血管的距离,以及结节附近的气道和血管的计数数量和归一化。进行差距或志方志2测试以证明周围结构的特征与结节恶性肿瘤之间的相关性。在逻辑回归中进行了非参数接收器操作特征ROC分析,以评估每个结构的判别能力。对于良性和恶性群体,从结节到胸膜表面,气道和血管的平均距离分别为6.56,5.19,37.08,26.43和1.42,1.07 mm。结节与呼吸数量的关联和接触或朝向结节的血管的相关性分别为22.96,CHI 2 105.04和或7.06,CHI 2 290.11。结节与气道和血管的体积之间的相关性或9.19,CHI 2 159.02和或2.29,CHI 2 55.89。曲线曲线,气道和血管的曲线区域分别为0.5202,0.6943和0.6529。我们的研究结果表明,与良性人员相比,恶性结节通常被更多的肺部结构包围,表明这些结构的特征可以被视为肺癌生物标志物。

Class agnostic moving target detection by color and location prediction of moving area
Authors Zhuang He, Qi Li, Huajun Feng, Zhihai Xu
移动目标检测在计算机视觉中起着重要作用。然而,诸如帧差和光学流程的传统算法通常遭受低精度或重计算。最近的基于深度学习的卷积神经网络的算法已经取得了高精度和实时性能,但他们通常需要提前了解目标的类别,这限制了实际应用。因此,我们提出了一种自由移动目标检测算法。该算法通过图像特征的差异提取移动区域。然后,将通过最大概率计算移动区域的颜色和位置概率图。并且可以通过两张地图之间的点乘以点来获得目标概率图。最后,可以通过目标概率图上的随机梯度下降来解决最佳移动目标区域。结果表明,该算法与最先进的算法相比实现了最高精度,而无需了解目标类别。此外,当现有数据集不适合移动目标检测时,我们提出了一种制造评估数据集的方法。此外,我们还证明了所提出的算法可用于协助目标跟踪。

Continual Novelty Detection
Authors Rahaf Aljundi, Daniel Olmeda Reino, Nikolay Chumerin, Richard E. Turner
新颖性检测方法识别不代表模型S训练的样本,从而标记误导性预测并在部署时间带来更大的灵活性和透明度。然而,在该区域的研究中仅考虑了离线设置中的新奇检测。最近,在计算机视觉社区中,应用程序需要更加灵活的框架持续学习,其中新批次,代表新域名,新课程或新任务的新批次在不同的时间点可用。在这个环境中,新奇的检测变得更加重要,有趣和具有挑战性。这项工作确定了两个问题与持续学习环境下的新奇检测问题之间的关键联系。我们制定持续的新颖性检测问题,并提供基准,在不同的持续学习设置下比较几种新颖性检测方法。

Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated Scenes
Authors Benjamin Keltjens, Tom van Dijk, Guido de Croon
自我监督的深度学习方法利用立体声图像训练单眼深度估计。虽然这些方法在户外数据集(如KITTI)上显示出强烈的结果,但它们与相机旋转的室内环境上不匹配监督方法的性能。室内,旋转场景对于较少约束的应用和构成问题是常见的,因为两个原因在于低纹理区域的丰富度和旋转图像的图像的深度线索的复杂性增加。努力将自我监督的学习扩展到更广泛的环境,我们提出了两种补充。首先,我们提出了一种新颖的填充差异损失术语,可以纠正Textulless区域中图像重建误差损失的模糊性。具体而言,我们使用周围纹理区域的估计差异在未致致致致细胞区域中插入差异,并使用L1损耗来校正原始估计。我们的实验表明,与Godard等人的单一相比,在低纹理场景中,在低纹理场景中,深度估计显着提高了纹理场景。其次,我们表明,在俯仰和辊中,通过应用S代表性旋转的训练足以显着提高整个预期旋转范围的性能。我们证明,在没有相机旋转的测试集上评估时,深度估计成功概括为性能不会丢失。这些发展能够更广泛地利用复杂环境的单眼深度估计学习。

Regularisation for PCA- and SVD-type matrix factorisations
Authors Abdolrahman Khoshrou, Eric J. Pauwels
奇异值分解SVD及其紧密相对,主成分分析PCA是众所周知的线性矩阵分解技术,其广泛用于尺寸减少和聚类等应用。然而,SVD PCA的一个重要限制是对输入数据中的噪声的敏感性。在本文中,我们拍摄了正规化问题,并表明最小化问题的不同配方导致定性不同的解决方案。

MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction
Authors Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, Hui Li
视觉信息提取VIE任务旨在从多种文档图像中提取关键信息,例如,发票和购买收据。最先前的方法将VIE任务视为序列标记问题或分类问题,这需要模型通过引入多式联偶特征,例如字体,颜色,布局来仔细识别各种语义。但是,当面对数字语义类别或一些模糊的文本时,简单地引入多模式功能可能会很好地工作。为了解决这个问题,在本文中,我们提出了一种基于vie匹配的图形神经网络的新型关键价值匹配模型。通过基于相关性评估的关键价值匹配,所提出的匹配可以绕过各种语义的识别,并简单地关注实体之间的强有力。此外,我们引入了一个简单但有效的操作Num2Vec,以解决编码值的不稳定性,这有助于更平滑的模型会聚。综合实验表明,所提出的匹配可以显着优于先前的方法。值得注意的是,据我们所知,匹配可能是第一次尝试通过建模键和值之间的相关性来解决vie任务,并且它是现有方法的良好补充。

Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation
Authors Fahim Faisal Niloy, M. Ashraful Amin, Amin Ahsan Ali, AKM Mahbubur Rahman
由于中间特征图的巨大大小,高分辨率图像分割仍然持挑战性和易于忽略。传统方法通过使用基于贴片的方法来避免此问题,其中每个补丁被独立分割。然而,独立的补丁分割导致错误,特别是在贴片边界处,由于在与完整图像相比的贴片大小的非常高分辨率图像中的上下文信息缺乏上下文信息。为了克服这些限制,在本文中,我们提出了一种新颖的框架来通过从其邻近的补丁中包含上下文信息来分割特定修补程序。这允许分段网络在没有更大的特征映射的情况下看到具有更宽视野的目标补丁。来自许多实验的比较分析表明,我们所提出的框架能够将高分辨率图像分段,具有显着改善的联合和整体精度的平均交叉口。

Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images
Authors Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao
基于传统的特征的图像拼接技术严重依赖于特征检测质量,往往不能缝合少数功能或低分辨率的图像。由于缺乏标记数据,很少研究基于学习的图像拼接解决方案,使监督方法不可靠。为了解决上述限制,我们提出了一种无监督的深度图像拼接框架,其由两个阶段无监督粗糙图像对准和无监督的图像重建组成。在第一阶段,我们设计基于消融的损失,以限制无监督的同住网络,这更适合大型基线场景。此外,引入变压器层以在拼接域空间中经过输入图像。在第二阶段,通过洞察力的激励,即在像素级别中的错位可以在特征级别中消除错位,我们设计无监督的图像重建网络,以消除来自特征的伪像到像素。具体地,重建网络可以由低分辨率变形分支和高分辨率精制分支实现,从而学习图像拼接的变形规则并同时增强分辨率。为了建立评估基准和培训学习框架,介绍和释放了一个用于无监督深映像拼接的全面的真实世界图像数据集。广泛的实验很好地展示了我们对现有技术的方法的优越性。即使与监督解决方案相比,我们的图像拼接质量仍然是用户仍然优选。

Detection of Deepfake Videos Using Long Distance Attention
Authors Wei Lu, Lingyi Liu, Junwei Luo, Xianfeng Zhao, Yicong Zhou, Jiwu Huang
随着近年来DeepFake技术的快速进步,面部视频伪造可以产生高度欺骗的视频内容并带来严重的安全威胁。并检测这种伪造的视频更为紧迫和具有挑战性。大多数现有的检测方法将问题视为香草二进制分类问题。在本文中,问题被视为一个特殊的细粒度分类问题,因为假和真正的面孔之间的差异非常微妙。观察到,大多数现有的面部伪造方法在空间域和时域中留下了一些常见的伪像,包括空间域中的生成缺陷和时域中的帧间帧不一致。提出了一种空间时间模型,其具有分别在全局透视中捕获空间和颞伪迹线的两个组件。两种组件采用新型长距离关注机构设计。空间域的一个组件用于捕获单帧中的伪像,并且时域的其他组件用于捕获连续帧中的伪像。它们以补丁的形式产生注意图。注意方法具有更广泛的愿景,有助于更好地组装全球信息并提取本地统计信息。最后,注意力映射用于指导网络聚焦面部的关键部件,就像其他细粒度的分类方法一样。不同公共数据集的实验结果表明,该方法实现了现有性能的状态,并且所提出的长途注意方法可以有效地捕获面部伪造的关键部件。

Fast Monte Carlo Rendering via Multi-Resolution Sampling
Authors Qiqi Hou, Zhan Li, Carl S Marshall, Selvakumar Panneer, Feng Liu
蒙特卡罗渲染算法被广泛用于生产光电型计算机图形图像。然而,这些算法需要每个像素采样大量的光线以实现适当的全局照明,因此需要巨大的计算。在本文中,我们介绍了一种混合渲染方法来加速蒙特卡罗渲染算法。我们的方法首先以低分辨率为低分辨率生成两个版本,具有高样本速率LRHS,另一个以低采样率HRL的高分辨率。然后,我们开发一个深度卷积神经网络,使这两个渲染融入高质量的图像,就像以高采样率以高分辨率渲染一样。具体地,我们将该融合任务制定为超分辨率问题,该问题从低分辨率输入LRH生成高分辨率渲染,辅助HRL渲染。 HRL渲染提供关键的高频细节,这些细节难以从LRHS获取任何超分辨率方法。我们的实验表明,当在我们自己的BCR数据集和Gharbi数据集上测试时,我们的混合渲染算法比艺术蒙特卡罗去噪方式的状态明显快于艺术蒙特卡罗去噪方法的速度。 URL.

Towards Automatic Speech to Sign Language Generation
Authors Parul Kapoor, Rudrabha Mukhopadhyay, Sindhu B Hegde, Vinay Namboodiri, C V Jawahar
我们的目标是解决了第一次从语音段生成连续手语视频的高度挑战性任务。在不考虑其他方式的情况下,这个空间中最近的努力都集中在从人类注释的文本成绩单中产生这些视频。然而,用手语替换语音证明是一个实用的解决方案,同时与遭受听力损失的人们沟通。因此,我们消除了使用文本作为输入和设计技术的需要,这些技术适用于更自然,连续,自由地发出广泛的词汇。由于当前数据集不足以直接从语音生成手语,因此我们收集并释放包括语音级注释,文本成绩单和相应的手语视频的第一个印度标志语言数据集。接下来,我们提出了一种训练的多任务变压器网络,以从语音段生成签名者的姿势。用语音到文本作为辅助任务和额外的跨模式鉴别器,我们的模型学会以结束以结束的方式生成连续标志姿势序列。与其他基线的广泛实验和比较展示了我们方法的有效性。我们还进行额外的消融研究,以分析我们网络不同模块的影响。包含若干结果的演示视频附加到补充材料。

Video Super-Resolution with Long-Term Self-Exemplars
Authors Guotao Meng, Yue Wu, Sijin Li, Qifeng Chen
现有视频超分辨率方法通常利用少数相邻帧来为每个帧生成更高分辨率的图像。然而,在这些方法中尚未充分利用遥控帧之间的冗余信息,相同实例的相应斑块在不同尺度处的远处帧中出现。基于该观察,我们提出了一种视频超分辨率,具有长期交叉尺度聚集的视频,它利用了跨越帧的类似补丁自我示例。我们的模型还包括多参考对齐模块,以融合从类似补丁导出的功能我们融合了遥远参考的功能,以执行高质量的超分辨率。我们还提出了一种基于转票的新颖和实践培训策略。为了评估我们提出的方法的性能,我们对我们收集的Carcam数据集和Waymo Open DataSet进行了广泛的实验,结果证明了我们的方法优于现有技术的状态。我们的源代码将公开。

Planetary UAV localization based on Multi-modal Registration with Pre-existing Digital Terrain Model
Authors Xue Wan, Yuanbin Shao, Shengyang Li
行星UAV的自主实时光学导航是保证勘探成功的关键技术。在这种GPS拒绝环境中,基于视觉的本地化是一种最佳方法。在本文中,我们提出了一种基于多模型登记的SLAM算法,其与预先存在的数字地形模型相比,在UAV上使用Nadir视图相机估计行星UAV的位置。为了克服船上UAV图像和预安装数字地形模型之间的刻度和外观差异,提出了一种理论模型来证明UAV图像和DEM的地形特征可以通过交叉功率谱在频域中相关。为了提供无人机的六个DOF,我们还开发了一种优化方法,使GEO通过LBA本地捆绑调整融合到SLAM系统中,以实现鲁棒和准确的基于视觉的导航,即使在无特征的行星区域中也是如此。为了测试所提出的定位算法的稳健性和有效性,提出了一种用于行星勘探的新的跨源无人机的定位数据集。所提出的数据集包括40200种合成无人机图像,其中九个行星场景与相关的DEM查询图像。进行的比较实验证明,在33.8km的飞行距离,所提出的方法达到平均定位误差为0.45米,而ORB SLAM为1.31米,加工速度为12Hz,确保实时性能。我们将使我们的数据集可以鼓励在这一有前途的话题上进一步努力。

Frequency Domain Convolutional Neural Network: Accelerated CNN for Large Diabetic Retinopathy Image Classification
Authors Ee Fey Goh, ZhiYuan Chen, Wei Xiang Lim
卷积神经网络中的传统空间卷积层CNNS在训练时间可能需要数天的点上计算昂贵,除非层数,训练图像的次数或训练图像的尺寸减小。 256x256像素的图像尺寸通常用于CNN的大多数应用,但对于糖尿病视网膜病变DR分类等应用而言,该图像尺寸太小,其中图像细节对于准确分类是重要的。本研究提出了频域卷积FDC和频域池池FDP层,其用RFFT,内核初始化策略,卷积器删除和渠道独立卷积CIC构建,以取代传统的卷积和汇集层。 FDC和FDP层用于构建频域卷积神经网络FDCNN,以加速对DR分类的大图像的训练。完整的FDC层是FDC层的扩展,以便在传统的CNN中直接使用,它还用于修改VGG16架构。与等效的CNN架构相比,FDCNN速度较快,70.74更快,70.74更高。据报道,具有全FDC层的改进的VGG16架构,以实现更短的培训时间和更高的精度,而在95.63上与原始VGG16架构进行DR分类。

Multi-Modal 3D Object Detection in Autonomous Driving: a Survey
Authors Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang
在过去几年中,我们目睹了自动驾驶的快速发展。然而,由于复杂和动态的驾驶环境,实现完全自主权仍然是一个艰巨的任务。因此,自动驾驶汽车配备了一套传感器,可以进行稳健和准确的环境感知。随着传感器的数量和类型继续增加,将它们与更好的感知相结合正在成为一种自然趋势。到目前为止,没有侧无期注目的评论,专注于基于多传感器融合的感知。为了弥补这种差距并激励未来的研究,这项调查旨在审查最近基于融合的3D检测深度学习模型,它利用多个传感器数据来源,尤其是相机和闪光灯。在本调查中,我们首先介绍自动车辆的流行传感器背景,包括它们的常见数据表示以及为每种类型的传感器数据开发的对象检测网络。接下来,我们讨论一些流行的数据集进行多模态3D对象检测,特别关注每个数据集中包含的传感器数据。然后我们通过考虑融合融合位置,融合数据表示和融合粒度的以下三个方面来介绍最近的多模态3D检测网络的深度评论。在详细审查后,我们讨论开放挑战并指出可能的解决方案。我们希望我们的详细审查可以帮助研究人员在多模态3D对象检测领域开始调查。

Feature Completion for Occluded Person Re-Identification
Authors Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen
人员重新识别Reid在计算机愿景中发挥着重要作用。然而,现有方法在封闭场景中遭受性能下降。在这项工作中,我们提出了一个遮挡强大的块,区域功能完成RFC,用于遮挡REID。不同于丢弃遮挡区域的最先前作品,RFC块可以在特征空间中恢复遮挡区域的语义。首先,开发了空间RFC SRFC模块。 SRFC利用来自非遮挡区域的长距离空间上下文来预测遮挡区域的特征。单位明智的预测任务导致编码器解码器架构,其中区域编码器模拟非遮挡和闭塞区域之间的相关性,并且区域解码器利用空间相关来恢复封闭区域特征。其次,我们介绍时间RFC TRFC模块,该模块捕获长期时间上下文以优化SRFC的预测。 RFC块是重量轻的,端到端可训练,可以轻松插入现有的CNN以形成RFCNet。广泛的实验是在封闭和普通的Reid基准上进行的。我们的方法显着优于遮挡数据集的现有方法,而在整体数据集上仍然是较高的性能。源代码可用

All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection
Authors Meng Cao, Can Zhang, Dongming Yang, Yuexian Zou
任意形状的文本检测是一个具有挑战性的任务,因为野生中的弯曲文本是复杂的几何布局。现有的主流方法遵循实例分段管线以获取文本区域。然而,由于变化的尺度,难以通过一个分割网络来描绘任意拍摄的文本。在本文中,我们提出了一种基于两级分割的探测器,称为NAKS需要第二个外观,用于任意形状的文本检测。与传统的单级分割网络相比,我们的NAKK以粗略的方式对检测进行粗略地进行矩形文本提案和第二个检索紧凑型表示。具体而言,NASK由文本实例分段TIS网络第一阶段,几何意识文本ROI对齐地理统计模块,以及基准点表达式FOX模块第二阶段。首先,TIS利用新型组空间和通道注意GSCA模块提取增强功能,并进行实例分段以获得矩形提案。然后,Geoalign将这些矩形转换为固定大小并编码ROI Wise特征表示。最后,FOX将文本实例拆解为Serval Tivotal几何属性以优化检测结果。在三个公共基准中的广泛实验结果包括总文本,SCUTCTW1500和ICDAR 2015,验证了我们的NAKS优于最近的最新状态的方法。

Topological Semantic Mapping by Consolidation of Deep Visual Features
Authors Ygor C. N. Sousa, Hansenclever F. Bassani
近期文献中的许多作品介绍了使用CNNS卷积神经网络的语义映射方法,以识别图像中的语义属性。属性的类型例如。房间大小,地方类别和对象及其课程,例如。厨房和浴室,适用于地方类别通常是预定义的,并限于特定任务。因此,在地图的构造期间获取和处理的所有视觉数据都丢失,并且仅在地图上仍然存在识别的语义属性。相比之下,该工作介绍了一种拓扑语义映射方法,该方法使用由CNN,Goodlenet提取的深度视觉特征从环境中的多个视图中捕获的2D图像,以创建区域中获取的可视特征的统一表示每个拓扑节点覆盖。这些综合表示允许灵活地识别区域的语义属性,并在一系列视觉任务中使用。使用现实世界室内数据集执行的实验表明,该方法能够整合区域的视觉特征,并使用它们识别对象和将类别作为语义属性,并指示图像的拓扑位置,具有非常有前途的结果。使用Googlenet的分类层进行分类对象,无需再培训,并且使用浅多层的Perceptron识别地点类别。

Conditional Deformable Image Registration with Convolutional Neural Network
Authors Tony C. W. Mok, Albert C. S. Chung
最近的基于深度学习的方法在可变形图像配准中显示了有前途的结果和运行时优势。但是,分析了超参数和搜索最佳正则化参数的影响,证明了在基于深度学习的方法中过于抑漫。这是因为它涉及培训具有不同的超参数值的大量单独模型。在本文中,我们提出了一种有条件的图像登记方法和用于深可变形图像配准的新自我监督学习范式。通过学习与正则化QuandParameter相关的条件特征,我们证明可以通过单个深度卷积神经网络捕获具有任意超参数的最佳解决方案。另外,可以在推理期间以任意平滑正则化的任意强度操纵所得变形场的平滑度。大规模脑MRI数据集的广泛实验表明,我们所提出的方法使得能够精确控制变形场的平滑度,而不会牺牲运行时的优势或登记精度。

What makes visual place recognition easy or hard?
Authors Stefan Schubert, Peer Neubert
视觉地位识别是移动机器人本地化的基本能力。它在物理世界中操作的物理代理的实际背景下放置图像检索。它是一种积极的研究领域,在许多不同的实验中提出并评估了许多不同的方法。在下文中,我们认为,由于这种实际情况和个人设计决策的变化,地点识别实验在不同的纸质上几乎没有比较,并且有各种各样的性质可以从一个实验到另一个实验发生变化。我们提供了广泛的此类属性列表,并举例说明如何使用它们更容易或更难的位置识别实验。这可能对不同涉及的缔约方有趣的是一个只想选择适合其特定任务的属性的人,2名研究人员来说,这是一个寻找开放研究问题的研究人员,并对特别困难的情况感兴趣3个作者这希望在本主题创建可重复的论文,4个也有审查员,该审核人员可以识别正在审查的论文中的潜在问题。

Human Activity Recognition using Continuous Wavelet Transform and Convolutional Neural Networks
Authors Anna Nedorubova, Alena Kadyrova, Aleksey Khlyupin
世界上有很多人必须保持永久监测,因为健康原因,他们包括糖尿病人或其他一些慢性病的人,老人和残疾人。这些团体可能面临着生命威胁下降或被击中的风险一个晕厥。由于资源可用性有限,风险的大部分人无法获得必要的监测,因此暴露于过度危险。如今,这个问题通常通过应用人类活动识别Har方法来解决。 HAR是一个透视和快节奏的数据科学领域,具有广泛的应用领域,如医疗保健,运动,安全等。然而,目前的识别技术明显缺乏准确性,因此缺乏本文表明高度准确人类活动分类方法。 Wepropose一个新的工作流程来解决HAR问题并在UNIMIB Shar DataSet上进行评估,该数据集由加速度计信号组成。我们建议的模型基于连续小波变换CWT和卷积神经网络CNNS。小波变换定位在时间和频率域中的信号特征,之后CNN提取这些功能并识别活动。值得注意的是,CWT将1D加速度计信号转换为2D图像,从而使得能够获得更好的结果,因为2D网络具有明显更高的预测能力。在工作过程中,我们构建卷积神经网络并随着空间轴的数量,层数,每层的神经元数,图像尺寸,母小波类型,母小波的顺序而变化。此外,我们还应用具有剩余块的模型,导致度量明显更高。最后,我们成功达到99.26的准确性,这是一个值得这个问题的表现。

Florida Wildlife Camera Trap Dataset
Authors Crystal Gagne, Jyoti Kini, Daniel Smith, Mubarak Shah
Trail Camera Imagery在生物学家中越来越受到保护和生态研究的流行。操作摄像机陷阱所需的最小人性干扰允许捕获无偏见的物种活动。基于人和野生动物互动的几项研究,各种物种的迁徙模式,濒危人群灭绝的风险受到缺乏丰富的数据和手动注释迹线相机图像的耗时性质的限制。我们介绍了从佛罗里达州西南部的两个不同地点收集的挑战性野生动物摄像头陷阱分类数据集,包括104,495张图片,具有视觉上类似的物种,不同的照明条件,偏斜阶级分布以及包括濒危物种的样本,即佛罗里达黑豹。与RESET 50架构的实验评估表明基于图像的数据集可以进一步推动野生动物统计建模的进步。我们将公开提供数据集。

IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers
Authors Bowen Pan, Yifan Jiang, Rameswar Panda, Zhangyang Wang, Rogerio Feris, Aude Oliva
基于自我注意的模型,变压器,最近成为计算机视野领域的领先骨干。尽管变压器在各种视野任务中取得了令人印象深刻的成功,但它仍然存在沉重的计算和密集内存成本。为了解决这个限制,本文提出了一种可解释性意识的冗余减少框架IA红色2。我们首先观察大量的冗余计算,主要花在不相关的输入修补程序上,然后引入可解释的模块以动态且优雅地删除这些冗余补丁。然后将该新颖框架扩展到分层结构,其中不同阶段的不相关令牌逐渐被移除,导致计算成本相当收缩。我们在图像和视频任务中包括广泛的实验,其中我们的方法可以通过仅牺牲小于0.7的精度,为艺术模型的状态提供高达1.4倍的速度。更重要的是,与其他加速方法相反,我们的方法本质上是具有实质性视觉证据的可观解释,使视觉变压器更接近更加人类的理解建筑,同时更轻。我们证明,我们框架中自然出现的可解释性可以越优于原始的视觉变压器学习的原始注意力,以及由货架解释方法产生的那些,具有定性和定量结果。项目页面

Handwritten Digit Recognition using Machine and Deep Learning Algorithms
Authors Samay Pashine, Ritik Dixit, Rishika Kushwah
人类对机器的依赖从未如此之高,使得从照片中的对象分类来向静音电影添加声音,可以通过深度学习和机器学习算法来执行所有内容。同样,手写的文本识别是具有可以实现的流媒数的重要研究和开发领域之一。手写识别HWR,也称为手写文本识别HTR,是计算机接收和解释从索取文件,照片,触摸屏和其他设备1的源的可理解手写输入的能力。显然,在本文中,我们使用支持向量机SVM,多层Perceptron MLP和卷积神经网络CNN模型的MNIST数据集进行了手写的数字识别。我们的主要目标是比较上面规定的模型的准确性以及他们的执行时间来获得最佳模型的数字识别。

Deep Fake Detection: Survey of Facial Manipulation Detection Solutions
Authors Samay Pashine, Sagar Mandiya, Praveen Gupta, Rashid Sheikh
作为一个领域的深度学习已经成功地习惯了一种夸张的复杂问题,我们不能想象几十年来的人。但随着它的许多好处,它仍然可以使用它来对我们的社会带来伤害。被证明的深刻假装是一个这样的问题,现在,当任何个人都可以在智能手机上使用应用程序创建假图像或视频时,需要有一些对策,我们可以检测图像是否可以检测到图像或视频是假的或实际和处置问题威胁在线信息的可信度。虽然神经网络创造的深刻迎板可能似乎是真实的图像或视频,但它仍然在空间和时间迹线或符号后留下,这些签名可以通过帮助来检测对人眼不可见的同时一个培训的神经网络,专注于深度假检测。在本文中,我们分析了若干本艺术神经网络Mesonet,Reset 50,VGG 19和Xcepion Net的状态,并将它们相互比较,以找到各种场景的最佳解决方案,如要部署的实时深度假检测。在线社交媒体平台,分类应尽可能快地或为分类不需要实时但需要最精确的小额新闻机构。

Q-space Conditioned Translation Networks for Directional Synthesis of Diffusion Weighted Images from Multi-modal Structural MRI
Authors Mengwei Ren, Heejong Kim, Neel Dey, Guido Gerig
目前对扩散MRI建模的电流深度学习方法规避了通过直接预测从稀疏采样的DWIS的微观结构索引来抑制密集采样扩散加权图像DWIS的需要。然而,在训练和重建期间,它们隐含地产生了静态Q空间采样的不切实际的假设。此外,这种方法可以限制可变采样的DWIS的下游使用,以进行使用,包括微观结构索引或牵引的估计。我们提出了一种用于高质量DWI合成的生成的对抗性翻译框架,所述高质量DWI合成,所述任意Q空间抽样给予通常获得的结构图像,例如,B0,T1,T2。我们的翻译网络线性地调制其在连续Q空间信息上的内部表示,从而删除了对固定采样方案的需求。此外,该方法能够从任意限制的DWIS从任意限位的DWIS下游估计高质量的微结构图,这在具有稀疏采样的DWIS的情况下可能尤为重要。在几个最近的方法中,所提出的方法产生了改善的DWI合成精度和保真度,通过从合成图像估计的标量微结构索引的准确性来量化的增强的下游效用。代码可用

Towards Fully Interpretable Deep Neural Networks: Are We There Yet?
Authors Sandareka Wickramanayake, Wynne Hsu, Mong Li Lee
尽管表现出色,但深度神经网络DNNS表现为黑匣子阻碍了用户信任的人工智能AI系统。打开黑匣子DNN的研究可以广泛地分为HOC方法和固有的可解释的DNN。虽然已经在后HOC解释方法进行了许多调查,但很少努力致力于固有地解释的DNN。本文介绍了具有内在解释性的现有方法,以重点关注卷积神经网络CNNS。目的是了解对全部可解释的DNN的目前的进展,可以迎合不同的解释要求。最后,我们确定当前工作中的差距并提出潜在的研究方向。

High-resolution Image Registration of Consecutive and Re-stained Sections in Histopathology
Authors Johannes Lotz, Nick Weiss, Jeroen van der Laak, StefanHeldmann
我们将不同的分析图像配准与组织病理学的联系和重新染色部分进行比较。我们为非参数非线性图像注册提供了一个全自动算法,并将其应用于来自Anhir挑战230幻灯片的先前现有的数据集,连续的部分和新的数据集混合重新染色和连续,81幻灯片,CA。 3000个地标,可公开可用。注册超参数在ANHIR数据集中获得,并在未修改的情况下应用于新数据集。在新数据集中,登记后的地标误差范围为13.2微米,连续部分为1微米染色部分。我们观察到非参数登记在两种情况下都能降低地标错误,即使RE染色部分中的效果较小。重新染色部分非参数配准后的核水平对准提供了一种有价值的工具,用于在组织病理学中为机器学习应用产生自动基础真理。

Advancing biological super-resolution microscopy through deep learning: a brief review
Authors Tianjie Yang, Yaoru Luo, Wei Ji, Ge Yang
超分辨率显微镜克服了空间分辨率中常规光学显微镜的衍射极限。通过在纳米分辨率下提供关于生物过程的新的空间或时空时间信息,具有分子特异性,它在生命科学中起着越来越重要的作用。但是,其技术限制要求履行贸易问题,以平衡其空间分辨率,时间分辨率和样品的光暴露。最近,深入学习在许多图像处理和计算机视觉任务中取得了突破性的表现。它对推动超分辨率显微镜的性能包络有很大的承诺。在这篇简短的综述中,我们调查了最近利用深度学习提高超分辨率显微镜性能的进步。我们主要专注于深度学习广告如何重建超分辨率图像。讨论了相关的主要技术挑战。尽管存在挑战,但深入学习是在超分辨率显微镜的发展中发挥不可或缺的变革作用。我们得出了展望深度学习如何塑造这种新一代光学显微镜技术的未来。

AudioCLIP: Extending CLIP to Image, Text and Audio
Authors Andrey Guzhov, Federico Raue, J rn Hees, Andreas Dengel
过去,从其他域的方法的应用很大地利用了迅速发展的声音分类领域。今天,我们遵守熔断器域特定任务和方法的趋势,为社区提供了新的优秀模型。

Symmetric Wasserstein Autoencoders
Authors Sun Sun, Hongyu Guo
利用最佳运输框架,我们先前介绍了一个新的生成自动统计器系列,称为对称Wassersein AutoEncoders SWAES。我们建议对称地匹配观察到的数据的联合分布和编码器和解码器所引起的潜在表示。结果算法在数据空间中的损失中共同优化了数据和潜在空间中的建模损失,导致去噪效果。利用数据的对称处理和潜在表示,算法隐式地保留了潜在空间中数据的本地结构。为了进一步提高潜在代表的质量,我们将重建损失纳入目标,这显着利用了生成和重建。在分类,重建和生成方面,我们经验展示了艺术生成自身拓扑状态的卓越性能。

Rate Distortion Characteristic Modeling for Neural Image Compression
Authors Chuanmin Jia, Ziqing Ge, Shanshe Wang, Siwei Ma, Wen Gao
端到端优化能力提供神经图像压缩NIC卓越的损坏压缩性能。然而,需要训练不同的模型,以验证速率失真空间中的不同点。在本文中,我们考虑了对NIC的R D特征分析和建模的问题。我们努力制定使用深网络和统计建模来描述NIC的R D行为的基本数学函数。因此,通过通过单个培训的网络利用这种模型可以典范地实现连续比特率点。在这方面,我们提出了一个模块中的插件,以了解自动编码器的潜变量的目标比特率和二进制表示之间的关系。此外,我们分别将NIC的速率和失真特性模拟分别为编码参数Lambda的函数。我们的实验表明,我们提出的方法易于采用,并以固定的速率编码方法获得竞争性编码性能,这将有利于NIC的实际部署。此外,所提出的模型可以应用于使用单个网络的有限比特率误差的NIC速率控制。

High Performance Hyperspectral Image Classification using Graphics Processing Units
Authors Mahmoud Hossam
实时遥感应用,如搜索和救援任务,军事目标检测,环境监测,危险防护和其他时间关键应用需要船上实时处理能力或自主决策。一些无人驾驶的远程系统,如卫星在物理上远离其运营商,并且必须通过无线无线电链路传输航天器返回的航天器和数据的所有控制。当卫星在其地面站的视线中时,此链接可能无法延长时段。因此,轻量级,小尺寸和低功耗硬件对于车载实时处理系统至关重要。随着近期高光谱成像传感器的维度,规模和分辨率的增加,在遥感处理系统上提出了额外的挑战,并且需要更多的计算架构。图形处理单元GPU作为光重量高性能计算的承诺架构,可以解决车载系统的这些计算要求。本研究的目标是为车载高光谱分析构建高性能方法。我们向众所周知的递归分层分割RhSeG聚类方法提出了加速方法,使用GPU,混合多核CPU具有GPU和混合多核CPU GPU集群。 Rhseg是由美国国家航空航天局开发的方法,该方法旨在提供具有多个产出水平的丰富分类信息。与CPU顺序实现相比,通过并行解决方案实现的加速为21倍,用于具有16个计算节点的平行单个GPU和240x,用于具有16个计算节点的混合多节点计算机集群。与等效的并行CPU集群相比,使用单个GPU将能量消耗降低至74。

VinDr-SpineXR: A deep learning framework for spinal lesions detection and classification from radiographs
Authors Hieu T. Nguyen, Hieu H. Pham, Nghia T. Nguyen, Ha Q. Nguyen, Thang Q. Huynh, Minh Dao, Van Vu
射线照片被用作临床实践中鉴定脊柱异常的最重要的成像工具。然而,对脊髓骨病变的评估是放射科学家的具有挑战性的任务。这项工作旨在开发和评估名为VINDR Spinexr的深度学习框架,用于脊柱X光线的分类和定位。首先,我们构建一个大型数据集,包括来自5,000项研究的10,468个脊柱X射线图像,每个研究每个都是由经验丰富的放射科医师手动注释,其中13个类别中的异常发现周围的界定框。使用此数据集,我们将培训深度学习分类器以确定脊柱扫描是否异常,并且探测器在总数13中定位7个关键结果。VINDR SpineXR在1,000项研究中评估了2,078张图像的测试集。保持与培训集分开。它展示了88.61 95CI 87.19,90.02的接收器操作特性曲线Auroc的区域,用于图像级分类任务,以及用于病变级定位任务的平均平均精度映射0.5的33.56。这些结果担任概念证明,并在此方向上设定了未来研究的基线。鼓励进步,数据集,代码和培训的深度学习模型是公开可用的。

Continuous-Time Deep Glioma Growth Models
Authors Jens Petersen, Fabian Isensee, Gregor K hler, Paul F. J ger, David Zimmerer, Ulf Neuberger, Wolfgang Wick, J rgen Debus, Sabine Heiland, Martin Bendszus, Philipp Vollmuth, Klaus H. Maier Hein
估计肿瘤在未来可能发展的能力可能具有巨大的临床益处,从改善的治疗决策可以更好地分布放射治疗。最近的作品通过深度学习和变分推论,从而完全从真实的患者数据分布完全学习生长动态。到目前为止,这种方法被限制为预定义的图像采集间隔和固定长度的序列,这限制了其在更现实的情况下的适用性。我们通过扩展神经过程,一类用于随机时间序列的条件生成模型来克服这些限制,其中分层多尺度表示编码包括时空关注机构。结果是学习的生长模型可以在任意数量的观察中调节,并且可以在连续时间轴上产生时间上一致的生长轨迹的分布。在379名患者的数据集上,该方法成功地捕获了图像中的全球和更精细的粒度变化,与其他学习的增长模型相比,表现出卓越的性能。

Long-term Cross Adversarial Training: A Robust Meta-learning Method for Few-shot Classification Tasks
Authors Fan Liu, Shuyu Zhao, Xuelong Dai, Bin Xiao
Meta学习模型可以使用少量标记数据快速适应新的任务。然而,尽管在少量拍摄的分类任务上实现了良好的普遍化,但在几次拍摄学习中提高元学习模型的对抗性稳健性仍然挑战。虽然对逆势查询AQ等方法的对抗训练可以提高元学习模型的离前事实稳健性能,但在仍然是计算昂贵的训练。另一方面,与AT培训的META学习模型将降低原始清洁图像的显着准确性。本文提出了一种叫做长期交叉抗逆性训练LCAT的前对方强制性神经网络的元学习方法。 LCAT将在长期内更新Meta学习模型参数沿天然和普发的样品分布方向交叉,以改善对抗性和清洁少量射击分类精度。由于交叉对抗性训练,LCAT仅需要普遍训练的一半,而不是aq,导致对抗的威胁训练计算。实验结果表明,LCAT在清洁和普发的少量拍摄分类精度比SOTA对抗训练方法都能实现卓越的性能。

DCoM: A Deep Column Mapper for Semantic Data Type Detection
Authors Subhadip Maji, Swapna Sourav Rout, Sudeep Choudhary
语义数据类型的检测是自动数据清洁,模式匹配,数据发现,语义数据类型标准化和敏感数据识别的数据科学中的一个非常重要的任务。现有方法包括基于的正则表达式或基于字典的查找方法,其不稳健而不是脏污数据,并且仅限于预测的非常少的语义数据类型。现有机器学习方法从数据和构建逻辑回归,随机森林或前馈神经网络的大量工程特征提取大量工程特征。在本文中,我们介绍了DCOM,一个基于多输入NLP的深神经网络的集合来检测语义数据类型,而不是从数据中提取大量特征,我们将列或实例的原始值作为文本馈送到模型。我们培训从Viznet语料库中提取的686,765个数据列培训DCOM,具有78种不同的语义数据类型。 DCOM在同一数据集上具有相当长的边缘,享受其他当代结果。

A Systematic Collection of Medical Image Datasets for Deep Learning
Authors Johann Li, Guangming Zhu, Cong Hua, Mingtao Feng, BasheerBennamoun, Ping Li, Xiaoyuan Lu, Juan Song, Peiyi Shen, Xu Xu, Lin Mei, Liang Zhang, Syed Afaq Ali Shah, Mohammed Bennamoun
人工智能AI在医疗保健和其他领域的令人震惊的成功证明了AI可以实现人类的表现。然而,成功始终存在挑战。深度学习算法是数据相关的,需要大型数据集进行培训。医学成像领域的数据缺乏创造了应用深度学习对医学图像分析的瓶颈。医学图像采集,注释和分析昂贵,其使用受到伦理限制的限制。他们还需要许多资源,例如人类专业知识和资金。这使得非医学研究人员难以获得有用和大的医疗数据。因此,尽可能全面,本文提供了一系列医学图像数据集,其相关挑战对深度学习研究。我们收集了大约三百个数据集的信息,并在2013年和2020年之间主要报告的挑战,并将其分为四类头颈,胸部腹部,病理血等。我们的论文有三个目的1,提供最新的最新和完整的清单,可以用作普遍参考,以便轻松查找临床图像分析的数据集,2为指导研究人员来测试和评估其方法性能和鲁棒性在相关的数据集中,3提供与相关医疗主题相关算法的路线,并挑战排行榜。

AVHYAS: A Free and Open Source QGIS Plugin for Advanced Hyperspectral Image Analysis
Authors Rosly Boy Lyngdoh, Anand S Sahadevan, Touseef Ahmad, Pradyuman Singh Rathore, Manoj Mishra, Praveen Kumar Gupta, Arundhati Misra
高级高光谱数据分析软件Avhyas插件是基于Python3的Quantum GIS QGIS插件,旨在处理和分析高光谱HX图像。它是为了保证现有和未来的HX机载或星载传感器的全部使用,并提供对HX数据处理的先进算法的访问。该软件可自由提供,提供一系列基本和先进的工具,如空气传播的Avirisng图像,标准加工工具以及用于HX数据分析的强大机器学习和深层学习界面的大气修正。

A Global Appearance and Local Coding Distortion based Fusion Framework for CNN based Filtering in Video Coding
Authors Jian Yue, Yanbo Gao, Shuai Li, Hui Yuan, Fr d ric Dufaux
在循环滤波中用于视频编码以处理重建的帧以删除阻塞伪像。随着卷积神经网络CNN的发展,考虑到它可以被视为图像DE通知任务,已经探索了CNNS的循环滤波。然而,除了被扭曲的图像之外,还通过视频编码中的基于块的编码操作的固定线路获得重建的帧。它携带基于编码单元的编码畸变的一些类似特征。因此,在本文中,我们解决了两个方面的过滤问题,全局外观恢复用于破坏纹理和由固定的编码管道引起的局部编码失真恢复。因此,使用高级全局特征流,高级局部特征流和低级本地特征流进行三流全局外观和基于局部编码失真的融合网络。进行烧蚀研究以验证不同特征的必要性,表明全局特征和本地特征可以在滤波中相互补充并在组合时实现更好的性能。据我们所知,我们是第一个从上述全局外观和局部编码失真恢复方面清楚地表征视频过滤过程的第一个,提供了明显的途径来开发过滤技术。实验结果表明,与HEVC参考软件相比,所提出的方法显着优于现有的基于单帧的方法和实现的单一帧的方法,实现了13.5,11.3,11.7 BD速率,其平均值为AI,LDP和RA配置。

ATP-Net: An Attention-based Ternary Projection Network For Compressed Sensing
Authors Guanxiong Nie, Yajian Zhou
压缩传感CS理论同时实现了信号采样和压缩过程,并且可以使用较少的观察来实现精确的信号恢复,为较好,更快地传输大规模数据来提供解决方案。在本文中,提出了一种基于三元采样矩阵的注意力机制,以解决大多数情况下CS采样矩阵的问题是对CS采样矩阵的问题是随机矩阵,其对采样信号进行扰动,需要大存储空间。该方法包括三个组成部分,即三元采样,初始重建和深度重建,重点是三元抽样。三元方法1,0,1的主要思想是引入注意机制,以评估采样矩阵为二值化之后评估采样层的参数的重要性,然后提出参数的修剪重量,其重要性低于a预定义的阈值,实现Ternarization。此外,基于三元采样矩阵来实现特别是用于图像重建的压缩感测算法,其被称为ATP Net,即基于Ternary投影网络。实验结果表明,通过ATP网的图像重建质量与三元采样矩阵的使用保持令人满意的水平,即,当采样率为0.25时,SET11上的平均PSNR为30.4,与此相比相比大约6分DR2网。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页



pic from pexels.com

你可能感兴趣的:(Transformer,计算机视觉,Papers,transformer,视觉语言模型,图像合成,视角合成,识别)