【AI视野·今日CV 计算机视觉论文速览 第229期】Thu, 1 Jul 2021

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 1 Jul 2021
Totally 53 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第229期】Thu, 1 Jul 2021_第1张图片

Daily Computer Vision Papers

Shape Completion via IMLE
Authors Himanshu Arora, Saurabh Mishra, Shichong Peng, Ke Li, Ali Mahdavi Amiri
形状完成是完成部分输入形状的问题,例如部分扫描。由于现实世界数据中的遮挡或稀疏性等问题,此问题在计算机视觉和机器人中找到了重要应用。然而,与形状完成相关的大多数现有研究已经专注于通过学习一对一的映射来完成形状,这限制了所产生的结果的多样性和创造力。我们提出了一种新颖的多模式形状完成技术,可有效地能够学习一个到许多映射并产生不同的完整形状。我们的方法基于条件隐式的最大值估计IMLE技术,其中我们在部分3D点云上调节我们的输入。我们通过将其与定量和定性相比,广泛地评估我们的方法。我们表明我们的方法优于替代品的形状的完整性和多样性

S2C2 - An orthogonal method for Semi-Supervised Learning on fuzzy labels
Authors Lars Schmarje, Monty Santarossa, Simon Martin Schr der, Claudius Zelenka, Rainer Kiko, Jenny Stracke, Nina Volkmann, Reinhard Koch
半监督学习SSL可以减少所需的标记图像数据的数量,从而降低深度学习的成本。大多数SSL方法只考虑课程的清晰区别,但在许多真实世界数据集中,由于内部或interobserver可变性,不会给出这种明确的区别。这种变异性可以导致每个图像的不同注释。因此,许多图像具有模糊的注释,并且它们的标签需要被认为是模糊的。必须解决这一标签的这种模糊性,因为它将限制半监督学习SSL的性能和一般深入学习。我们提出了半监督分类集群S2C2,可以扩展许多深SSL算法。 S2C2可以估计标签的模糊性,并将SSL应用于当然标记的数据的分类,同时为具有相似但模糊标签的图像创建不同的图像的群集。我们表明S2C2导致中位数为7.4更好的F1分数的F1分数,以及5.4跨多个SSL算法和数据集的簇的内部距离,而由于我们的方法的模糊估计而言更加解释。总的来说,通过我们的方法S2C2的半监督学习的组合导致更好地处理标签的模糊性,从而更具世界数据集。

Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers
Authors Spandan Madan, Tomotake Sasaki, Tzu Mao Li, Xavier Boix, Hanspeter Pfister
神经网络易于对包括2D旋转和移位,图像作物,甚至对象颜色的变化的较小变换。这通常归因于训练数据集中的偏差,并且由于不尊重采样定理而缺乏2D班役权。在本文中,我们通过对非偏见的数据集进行培训和测试来挑战这一假设,并且显示网络对于小的3D透视变化和照明变化,不能通过数据集偏置或缺乏换档不变性来解释。要在分发错误中找到这些,我们介绍了一种基于进化的策略es,我们称之为CMA搜索。尽管培训大规模0.5亿图像,相机和光变化的无偏见数据集,但在超过71例中,CMA搜索可以在正确的分类图像附近找到相机参数,这导致分发错误分类,参数的3.6变化。随着照明变化,CMA搜索在33起参数变化的33起案例中找到错误分类。最后,我们扩展了这种方法,以查找reset和Openai S剪辑模型的ImageNet图像附近的错误分类。

Learning More for Free - A Multi Task Learning Approach for Improved Pathology Classification in Capsule Endoscopy
Authors Anuja Vats, Marius Pedersen, Ahmed Mohammed, istein Hovde
无线胶囊内窥镜检查的计算机辅助诊断CDX的进展因缺乏数据而被挫败。丰富的代表性健康和异常情况的不足导致分离的病理分析,这不能处理现实的多病程情景。在这项工作中,我们通过解决WCE多中心,多重病理分类问题,从有限的数据中探讨如何免费了解更多信息。学习更多意思是学习超过完全监督将允许使用相同的数据。这是通过在多任务学习下完全监督的自我监督来完成的。此外,我们在设计自我监督任务时从人类视觉系统HV吸取灵感,并调查数据本身的似乎是无效的信号,如果是的话,可以利用性能,如果是的话,这是哪个信号比其他信号更好。此外,我们展示了我们对WCE中更强大的多病理CADX的踏脚石的高级功能的分析。

Automated Onychomycosis Detection Using Deep Neural Networks
Authors Abdurrahim Yilmaz, Rahmetullah Varol, Fatih Goktay, Gulsum Gencoglan, Ali Anil Demircali, Berk Dilsizoglu, Huseyin Uvet
临床皮肤病学,仍然依赖于使用亮野显微镜在氢氧化钾KOH溶液中的真菌的手工反应。但是,这种方法需要很长时间,基于临床医生的经验,并且具有低的准确性。随着临床显微镜领域的神经网络应用的增加,现在可以自动化这些手动过程,提高效率和准确性。本研究提出了一种深度神经网络结构,可以为这些问题提供快速解决方案,并且可以在没有着色剂的灰度图像中进行自动真菌检测。收集了81个真菌和235个Ceratine的微观图像。然后,提取较小的贴剂,含有2062个真菌和2142个Ceratine。为了检测真菌和Ceratine,创建了两个模型,其中一个是定制神经网络,另一个模型是基于VGG16架构。开发的定制模型具有99.84精度,曲线AUC值为1.00的区域,而VGG16型号的精度为98.89型,AUC值为0.99。但是,临床医生的平均准确性和AUC值分别为72.8和0.87。这种深度学习模型允许开发可以检测微观图像内的真菌的自动化系统。

Weakly Supervised Temporal Adjacent Network for Language Grounding
Authors Yuechen Wang, Jiajun Deng, Wengang Zhou, Houqiang Li
颞型语言接地TLG是愿景和语言理解的基本和挑战性问题。现有方法主要关注颞界边界标签进行训练的完全监督设置,但是,占昂贵的注释成本。在这项工作中,我们致力于弱监督TLG,其中多个描述句子被给予未经监控的视频,而没有时间边界标签。在此任务中,学习句子语义和视觉内容之间的强跨模型语义对齐至关重要。为此,我们介绍了一种新颖的弱监督时间相邻网络WSTAN,以进行时间语言接地。具体而言,WSTAN通过在多实例学习MIL范例中利用时间相邻网络来学习跨模型语义对齐,整个描述段落作为输入。此外,我们将一个互补分支机构纳入框架,该框架明确地将预测与MIL阶段的伪监督进行了预测。在MIL分支机构和互补分支中设计了一种额外的自我辨别损失,旨在通过自我监督来提高语义歧视。广泛的实验是在三个广泛使用的基准数据集中进行的,Emph I.,ActivityNet标题,Charades Sta和Didemo,结果表明了我们方法的有效性。

Recurrently Estimating Reflective Symmetry Planes from Partial Pointclouds
Authors Mihaela C t lina Stoian, Tommaso Cavallari
许多人制造的物体的特征在于沿着一个或多个平面方向对称的形状。估计这种对称平面的位置和取向可以帮助许多任务,例如估计感兴趣的对象的整体取向或执行形状完成,其中对象的部分扫描反映在估计的对称平面上,以便获得更详细的对称平面形状。许多方法处理3D数据依赖于昂贵的3D卷积。在本文中,我们介绍了一种替代新颖的编码,而是将数据沿高度尺寸切片并顺序地通过2D卷积复发回归方案。该方法还包括可分扩展的最小二乘步骤,允许结束对称对象的完全和部分扫描的结束以准确和快速处理。我们使用这种方法来有效地处理3D输入以设计一种估计平面反射对称的方法。我们表明我们的方法具有与完整合成对象上的平面反射对称估算的任务的最新技术的准确性。此外,我们表明它可以部署在真实世界管道中的部分扫描对象中,以改善3D对象检测器的输出。

Dual Reweighting Domain Generalization for Face Presentation Attack Detection
Authors Shubao Liu, Ke Yue Zhang, Taiping Yao, Kekai Sheng, Shouhong Ding, Ying Tai, Jilin Li, Yuan Xie, Lizhuang Ma
基于域泛化的面部反欺骗方法DG由于他们对看不见场景的鲁棒性而引起了不断的关注。以前的方法在训练过程中不分青红皂白地处理每个样本,并努力提取共同的特征空间以改善泛化。然而,由于复杂和偏置的数据分布,直接对待它们将损坏泛化能力。为了解决这个问题,我们提出了一种新的双重重量域泛化DRDG框架,其迭代地重新重复样品之间的相对重要性,以进一步改善泛化。具体而言,首先提出样品重量模块以识别具有相对大的域偏差的样本,并降低它们对整体优化的影响。然后,引入特征重量模块以通过自蒸馏机构对这些样品聚焦并提取更多域无关的特征。结合域鉴别器,两个模块的迭代促进了广义特征的提取。提出了广泛的实验和可视化以证明我们对艺术竞争对手的状态的方法的有效性和可解释性。

Recognizing Facial Expressions in the Wild using Multi-Architectural Representations based Ensemble Learning with Distillation
Authors Rauf Momin, Ali Shan Momin, Khalid Rasheed
面部表情是最普遍的肢体语言形式,自动面部表情识别是由于不同的不确定性导致的具有挑战性的任务之一。然而,多年来一直是一部积极的研究领域。尽管如此,效率和性能也是构建强大系统的重要方面。我们提出了两种模型,EmoxNet,它是一种学习复杂的面部表示的集合学习技术,以及EmoxnetLite,其是一种蒸馏技术,可用于使用标签使用标签SPACKEN软标签将知识转移到高效的深度神经网络中。有效地实时检测表达式。这两种技术都非常好,其中集合模型EmoxNet有助于在FER2013上实现85.07的测试精度,在RAF DB上的FER2013和86.25测试精度。此外,蒸馏模型EmoxnetLite在FER2013上显示了82.07次测试精度,CER2013在FER2013上进行了注释和81.78 RAF DB的测试精度。

Affective Image Content Analysis: Two Decades Review and New Perspectives
Authors Sicheng Zhao, Xingxu Yao, Jufeng Yang, Guoli Jia, Guiguang Ding, Tat Seng Chua, Bj rn W. Schuller, Kurt Keutzer
图像可以传达富富语,并在观众中诱导各种情绪。最近,随着情绪智能的快速进步和视觉数据的爆炸性增长,广泛的研究工作已经致力于情感图像内容分析AICA。在这项调查中,我们将全面审查最近二十年来AICA的发展,特别是对第三种主要挑战情感差距,感知主观性和标签噪声和缺失的最先进方法。我们首先在AICA中广泛使用的关键情感表示模型和可用数据集的描述,用于执行标签噪声和数据集偏置的定量比较进行评估。然后,我们总结并比较了1个情绪特征提取的代表方法,包括手工制作和深度特征,2个学习方法,主导情绪识别,个性化情绪预测,情感分配学习和从嘈杂数据或几个标签学习,以及3个AICA应用程序。最后,我们讨论了未来的一些挑战和有前途的研究方向,例如图像内容和背景理解,团体情感聚类和观众图像互动。

Zero-shot Learning with Class Description Regularization
Authors Shayan Kousha, Marcus A. Brubaker
生成零拍摄学习ZSL的目的是从看的类别,转移所学到的知识,并从这些看不见的类别的描述中创建看不见的类的样本。为了实现更好的ZSL精度,模型需要更好地了解看不见的类的描述。我们介绍了一种新颖的正规化形式,鼓励生成ZSL模型更加关注每个类别的描述。我们的经验结果展示了对多种最先进模型的性能的改进,即在训练基于文本描述的数据集时,如幼崽和Nabirds等基于文本描述的数据集,以及基于AWA2,APY和Sun等属性的数据集。

Synthetic Data Are as Good as the Real for Association Knowledge Learning in Multi-object Tracking
Authors Yuchi Liu, Zhongdao Wang, Xiangxin Zhou, Liang Zheng
关联,旨在在视频序列中链接相同标识的边界框,是多目标跟踪MOT中的中心分量。培训协会模块,例如参数网络,通常使用真实视频数据。然而,连续视频帧中的注释人员轨道是昂贵的,并且由于其不灵活性而导致的实际数据提供了有限的机会来评估系统性能W.R.t更改跟踪方案。在本文中,我们研究3D合成数据是否可以取代现实世界视频以进行关联培训。具体地,我们引入了一个名为MOTX的大规模合成数据引擎,其中摄像机和对象的运动特性被手动被配置为与现实世界数据集中的运动特性类似。我们表明,与真实数据相比,合成数据中获得的关联知识可以在没有域适应技术的情况下实现非常相似的性能。我们的兴趣观察将归功于两个因素。首先,3D发动机可以很好地模拟相机移动,相机视图和对象运动等运动因素,使模拟视频可以提供具有有效运动功能的关联模块。其次,实验结果表明,外观领域差距几乎没有损害关联知识的学习。此外,MOTX的强烈定制能力使我们能够定量地评估运动因素对MOT的影响,这为社区带来了新的见解。

Multi-Source domain adaptation via supervised contrastive learning and confident consistency regularization
Authors Marin Scalbert, Maria Vakalopoulou, Florent Couzini Devy
多源无监督域适配多源UDA旨在从几个标记的源域中学习模型,同时在不同的目标域上执行良好,其中在培训时间只提供未标记的数据。为了对齐源和目标功能分布,最近的几种作品使用源和目标显式统计匹配,例如特征时刻或类。然而,这些方法不保证跨域的阶级条件分布。在这项工作中,我们提出了一个名为对比多源域适配CMSDA的新框架,用于解决此限制的多源UDA。通过跨熵最小化和通过一致性正则化和硬伪标记从内插源示例从内插源示例中学到歧视特征。同时,通过内插版本的监督对比损失,利用内插源示例来利用以对准源类条件分布。该对准导致更多一般和可转移的特征,其进一步改善了目标域上的概括。在三个标准多源UDA数据集上进行了广泛的实验,我们的方法报告了最先进的结果。

A Survey on Adversarial Image Synthesis
Authors William Roy, Glen Kelly, Robert Leer, Frederick Ricardo
生成的对抗网络GAN在各种应用领域中非常成功。对抗性图像综合已经引起了近年来越来越多的进步,因为它在许多计算机视觉和图像处理问题中的广泛应用范围内。在GaN的许多应用中,图像合成是最良好的研究,并且该区域的研究已经证明了在图像合成中使用GaN的巨大潜力。在本文中,我们提供了一种在图像综合中使用的方法的分类,审查不同模型的文本到图像综合和图像到图像翻译,并讨论一些评估度量以及与GaN的图像合成中可能的未来研究方向。

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring
Authors Zhihang Zhong, Ye Gao, Yinqiang Zheng, Bo Zheng, Imari Sato
由于空间和时间变模本身的复杂性以及低计算成本的要求,实时视频去纹仍然是一个具有挑战性的任务。为了提高网络效率,我们采用残留的密集块进入RNN细胞,以便有效地提取当前框架的空间特征。此外,提出了一种全局时空关注模块来熔化来自过去和未来帧的有效分层特征,以帮助更好地去布解当前帧。迫切需要解决另一个问题是缺乏真实世界的基准数据集。因此,我们通过使用CO轴分束分离器采集系统收集配对模糊的锐度视频剪辑来为社区提供新的数据集BSD。实验结果表明,所提出的方法ESTRNN可以通过较少的计算成本与较低的艺术视频去纹理方法的计算成本来实现更好的脱模性能。另外,数据集之间的交叉验证实验说明了在合成数据集上的BSD的高度平均值。代码和数据集发布

MissFormer: (In-)attention-based handling of missing observations for trajectory filtering and prediction
Authors Stefan Becker, Ronny Hug, Wolfgang H bner, Michael Arens, Brendan T. Morris
在诸如对象跟踪的应用中,时间序列数据不可避免地携带缺失的观察。遵循基于深度学习的模型的各种序列学习任务的成功之后,这些模型越来越替换对象跟踪应用中的经典方法,以推断对象动作状态。虽然传统的跟踪方法可以处理缺失的观察,但默认情况下,他们的大多数深度同行都不适合这一点。

Mutual-GAN: Towards Unsupervised Cross-Weather Adaptation with Mutual Information Constraint
Authors Jiawei Chen, Yuexiang Li, Kai Ma, Yefeng Zheng
卷积神经网络CNN已证明其对语义分割的成功,这是新兴工业应用的核心任务,如自主驾驶。然而,在标准场景中报告了城市场景的大部分进展,即具有良好照明条件的日间场景。在实际应用中,室外天气和照明是可变的,例如多云和夜间,这导致CNN的显着下降的CNN语义分割精度,只有日间数据训练。在本文中,我们提出了一种新的生成对抗性网络,即相互甘甘地来缓解日间培训的神经网络在不利天气条件下捕获的视频中的准确性下降。所提出的相互GaN采用互信息约束来保护在跨天气适应期间的图像对象,这是对图像转换方法的大多数无监督图像的未解决问题,例如,Cyclegan。建议的相互GaN在两个公开的驾驶视频数据集中评估,即Camvid和Synthia。实验结果表明,我们的共同GaN可以产生视觉上合理的翻译图像,并显着提高白天培训的深度学习网络的语义分割精度,同时在挑战性风雨上处理视频。

Single-Step Adversarial Training for Semantic Segmentation
Authors Daniel Wiens, Barbara Hammer
尽管深度神经网络在许多不同的任务中取得了成功,但在包括语义分割的不同任务中,它们缺乏对抗对抗例子的鲁棒性。为了抵消这种漏洞,通常使用普发培训。然而,已知具有弱对抗性攻击的对抗性训练。使用快速梯度方法不会改善更强攻击的鲁棒性。最近的研究表明,通过在训练期间选择适当的步长来增加这种单步方法的稳健性。寻找这样的步长,而不增加单步逆势训练的计算努力,仍然是一个开放的挑战。在这项工作中,我们解决了对语义分割的计算特别要求苛刻的任务,并提出了一种新的步长控制算法,其增加了单步逆势训练的鲁棒性。所提出的算法不会显着增加单步逆势训练的计算工作,并且还简化了培训,因为它没有元参数。我们表明,我们的方法的稳健性可以在两个流行的基准上竞争语义分割的两个流行基准。

Cyclist Trajectory Forecasts by Incorporation of Multi-View Video Information
Authors Stefan Zernetsch, Oliver Trupp, Viktor Kress, Konrad Doll, Bernhard Sick
本文介绍了一种新颖的方法,可以将视觉提示从安装在城市交叉口的广角立体声摄像机系统中纳入视频数据中的视频数据。我们使用3D卷积神经网络3D Conver提取图像和光流量的特征,并将它们与从骑自行车的人的过去轨迹中提取的功能组合,以预测未来的骑车者位置。通过使用附加信息,我们能够为我们的测试数据集提高位置精度约为7.5,并且对于仅基于过去的轨迹的方法相比,特定运动类型最多22个。此外,我们将图像序列的使用与序列的使用作为附加信息进行比较,表明单独的导致定位精度的显着改善。通过培训和测试我们的方法,使用在频繁的公共交叉路口录制的真实世界数据集并评估方法运行时,我们展示了实际交通方案的适用性。我们的数据集的代码和部分是公开可用的。

Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions
Authors Mizuki Maruyama, Shuvozit Ghose, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka
近年来,Word Level Sign Language识别WSLR研究在计算机视觉界中获得了普及,因此已经提出了各种方法。在这些方法中,使用I3D网络的方法在WSLR的大型公共数据集中实现了最高的识别准确性。然而,具有I3D的方法仅利用签名者上半身的外观信息来识别标志语言词。另一方面,在WSLR中,局部区域的信息,例如手形状和面部表情,身体和双手之间的位置关系是重要的。因此,在这项工作中,我们使用双手和面部的局部区域图像,以及骨骼信息,分别捕获局部信息和双手相对于机构的位置。换句话说,我们提出了一种新的多流WSLR框架,其中通过扩展i3D网络来提高具有局部区域图像和具有骨架信息的流的流,以提高WSLR的识别精度。从WLASL数据集的实验结果,显然,所提出的方法已经实现了比现有的常规方法高约1个精度的改进。

SOLO: A Simple Framework for Instance Segmentation
Authors Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li
与许多其他密集的预测任务相比,例如,语义分割,它是使实例分割的任意数量更具挑战性。为了预测每个实例的掩模,主流方法遵循检测然后段策略,例如,掩码R CNN,或者首先将嵌入矢量预测到各个实例中的群集像素。在本文中,我们通过引入实例类别的概念来从完全新的角度查看实例分段的任务,该实例类别将类别分配给根据实例位置的实例内的每个像素。通过此概念,我们通过位置单独,一个简单,直接和快速框架提出分段对象,例如具有强大性能的实例分段。我们派生了几种单独的变体,例如,Vanilla Solo,Decoupleed Solo,动态独奏后基本原理。我们的方法直接将原始输入图像映射到所需的对象类别和实例掩码,从而消除了对分组后处理或边界框检测的需要。我们的方法在速度和精度方面实现了实例分段的最新状态,同时比现有方法相当简单。除了实例分割之外,我们的方法产生了最新的状态,导致来自我们的掩模副产品和Panoptic分割的物体检测。我们进一步展示了通过扩展它来执行一个阶段实例级图像消光的灵活性和高质量的分割。代码可用

Augmented Shortcuts for Vision Transformers
Authors Yehui Tang, Kai Han, Chang Xu, An Xiao, Yiping Deng, Chao Xu, Yunhe Wang
变压器模型最近在计算机视觉任务方面取得了很大进展。视觉变压器的快速发展主要是由于它们从输入图像中提取信息特征的高表示能力。但是,主流变压器模型采用深层架构设计,随着深度增加,即功能崩溃,特征分集将不断降低。在本文中,我们理论上分析了特征崩溃现象,研究了这些变压器模型中快捷方式与特征多样性的关系。然后,我们介绍了一个增强的快捷方式方案,它在原始快捷方式上并行地将附加路径与可学习参数插入。为了节省计算成本,我们进一步探索了一种有效的方法,它使用块循环投影来实现增强的快捷方式。基准数据集进行的广泛实验证明了所提出的方法的有效性,它带来了艺术视觉变压器状态的1精度增加,而不明显增加其参数和拖鞋。

Positive-unlabeled Learning for Cell Detection in Histopathology Images with Incomplete Annotations
Authors Zipei Zhao, Fengqian Pang, Zhiwen Liu, Chuyang Ye
组织病理学图像中的细胞检测在临床实践中具有很大的价值。纺织卷积神经网络CNNS已应用于单元检测以提高检测精度,其中网络培训需要细胞注释。然而,由于各种细胞数量和大量的细胞,完整的注释包括训练图像中每个感兴趣的细胞都可能具有挑战性。通常,可以实现不完全的注释,其中仔细检查正标签结果以确保其可靠性,但是可以存在其他正面情况,即感兴趣的细胞,不包括在注释中。该注释策略导致缺乏关于真正消极样本的知识。大多数现有方法只是在网络培训期间将未标记为正为负的实例,这可能对网络性能产生不利影响。在这项工作中,为了解决不完整的注释问题,我们制定了对检测网络的培训作为积极的未标记学习问题。具体地,修改了网络培训中的分类损失,以考虑不完整的注释,其中对应于负样本的术语近似于真正的阳性样本和标签未知的其他样本。为了评估所提出的方法,对乳腺癌细胞的公共可用数据集进行实验,实验结果表明,我们的方法改善了细胞检测的性能,给出了对训练的不完整注释。

A Structured Analysis of the Video Degradation Effects on the Performance of a Machine Learning-enabled Pedestrian Detector
Authors Christian Berger
ML已启用的软件系统已在许多公开演示中被纳入自动化驾驶广告系统。这种解决方案也被认为是瞄准SAE等级5系统的重要方法,其中这些车辆中的乘客不必再与系统相互作用。已经在2016年,NVIDIA展示了一个完整的结束,用于培训完整的软件堆栈覆盖知识,规划和决策以及实际的车辆控制。虽然这种方法显示了这种ML使能系统的巨大潜力,但是还有在视频帧中的单个像素的变化可能导致具有危险后果的完全不同的决策的演示。在本文中,已经进行了结构化分析,以探讨了对Liber Seagrian检测器的性能的视频劣化影响。首先,已经建立了在基蒂视觉基准套件中将Yolo到1,026帧应用于1,026帧的基线已经成立。接下来,使用前导视频编解码器Libx264,Libx265,NVIDIA HEVC和用于颜色和灰度级帧的各种压缩预设的AV1 52帧生成用于各种压缩预设的视频劣化候选,得到每个原始基准帧的104个降级候选,426,816图像总计。将YOLO应用于每个图像,以计算Union iou指标的交叉点,以将性能与原始基线进行比较。虽然积极的损坏压缩设置导致预期的显着性能下降,但也观察到一些配置实际上导致与基线相比稍微更好的iou结果。该研究结果表明,精心挑选的有损视频配置在存储或传输数据时允许在允许实质节省的同时保留特定ML的系统的不良性能。

Semantic Segmentation of Periocular Near-Infra-Red Eye Images Under Alcohol Effects
Authors Juan Tapia, Enrique Lopez Droguett, Andres Valenzuela, Daniel Benalcazar, Leonardo Causa, Christoph Busch
本文提出了一种新的框架来检测,细分和估计眼睛靠近紫外线红虹膜图像的眼睛的定位。该系统的目的是测量职责的适应性。健身系统允许我们确定一个人是否在物理上或心理上能够执行他们的任务。我们的框架基于从头划痕培训的对象检测器来检测从单个图像中的双眼。然后,两个有效的网络用于语义分割ARISS跨关注网络和DENSENET10,分别仅为122,514和210,732个参数。这些网络可以找到瞳孔,虹膜和巩膜。最后,二进制输出眼罩用于高精度的瞳孔和虹膜直径估计。为此目的使用五种最先进的算法。混合建议达到了最佳结果。第二贡献是建立酒精行为曲线以检测利用从虹膜实例捕获的图像流的醇类存在。此外,创建了一个有超过20k图像的手动标记的数据库。我们的最佳方法使用DenSenet10获得94.54的联合联盟的平均交叉点,仅具有210,732个参数,平均仅为1像素的误差。

When Video Classification Meets Incremental Classes
Authors Hanbin Zhao, Xin Qin, Shihao Su, Zibo Lin, Xi Li
随着社交媒体的快速发展,每天产生具有新类的巨大视频,这为视频分类方法提出了迫切需求,这些方法可以不断更新新类,同时保持存储和计算资源有限的旧视频的知识。在本文中,我们将此任务总结为Textit Class增量视频分类CIVC并提出了一种新颖的框架来解决它。作为增量学习任务的子地图,纺织灾难性遗忘的挑战是不可避免的。为了更好地缓解它,我们利用了视频的一些特征。首先,我们在蒸馏前分解时空的时间知识,而不是在知识转移过程中将其作为整体治疗,还用于细化分解。其次,我们提出了一种双粒度示例选择方法,在紧密的存储预算下选择和存储在视频内的旧类和关键帧的代表视频实例。我们在V2和动力学数据集的某些东西上基准测试我们的方法和先前的SOTA类增量学习方法,我们的方法显着优于先前的方法。

Content-Aware Convolutional Neural Networks
Authors Yong Guo, Yaofo Chen, Mingkui Tan, Kui Jia, Jian Chen, Jingdong Wang
由于卷积层的强大特征学习能力,卷积神经网络CNNS取得了巨大成功。具体地,标准卷积遍历使用滑动窗口方案来提取特征的输入图像特征。但是,并非所有窗口都同样为CNN的预测结果贡献。在实践中,一些窗口上的卷积操作例如,包含非常相似像素的平滑窗口可以非常冗余,并且可以将噪声引入计算中。这种冗余可能不仅可以恶化性能而且产生不必要的计算成本。因此,重要的是减少卷积的计算冗余,以提高性能。为此,我们提出了一个内容意识的卷积CAC,它会自动检测光滑的窗口,并应用1x1卷积内核以替换原始大内核。从这个意义上讲,我们能够有效地避免在类似像素上的冗余计算。通过使用CAC替换CNN中的标准卷积,所得到的模型比标准卷积的基线模型产生明显更好的性能和更低的计算成本。更富豪地,我们能够根据不同图像的数据平滑动态地分配合适的计算资源,使得内容感知计算可能。对各种计算机视觉任务的广泛实验证明了我们对现有方法的方法的优越性。

Monocular 3D Object Detection: An Extrinsic Parameter Free Approach
Authors Yunsong Zhou, Yuan He, Hongzi Zhu, Cheng Wang, Hongyang Li, Qinhong Jiang
单眼3D对象检测是自动驾驶中的重要任务。在存在自我汽车姿势改变的情况下,它可以很容易难以解决。地平面。由于道路平滑度和斜坡的轻微波动,这很常见。由于工业应用中缺乏洞察力,开放数据集上的现有方法忽略了相机姿势信息,这不可避免地导致探测器易受相机外部参数的影响。物体的扰动在工业产品最自主驾驶案件中非常受欢迎。为此,我们提出了一种新的方法来捕获相机姿势,以配制无自由扰动的检测器。具体地,所提出的框架通过检测消失点和地平线改变来预测相机外在参数。转换器旨在纠正潜在空间中的扰动特征。通过这样做,我们的3D探测器与外在参数变化无关,并在现实情况下产生准确的结果,例如,坑道和不均匀的道路,几乎所有现有的单眼检测器都无法处理。实验证明我们的方法与基蒂3D和NUSCENES数据集的大型裕度相比,我们的方法得到了最佳性能。

Multi-Source Domain Adaptation for Object Detection
Authors Xingxu Yao, Sicheng Zhao, Pengfei Xu, Jufeng Yang
为了减少与对象检测相关的注释劳动力,越来越多的研究侧重于将学习知识从标记的源域传送到另一个未标记的目标域。然而,现有方法假设标记的数据从单个源域采样,该数据忽略更广泛的方案,其中标记数据来自多个源极域。对于任务更具挑战性的任务,我们提出了一个统一的基于R CNN的框架,称为鸿沟和合并主轴网络DMSN,其可以同时增强域不变性并保持鉴别的功率。具体地,该框架包含多个源子网和伪目标子网。首先,我们提出了一种分层特征对准策略,分别考虑其对物体检测的不同效果来对低级别和高水平特征进行强大和弱对准。其次,我们开发一种小说伪子网学习算法,以通过不同源子网中的参数的加权组合近似伪目标子集的最佳参数。最后,提出了一个区域提案网络的一致性正规化,以方便每个子网了解更多的抽象修正。不同适应情景的广泛实验证明了所提出的模型的有效性。

Align Yourself: Self-supervised Pre-training for Fine-grained Recognition via Saliency Alignment
Authors Di Wu, Siyuan Li, Zelin Zang, Kai Wang, Lei Shang, Baigui Sun, Hao Li, Stan Z. Li
自我监督的对比学习已经表现出了学习视觉表现的巨大潜力。尽管取得了各种下游任务,如图像分类和对象检测,但不完全探索对细粒度情景的自我监督的预培训。在本文中,我们首先指出,目前的对比方法容易记住背景前景纹理,因此在本地化前景对象时具有限制。分析表明,学习提取歧视性纹理信息和定位对自我监督在细粒度的情况下的自我监督前训练同样至关重要。基于我们的研究结果,我们引入了横视显着对准CVSA,这是一种对比的学习框架,其作为新颖的视图生成的第一作物和递送图像的显着区域,然后通过横视对准损耗引导模型来定位在前景对象上。在四个流行的细粒度分类基准测试中的广泛实验表明,CVSA显着提高了学习的代表。

Long-Short Temporal Modeling for Efficient Action Recognition
Authors Liyu Wu, Yuexian Zou, Can Zhang
高效的长短时间建模是提高动作识别任务性能的关键。在本文中,我们提出了一种新的两个流动作识别网络,称为Menet,由运动增强ME模块和视频级聚合VLA模块组成,以实现长短的时间建模。具体地,在捕获短期和高频动作方面已经证明了运动表示。然而,当前的运动表示由相邻帧计算,这可能具有较差的解释并带来无用的信息噪声或空白。因此,对于短期动作,我们设计了一个高效的ME模块,通过混合相邻段之间的运动显着性来增强短期动作。至于长期聚合,在外观分支的顶部采用VLA,以集成所有段的长期依赖关系。 Menet的两种组分在时间建模中是互补的。广泛的实验是在UCF101和HMDB51基准上进行的,该基准测试验证了我们提出的MENET的有效性和效率。

Dense Graph Convolutional Neural Networks on 3D Meshes for 3D Object Segmentation and Classification
Authors Wenming Tang Guoping Qiu
本文为3D对象分割和分类提供了3D网格图形卷积神经网络GCN的新设计。我们使用网格的面作为基本处理单元,并且将3D网格作为图形,其中每个节点对应于面部。为了增强图表的描述力,我们引入了一个环面邻域结构来导出新的多维空间和结构特征来表示图形节点。基于此新图形表示,我们设计了一个密集的连接图形卷积块,它将本地和区域特征聚合为关键施工组件,以构建用于3D对象分类和分割的有效和高效的实用GCN模型。我们将提出实验结果表明,我们的新技术优于现有技术的现有技术,其中我们的模型被显示为具有最小的参数,并在许多基准数据集中都能完成最高的精度。我们还将展示消融研究,以展示我们的设计原则的健全性和我们实际模型的有效性。

Looking Outside the Window: Wider-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images
Authors Lei Ding, Dong Lin, Shaofu Lin, Jing Zhang, Xiaojie Cui, Yuebin Wang, Hao Tang, Lorenzo Bruzzone
远程上下文信息对于高分辨率HR遥感图像RSIS的语义分割至关重要。常用于训练神经网络的图像裁剪操作限制了大RSI中的长距离上下文信息的感知。要打破此限制,我们向HR RSIS的语义分割提出了一个更广泛的上下文网络WICnet。在WICNet中,除了传统的特征提取网络聚合本地信息之外,额外的上下文分支旨在明确地模拟较大图像区域中的上下文信息。两个分支之间的信息通过上下文变形器传送,该上下文变形器是从视觉变压器导出的新颖设计以建模长距离上下文相关性。在几个基准数据集上进行的消融研究和比较实验证明了该方法的有效性。此外,我们展示了一个新的北京土地使用Blu DataSet。这是一个大型HR卫星数据集,提供高质量和细粒度的参考标签,我们希望将在这一领域提高未来的研究。

RICE: Refining Instance Masks in Cluttered Environments with Graph Neural Networks
Authors Christopher Xie, Arsalan Mousavian, Yu Xiang, Dieter Fox
在杂乱环境中分段,不间断的对象实例是机器人在非结构化环境中运行时的重要功能。虽然以前的方法表现出有希望的结果,但它们仍然倾向于在高度杂乱的场景中提供不正确的结果。我们假设一个网络架构,该架构在高级编码对象之间的关系可能是有益的。因此,在这项工作中,我们提出了一种通过利用基于曲线图的实例掩码的图形来改进此类方法的输出的新框架。我们培训能够对分段进行智能扰动的深度网络,以及可以编码对象之间关系的图形神经网络来评估扰动的分割。我们所提出的方法与以前的作品正交,并在与它们结合时实现最新的现有性能。我们展示了一种应用程序,该应用程序使用我们的方法产生的不确定性估计来指导操纵器,从而有效地了解杂乱的场景。可以找到代码,模型和视频

Domain adaptation for person re-identification on new unlabeled data using AlignedReID++
Authors Tiago de C. G. Pereira, Teofilo E. de Campos
在世界大数据统治的世界中,有很多硬件准备收集大量非结构化数据,数据采集不再是问题。监控摄像机是普遍存在的,他们捕捉到不同场景的大量人士。然而,从该数据中提取价值是具有挑战性的,特别是涉及人类图像的任务,例如面部识别和人员重新识别。这种数据的注释是一个具有挑战性和昂贵的任务。在这项工作中,我们提出了一个域适应工作流程,以允许在一个域中培训的CNNS应用于另一个域,而无需新的目标数据的新注释。我们的方法使用对齐的reid作为基线,使用三重批次用批量造成的三态丢失训练。域适应是通过使用使用无监督学习策略生成的伪标签来完成的。我们的结果表明,当在目标域中应用时,域适配技术真的提高了CNN的性能。

Attention Aware Wavelet-based Detection of Morphed Face Images
Authors Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi
变形图像在面部识别检查站中利用漏洞,例如凭证认证技术猫,由运输安全管理TSA使用,这是一个非琐碎的安全问题。为了克服由于变形演示而产生的风险,我们提出了一种基于小波的变形检测方法,其采用端部训练的软注意机制。我们的注意力基于深度神经网络DNN专注于感兴趣的ROI突出区域,其具有变形探测器决策功能的空间支持,即Morph类二进制软MAX输出。一种回顾性变形综合手术有助于我们将ROI推测为面部地标周围地区,特别是对于基于地标的变形技术的情况。此外,我们的注意力的DNN适用于小波空间,其中网络的输入是粗略的光谱表示,48个堆叠小波子带精确。我们使用三个数据集,Visapp17,LMA和摩根评估所提出的框架的表现。此外,由于注意图可以是强大的指标,是否正在调查的探测图像是真实的或伪造的,我们分析了对BOA FIDE图像的估计注意图及其对应的变形图像。最后,我们提出了一种消融研究利用注意力机制的效果。

SIMPL: Generating Synthetic Overhead Imagery to Address Zero-shot and Few-Shot Detection Problems
Authors Yang Xu, Bohao Huang, Xiong Luo, Kyle Bradbury, Jordan M. Malof
最近,深度神经网络DNNS在卫星图像中实现了对象检测的巨大成功。然而,一个持续的挑战是收购培训数据,这是由于获得卫星图像和注释物体的高成本。在这项工作中,我们呈现了一种简单的方法,称为合成对象植入简单,以便于自定义目标对象轻松且快速地生成大量的合成开销训练数据。我们展示了使用Simple Synthetic Imagery在零射击场景中使用Simple Synthetic Imagery培训的有效性,其中没有真正的图像可以获得,并且很少拍摄学习场景,有限的现实世界意象。我们还进行实验,以研究Simple S效力对某些关键设计参数的敏感性,为用户提供设计时,为定制对象设计合成图像时的见解。我们发布了我们的简单方法的软件实现,以便其他人可以构建它,或者为自己的自定义问题使用它。

Learning to Map for Active Semantic Goal Navigation
Authors Georgios Georgakis, Bernadette Bucher, Karl Schmeckpeper, Siddharth Singh, Kostas Daniilidis
我们认为看不见环境中的目标目标导航问题。在我们看来,解决这个问题需要学习上下文语义前提,鉴于室内环境的空间和语义变异,这是一个具有挑战性的努力。当前方法学习通过在仅限于代理可观察区域的空间表示上运行的目标导向策略函数来隐式编码这些前瞻。在这项工作中,我们提出了一种新颖的框架,它积极学习在代理视野之外生成语义地图,并利用未观察区域的语义课程的不确定性来决定长期目标。我们证明,通过这种空间预测策略,我们能够在可以在未知环境中利用的场景中学习语义前沿。此外,我们展示了如何通过在寻找语义目标期间使用剥削进行勘探来定义不同的目标。我们的方法在TATTPORT3D DataSet提供的视觉现实环境中验证,并在对象目标导航任务上显示最先进的状态。

How to Train Your MAML to Excel in Few-Shot Classification
Authors Han Jia Ye, Wei Lun Chao
模型不可知的元学习MAML可以说是当时融合各种模型架构并应用于不同问题的灵活性,可以说是最受欢迎的元学习算法。尽管如此,它的性能很少的镜头分类远远落后于最近致力于问题的算法。在本文中,我们指出了如何在几次拍摄分类中培训MAML以Excel训练MAML的几个关键。首先,我们发现内部循环更新需要大量渐变步骤,这与MAML的常见使用相矛盾,这对于几次拍摄分类相矛盾。其次,我们发现MAML对N类的几次拍摄任务中的META测试中的类分配的置换敏感,有很多方法可以将学习的N途径分类为n类分配,导致不可避免地巨大的差异。第三,我们调查几种置换不变性的方式,并找到学习所有类的共享分类器初始化执行最佳。在诸如MiniimAgenet和Tieredimagenet之类的基准数据集上,我们将我们命名Unicorn MAML的方法,在与算法的比例下执行,同时保持MAML的简单性,而无需添加任何额外的子网。

Hierarchical Phenotyping and Graph Modeling of Spatial Architecture in Lymphoid Neoplasms
Authors Pingjun Chen, Muhammad Aminu, Siba El Hussein, Joseph Khoury, Jia Wu
肿瘤微环境TME中的细胞及其空间模式在肿瘤演变中发挥着关键作用,但仍然是计算病理学中的被解读的话题。本研究据我们所知,是首先是混合本地和全球图表方法,以便概况编排和细胞组分的相互作用。为了解决TME中细胞类别尚不清楚的血管对映癌中的挑战,我们首先实施了细胞水平无监督的学习并确定了两个新的细胞亚型。通过考虑各个单元的地理空间位置和类,为每个图像构建了本地单元格图或超级单元。然后,我们应用了SuperCell Level群集并确定了两个新的细胞社区。最后,我们构建了全局图,以抽象的空间交互模式和提取特征进行疾病诊断。我们评估了60例血管对瘤肿瘤患者的H E载玻片的算法,并进一步与三个基于细胞水平图的算法相比,包括全局细胞图,簇细胞图和鸡群。该算法的平均诊断精度达到0.703,重复的5倍交叉验证方案。总之,我们的算法显示出对现有方法的卓越性能,并且可能潜在地应用于其他癌症类型。

SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic Data via Stereo
Authors Thomas Kollar, Michael Laskey, Kevin Stone, Brijen Thananjeyan, Mark Tjersland
由于各种形状,材料,布置和照明条件,机器人操纵未知物体在非结构化环境中是一个具有挑战性的问题。即使具有大规模的现实世界数据收集,跨各种照明条件的稳健感知和操纵透明和反射物体仍然具有挑战性。为了解决这些挑战,我们提出了一种对机器人感知的实际转移来表现SIM的方法。使用模拟立体声数据作为输入和模拟对象分割掩码,3D定向边界框OBB,对象键点和差异作为输出的3D定位的对象分割掩码训练为单个多阵列神经网络。 SIMNET的一个关键组件是结合了预测差异的学习立体声子网络。 SIMNET在2D汽车检测,未知的物体检测和可变形对象键点检测中进行评估,并且显着优于使用结构化光RGB D传感器的基线。通过使用OBB和KeyPoint预测推断掌握位置,可以使用SIMNET在四个家庭环境中使用我们的丰田HSR机器人队列的简单和硬情景中的未知对象的结束操纵。在未知的对象掌握实验中,基线RGB D网络和SIMNET的预测使得大多数易于物体的成功掌握。然而,RGB D基线只有Hard为透明对象的GRASP 35,而SIMNET GRASPS 95则暗示SIMNET可以在未知环境中实现未知对象的强大操作,包括透明对象。

Interventional Assays for the Latent Space of Autoencoders
Authors Felix Leeb, Stefan Bauer, Bernhard Sch lkopf
AutoEncoders的编码器和解码器有效地将输入投射到潜在空间和数据空间中的学习歧管上。我们提出了一个框架,称为潜在响应,用于使用潜在空间中的干预探测学习数据歧管。使用本框架,我们研究了表示中的孔,以定量地确定培训的VAE的潜像与所选择的持续空间在一起的程度。此外,我们使用所识别的结构来改善潜伏向量之间的插值。我们评估我们的分析方式如何在各种基准数据集上使用VAE提高所生成样本的质量。

Leveraging Hidden Structure in Self-Supervised Learning
Authors Emanuele Sansone
这项工作考虑了使用自我监督学习从原始图像学习结构化表示的问题。我们提出了基于相互信息目标的主要框架,融合了自我监督和结构学习。此外,我们设计了一个邮政知识程序,以解释学习象征的含义。 CIFAR 10的初步实验表明,该框架在下游分类任务中实现了更高的概括性性能,并与通过传统自我监督学习学习的人相比提供了更具可解释的表示。

ResViT: Residual vision transformers for multi-modal medical image synthesis
Authors Onat Dalmaz, Mahmut Yurt, Tolga ukur
多模态成像是疾病诊断和管理中的关键医疗技术,但由于与多个单独的扫描相关的成本,它通常未结束。这种限制产生了从可用方式的子集合合成无址方式。近年来,已经建立了具有卓越的结构细节描绘的生成的对抗网络GaN模型作为众多医学图像综合任务的最新技术。但是,GAN是基于卷积神经网络CNN骨干的特性,该底座具有紧凑型过滤器进行本地处理。反过来,这种归纳偏差损害了长距离空间依赖性的学习。虽然在GAN中的注意力映射可以乘法调制CNN特征以强调临界图像区域,但它们的全局上下文的捕获主要是隐含的。在这里,我们提出了一种新的医学图像合成,RESVIT的生成对抗方法,将卷积运营商的局部精度与视觉变压器的上下文敏感相结合。基于编码器解码器架构,RESVIT采用中央瓶颈,该中心瓶颈包括新颖的聚集的残余变压器艺术块,其协同结合卷积和变压器模块。对从MRI的多对比度MRI和CT图像中的缺失序列合成综合演示。我们的结果表明,在定性观察和定量指标方面,resvit反对竞争方法的优势。

Improving the Efficiency of Transformers for Resource-Constrained Devices
Authors Hamid Tabani, Ajay Balasubramaniam, Shabbir Marzban, Elahe Arani, Bahram Zonooz
变压器提供了有希望的准确性,并在各种域中进行了流行,并且用于自然语言处理和计算机视觉等各个领域。但是,由于其大量的模型参数,内存和计算要求,它们不适用于资源受限的低功耗设备。即使具有高性能和专业设备,内存带宽也可以成为性能限制瓶颈。在本文中,我们在几种设备上展示了艺术视觉变压器的状态的性能分析。我们建议通过聚类模型参数来减少整体内存占用空间和内存转移。我们表明,通过仅使用64个集群来表示模型参数,可以将从主存储器的数据传输减少超过4倍,最多可实现22个加速度和39个在移动设备上节省,具有小于0.1精度损耗。

BLNet: A Fast Deep Learning Framework for Low-Light Image Enhancement with Noise Removal and Color Restoration
Authors Xinxu Wei, Xianshi Zhang, Shisen Wang, Cheng Cheng, Yanlin Huang, Kaifu Yang, Yongjie Li
在现实世界中获得的图像低光照条件不仅低于亮度,而且它们也遭受了许多其他类型的劣化,例如颜色偏差,未知的噪音,细节损失和晕圈伪影。在本文中,我们提出了一种非常快速的深度学习框架,称为带有BLNET的亮度,由两个U网组成,其中一系列良好的设计损失功能来解决所有上述降级。基于RetineX理论,我们模型中的分解网可以将低光图像分解成反射率和照明,并在分解阶段期间去除反射率的噪声。我们提出了一种噪声和颜色偏置控制模块NCBC模块,其中包含卷积神经网络和两个损耗功能噪声丢失和颜色损耗。该模块仅用于在训练阶段计算损耗功能,因此在测试阶段期间,我们的方法非常快。该模块可以平滑反射率,以达到噪声去除目的,同时保留细节和边缘信息并控制颜色偏置。我们提出了一种网络,可以接受培训,以学习低光和常光照明之间的映射,并增强在低光照射中拍摄的图像的亮度。我们培训并评估我们拟议的模型对现实世界低灯LOL数据集的表现,我们还在其他几个常用的数据集石灰,DICM和MEF数据集中测试了我们的模型。我们进行广泛的实验,以证明我们的方法具有良好的鲁莽和泛化的有希望的效果,优异地优于许多其他现有技术的定性和定量。我们的方法实现了高速,因为我们使用损耗功能,而不是引入额外的欺诈者进行噪声去除和颜色校正。代码和型号可用

Learnable Reconstruction Methods from RGB Images to Hyperspectral Imaging: A Survey
Authors Jingang Zhang, Runmu Su, Wenqi Ren, Qiang Fu, Yunfeng Nie
Hyperspectral成像使得通过其捕获丰富的空间和光谱信息来实现多功能应用,这对于识别物质至关重要。然而,用于获取高光谱图像的设备是昂贵的并且复杂。因此,已经提出了许多替代的光谱成像方法,通过从较低的成本中直接重建高光谱信息,更可用的RGB图像来提出。我们对来自广泛的RGB图像进行了彻底调查了这些现实谱重建方法的状态。超过25种方法的系统研究和比较透露,大多数数据驱动的深度学习方法在重建精度和质量方面优于先前的方法,尽管速度较低。这种全面的审查可以作为同伴研究人员的富有成效的参考来源,从而进一步鼓舞了相关领域的未来发展方向。

Fast whole-slide cartography in colon cancer histology using superpixels and CNN classification
Authors Frauke Wilm, Michaela Benz, Volker Bruns, Serop Baghdadlian, Jakob Dexl, David Hartmann, Petr Kuritcyn, Martin Weidenfeller, Thomas Wittenberg, Susanne Merkel, Arndt Hartmann, Markus Eckstein, Carol I. Geppert
整个幻灯片图像制图是在数字化组织学标本中自动检测和概述不同组织类型的过程。这种语义分割为许多后续分析提供了基础,并且可能导致后续的医学决策。由于其大尺寸,整个幻灯片图像通常必须分为较小的贴片,然后使用基于机器学习的方法单独分析。因此,图像区域的局部依赖性丢失,并且由于整个幻灯片图像包括许多这样的贴片,因此该过程固有速度。我们建议在分类之前将图像细分为相干区域,通过将视觉相似的相似的图像像素分组到较大的段中,即Superpixels。之后,仅将每个超像素的随机贴片子集进行分类,并将贴片标签组合成单个超像素标签。该算法已经开发并验证了159手的数据集上,注释整形幻灯片图像的结肠切片和其性能与标准贴片的方法进行了比较。该算法在测试数据上显示平均速度为41,总精度从93.8增加到95.7。我们还提出了一种识别具有不确定分类的超像素的度量,因此可以从进一步的分析中排除它们。最后,我们评估了两个潜在的医学应用,即肿瘤面积估计,包括肿瘤侵袭性边缘产生和肿瘤成分分析。

The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning
Authors Anders Andreassen, Yasaman Bahri, Behnam Neyshabur, Rebecca Roelofs
虽然机器学习模型通常在分配数据出出现性能下降,但随着在模型的测试平面评估时,广泛观察到分配数据的准确性遵循单线性趋势。在相对于该基线的分配数据中更准确的模型表现出有效的鲁棒性,并且非常罕见。识别此类模型,并理解其属性是改善分发性能的关键。在微调期间,我们对有效稳健性进行了彻底的实证调查,令人惊讶地发现,在较大数据集上培训的模型在趋于收敛时消失的培训期间表现出有效的鲁棒性。我们研究数据属性如何影响有效的稳健性,并且我们表明它随着更大的尺寸,多样性和数据集的更高示例难度而增加。我们发现显示有效稳健性的模型能够正确分类10个例子,其中没有其他当前测试的模型得到正确。最后,我们讨论了缩放有效稳健性的几种策略,以改善艺术模型状态的分配准确性。

10-mega pixel snapshot compressive imaging with a hybrid coded aperture
Authors Zhihong Zhang, Chao Deng, Yang Liu, Xin Yuan, Jinli Suo, Qionghai Dai
高分辨率图像广泛应用于我们的日常生活中,而高速视频捕获是由于在高分辨率模式下工作的摄像机的低帧速率而具有挑战性。挖掘更深,主要瓶颈位于现有成像系统的低吞吐量。朝向该目的,提出了快照压缩成像SCI作为通过压缩采样和计算重建来改善成像系统的吞吐量的有希望的解决方案。在采集期间,对多个高速图像进行编码并折叠到单个测量。之后,采用算法从编码快照检索视频帧。最近开发的即插即用PNP算法使得SCI重建可以在大规模问题中进行。然而,缺乏高分辨率编码系统仍然排除了SCI的广泛应用。在本文中,我们通过在硅和高分辨率光刻掩模上结合动态液晶来构建新的混合编码孔径快照压缩HCA SCI系统。我们进一步实现了一种PNP重建算法,具有级联斩波器,用于高质量的重建。基于所提出的HCA SCI系统和算法,我们实现了10兆像素SCI系统,以捕获高速场景,导致每秒4.6g体素的高吞吐量。仿真和真实数据实验都验证了我们提出的HCA SCI方案的可行性和性能。

RCNN-SliceNet: A Slice and Cluster Approach for Nuclei Centroid Detection in Three-Dimensional Fluorescence Microscopy Images
Authors Liming Wu, Shuo Han, Alain Chen, Paul Salama, Kenneth W. Dunn, Edward J. Delp
鲁棒和准确的核心红色检测对于了解荧光显微镜图像中的生物结构非常重要。现有的自动核本地化方法面临三个主要挑战1大部分物体检测方法仅在2D图像上工作,并且难以扩展到3D卷2基于分段的模型,可以在3D卷上使用,但它对于大型显微镜卷是计算昂贵的,但它们具有昂贵难以区分不同的物体实例3手注释的地面真理限于3D显微镜卷。为了解决这些问题,我们提出了一种可扩展方法,用于3D显微镜体积的核质心检测。我们描述了RCNN SLICENET以检测来自不同方向的每个切片的2D核质心,并且3D聚集分层聚类AHC用于估计体积中核的3D质心。使用空间约束周期生成的合成显微镜数据培训,使用空间约束周期产生一致的对手网络Spcyclegan,并在不同类型的真实3D显微镜数据上进行测试。广泛的实验结果表明我们所提出的方法可以准确地计算并检测3D显微镜体积中的核质心。

Diff2Dist: Learning Spectrally Distinct Edge Functions, with Applications to Cell Morphology Analysis
Authors Cory Braker Scott, Eric Mjolsness, Diane Oyen, Chie Kodera, David Bouchez, Magalie Uyttewaal
我们介绍了一种用于图形的频谱描述性边缘权重的方法。我们概括了图形图形扩散距离上的先前已知的距离测量,从而允许调谐以最小化任意损耗函数。由于计算该修改的GDD所涉及的所有步骤是可微分的,因此我们证明了小型神经网络模型可以学习最小化损耗的边缘权重。单独的GDD不会有效地区分由野生型与突变体Emph Arabidicopsis Thalanimens的野生型与突变体的野生型与突变体的图象构成的图表之间。然而,具有对比损耗的培训边缘权重和内核参数在这些图表类别之间产生具有大边缘的学习距离度量。我们通过显示在学习距离矩阵上的简单K最近邻居分类器的改进性能来证明这一点。我们还证明了这种方法对生物图像分析的进一步应用,一旦训练,我们使用我们的模型来计算生物图之间的距离和通过细胞分割模拟器输出的一组图表之间的距离。这允许我们识别与我们原始数据集中的每个类图类似的模拟参数制度。

Recent Advances in Fibrosis and Scar Segmentation from Cardiac MRI: A State-of-the-Art Review and Future Perspectives
Authors Yinzhe Wu, Zeyu Tang, Binghuan Li, David Firmin, Guang Yang
心肌纤维化和瘢痕的分割对于临床诊断至关重要,可以为治疗心脏病提供宝贵的指导。晚期钆增强LGE心血管磁共振CMR已经成功地实现了引导临床诊断和治疗可靠性的疗效。对于LGE CMR,许多方法在准确分割疤痕区域方面已经证明了成功。与其他非造影剂非CA型号的CO登记,平衡稳态自由进出BSSFP和CINE磁共振成像MRI,可以进一步提高心脏解剖的自动分割的功效。已经提出了许多常规方法以提供疤痕的自动化或半自动分割。随着近年来深度学习的发展,我们还可以看到更先进的方法,在提供更准确的细分方面更高效。本文采用不同方式进行准确的心肌纤维化和瘢痕分割的不同方式对现有技术的常规和当前状态进行常规和当前状态的最新状态。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页



pic from pexels.com

你可能感兴趣的:(Transformer,计算机视觉,Papers,transformer,计算机视觉,视觉,目标检测,三维重建)