hitrjj

【AI视野·今日CV 计算机视觉论文速览第200期】Tue, 18 May 2021

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 18 May 2021 (showing first 100 of 106 entries)
Totally 100 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Divide and Contrast: Self-supervised Learning from Uncurated Data
Authors Yonglong Tian, Olivier J. Henaff, Aaron van den Oord
自我监督学习在利用大量未标记的数据中拥有承诺，然而到目前为止，其进步的大部分都仅限于高度策划的预培训数据，如想象成。我们探讨了对比学习从较大，较大的策划图像数据集如YFCC的效果，并且发现产生的表示质量有很大差异。我们假设该策差差距是由于在图像类别的分布中的转变，这是更多样化和重尾的尾尾，导致较少的相关的负样本来学习。我们以一种新的方法，划分和对比DNC来测试这一假设，其在对比的基于对比的努力挖掘之间交替。当在较少的策划数据集上掠夺时，DNC大大提高了自我监督学习对下游任务的性能，同时仍然与策划数据集的最新状态仍然存在竞争力。

The Boombox: Visual Reconstruction from Acoustic Vibrations
Authors Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick
我们介绍了臂盒，一个使用声学振动的容器来重建其内部内容的图像。当物体与容器相互作用时，它们会产生小的声学振动。精确的振动特性取决于盒子和物体的物理特性。我们演示了如何使用此附带信号来预测视觉结构。在学习之后，即使在框内无法查看摄像机时，我们的方法也仍然有效。虽然我们使用低成本和低功耗的麦克风来检测振动，但我们的结果表明，从多模态数据中学习，使我们能够将廉价的声学传感器转换为丰富的视觉传感器。由于容器的无处不在，我们认为将感知能力集成到它们中将在人类计算机互动和机器人中实现新的应用。我们的项目网站是在

A Light Stage on Every Desk
Authors Soumyadip Sengupta, Brian Curless, Ira Kemelmacher Shlizerman, Steve Seitz
每次坐在电视或显示器前，你的脸都会被时间变化的光线方式积极照亮。本文建议使用此时不同的照明，以与任何新的照明条件进行脸部的综合性焕发。在这样做时，我们从Debevec等人的轻型阶段工作中获取灵感。，他们首先展示了在受控照明环境中捕获的捕获的人的能力。虽然现有的光级需要昂贵的房间标度球形捕获龙门，但在世界上只有一些实验室存在，我们演示了如何从普通电视或台式机监视器获取有用的数据。而不是使用户对快速闪烁的光图案进行不舒服，而是在用户观看YouTube视频或其他标准内容的用户的图像上运行。我们在图像上培训深度网络以及给定用户的监视器模式，并学会在任何目标照明监视器模式下预测该用户的图像。实验评估表明，我们的方法产生了现实的发感结果。视频结果可用

StrobeNet: Category-Level Multiview Reconstruction of Articulated Objects
Authors Ge Zhang, Or Litany, Srinath Sridhar, Leonidas Guibas
我们呈现STROBET，一种用于从一个或多个未铺设的RGB图像的铰接对象的类别水平三维重建方法。重建一般铰接对象类别具有重要的应用，但是由于物体可以具有宽的形状，铰接，外观和拓扑的变化而具有挑战性。我们通过构建类别级别铰接规范化映射观察的概念来解决这一点，这使得能够对应于免费的多视图聚合。我们的终端培训神经网络估计特征丰富的规范3D点云，铰接性接头和来自物体的一个或多个未铺设图像的分段。这些中间估计用于生成最终隐式的3D重建。如果在具有大基线的图像中的图像中的不同铰接中观察到它们，以及重建形状的动画，则方法即使在不同的铰接中观察到的对象。不同对象类别的定量和定性评估表明，我们的方法能够实现高重建精度，特别是随着添加更多视图。

Learning to Automatically Catch Potholes in Worldwide Road Scene Images
Authors J. Javier Yebes, David Montero, Ignacio Arriola
在世界上任何铺设的方式存在的几条道路危险中，坑洼是最烦人的，也涉及更高的维护成本之一。通过技术和研究进展使这些危害的自动检测增加了越来越令人兴趣。我们的研究工作解决了真实世界道路场景图像坑道检测的挑战。主要的新颖性居住在AI中的最新进展中的应用，了解坑洼的视觉外观。我们建立了一个带有坑孔注释的大型图像数据集。他们包含来自世界不同城市的道路场景，采用不同的相机，车辆和在各种环境条件下的观点。然后，我们根据更快的R CNN和SSD深神经网络进行微调四种不同的对象检测模型。我们实现了高平均精度，并在NVIDIA DrivePX2平台上测试了坑洞检测器，GPGPU能力可以嵌入车辆上。此外，它在真正的车辆上部署，以将检测到的坑洼通知给定的IOT平台作为AutoPilot H2020项目的一部分。

Unknown-box Approximation to Improve Optical Character Recognition Performance
Authors Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer
光学字符识别OCR是许多域中的广泛使用的模式识别应用。有几种功能丰富，通用OCR解决方案可供消费者提供，可提供适度的精度水平。但是，具有困难和罕见的文档域可以减少精度。文档图像的预处理可用于最小化域移位的效果。本文介绍了一种用于为给定OCR引擎创建定制预处理器的新方法。与先前的OCR不可知的预处理技术不同，所提出的方法近似于特定OCR引擎训练预处理器模块的梯度。具有两个数据集和两个OCR发动机的实验表明，所提出的预处理器能够通过将像素级操作应用于文档图像来从基线提高OCR高达46的准确性。可以下载所提出的方法和增强公共数据集的实现。

Pseudo-Label Ensemble-based Semi-supervised Learning for Handling Noisy Soiling Segmentation Annotations
Authors Michal Uricar, Ganesh Sistu, Lucie Yahiaoui, Senthil Yogamani
手动注释环绕视图相机的污染是一个非常具有挑战性和昂贵的任务。各种污染类别（水滴或泥浆粒子）的阴影不明确通常导致注释质量的大方差。结果，在这种较差的数据上培训的模型远非最佳。在本文中，我们专注于通过伪标签驱动的集合模型处理这种嘈杂的注释，这使我们能够快速发现问题注释，并且在大多数情况下也足够地固定它们。我们在嘈杂和精致的标签上培训污染的分割模型，并使用精细注释展示了显着的改进。它还示出了可以有效地改进更低的成本粗略注释。

Rethinking the Design Principles of Robust Vision Transformer
Authors Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Shaokai Ye, Yuan He, Hui Xue
最近关于视觉变压器Vit的进步表明，基于自我关注的网络，利用长距离依赖性建模能力，超过了大多数愿景任务中的传统卷积神经网络CNN。为了进一步扩展对计算机视觉的适用性，提出了许多改进的变体来通过考虑CNNS，即地点，翻译不变性的优势来重新设计变压器架构，以实现更好的性能。但是，这些方法仅考虑模型的标准精度或计算成本。在本文中，我们根据稳健性重新思考VITS的设计原则。我们发现一些设计组件极大地损害了VIT的鲁棒性和泛化能力，而其他人则是有益的。通过组合强大的设计组件，我们提出了强大的视觉变压器RVT。 RVT是一款新的视觉变压器，具有卓越的性能和强大的鲁棒性。我们进一步提出了两个新的即插即用技巧，称为位置感知注意重新调整和修补明智的增强以培训我们的RVT。关于Imagenet和六个稳健性基准的实验结果表明，与先前的变压器和最先进的CNNS相比，RVT的先进鲁棒性和泛化能力。我们的RVT S还在多个强大排行榜上实现了前1个等级，包括想象成C和Imagenet草图。代码将可用

BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive for Remote Sensing Image Classification and Retrieval
Authors Gencer Sumbul, Arne de Wall, Tristan Kreuziger, Filipe Marcelino, Hugo Costa, Pedro Benevides, M rio Caetano, Beg m Demir, Volker Markl
本文介绍了由590,326对的哨声1和Sentinel 2图像补丁组成的多模态大性的Bigearthnet MM基准档案，以支持多模态多标签遥感RS图像检索和分类中的深度学习DL研究。 Bigearthnet MM中的每对贴片都以2018年主题最详细的3级命名法提供了2018年的Corine Land Clc Map提供的多标签。我们的初步研究表明，只要考虑单日大型世纪MM图像，某些CLC类就可以准确描述。在本文中，我们还将另一种类命名法作为原始CLC标签的演变引入，以解决这个问题。这是通过基于在19类的新命名法中的Bigearthnet MM图像的特性来解释和安排CLC级别3命名来实现。在我们的实验中，我们通过考虑若干艺术DL模型的状态来显示大模型多标签图像检索和分类问题的Bigearthnet MM的潜力。我们还证明，从划痕上培训的DL模型在MIGEANET上占据了预先培训的那些，特别是与某些复杂的课程相关，包括农业和其他植被和自然环境。我们将所有数据和DL型号公开提供

Large-Scale Unsupervised Person Re-Identification with Contrastive Learning
Authors Weiquan Huang, Yan Bai, Qiuyu Ren, Xinbo Zhao, Ming Feng, Yin Wang
由于标签难度，现有的公共人员重新识别Reid DataSets在现代的情况下较小。虽然未标记的监控视频丰富，但相对容易获得，但目前尚不清楚如何利用这些镜头来学习有意义的Reid表示。特别是，最现有的无监督和域适应Reid方法仅在其实验中使用公共数据集，并删除标签。此外，由于数据尺寸小，这些方法通常依赖于测试域中的未标记培训数据进行微调，以实现良好的性能。灵感来自最近使用对比学习的大规模自我监督图像分类的进展，我们建议仅从大规模未标记的监视视频中学习Reid代表。从架子行人检测工具辅助，我们在图像和轨迹级施加对比损耗。与使用相机标签自由可用的主要成分分析步骤一起，我们使用大规模未标记的数据集进行评估在不使用测试域中的任何培训数据的无监督方法中显示出远远卓越的性能。此外，准确性提高了数据大小，因此我们的方法具有巨大的潜力，具有更大且多样化的数据集。

Multi-object Tracking with Tracked Object Bounding Box Association
Authors Nanyang Yang, Yi Wang, Lap Pui Chau
Centractrack跟踪算法使用简单的检测模型和单帧空间偏移来实现最简单的检测模型和单帧空间偏移来定位对象并预测其在单个网络中的关联。然而，由于较差的方法，这种联合检测和跟踪方法仍然存在高标识开关。为了减少大量的身份开关并提高跟踪精度，在本文中，我们建议基于当前帧的简单跟踪的对象边界框和基于当前帧的重叠预测到中心到Centractrack算法。具体地，我们提出了在关联步骤中的联盟IOO距离成本矩阵的交叉点，而不是简单的点位移距离。我们在MOT17测试数据集上评估我们所提出的跟踪器，显示我们所提出的方法可以显着减少22.6的标识开关，并与同一轨迹寿命下的原始CenterTrack S相比，在IDF1中获得1.5中的值得注意的改进。源代码已释放

Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation
Authors Suman Saha, Anton Obukhov, Danda Pani Paudel, Menelaos Kanakis, Yuhua Chen, Stamatios Georgoulis, Luc Van Gool
我们介绍了一种用于编码视觉任务关系的方法，以提高无监督域适应UDA设置中的模型性能。语义分割和单眼深度估计被示出为多任务学习设置中的互补任务，它们的关系的正确编码可以进一步提高两个任务的性能。通过这种观察，我们提出了一种新颖的跨任务关系层CTRL，其在语义和深度预测之间编码任务依赖性。要捕获跨任务关系，我们提出了一种神经网络架构，其中包含特定的任务和跨任务细化头。此外，我们提出了一种迭代自学习ISL培训计划，该培训计划利用语义伪标签来为目标域提供额外的监督。我们通过实验地观察两个任务性能的改进，因为这些任务中存在的互补信息更好地捕获。具体而言，我们表明，我们的方法可以提高所有任务的性能，当它们是互补和相互依赖的2，CTRL有助于改善挑战UDA设置3中的语义分割和深度估计任务性能，提出的ISL训练方案进一步提高了语义分割表现。实施是可用的

Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space
Authors Lin Wu, Teng Wang, Changyin Sun
视觉地位识别是机器人领域的必不可少和挑战性问题之一。在这封信中，我们首次探索使用Dynamics不变空间中的语义和视觉模型的多模态融合来改善动态环境中的地点识别。我们通过首先设计新的深度学习架构来实现静态语义分割并直接从相应的动态图像恢复静态图像来实现这一点。然后，我们创新地利用空间金字塔匹配模型将静态语义分段编码为特征向量。并行地，使用流行的单词模型进行编码静态图像。在上述多模态特征的基础上，我们最终测量查询图像与目标地标之间的相似性，通过其语义和视觉代码的联合相似性。广泛的实验证明了在动态环境中识别识别方法的有效性和稳健性。

STRIDE : Scene Text Recognition In-Device
Authors Rachit S Munjal, Arun D Prabhu, Nikhil Arora, Sukumar Moharana, Gopi Ramena
光学字符识别OCR系统已广泛用于各种应用中，用于从图像中提取语义信息。为了让用户更控制他们的隐私，需要在设备上解决方案。本领域的当前状态太重而且复杂地部署在设备上。我们开发了一个高效的轻量级现场文本识别str系统，其参数只有0.88米，并执行实时文本识别。注意模块倾向于提高STR网络的准确性，但通常是慢性且未优化用于设备推断。因此，我们建议使用卷积注意模块到文本识别网络，该网络旨在通过添加非常最小的计算成本来向LSTM模块提供通道和空间注意信息。它若要提高了ICDAR 13 DataSet的语言准确性差不多2。我们还介绍了一种新颖的方向分类器模块，以支持同时识别水平和垂直文本。所提出的模型在与领先的商业和其他开源OCR发动机相比时，拟议的推测时间和内存占用装置的设备度量和内存占用尺寸。我们在Exynos 990芯片组设备上将系统部署在设备上，推断速度为2.44 ms的推断速度，并在ICDAR 13 DataSet上实现了88.4的准确性。

Temporal Prediction and Evaluation of Brassica Growth in the Field using Conditional Generative Adversarial Networks
Authors Lukas Drees, Laura Verena Junker Frohn, Jana Kierdorf, Ribana Roscher
农民经常评估植物的生长和性能作为决定在现场采取行动的决定，例如施肥，杂草控制或收获。植物生长的预测是一项重大挑战，因为它受到众多和高度可变的环境因素的影响。本文提出了一种新颖的监测方法，包括高通量成像传感器测量及其自动分析，以预测未来的工厂生长。我们的方法S核心是一种基于新型机器学习的基于条件生成对抗网络的生长模型，能够预测个体植物的未来外观。在实验与RGB时间序列的实验室种植拟南芥图像和田间种植的花椰菜植物，我们表明我们的方法会产生现实，可靠，合理的未来增长阶段的图像。通过神经网络的实例分段自动解释产生的图像允许衍生描述植物生长的各种表型特征。

HCRF-Flow: Scene Flow from Point Clouds with Continuous High-order CRFs and Position-aware Flow Embedding
Authors Ruibo Li, Guosheng Lin, Tong He, Fayao Liu, Chunhua Shen
3D点云中的场景流在了解动态环境中起着重要作用。尽管深度神经网络已经进行了重大进展，但由于仅考虑每个点平移运动，忽视局部地区刚性运动的约束，因此性能远非令人满意。为了解决这个问题，我们建议介绍运动一致性以强制邻近点之间的平滑度。此外，还通过为每个局部区域内的所有点共享唯一的刚性运动参数来添加对局部变换的刚性的约束。为此，部署了基于高阶CRFS的关系模块Con HCRF，以探索点的光度明智的平滑度和区域明智的刚性。为了使CRFS具有判别的联合术语，我们还介绍了将一个位置感知流程估计模块纳入CON HCRF。 Flyinghings3d和Kitti的综合实验表明，我们提出的框架HCRF流程实现了最新的性能，并显着优于先前的方法。

Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation
Authors Kelei He, Wen Ji, Tao Zhou, Zhuoyuan Li, Jing Huo, Xin Zhang, Yang Gao, Dinggang Shen, Bing Zhang, Junfeng Zhang
来自多模态磁共振的脑肿瘤的精确分割对于脑肿瘤诊断和治疗至关重要。然而，由于不同模式之间的域移位的存在，当在一个模态上训练并在另一个模式上进行训练并且在T1图像上进行训练时，网络的性能显着降低，同时在T2图像上进行T1图像，这在临床应用中通常需要。这也禁止网络在标记数据上培训，然后从不同的域转移到未标记的数据。为了克服这一点，无监督的域适应UDA方法提供有效的解决方案，以减轻标记的源数据和未标记的目标数据之间的域移位。在本文中，我们在UDA方案下提出了一种新颖的双向全球到本地BIGL适应框架。具体地，提出了一种双向图像合成和分割模块，用于使用为两个域生成的中间数据分布分段，其包括到图像转换器的图像和共享加权分段网络。此外，提出了全局到局部一致性学习模块以以集成方式构建鲁棒的表示对齐。在多模态大脑MR基准数据集上进行了广泛的实验表明，所提出的方法优于众所周知的域域改变方法的大幅度，而全面的消融研究验证了每个关键组件的有效性。我们方法的实施代码将以URL发布

EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation
Authors Bin Zhao, Xuelong Li
视频帧插值可以上升帧速率并增强视频质量。近年来，虽然插值表现取得了巨大的成功，但由于大动作，图像模糊通常发生在物体边界处。这是一个很长的问题，尚未得到解决。在本文中，我们建议通过保留内插帧中的边缘来减少图像模糊并获得清晰的物体形状。为此，所提出的边缘感知网络EA NET将边缘信息集成到帧插值任务中。它遵循结束到端架构，可以分为两个阶段，EMPE导向流量估计和边缘保护帧合成。具体地，在流程估计阶段，开发了三个边缘意识机制以强调估计流程图中的帧边缘，使得边缘映射被视为辅助信息，以提供更多的引导以提高流量精度。在框架合成阶段，流动细化模块被设计成优化流程图，并且在合成中间帧时，将注意模块进行以自适应地聚焦在双向流程图上。此外，采用框架和边缘鉴别器来进行对抗性训练策略，以提高合成框架的现实和清晰度。在三个基准测试中，包括Vimeo90k，UCF101为单帧插值和多帧插值的Adobe240 FPS，已经展示了用于视频帧插值任务的建议EA网的优越性。

Voxel-level Siamese Representation Learning for Abdominal Multi-Organ Segmentation
Authors Chae Eun Lee, Minyoung Chung, Yeong Gil Shin
最近在医学图像分割中的作品已积极探索各种深度学习架构或客观函数，以便由于图像注释有限，从容量数据编码高级功能。然而，大多数现有方法倾向于忽略交叉量全局背景并定义决策空间中的上下文关系。在这项工作中，我们提出了一种新的体素水平暹罗暹罗代表学习方法，用于改善表示空间的腹部多器官分段。所提出的方法强制了表示空间中的体素明智的特征关系，以更全面地利用有限数据集来实现更好的性能。灵感来自最近对比学习的进步，我们抑制了与同一类的Voxel明智关系在不使用阴性样本的情况下投射到同一点。此外，我们介绍了一种多分辨率上下文聚合方法，该方法聚合来自多个隐藏图层的特征，该方法为分段编码全局和本地上下文。我们在多器官数据集上的实验优先于骰子评分系数的现有方法。代表空间的定性可视化表明，改进主要由解散特征空间获得。

AudioVisual Video Summarization
Authors Bin Zhao, Maoguo Gong, Xuelong Li
音频和愿景是视频数据中的两个主要方式。多式化学习，特别是对于视听学习，最近引起了相当大的关注，这可以提高各种计算机视觉任务的性能。然而，在视频摘要中，现有方法只是在忽略音频信息时利用视觉信息。在本文中，我们认为音频模型可以帮助视觉模型来更好地了解视频内容和结构，并进一步受益于总结过程。由此激励，我们建议共同利用视频摘要任务的音频和视觉信息，并开发一个视听反复网络AVRN以实现这一目标。具体地，所提出的AVRN可以分离成三个部分1，通过捕获它们的时间依赖性，使用两个流LSTM来编码音频和视觉特征。 2，视听融合LSTM通过探索它们之间的潜在一致性来熔化两种方式。 3采用自我注意视频编码器来捕获视频中的全局依赖。最后，共同使用融合的视听信息和集成的时间和全局依赖项来预测视频摘要。实际上，在两个基准测试中，EMPH即和TVSUM的实验结果证明了每个部分的有效性，以及AVRN的优越性与仅利用视频摘要的视觉信息的方法相比。

Global Wheat Head Dataset 2021: an update to improve the benchmarking wheat head localization with more diversity
Authors Etienne DAVID, Mario Serouart, Daniel Smith, Simon Madec, Kaaviya Velumani, Shouyang Liu, Xu Wang, Francisco Pinto Espinosa, Shahameh Shafiee, Izzat S. A. Tahir, Hisashi Tsujimoto, Shuhei Nasuda, Bangyou Zheng, Norbert Kichgessner, Helge Aasen, Andreas Hund, Pouria Sadhegi Tehran, Koichi Nagasawa, Goro Ishikawa, S bastien Dandrifosse, Alexis Carlier, Benoit Mercatoris, Ken Kuroki, Haozhou Wang, Masanori Ishii, Minhajul A. Badhon, Curtis Pozniak, David Shaner LeBauer, Morten Lilimo, Jesse Poland, Scott Chapman, Benoit de Solan, Fr d ric Baret, Ian Stavness, Wei Guo
全球小麦头部检测GWHD数据集于2020年创建，并组装了193,634名标记的小麦头，从各种采集平台和7个国家机构获得的4,700 RGB图像。随着在卡格林举办的相关竞争中，GWHD已成功地吸引了计算机愿景和农业科学社区的关注。从2020年的第一次经验中，已经确定了一些改进的途径，特别是从数据大小，头部分集和标签可靠性的角度来看。为了解决这些问题，通过添加来自5个国家的1,722张图片，重新审视，重新标记和增强2020个数据集，允许添加81,553个额外的小麦头。因此，我们希望在2021年发布全球小麦头部检测GWHD数据集的新版本，这比2020版本更大，更多样化，更少嘈杂。 GWHD 2021现在公开可用

FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection
Authors Yi Wei, Shang Su, Jiwen Lu, Jie Zhou
在本文中，我们调查了弱监督3D车辆检测的问题。用于3D对象检测的传统方法需要大量的手动标记的3D数据作为监控信号。然而，注释大型数据集需要巨大的人类努力，特别是3D区域。为了解决这个问题，我们提出了Frustum意识的几何推理FGR，以检测点云中的车辆，而无需任何3D注释。我们的方法由两个级粗略3D分割和3D边界框估计组成。对于第一阶段，上下文意识的自适应区域生长算法旨在基于2D边界框对对象进行划分对象。利用预测的分割掩模，我们开发了一种抗噪声方法来估计第二阶段的3D边界框。最后，我们的方法产生的3D伪标签用于训练3D检测器。独立于任何3D Troundtruth，FGR在Kitti DataSet上以完全监督的方法达到了可比的性能。调查结果表明，它能够在3D空间中准确地检测3D空间中的对象，只有2D边界框和稀疏点云。

Leveraging EfficientNet and Contrastive Learning for Accurate Global-scale Location Estimation
Authors Giorgos Kordopatis Zilos, Panagiotis Galopoulos, Symeon Papadopoulos, Ioannis Kompatsiaris
在本文中，我们解决了全球尺度图像地理定位的问题，提出了混合分类检索方案。与严格解决此问题作为分类或检索任务的其他方法不同，我们将两种实践组合在统一的解决方案中，利用每个方法的各种方法的优势与两个不同的模块不同。首先利用高效的架构以强大的方式将图像分配给特定地理单元格。第二次引入了一种新的剩余架构，该架构具有对比学学习的培训，以将输入图像映射到嵌入空间，该嵌入空间最小化相同位置图像的成对测地距离。对于最终位置估计，两个模块与小区方案中的搜索组合，其中基于空间聚类方案聚合来自预测地理小区的大多数相似图像的位置。我们的方法在四个公共数据集中展示了非常竞争力的性能，实现了在IM2GPS3K上的1km范围内的细粒度尺度中的最新状态的最新状态，即15.0。

Traffic Scenario Clustering by Iterative Optimisation of Self-Supervised Networks Using a Random Forest Activation Pattern Similarity
Authors Lakshman Balasubramanian, Jonas Wurst, Michael Botsch, Ke Deng
交通场景分类是自动驾驶的重要组成部分，用于e。，g。，在运动规划算法及其验证中。在没有手工下的步骤中查找新的相关方案会减少自主驾驶的所需资源。在这项工作中，提出了一种方法来通过引入基于新的数据自适应相似度测量来引入群集技术来解决这一挑战，称为随机森林激活模式RFAP相似度。使用随机林算法中的树编码方案生成RFAP相似度。本工作中提出的群集方法考虑到有标记的方案可用，标记方案中的信息可以帮助指导未标记方案的群集。它由三个步骤组成。首先，使用定义的自我监督目标，在所有可用的交通方案上培训了一个自我监督的卷积神经网络CNN。其次，CNN精确调整，用于标记方案的分类。第三，使用标记和未标记的方案进行迭代优化过程进行群集。在迭代优化的每个时期的第三步骤中，CNN用作无监督随机林的特征发生器。训练的森林又提供了RFAP相似性，以迭代地实现CNN实现的特征生成过程。在高级数据集上已经完成了广泛的实验和消融研究。与基线聚类技术相比，该方法显示出优异的性能。

Class-Incremental Few-Shot Object Detection
Authors Pengyang Li, Yanan Li, Donghui Wang
传统的检测网络通常需要丰富的标记训练样本，而人类可以只有几个例子逐步学习新概念。本文侧重于更具挑战性，但现实的阶级增量少量射击对象检测问题IFSD。它旨在逐渐地将新型物体的模型从少数注释的样本转移到，而不会灾难性地忘记以前学识的那些。为了解决这个问题，我们提出了一种新的方法，最小的方法可以减少遗忘，更少的培训资源和更强的转移能力。具体而言，我们首先介绍转移策略，以减少不必要的重量适应并改善IFSD的传输能力。在此基础上，我们使用较少的资源消耗方法整合知识蒸馏技术来缓解遗忘并提出基于新的聚类的示例性选择过程，以保留先前学习的更多辨别特征。作为通用和有效的方法，最少可以在很大程度上提高各种基准的IFSD性能。

Open-set Recognition based on the Combination of Deep Learning and Ensemble Method for Detecting Unknown Traffic Scenarios
Authors Lakshman Balasubramanian, Friedrich Kruber, Michael Botsch, Ke Deng
驾驶场景的理解和分类对于测试和开发自主驾驶功能是重要的。机器学习模型对于场景分类非常有用，但大多数人假设在测试期间接收的数据来自培训中使用的类别。由于车辆运行的开放环境，这假设不是真的。这是由一个名为Open Set识别的新机器学习范例来解决。开放式识别是将测试样本分配给培训或未知类的类之一的问题。这项工作提出了卷积神经网络CNN和随机森林RF的组合，以便开放的交通方案识别。 CNNS用于特征生成和RF算法以及用于检测已知和未知类的极值理论。拟议的解决方案是通过探索RF中的树木的投票模式而不是大多数投票来源的。通过继承RF的集合性质，所有树木的投票模式与极值理论相结合，非常适合检测未知的类别。与现有解决方案相比，所提出的方法已经在高速和OpentRafficat数据集上进行了测试，并且在各个方面上表现出优异的性能。

Shared and Private VAEs with Generative Replay for Continual Learning
Authors Subhankar Ghosh
持续学习试图在不忘记以前学识的情况下学习新任务。实际上，大多数现有的人工神经网络ANN模型失败，而人类通过在整个生命中记住以前的作品也是如此。虽然只需存储所有过去的数据都可以缓解问题，但它需要大的内存并且在上次数据访问的真实应用程序中往往是不可行的。我们假设学习解决每个任务的模型不断具有一些任务特定的属性和一些任务不变特征。我们提出了一个混合持续学习模型，更适合实际情况，以解决任务不变共享变化自动码器和T任务特定变化自动码器的问题。我们的模型结合了生成的重放和建筑增长，以防止灾难性的遗忘。我们展示了混合模型有效避免忘记并实现了现有技术的状态，导致诸如Mnist，允许的MNIST QMNIST，CIFAR100和MiniimAgeNet数据集等视觉连续学习基准。我们讨论了几个数据集的结果，例如Svhn，Fashion Mnist，Emnist和Cifar10。

A Fine-Grained Visual Attention Approach for Fingerspelling Recognition in the Wild
Authors Kamala Gajurel, Cuncong Zhong, Guanghui Wang
当他们没有专门的手语手势时，手术展示的手指一直是沟通技术术语和适当名词的手段。自动识别手指瓣道可以帮助解决与聋人互动时的通信障碍。手指伸展识别的主要挑战是手势中的模糊性和手中的强烈关节。自动识别模型应解决手势中高级视觉视觉相似性和高帧内级别变化。 Fingerspling识别的大多数现有研究都集中在受控环境中收集的数据集。最近收集野外的大型注释的指数数据集，来自社交媒体和在线平台，捕捉了真实世界场景中的挑战。在这项工作中，我们使用变压器模型提出了一种细粒度的视觉注意机制，以便序列序列在野外数据集中序列预测任务。通过利用视频帧光流的运动变化在顺序上下文基础上与变压器编码器模型以及变压器编码器模型的改变来实现细粒度的注意。通过平衡连接员时间分类CTC丢失和最大熵损失，联合剪辑的连续视频数据集是共同训练的。所提出的方法可以在单一迭代中捕获更好的细粒度。实验评估表明它优于现有技术的状态。

Style-Restricted GAN: Multi-Modal Translation with Style Restriction Using Generative Adversarial Networks
Authors Sho Inoue, Tad Gonsalves
使用生成的对冲网络来对图像翻译的未配对图像是成功转换多个域之间的图像。此外，最近的研究已经示出了一种多样化发电机的输出的方法。但是，由于没有限制生成器如何使结果分布，因此可能会翻译一些意外的功能。在本文中，我们提出了风格受限制的GaN SRGAN，一种用不同风格将输入图像传输到不同域的新方法，改变了完全类相关的功能。此外，除了KL发散损失，我们采用了3个新损失来限制编码特征分批批量缺陷，相关性损失和直方图模仿损失的分布。该研究报告了定量以及精确，召回，密度和覆盖度的定性结果。与常规KL损失相比，建议的3次损失导致增强多样性水平。特别是，发现SRAGAN成功转换为更高的多样性，而不会在Celeba面部数据集中更改类无关的功能。我们的实施提供了

Towards Unsupervised Domain Adaptation for Deep Face Recognition under Privacy Constraints via Federated Learning
Authors Weiming Zhuang, Xin Gan, Yonggang Wen, Xuesen Zhang, Shuai Zhang, Shuai Yi
已经广泛采用无监督的域适应来概括在目标域中的未标记数据的模型，在源域中给出标记的数据，其数据分布与目标域不同。但是，现有的作品可在隐私约束下不适用于面对识别，因为它们需要在两个域之间共享敏感面部图像。为了解决这个问题，我们提出了一种小说未经监督的联邦面部识别方法FEDFR。 FEDFR通过通过联合学习来通过迭代地聚合来自源域的知识来提高目标域中的性能。它通过传输模型而不是域之间的原始数据来保护数据隐私。此外，我们提出了一个新的域约束损失DCL，以正规化源域培训。 DCL抑制源域的数据量优势。我们还提高了分层聚类算法，以准确地预测未标记的目标域的伪标签。为此，FEDFR在源域2中形成一个端到端训练管线1预先列车在源域2通过在目标域3中的聚类来预测伪标签，在两个域中进行域约束被约束的联合学习。两种新建基准的广泛实验和分析展示了FEDFR的有效性。在更现实的基准测试中，它以超过4个在目标域中的基线和经典方法优于超过4。我们相信，FEDFR将在隐私约束下将联合学习应用于更多计算机愿景任务。

Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation
Authors Peter Karkus, Shaojun Cai, David Hsu
同时本地化和映射SLAM对许多下游应用（例如视觉机器人导航）仍然具有挑战性，因为快速转弯，无特色墙壁和相机质量差。我们介绍了可差异化的SLAM网络SLAM网络以及导航架构，以在以前看不见的室内环境中启用平面机器人导航。 SLAM NET在可差化的计算图中编码基于粒子滤波器的SLAM算法，并通过通过SLAM算法反向来学习面向任务的神经网络组件。因为它可以针对最终目标共同优化所有型号组件，因此Slam Net学会在具有挑战性的条件下具有稳健性。我们在具有不同现实世界RGB和RGB D数据集的栖息地平台中运行实验。 SLAM NET显着优于嘈杂的条件下广泛适应的ORB SLAM。我们的导航架构与SLAM网的导航架构改善了栖息地挑战2020 Pointnav任务的艺术状态，通过大型保证金37到64成功。项目网站

Vision Transformers are Robust Learners
Authors Sayak Paul, Pin Yu Chen
由多种自我注意层组成的变形金刚对适用于不同数据模型的通用学习原语，包括计算机视觉近期突破，实现了艺术SOTA标准精度的最新突破，具有更好的参数效率。由于自我关注有助于模型系统地对齐输入数据内部存在的不同组件，因此它留下了地面来研究其在模型稳健性基准下的性能。在这项工作中，我们研究了视觉变压器VIT的稳健性，避免常见的腐败和扰动，分布偏移和自然对抗例。我们使用六种不同的多样化想象数据集关于强大的分类，以进行Vit模型和Sota卷积神经网络CNNS，大转移的综合性能比较。通过一系列系统地设计的实验，我们将提供分析，这些分析提供定量和定性指示，以解释为什么VITS确实更强大的学习者。例如，具有较少的参数和类似的数据集和预训练组合，VIT在ImageNet A上给出了28.10的前1个精度，这是比比特的可比变体高4.3x。我们对图像屏蔽，傅里叶谱灵敏度和传播的分析，在离散余弦能量谱上揭示了Vit归因于改善鲁棒性的迷恋性质。在此处提供再现我们的实验的代码

Rethinking "Batch" in BatchNorm
Authors Yuxin Wu, Justin Johnson
Batchnorm是现代卷积神经网络中的关键构建块。它在批处理而不是单个样本上运营的独特性质引入了深度学习中大多数其他操作的显着不同的行为。结果，它导致许多隐藏的警告，可以以微妙的方式对模型进行模范。本文彻底评论了视觉识别任务中的此类问题，并显示解决它们的关键是在Batchnorm中重新考虑批量概念中的不同选择。通过呈现这些警告及其缓解，我们希望这篇评论可以帮助研究人员更有效地使用Batchnorm。

Layerwise Optimization by Gradient Decomposition for Continual Learning
Authors Shixiang Tang, Dapeng Chen, Jinguo Zhu, Shijie Yu, Wanli Ouyang
深度神经网络实现了最先进的状态，有时在各个领域之间的超级性能。然而，当顺序学习任务时，网络容易忘记以前任务的知识，称为灾难性遗忘。为实现旧任务和新任务之间的常规，一个有效的解决方案是修改更新的渐变。以前的方法为不同的任务强制执行独立的渐变约束，而我们考虑这些渐变包含复杂信息，并建议通过梯度分解来利用任务信息。特别是，旧任务的梯度被分解为由所有旧任务和特定于该任务的一部分共享的部分。更新的渐变应接近新任务的渐变，与所有旧任务共享的渐变，以及与特定于旧任务的渐变跨越的空间正交。通过这种方式，我们的方法鼓励普通知识合并而不损害任务特定知识。此外，对每个层的梯度分别执行优化而不是在以前的作品中的所有梯度的串联执行。这有效地避免了不同层中梯度幅度变化的影响。广泛的实验验证了梯度分解优化和层面更新的效果。我们所提出的方法实现了持续学习的各种基准的艺术状态。

Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing
Authors Xunguang Wang, Zheng Zhang, Baoyuan Wu, Fumin Shen, Guangming Lu
由于其强大的代表学习和高效计算能力，深度散列在大规模图像检索方面取得了重大进展。然而，深度散列网络容易受到对抗的例子，这是一个实用的安全问题，但很少在散列的检索场中研究。在本文中，我们提出了一种新颖的原型监督对冲网络优点GaN，其制定了一种灵活的生成架构，用于有效且有效的目标散列攻击。据我们所知，这是第一代攻击深层散列网络的方法。通常，我们提出的框架由三个部分，即原型原型，发电机和鉴别器组成。具体地，设计的原型内容将目标标签嵌入到语义表示中，并将原型代码作为代表目标标签的类别级别。此外，语义表示和原始图像被共同馈送到发电机中以进行灵活的目标攻击。特别地，采用原型代码来监控发电机通过最小化对手示例的散列码和原型代码之间的汉明距离来构建目标的对抗示例。此外，发电机是针对鉴别器，以同时鼓励对抗性示例在视觉上现实和语义表示信息。广泛的实验验证了所提出的框架可以有效地产生具有更好的针对性攻击性能的对抗性示例，并通过近散迹的最新状态的可转换性。相关代码可以在

Algorithmic Principles of Camera-based Respiratory Motion Extraction
Authors Wenjin Wang, Albertus C. den Brinker
已经提出了从基于身体运动的视频中测量呼吸信号，并最近在用于视频健康监测的产品中成熟。该测量的核心算法是借鉴呼吸诱导的微小胸部腹部运动，并且基本挑战是运动敏感性。尽管在具有真实人类主体的验证上报告了现有技术，但没有彻底的严格基准，以量化基于运动的核心呼吸算法的敏感性和边界条件，测量视频帧之间的子像素位移的副像素位移。在本文中，我们设计了一种具有完全可控的物理幻影的设置，以研究核心算法的本质，以及包含两个运动估计策略和三个空间表示的数学模型，导致六种呼吸信号提取组合。通过幻影基准讨论和澄清他们的承诺和局限性。本文获得的见解旨在改善基于相机的呼吸测量在健康监测中的理解和应用。

Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild
Authors Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos
在这项工作中，我们在野外基于视频情感识别的任务。在由于头部机身取向，低分辨率低和差的照射不可进入上述情感信息来源，依赖于身体和面部特征的依赖性依赖于身体和面部特征的提取通常缺乏精确的情感预测。我们渴望通过利用场景特征和属性形式利用视觉上下文来缓解这个问题，作为更广泛的情感识别框架的一部分。时间段网络TSN构成了我们所提出的模型的骨干。除了RGB输入模态之外，通过直观的多流方法进行更有效地编码运动之后，我们利用密集的光流。此外，我们将注意力转移到基于骨架的学习，并利用中心数据作为预训练空间时间图卷积网络ST GCN的手段，用于情感识别的任务。我们对挑战性肢体语言数据集的广泛实验粗体验证了我们对现有方法的方法的优势，同时通过妥善结合在网络集合中的所有上述模块，我们设法通过大边距超越先前的最佳发布识别分数。

Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face Reconstruction
Authors Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou
通过利用深度卷积神经网络DCNNS的力量来重建从单个图像中重建3D面部结构的大量工作。在最近的作品中，纹理特征对应于线性纹理空间的组件，或者由自动编码器直接从野外图像中学习。在所有情况下，面部纹理重建的质量仍然不能以高频细节建模面部质地。在本文中，我们采取了彻底不同的方法，并利用生成的对抗性网络GAN和DCNN的力量，以重建从单个图像的面部纹理和形状。也就是说，我们利用GAN从大规模3D纹理数据集开始培训一个非常强大的面部纹理。然后，我们重新审视原始的3D可变模型3DMMS拟合利用非线性优化来找到最佳重建测试图像但在新的视角下的最佳潜在参数。为了使初始化和加快拟合过程的强大，我们提出了一种新的自我监督基于回归的方法。我们展示了在我们的知识中最佳的选择3D面部重建的光电态度和身份保存，并且首次实现了卓越的结果，并且具有高频细节的面部纹理重建。

Uncertainty in Minimum Cost Multicuts for Image and Motion Segmentation
Authors Amirhossein Kardoost, Margret Keuper
最小成本提升的多型方法在广泛的应用中已经证明了实际上的性能，例如图像分解，网格分割，多对象跟踪和运动分段。它在基于图形模型中解决了这些问题，其中真实值的成本被分配给实体之间的边缘，使得最小切割将图分解为最佳的段数。由最低成本多贸易的概率制定驱动，我们为在优化期间做出的决定的不确定性提供了措施。我们认为，在许多实际应用中，对这种不确定性的访问至关重要，并通过在图像分解BSDS 500和运动分段Davis2016和FBMS59的上下文中，通过对三种不同，广泛使用的数据集进行评估，以便在信息VI的变化方面和FBMS59兰德指数ri。

TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction
Authors Margarita Grinvald, Federico Tombari, Roland Siegwart, Juan Nieto
同时跟踪和重建在场景中移动的多个对象的能力对于诸如自主导航和交互等机器人任务来说至关重要。实际上，所有先前映射多个动态对象的尝试已经发展以将各个对象存储在单独的重建卷中并跟踪它们之间的相对姿势。虽然简单直观，但这种制剂在场景中的物体数量方面并不刻度，并介绍了对显式遮挡处理策略的需求。相比之下，我们提出了一个地图表示，允许为整个场景和其中的所有对象维护单个卷。为此，我们介绍了一种新的多对象TSDF制剂，可以在地图中的任何给定位置编码多个物体表面。在多动态对象跟踪和重建场景中，我们的表示允许保持对表面的准确重建，即使它们被移动在其接近的其他物体暂时遮挡。我们在公共合成数据集中评估所提出的TSDF制剂，并展示其与标准TSDF地图表示相比保护闭塞表面的重建的能力。

3D to 4D Facial Expressions Generation Guided by Landmarks
Authors Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo
虽然最近基于深度学习的3D面部产生了进展，但是较少研究了动态3D 4D面部表达合成的问题。在本文中，我们向以下问题提出了一个新的解决方案给定一个输入3D中性面，可以从中生成动态3D 4d面部表达式来解决这个问题，我们首先提出了一个网格编码器解码器架构expr ed exprode 3D地标从中性对应物生成富有效应的3D面部。然后，我们通过使用能够从表达式标签Motion3DaNGaN的歧管值GaN建模面部表达式的歧管值GaN来扩展到4D。所生成的地标被馈入网格编码器解码器，最终产生一系列3D表达面。通过解耦这两个步骤，我们分别地解决了网格变形和运动动力学引起的非线性。 COMA DataSet上的实验结果表明，我们的网格编码器解码器由地标引导的基于其他地标3D拟合方法引导了显着的改进，并且我们可以产生高质量的动态面部表达式。该框架还使3D表达强度能够连续地从低到高强度。最后，我们显示我们的框架可以应用于其他任务，例如2D 3D面部表情转移。

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
Authors Yixuan Li, Lei Chen, Runyu He, Zhenzhi Wang, Gangshan Wu, Limin Wang
Spatio时间作用检测是视频理解中的一个重要和具有挑战性的问题。现有的动作检测基准在修整视频或相对低的原子动作中的少量实例的方面有限。本文旨在展示一项新的多人数据集，Spatio Temporal局部体育活动，包括为MultiSports。我们首先通过提出具有良好定义的边界的三个标准1动作依赖性识别，3个相对高水平的等级，分析为时效时间作用检测构建逼真和具有挑战性数据集的重要成分。基于这些指南，我们通过选择4个运动类，收集大约3200个视频剪辑的数据集，并通过907K边界框提供围绕37790的动作实例进行注释。我们的数据集是具有强大多样性，详细注释和高质量的重要属性。我们的多个运动，具有逼真的环境和密集的注释，暴露了行动本地化的内在挑战。为了基准，我们将多个代表方法调整到我们的数据集中，并对我们数据集中的行动本地化的难度进行深入分析。我们希望我们的Multisports可以作为未来时空时间作用检测的标准基准。我们的数据集网站是在

Is Image Size Important? A Robustness Comparison of Deep Learning Methods for Multi-scale Cell Image Classification Tasks: from Convolutional Neural Networks to Visual Transformers
Authors Wanli Liu, Chen Li, Hongzan Sun, Weiming Hu, Haoyuan Chen, Changhao Sun, Marcin Grzegorzek
宫颈癌是妇女的一种非常常见和致命的癌症，但可以通过早期检查和治疗来预防它。细胞病理学图像通常用于筛选癌症。然后，由于这种方法的大量可能性误差的可能性，开发了基于深度学习的计算机辅助诊断系统。深度学习方法所需的图像输入通常是一致的，但临床医学图像的大小不一致。在直接调整图像之后，内部信息丢失，因此它是不合理的。大量研究是直接调整图像大小，结果仍然是强大的。为了找到合理的解释，22种深度学习模型用于处理不同尺度的图像，并且在SipakMed数据集上进行实验。结论是深度学习方法对图像的大小变化非常强大。此结论也在Herlev DataSet上验证。

Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval
Authors Kazuya Ueki
视觉语义嵌入是一个有趣的研究主题，因为它对各种任务非常有用，例如视觉问题应答VQA，图像文本检索，图像标题和场景图生成。在本文中，我们专注于使用句子作为查询的零拍摄图像检索，并对这一领域的技术趋势进行了调查。首先，我们提供了全面的技术历史概述，从讨论图像到文本匹配的早期研究以及技术如何随着时间的推移而发展。另外，介绍了在实验中常用的数据集的描述以及每种方法的评估结果的比较。我们还在GitHub上介绍了可用的实现，以确认实验的准确性和进一步的改进。我们希望这份调查纸将鼓励研究人员进一步发展他们对桥接图像和语言的研究。

Semi-supervised Contrastive Learning with Similarity Co-calibration
Authors Yuhang Zhang, Xiaopeng Zhang, Robert.C.Qiu, Jie Li, Haohang Xu, Qi Tian
半监督学习是一种利用大规模未标记数据的有效方法。在本文中，我们提出了一种新颖的培训策略，被称为半监督对比学习SSCL，其将自我监督学习的众所周知的对比损失与半监督学习中的交叉熵损失相结合，并联合优化了两个目标结束方式。突出显示是与基于自训练的半监督学习不同，在相同的模型权重中进行预测和再培训，SSCL在两个分支之间的未标记数据上交换预测，因此我们发现的CO校准过程是有益的更好的预测，避免被困在局部最小值。对此目标来说，使用从跨熵分支产生的最近邻域的对比损耗分支模拟样品之间的成对相似性，并且互校准交叉熵分支的预测分布与对比度相似度。我们表明SSCL产生了更具歧视性的代表性，并且有利于少量学习。值得注意的是，在与reset50的ImageNet中作为骨干，SSCL分别实现了60.2和72.1前1个精度，分别具有1和10个标记的样本，这显着优于基线，并且优于前一个半监督和自我监督方法。

BDANet: Multiscale Convolutional Neural Network with Cross-directional Attention for Building Damage Assessment from Satellite Images
Authors Yu Shen, Sijie Zhu, Taojiannan Yang, Chen Chen, Delu Pan, Jianyu Chen, Liang Xiao, Qian Du
当自然灾害时，需要快速和有效的响应。，地震，飓风等罢工。在部署救灾工作之前，从卫星图像建立损伤评估是至关重要的。通过一对前后灾害卫星图像，建立损伤评估旨在预测建筑物的损坏程度。具有强大的特征表示能力，深度神经网络已成功应用于建立损害评估。大多数现有的工作只需将前后灾害图像连接到深神经网络的输入而不考虑其相关性。在本文中，我们提出了一种新颖的两级卷积神经网络，用于建立损害评估，称为BDANET。在第一阶段，U网用于提取建筑物的位置。然后，第一阶段的网络权重在第二阶段共享以进行损害评估。在第二阶段，使用两个分支多尺度U Net作为骨干，其中预先和灾后图像分别馈送到网络中。建议横向注意模块探讨预先灾害和灾后图像之间的相关性。此外，利用Cutmix数据增强来解决困难课程的挑战。所提出的方法在大规模数据集XBD上实现了现有性能的状态。代码可用

ExSinGAN: Learning an Explainable Generative Model from a Single Image
Authors ZiCheng Zhang, CongYing Han, TianDe Guo
从单个样本产生图像，作为图像合成的新发展分支，引起了广泛的关注。在本文中，我们将该问题与单个图像的条件分布采样，并提出了一种分层框架，通过连续学习了关于结构，语义和纹理的分布的连续学习，简化了复杂条件分布的学习学习和一代可理解。在此基础上，我们设计了由三个级联的GAN组成的Exsingan，用于从给定图像学习可解释的生成模型，其中级联的GANS先后模拟了结构，语义和纹理的分布。由于以前的作品所做的，但也是从给定图像的内部补丁所学到的，而且来自GaN反演技术的外部之前，不仅从给定的图像的内部补丁学习了exsingan。与先前作品相比，Exsingan与内部和外部信息的适当组合有利于内部和外部信息的适当组合，对图像操纵任务进行了更强大的生成和竞争泛化能力。

Neighbourhood-guided Feature Reconstruction for Occluded Person Re-Identification
Authors Shijie Yu, Dapeng Chen, Rui Zhao, Haobin Chen, Yu Qiao
由监控摄像机捕获的人物图像通常被各种障碍丢弃，这导致特征表示和伤害人员重新识别性能缺陷。为了解决这一挑战，我们建议通过充分利用在画廊图像集中的附近的信息来重建遮挡部分的特征表示。具体地，我们首先通过用于每个人图像的身体掩模来引入可见部分的特征。然后，我们使用可见功能识别其相邻的样本，并通过将所有相邻样本作为输入重建了异物可移动图形神经网络来重建全身的表示。广泛的实验表明，该方法取得了重大改进。在大规模的遮挡Dukemtmc基准测试中，我们的方法实现了64.2次映射和67.6级别1精度，这分别优于最大的边缘，即20.4和12.5的现有技术方法，指示我们对遮挡RE ID问题的效果。

Unsupervised Super-Resolution of Satellite Imagery for High Fidelity Material Label Transfer
Authors Arthita Ghosh, Max Ehrlich, Larry Davis, Rama Chellappa
由于难以获得人类注释，尤其是在低分辨率卫星图像上，遥感图像中的城市材料识别是一个非常相关的，但极具挑战性的问题。为此，我们提出了一种使用对抗学习的无监督域适应方法。我们的目标是从较小的高分辨率数据源域中收集信息，并利用相同的超声分辨率的低分辨率图像目标域。这可能潜在地涉及语义以及从丰富的注释源到目标结构域的材料标签转移。

Mask-Guided Discovery of Semantic Manifolds in Generative Models
Authors Mengyu Yang, David Rokeby, Xavier Snelgrove
生成的对抗性网络GAN领域的进步导致能够产生诸如STYLEGON2的令人惊讶的现实图像的架构，当培训在FFHQ数据集上时，从较低维潜空间中的随机向量生成人面的图像。不幸的是，这种空间缠绕在其轴上平移潜伏的向量与输出空间中的有意义的变换，例如，微笑，眯眼的眼睛。该模型的表现为黑色盒子，既不提供对其输出的输出也不能够深入了解它从数据中学到的结构。我们提出了一种探索面部空间局部区域变化的歧管的方法。我们的方法发现适合创建动画的这些歧管的潜伏矢量顺畅变化。与需要标记数据或明确改变内部模型参数的现有解致方法不同，我们的方法是由自定义丢失函数和手动改变区域引导的基于优化的方法。我们的代码是开放的，可以在我们的项目页面上找到，可以找到，以及补充结果

Mean Shift for Self-Supervised Learning
Authors Soroush Abbasi Koohpayegani, Ajinkya Tejankar, Hamed Pirsiavash
最近自我监督的学习SSL算法通过在图像的实例之间或通过聚类图像之间进行对比来学习特征，然后在图像集群之间形成对比。我们介绍了一种简单的平均移位算法，该算法通过将图像分组在一起而不是在它们之间进行对比来学习表示，或者在群集结构的结构上采用大部分。我们只是将每个图像的嵌入转移到接近其邻居的平均值。由于在我们的设置中，最近的邻居总是另一个增强相同的图像，我们的模型将在仅使用一个最接近的邻居而不是我们实验中使用的最接近的邻居而与By0相同。我们的型号达到了72.4关于Imagenet线性评估与resnet50在200时代优于Byol。我们的代码可在此处提供

Composite Localization for Human Pose Estimation
Authors ZiFan Chen, Xin Qin, Chao Yang, Li Zhang
由于复杂的学习目标，现有的人类姿势估计方法面临不准确的长距离回归或高计算成本。这项工作提出了一种用于人类姿势估计的新型深度学习框架，称为复合本地化，将复杂的学习目标划分为两个更简单的稀疏热图，以找到关键点的近似位置和两个短距离偏移图以获得最终精确的坐标。要实现框架，我们构建了两种类型的复合定位网络CLNET RESET和CLNET SOLLASS。我们在三个基准数据集中评估网络，包括LEEDS Sports Pose DataSet，MPII人类姿势数据集和Coco Keypoints检测数据集。实验结果表明，我们的CLNET RESET50优于1.14，大约1 2 GFLOPS占此优势。我们的Clnet Sourlass在Coco上以4.45表示原始的堆叠沙漏。

AgeFlow: Conditional Age Progression and Regression with Normalizing Flows
Authors Zhizhong Huang, Shouzhen Chen, Junping Zhang, Hongming Shan
年龄的进展和回归旨在将给定脸部图像的光致纹理出现分别与老化和恢复效应合成。现有的生成对抗网络基于GANS的方法遭受以下三个主要问题1，1个不稳定的培训在所生成的面部引入强烈的幽灵伪影，2个未配对的培训，导致面部属性的意外变化，如性感和种族，以及3个非妇女地区映射增加了面部转型的不确定性。为了克服这些问题，本文提出了一种新的框架，称为年龄流，整合流动的模型和GAN的优势。所提出的ageflow包含三个部分，该部分通过可逆的神经网络将给定面部映射到潜在空间的编码器，这是一种简洁的可逆条件翻译模块ICTM，它将源潜向量转换为目标一个，以及重建生成的面部的解码器使用相同的编码器网络的目标潜伏载体所有部件都是可逆的，实现了自我映射的映射。 ictm的新奇是两倍。首先，我们提出了一个属性意识的知识蒸馏，以了解年龄进展的操纵方向，同时保持其他不相关的属性不变，减轻面部属性的意外变化。其次，我们建议在潜在空间中使用GAN，以确保学习的潜在载体与真实的潜伏载体难以区分，这比传统在图像域中的常规使用GAN更容易。实验结果表明，在两个基准数据集中的现有GANS方法上表现出卓越的性能。源代码可用

Brain Inspired Object Recognition System
Authors Pinaki Roy Chowdhury, Angad Wadhwa, Antariksha Kar, Nikhil Tyagi
本文提出了一种新的面部和物体识别模型的新提案，其使用来自大脑的分布式面部和物体识别机制的提示，并通过从现有文献中收集这些提示的工程等同物。以简单且有效的方式使用从目标图像中提取的面向梯度，局部二进制图案和主组件的三个不同和广泛使用的特征，直方图。我们的模型使用多层Perceptrons MLP将这三个功能分类并使用SUM规则在决策级别熔化它们。首先通过使用大脑信息处理机制的概念来开发计算理论。使用十五个公共数据集进行了广泛的实验，以验证我们提出模型的表现，以识别具有极端变化的照明，姿势角度，表达和背景的面孔和对象。与其他面部和对象识别算法相比，获得的结果非常有前途，包括CNN和基于深度学习的方法。这突出显示简单的计算过程，如果俱乐部正确，可以使用最佳算法产生竞争性能。

Aerial-PASS: Panoramic Annular Scene Segmentation in Drone Videos
Authors Lei Sun, Jia Wang, Kailun Yang, Kaikai Wu, Xiangdong Zhou, Kaiwei Wang, Jian Bai
周围环境的空中像素明智的场景感知是无人机无人驾驶飞行器的重要任务。以前的研究工作主要采用传统的针孔摄像机或鱼眼相机作为成像装置。然而，这些成像系统同时无法达到大视野，小尺寸和轻质。为此，我们设计具有全景环形镜片PAL的UAV系统，具有小尺寸，重量低的特点和360度环形FOV。轻量级全景环形语义分割神经网络模型旨在实现高精度和实时场景解析。此外，我们介绍了第一个无人驾驶透视全景场景分割数据集空中通道，带有轨道，字段和其他标签的标记标签。综合各种实验表明，设计的系统在空中全景场景中表现得令人满意。特别是，我们的拟议模型在分割性能和推理速度之间击中了优异的折衷，适用于公共街道场景和我们已建立的空中场景数据集。

Are Convolutional Neural Networks or Transformers more like human vision?
Authors Shikhar Tuli, Ishita Dasgupta, Erin Grant, Thomas L. Griffiths
计算机视觉的现代机器学习模型在特定的视觉识别任务上超过了人类的准确性，特别是在类似想象的数据集上。然而，可以在许多方面实现高精度。机器学习系统发现的特定决策功能不仅由系统所暴露的数据确定，而且确定模型的电感偏差，这通常更难表征。在这项工作中，我们遵循最近对神经网络模型进行深度行为分析的趋势，这些模型超越准确性，通过看误差模式来评估度量。我们的重点是在比较一套标准卷积神经网络CNN和最近提出的基于关注的网络，视觉变压器VIT，它放松了CNN的翻译不变约束，因此代表了一种具有较弱的感应偏差模型。基于关注的网络之前已经显示出比视觉任务上的CNN高精度，我们向我们展示了使用新的指标来检查误差一致性，与人类的错误也更加符合人类。这些结果对构建更多人类的视觉模型具有含义，以及理解人类的视觉对象识别。

Cross-Modal Progressive Comprehension for Referring Segmentation
Authors Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li
给定自然语言表达和图像视频，参考分割的目标是产生由表达式的主题所描述的实体的像素级别掩模。以前的方法通过以一种阶段方式通过视觉和语言模式之间的隐含特征交互和融合来解决这个问题。然而，人们倾向于以基于表达式的信息性词语，即首先定位候选实体，然后将目标较差地以逐步的方式解决参考问题。在本文中，我们提出了一种跨模型渐进式理解CMPC方案，以有效地模仿人类行为并将其实现为CMPC I图像模块和CMPC V视频模块，以改善引用图像和视频分段模型。对于图像数据，我们的CMPC I模块首先使用实体和属性单词来识别可能由表达式考虑的所有相关实体。然后，采用关系词来突出显示目标实体，并通过空间图推理来抑制其他不相关的目标。对于视频数据，我们的CMPC V模块进一步利用了基于CMPC I的动作词来突出显示与动作提示匹配的正确实体通过时间图推理。除了CMPC之外，我们还介绍了一个简单但有效的文本引导特征Exchange TGFE模块，以在文本信息的指导下将与视觉骨干声音中不同级别相对应的原理多模块特征集成。以这种方式，多级别特征可以彼此通信并基于文本上下文相互改进。 CMPC I或CMPC V与TGFE组合可以形成我们的图像或视频版本，参考分割框架，并且我们的框架分别在四个引用图像分割基准和三个引用的视频分段基准上实现了新的最新状态。

Stacked Deep Multi-Scale Hierarchical Network for Fast Bokeh Effect Rendering from a Single Image
Authors Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Anil Kumar Tiwari
散景效应是渲染艺术和美学照片的摄影中最理想的效果之一。通常，它需要具有不同光圈和快门设置的DSLR相机以及某些摄影技能来产生此效果。在智能手机中，计算方法和附加传感器用于克服物理镜头和传感器限制以实现这种效果。大多数现有方法利用其他传感器数据或预磨平网络，以便对场景进行细深估计，有时使用纵向分段掠夺网络模块在图像中分段突出对象。由于这些原因，网络具有许多参数，成为运行时密集，无法在中档设备中运行。在本文中，我们使用了一端到结束深度多尺度分层网络DMSHN模型，用于直接散景效应从单眼相机捕获的图像的渲染。为了进一步提高这种效果的感知质量，还提出了由两个DMSHN模块组成的堆叠模型。我们的模型不依赖于任何用于单眼深度估计或显着性检测的预磨平网络模块，从而显着降低了模型和运行时间的大小。堆叠的DMSHN在加工高清质量图像中的当前状态相比，在大规模的EBB数据集上实现了最佳状态，其大约6倍的运行时较少。

FloorPlanCAD: A Large-Scale CAD Drawing Dataset for Panoptic Symbol Spotting
Authors Zhiwen Fan, Lingjie Zhu, Honghua Li, Xiaohao Chen, Siyu Zhu, Ping Tan
访问大型和多样化的计算机辅助设计CAD图形对于开发符号发现算法至关重要。在本文中，我们展示了地板平面图，这是一个大型现实世界CAD绘图数据集，包含超过10,000楼的计划，从住宅到商业建筑。 DataSet中的CAD图形都表示为向量图形，这使我们能够提供30个对象类别的线粒度注释。通过这种注释配备，我们介绍了Panoptic符号发现的任务，这需要点击可数件事的实例，也需要发现不可数的东西的语义。旨在解决这项任务，我们通过将图形卷积网络GCN与卷积神经网络CNN联合，捕获非欧几里德和欧几里德特征，提出了一种新的方法，可以训练结束结束。所提出的CNN GCN方法在语义符号发现任务上实现了艺术SOTA性能的状态，并帮助我们为Panoptic符号发现任务构建基线网络。我们的贡献是我们所知的三倍倍，所呈现的CAD绘图数据集是Panoptic Symbol Spotting Task的第一个，考虑了事物和物品语义作为一个识别问题的发现和3我们提出了一个基线基于新型CNN GCN方法的Panoptic符号发现任务的解决方案，从而实现了语义符号发现的SOTA性能。我们认为，这些贡献将促进相关领域的研究。

One for All: An End-to-End Compact Solution for Hand Gesture Recognition
Authors Monu Verma, Ayushi Gupta, santosh kumar Vipparthi
HGR是一个非常具有挑战性的任务，因为它的性能受到照明变化，杂乱的背景，自发捕获等的各个方面的影响.HGR的传统CNN网络是处理两级管道，以应对各种挑战复杂的标志，照明变化，复杂和凌乱的背景。现有方法需要专家专业知识以及阶段1的辅助计算，以从输入图像中删除复杂性。因此，在本文中，我们提出了一种新颖的结束到终结CNN框架细粒颗粒特征细胞网络，用于手势识别拟合手用于解决如上所述的挑战。所提出的架构的管道由两个主要单位进行精细液模块和扩张的卷积Conv层组成。 FineFeat模块通过在多尺度接收领域采用注意机制提取细粒度的特征图。引入注意机制来捕获有效特征，扩大多规模响应的平均行为。此外，扩张的卷积通过更大的接收领域提供手势的全球特征。此外，还使用集成层来组合细幼体模块和扩张层的特征，这通过捕获手势姿势的互补语境信息来增强网络的可怜。通过使用七个基准数据集Mugd i，Mugd II，Mugd III，Mugd IV，Mugd V，手指拼写和ouhhands，通过使用七个基准数据集Mugd I，Mugd II，Mugd III，Mugd IV，Mugd V，Finger Spelling和Ouhands来评估拟合SD和主题独立SI验证设置评估的有效性。此外，为了调查拟议的适合手框架的深层见解，我们进行了十个消融研究。

Move2Hear: Active Audio-Visual Source Separation
Authors Sagnik Majumder, Ziad Al Halah, Kristen Grauman
我们介绍了主动视听源分离问题，其中代理必须智能地移动，以便更好地隔离来自其环境中感兴趣对象的声音。代理商同时听到多个音频源，例如，一个人在一个嘈杂的家庭中讲大厅，必须使用它的眼睛和耳朵在有限的时间预算中自动分离源自目标对象的声音。为了实现这一目标，我们介绍了一种加强学习方法，该方法培训控制代理S相机和麦克风放置随时间的运动策略，以预测的音频分离质量的改进为指导。我们在两个增强现实系统的情况下展示了我们的方法，该系统已经与目标对象，移动机器人代理从目标对象任意开始。在3D环境中使用现有的现实逼真视觉模拟状态，我们展示了我们的模型，找到了最小的运动序列，可以获得音频源分离的最大收益。项目

Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention
Authors Nihar Bendre, Kevin Desai, Peyman Najafirad
视觉问题在最近的时间内取得了重大成功。尽管VQA模型的成功，它们大多是黑色盒式模型，无论是对预测的答案都没有推理，从而提高了他们在自主系统和网络安全等安全性的适用性问题。目前的最新状态未能更好地提出复杂的问题，因此无法利用组成性。为了最大限度地减少这些模型的黑盒效果，并使它们更好地利用开发方式，我们提出了一种动态的神经网络DMN，它可以了解特定问题，然后从模块池中动态组装各种相对较浅的深度学习模块以形成一个网络。我们将组成时间关注纳入这些基于深度学习的模块，以增加合成性剥削。这导致更好地了解复杂问题，并且还提供了对模块预测特定答案的原因。两个基准数据集，VQA2.0和CLEVR的实验分析描述了我们的模型优于视觉问题应答任务的先前方法，并提供了更好的推理，从而可靠地对安全和安全性等任务关键应用来说可靠。

Regularized Deep Linear Discriminant Analysis
Authors Hongwei Chen, Wen Lu
作为经典线性判别分析LDA的非线性延伸，深线性判别分析DLDA用基于特征值的损耗函数取代原始分类的跨熵CCE损耗函数，使得一个深神经网络DNN能够学习线性可分离的隐藏表示。在本文中，我们首先指出DLDA专注于培训潜伏子空间中所有维度的合作鉴别能力，同时提高了培训单尺寸可分离容量的重点。为了改善DLDA，提出了一种在散射矩阵内的正则化方法，以加强每个尺寸的辨别能力，并且还保持彼此相互补充。 STL 10，CIFAR 10和儿科肺胸部X射线数据集的实验结果表明，我们所提出的正则化方法正规化深线性判别分析RDLDA优于DLDA和CCE作为目标的传统神经网络。为了进一步提高局部空间中RDLDA的辨别能力，还提出了一种名为Subclass RDLDA的算法。

FDDH: Fast Discriminative Discrete Hashing for Large-Scale Cross-Modal Retrieval
Authors Xin Liu, Xingzhi Wang, Yiu ming Cheung
跨越模态散列，有利于其有效性和效率，已经广泛关注促进不同方式的有效检索。然而，大多数现有方法在学习哈希代码时，通常不充分利用语义信息的辨别力，同时往往涉及处理大规模数据集的训练过程。为了解决这些问题，我们在正交旋转语义数据方面制定了相似性保存哈希代码的学习，以便最小化将这些数据映射到汉明空间的量化损失，并提出了一种有效的快速辨别性离散散列FDDH方法，用于大规模交叉模态检索。更具体地说，FDDH引入正交基础，以将训练示例的目标哈希代码作为其相应的语义标签进行分配，并利用拖动技术提供可提供的大型语义边缘。因此，可以明确地捕获和最大化语义信息的判别力。此外，还提出了一种正交的变换方案来将非线性嵌入数据映射到语义子空间中，可以很好地保证数据特征与其语义表示之间的语义一致性。因此，导出有效的闭合形式解决方案用于鉴别性哈希码学习，这是非常计算的效率。此外，还提出了一种有效且稳定的在线学习策略，用于优化模态特定投影功能，具有对不同培训大小和流数据的适应性。所提出的FDDH方法理论上近似于Bi Lipschitz连续性，足够快地运行，并且还显着提高了本领域技术的检索性能。源代码已释放

Can self-training identify suspicious ugly duckling lesions?
Authors Mohammadreza Mohseni, Jordan Yap, William Yolland, Arash Koochek, M Stella Atkins
一种常用的临床方法来检测黑色素瘤的识别丑陋的鸭绒内华或皮肤病变，它们看起来与同一患者的其他病变不同。与手动筛选方法相比，自动检测和分析这些病变的方法有助于标准化研究。然而，很难获得丑陋的小鸭病变专业标记的图像。因此，我们建议使用自我监督机器学习自动检测异常值。我们首先自动检测和提取来自宽场皮肤图像的所有病变，并根据自动识别的特征计算患者图像中的每个检测到的病变的嵌入。然后使用这些嵌入来计算L2距离作为测量不同的方式。使用这种深入学习方法，丑陋的鸭子被确定为异常值，这些异常值应该得到审查医师的更多关注。我们通过与皮肤科医生进行比较来评估，并在举出的试验组上实现72.1的灵敏度和94.2的诊断准确性。

A Large Visual, Qualitative and Quantitative Dataset of Web Pages
Authors Christian Mejia Escobar, Miguel Cazorla, Ester Martinez Martin
万维网不仅是目前最重要的沟通和信息平台之一，而且是对科学研究的兴趣日益增长的领域。这激励了许多需要大量数据的工作和项目。但是，没有数据集可以集成网页的参数和视觉外观，因为它的收集是在时间和精力方面的代价高昂的任务。通过支持各种计算机工具和编程脚本，我们创建了一个49,438个网页的大型数据集。它包括视觉，文本和数字数据类型，包括全球所有国家，并考虑广泛的主题，如艺术，娱乐，经济，商业，教育，政府，新闻，媒体，科学和环境，涵盖不同的文化特色和各种各样的设计偏好。在本文中，我们描述了收集，调试和发布最终产品的过程，可自由使用。为了展示我们数据集的有用性，我们公开了用于检测错误网页的二进制分类模型，以及使用卷积神经网络的问题的多类Web拍摄对象分类。

NeLF: Practical Novel View Synthesis with Neural Light Field
Authors Celong Liu, Zhong Li, Junsong Yuan, Yi Xu
在本文中，我们为复杂场景进行了实用且强大的深度学习解决方案。在我们的方法中，连续场景表示为光场，即，一组光线，每个光线具有相应的颜色。我们采用了光场的4D参数化。然后，我们将光场配向为4D函数，即将4D坐标映射到相应的颜色值。我们训练一个深度完全连接的网络来优化这个功能。然后，场景特定模型用于综合新颖视图。以前的光场方法通常需要密集的视图采样来可靠地呈现高质量的新颖观点。我们的方法可以通过采样光线并直接从网络查询每个射线的颜色来呈现新颖的视图，从而能够使用非常稀疏的输入图像设置快速的光场渲染。我们的方法在保持交互式帧速率的同时实现了艺术新颖观看综合结果的状态。

MutualNet: Adaptive ConvNet via Mutual Learning from Different Model Configurations
Authors Taojiannan Yang, Sijie Zhu, Matias Mendieta, Pu Wang, Ravikumar Balakrishnan, Minwoo Lee, Tao Han, Mubarak Shah, Chen Chen
大多数现有的深神经网络是静态的，这意味着它们只能以固定的复杂性进行推理。但资源预算可以大幅度不同。即使在单个设备上，经济实惠的预算也可以用不同的场景改变，并且对每个所需预算的反复培训网络是非常昂贵的。因此，在这项工作中，我们提出了一种称为Mutualnet的一般方法，以训练可以在多样化的资源约束中运行的单个网络。我们的方法列举了具有各种网络宽度和输入分辨率的模型配置队列。这种相互学习方案不仅允许模型以不同的宽度分辨率配置运行，而且还可以在这些配置之间传输独特的知识，帮助模型来学习整体的更强大的表示。 Mutualnet是一般的培训方法，其可以应用于各种网络结构，例如，2D网络MobileNet，Reset，3D网络减速，X3D和各种任务，例如图像分类，对象检测，分割和动作识别，并进行了演示以实现一致改进各种数据集。由于我们只培训模型一次，与独立培训多种型号相比，它也大大降低了培训成本。令人惊讶的是，如果动态资源约束不是一个问题，则可以使用Mutualnet来显着提高单个网络的性能。总之，Mutualnet是静态和自适应，2D和3D网络的统一方法。 URL提供代码和预训练模型

Momentum Contrastive Voxel-wise Representation Learning for Semi-supervised Volumetric Medical Image Segmentation
Authors Chenyu You, Ruihan Zhao, Lawrence Staib, James S. Duncan
医学图像分析中的自动分割是一个具有挑战性的任务，需要大量手动标记的数据。但是，手动注释的医疗数据通常是费力的，而且大多数现有的基于学习的方法都无法准确地描绘对象边界而无需有效的几何约束。对比学习，自我监督学习的子区域最近被指出为多个应用领域的有希望的方向。在这项工作中，我们提出了一种新的对比体Voxel Wise表示学习CVRL方法，具有几何约束，用于学习具有有限注释的体积医学图像分割的全局本地视觉表示。我们的框架可以通过捕获3D空间上下文和丰富的解剖信息来有效地学习全球和局部特征。具体地，我们将体素引入储存对比算法，以从3D图像学习全局信息，并建议将本地体素进行对比度，以明确地利用嵌入空间中的本地线索。此外，我们将基于弹性交互的主动轮廓模型集成为几何正则化术语，以实现最终学习方式的快速且可靠的对象划分。结果遇到心房分割挑战数据集展示了我们提出的方案的优势，特别是在具有非常有限数量的注释数据的设置中。

Face Attributes as Cues for Deep Face Recognition Understanding
Authors Matheus Alves Diniz, William Robson Schwartz
深度学习的表示是面部识别方法的最先进的描述符。这些表示编码了难以解释的潜在特征，损害了他们预测的信心和可解释性。大多数解释深度特征的尝试是经常开放解释的可视化技术。我们使用隐藏图层的输出来预测面部属性而不是仅依赖于可视化。所获得的性能是在网络层中隐式学习的属性如何含蓄地学习的指标。使用可变选择技术，我们还分析了这些语义概念如何在每层内部分布，建立每个属性的相关神经元的精确位置。根据我们的实验，即使只使用单个神经输出用于预测每个属性，也可以预测性别，眼镜和帽子使用量超过96准确。这些性能低于深度监督面部属性网络所实现的表现低于3个百分点。总之，我们的实验表明，在针对面部识别的优化优化的DCNN内，存在潜在神经元的潜在神经元，几乎可以准确地准确地作为对这些属性进行优化的DCNNS。

SMURF: Self-Teaching Multi-Frame Unsupervised RAFT with Full-Image Warping
Authors Austin Stone, Daniel Maurer, Alper Ayvaci, Anelia Angelova, Rico Jonschkowski
我们呈现Smurf，一种无监督学习的方法，用于通过先前的最佳方法UFLOW通过36至40在所有基准上提高本领域的最新的方法，甚至优于PWC网和飞行诸如PWC网和FlowNet2的若干监督方法。我们的方法集成了来自监督光流的架构改进，即RAFT模型，为无监督学习的新思路，包括序列感知自我监督损失，一种用于处理帧运动的技术，以及从多帧视频数据有效学习的方法虽然只需要两个帧推断。

Pay Attention to MLPs
Authors Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
变形金刚成为深度学习中最重要的架构创新之一，在过去几年中已经启用了许多突破。在这里，我们提出了简单的关注网络架构GMLP，仅基于Glats，并显示它可以在关键语言和视觉应用中执行和变压器。我们的比较表明，自我关注对视觉变压器不重要，因为GMLP可以实现相同的准确性。对于BERT，我们的模型实现了与预先曝光性的变形金刚的平价，并且在一些下游任务上更好。关于GMLP执行更差的FineTuning任务，使GMLP模型大大更大，可以关闭变压器的间隙。通常，我们的实验表明，GMLP可以在增加的数据和计算上缩放和变压器。

Unsupervised Deep Learning Methods for Biological Image Reconstruction
Authors Mehmet Ak akaya, Burhaneddin Yaman, Hyungjin Chung, Jong Chul Ye
最近，由于其高性能，深度学习方法已成为生物图像重建问题的主要研究前沿，以及其超快速的重建时间。但是，由于获得了监督学习的匹配参考数据的难度，因此对不需要配对的参考数据的无监督学习方法越来越兴趣。特别地，自我监督的学习和生成模型已成功用于各种生物成像应用。在本文中，我们概述了在古典逆问题的背景下的连贯视角，并讨论其应用于生物成像。

DFENet: A Novel Dimension Fusion Edge Guided Network for Brain MRI Segmentation
Authors Hritam Basak, Rukhshanda Hussain, Ajay Rana
在过去几年中，脑卒中发病率的快速增长是从脑MRI图像中快速和准确地分割中风病变的动力。随着最近发展的深度学习，计算机辅助缺血性卒中病变的计算机辅助和分段方法对于早期诊断和治疗计划中的临床医生已经有用。然而，大多数方法由于无法捕获来自MRI卷的足够的上下文特征而受到不准确和不可靠的分割结果。为了满足这些要求，已经提出了3D卷积神经网络，然而，这遭受了巨大的计算要求。为了缓解这些问题，我们提出了一种新颖的尺寸融合边缘引导网络DfeNet，可以通过融合2D和3D CNN的特征来满足这两个要求。与其他方法不同，我们所提出的网络使用并行部分解码器PPD模块用于聚合和上采样所选择的特征，丰富的中的语境信息。此外，我们使用边缘引导和增强的混合损耗来不断监督和提高网络的学习过程。所提出的方法是在中风阿特拉斯数据集后的病变的公开解剖学追踪中评价，导致平均DSC，IOO，精度和召回值0.5457,0.4015,0.6371和0.4969。结果，与其他最新的方法相比，以显着的边距越高。因此，所提出的模型是坚固，准确的，优于现有方法，并且可以依赖于生物医学应用。

Joint Optimization of Hadamard Sensing and Reconstruction in Compressed Sensing Fluorescence Microscopy
Authors Alan Q. Wang, Aaron K. LaViolette, Leo Moon, Chris Xu, Mert R. Sabuncu
压缩检测荧光显微镜CS FM提出了一种方案，由此在感测期间收集测量较少的测量值，并进行重建以恢复图像。很多工作已经分别优化了传感和重建部分。我们提出了一种在总测量约束下共同优化感测和重建结束的方法，从而能够与基于神经网络的重建网络的参数同时学习最佳感测方案。我们培训我们的模型在富含共聚焦，两个光子和宽场显微镜图像上，包括各种生物样品。我们表明我们的方法优于几种基线传感方案和正则化回归重建算法。

CNN-based Approaches For Cross-Subject Classification in Motor Imagery: From The State-of-The-Art to DynamicNet
Authors Alberto Zancanaro, Giulia Cisotto, Jo o Ruivo Paulo, Gabriel Pires, Urbano J. Nunes
MIT IMITICE MI基于MI的大脑电脑接口BCI系统正在越来越多地用于为患有神经电机障碍的人提供替代沟通和控制，特别努力将这些系统从受控实验室环境中带出来。因此，从脑信号中准确地分类MI，例如，从脑电图脑电图脑电图，对于获得可靠的BCI系统是必不可少的。然而，MI分类仍然是一个具有挑战性的任务，因为信号的特征在于SNR差，高帧内主题和交叉主体变异性。深度学习方法已经开始出现为标准机器学习技术的有效替代方案，例如滤波器银行通用空间模式FBCSP，以提取主题独立功能，并提高MI BCI系统的交叉主题分类性能。在本文中，我们首先介绍了对MI分类深度学习的最新研究的审查，特别关注其交叉主题性能。其次，我们提出动态网络，基于Python的工具，用于基于卷积神经网络的深度学习模型的快速灵活实现。我们通过实施EEGNET来说，展示了动态网络的潜力，这是一个有效的EEG分类的成熟架构。最后，我们将其在公共数据集中的4类MI分类中与FBCSP进行比较。为了探索其交叉主题分类能力，我们应用了三种不同的交叉验证方案。从我们的结果中，我们证明了DiscumisyNet所实现的EEGNET优于FBCSP约25，当应用交叉主题验证方案时，统计上有显着差异。

A Review on Explainability in Multimodal Deep Neural Nets
Authors Gargi Joshi, Rahee Walambe, Ketan Kotecha
由深神经网络提供动力的人工智能技术在多个应用领域中取得了大量成功，最重要的是在计算机视觉应用程序和自然语言处理任务中取得了大量显着和显着。超越人类水平性能推动了语言，视觉，感官，文本在准确的预测和识别中不同模式的应用中的研究。在文献中提出了几种采用深层学习模型的多峰融合方法。尽管他们出色的表现，但深度神经网络的复杂，不透明和黑匣子性质限制了他们的社会验收和可用性。这使得追求模型可解释性和解释性，更重要的是涉及多模式AI方法的复杂任务。本文综合评论目前的文献，为多模式深神经网络中的解释性提供全面的调查和评论，特别是对于视觉和语言任务。本文介绍了多峰AI上的几个主题及其对通用域的应用，包括该领域的方法和技术，挑战，应用和未来趋势的重要性，数据集，基本构建块

Fast and Accurate Camera Scene Detection on Smartphones
Authors Angeline Pouget, Sidharth Ramesh, Maximilian Giang, Ramithan Chandrapalan, Toni Tanner, Moritz Prussing, Radu Timofte, Andrey Ignatov
AI Powered自动摄像机场景检测模式现在是几乎任何现代智能手机，尽管研究界尚未解决精确的场景预测问题。本文首次仔细定义此问题，并提出了一种新颖的摄像机场景检测数据集CAMSDD，包含超过11K的手动爬网图像，属于30种不同的场景类别。我们为此任务提出了一个有效和NPU友好的CNN模型，该任务显示了该数据集中的前3个精度为99.5，并在最近的移动SOC上实现了200多个FPS。在野生评估中额外的额外的获得解决方案进行了分析了现实世界情景中的性能和限制。本文中使用的数据集和预训练型号可在项目网站上获得。

Real-Time Quantized Image Super-Resolution on Mobile NPUs, Mobile AI 2021 Challenge: Report
Authors Andrey Ignatov, Radu Timofte, Maurizio Denna, Abdel Younes, Andrew Lek, Mustafa Ayazoglu, Jie Liu, Zongcai Du, Jiaming Guo, Xueyi Zhou, Hao Jia, Youliang Yan, Zexin Zhang, Yixin Chen, Yunbo Peng, Yue Lin, Xindong Zhang, Hui Zeng, Kun Zeng, Peirong Li, Zhihuang Liu, Shiqi Xue, Shengpeng Wang
图像超级分辨率是移动设备许多重要应用的最受欢迎的计算机视觉问题之一。虽然已经为此任务提出了许多解决方案，但它们通常也没有优化常见的智能手机AI硬件，更不用说通常仅支持INT8推断的更多约束智能电视平台。为了解决这个问题，我们介绍了第一个移动AI挑战，其中目标是开发一个结束以结束基于深度学习的图像超分辨率解决方案，可以在移动或边缘NPU上展示实时性能。为此，参与者提供了DIV2K数据集并培训了量化模型，以进行高效的3倍图像Umpscaling。所有型号的运行时间都在Synaptics VS680智能家庭板上进行了评估，专用NPU能够加速量化的神经网络。所提出的解决方案与所有主要移动AI加速器完全兼容，并且能够在实现高保真效果的同时重建40 60 ms下的全高清图像。本文提供了在挑战中开发的所有模型的详细描述。

Learned Smartphone ISP on Mobile NPUs with Deep Learning, Mobile AI 2021 Challenge: Report
Authors Andrey Ignatov, Cheng Ming Chiang, Hsien Kai Kuo, Anastasia Sycheva, Radu Timofte, Min Hung Chen, Man Yu Lee, Yu Syuan Xu, Yu Tseng, Shusong Xu, Jin Guo, Chao Hung Chen, Ming Chun Hsyu, Wen Chia Tsai, Chao Wei Chen, Grigory Malivenko, Minsu Kwon, Myungje Lee, Jaeyoon Yoo, Changbeom Kang, Shinjo Wang, Zheng Shaolong, Hao Dejun, Xie Fen, Feng Zhuang, Yipeng Ma, Jingyang Peng, Tao Wang, Fenglong Song, Chih Chung Hsu, Kwan Lin Chen, Mei Hsuang Wu, Vishal Chudasama, Kalpesh Prajapati, Heena Patel, Anjali Sarvaiya, Kishor Upla, Kiran Raja, Raghavendra Ramachandra, Christoph Busch, Etienne de Stoutz
随着移动摄像机的质量开始在现代智能手机中发挥至关重要的作用，现在越来越多的关注用于改善移动照片的各种感知方面的ISP算法。在这种移动AI挑战中，目标是开发一端以结束到最终基于深度学习的图像信号处理ISP管道，可以取代古典手工制作的ISP，实现智能手机NPU上的几乎实时性能。为此，参与者被提供有一个小型学习的ISP数据集，包括使用SONY IMX586拜耳移动传感器和专业102百万像素中等格式相机捕获的原始RGB图像对。通过能够加速浮点和量化神经网络的专用AI处理单元，在Mediatek Difences 1000平台上评估所有模型的运行时间。所提出的解决方案与上述NPU完全兼容，并且能够在60 100毫秒下处理全高清照片，同时实现高保真效果。本文提供了在此挑战中开发的所有模型的详细描述。

Deep regression for uncertainty-aware and interpretable analysis of large-scale body MRI
Authors Taro Langner, Robin Strand, H kan Ahlstr m, Joel Kullberg
大规模的医学研究，如英国Biobank等数千名具有医学成像技术的志愿参与者。结合大量收集的元数据，来自这些图像的解剖信息具有在前所未有的规模处进行医学分析的可能性。然而，它们的评估通常需要手动输入和长处理时间，限制了生物标志物的参考值和其他测量的研究。最近用于回归的卷积神经网络的方法可以自动执行这些评估。关于磁共振成像MRI数据超过40,000英国Biobank主体，这些系统可以估计人类年龄，身体成分等。这种分析风格几乎完全是数据驱动的，并且不需要手动干预或指导手动分段的地面真相图像。网络通常会密切效仿提供其培训数据的参考方法，并且可以达到与已建立的医疗金标准技术之间的预期变异相当的协议水平。通过从平均方差标准和合奏获得的预测性不确定性可以单独地量化静默失败的风险。显着性分析还可以解释潜在的相关图像特征，并表明网络学会了正确靶向特定的器官，四肢和感兴趣的区域。

A Cloud-based Deep Learning Framework for Remote Detection of Diabetic Foot Ulcers
Authors Bill Cassidy, Neil D. Reeves, Joseph M. Pappachan, Naseer Ahmad, Samantha Haycocks, David Gillespie, Moi Hoon Yap
该研究提出了一种基于移动和基于糖尿病足溃疡的自动检测的框架，并对其性能进行了调查。该系统使用跨平台移动框架，该框架可以使用单个类型代码库将移动应用部署到多个平台。将深度卷积神经网络部署到基于云的平台，移动应用程序可以发送患者脚的照片以便推断出来检测糖尿病足溃疡的存在。系统的功能和可用性在两个临床设置索尔福德皇家NHS基金会信托和兰开夏郡教学医院NHS基金会信托中进行了测试。讨论了系统的好处，例如患者潜在使用应用以识别和监测其状况。

DOC3-Deep One Class Classification using Contradictions
Authors Sauptik Dhar, Bernardo Gonzalez Torres
本文介绍了矛盾学习的概念A.K.A Universum学习深度一类分类问题。我们将这一概念正式化为广泛采用的一级大幅度损失，并使用矛盾DOC3算法提出深度一类分类。我们展示了从矛盾的学习通过比较DOC3的经验振荡器复杂性ERC对其传统的感应学习对应物来引发更低的泛化误差。我们的经验结果表明，对于其在测试AUC中的MV TEC AD数据集，与其感应学习对应和在许多情况下改善异常检测中的许多情况下，在测试AUC中的MV TEC AD数据集实现30和50的疗效。

Disentangled Variational Information Bottleneck for Multiview Representation Learning
Authors Feng Bao
MultiView数据包含来自多个模式的信息，并具有为不同的机器学习任务提供更全面的功能。多视图分析中的一个基本问题是额外视图所带来的附加信息是什么，并且可以定量地识别此附加信息。在这项工作中，我们尝试通过将纠缠的Multiview特征分解成共享的潜在潜在表示来解决这一挑战，这些功能在对每个单个视图中特定的所有视图和私有表示中常见的共享潜在的表示。我们在信息瓶颈框架中制定此功能解剖，并提出解除不诚格的变分信息瓶颈DVIB。 DVIB使用来自相互信息的约束明确定义共享和私有表示的属性。通过导出相互信息术语的变分体和下限，表示有效地优化。我们演示了DVIB学习的共享和私有表示，并保留了分别与每个单个视图对应的两个视图和唯一标签之间共享的公共标签。 DVIB还显示了在具有损坏图像上的分类任务中的可比性。 DVIB实现可用

Dermoscopic Image Classification with Neural Style Transfer
Authors Yutong Li, Ruoqing Zhu, Annie Qu, Mike Yeh
皮肤癌，最常见的人类恶性肿瘤主要通过Dermoscopic分析，活组织检查和组织病理学检查目视诊断。然而，与其他类型的癌症不同，由于病变出现的不规则性和可变性，皮肤病变的自动图像分类被认为更具挑战性。在这项工作中，我们提出了一种适应神经风格转移NST作为皮肤病变分类问题的新型图像预处理步骤。我们将每个Dermoscopic图像代表为样式图像，并将病变的样式转移到均匀的内容图像上。这将每个病变的主要可变性转换到相同的局部区域上，其允许我们将所生成的图像集成在一起并通过张量分解提取潜伏的低级样式特征。我们在收集的Dermoscopic数据集上培训和交叉验证我们的模型，并从国际皮肤成像协作ISIC数据库中预处理。我们表明，基于使用风格传输图像的提取的张量特征的分类性能显着优于原始图像的大于10以下，并且通过转移学习，也具有良好的研究，预先训练的CNN模型也具有竞争力。另外，张量分解进一步识别潜在的群集，其可以提供临床解释和见解。

Deep learning for detecting pulmonary tuberculosis via chest radiography: an international study across 10 countries
Authors Sahar Kazemzadeh, Jin Yu, Shahar Jamshy, Rory Pilgrim, Zaid Nabulsi, Christina Chen, Neeral Beladia, Charles Lau, Scott Mayer McKinney, Thad Hughes, Atilla Kiraly, Sreenivasa Raju Kalidindi, Monde Muyoyeta, Jameson Malemela, Ting Shih, Greg S. Corrado, Lily Peng, Katherine Chou, Po Hsuan Cameron Chen, Yun Liu, Krish Eswaran, Daniel Tse, Shravya Shetty, Shruthi Prabhakara
结核病TB是全世界死亡的十大原因。虽然世卫组织建议胸部射线照片CXR用于TB筛选，但CXR解释的有限可用性是障碍。我们培训了深度学习系统DLS，使用来自非洲，亚洲和欧洲的9个国家的CXR检测活性肺结核，并利用大规模的CXR预制，注意力汇集，嘈杂的学生半监督学习。评估是1个跨越中国，印度，美国和赞比亚的联合试验集，以及南非的独立采矿人口。鉴于世卫组织的90个灵敏度和70个特异性的目标，预先确定DLS的操作点以支持对特异性的敏感性。在合并的测试集上，DLS S ROC曲线高于所有9个印度的放射科学家，AUC为0.90 95 CI 0.87 0.92。 DLS S敏感性88高于印度的放射科学家75平均敏感性，P优越性的P <0.001，其特异性79不逊于放射学器84平均特异性，P 0.004。艾滋病毒阳性和痰涂片阳性亚组和南非试验组中观察到类似的趋势。我们发现，5个美国的放射科医师，其中TB是TFINEX比印度基于印度的放射科学家更敏感，更少特异。 DLS还仍然不逊于美国基于放射科医师。在仿真中，使用DLS作为确认测试的优先级工具，与单独使用确认测试相比，通过40 80检测到每阳性情况的成本。为了得出结论，我们的DLS推广到5个国家，并使前瞻性评估能够在放射科学有限环境中协助培养有效的筛查工作。操作点灵活性可能允许定制DLS以考虑现场特定因素，如TB患病率，人口统计学，临床资源和习惯性模式。

Private Facial Diagnosis as an Edge Service for Parkinson's DBS Treatment Valuation
Authors Richard Jiang, Paul Chazot, Danny Crookes, Ahmed Bouridane, M Emre Celebi
近期已经成功剥削了面部表型，以诊断为诊断一系列疾病的新方法，其中揭示了面部生物识别物具有丰富的遗传或医疗原因的联系。本文采用帕金森S疾病PD作为一个案例研究，我们提出了Aiot Edge导向隐私保护面部诊断框架的人工智能，分析了PD患者对深脑刺激DBS的治疗。在拟议的框架中，提出了一种基于新的优势的信息理论上安全框架，以实现私人深层面部诊断作为一种保护Aiot定向的多方通信方案的服务，其中部分同性恋加密PHE能够直接保留深层面部诊断的隐私关于加密面部图案。在我们的实验中，我们的实验是来自PD患者的收集的面部数据集，首次证明了面部图案可用于估值，估值PD患者进行DBS治疗。我们进一步实施了一个隐私，保留了深层面部诊断框架，可以实现与非加密的深度相同的准确性，显示我们隐私保存面部诊断的潜力，作为可靠的边缘服务，以评分患者PD的严重程度。

Advances in Artificial Intelligence to Reduce Polyp Miss Rates during Colonoscopy
Authors Michael Yeung, Evis Sala, Carola Bibiane Sch nlieb, Leonardo Rundo
背景技术人工智能具有通过降低结肠镜检查期间的息肉未命中息肉检测率来帮助胃肠科学家潜力。

MSRF-Net: A Multi-Scale Residual Fusion Network for Biomedical Image Segmentation
Authors Abhishek Srivastava, Debesh Jha, Sukalpa Chanda, Umapada Pal, H vard D. Johansen, Dag Johansen, Michael A. Riegler, Sharib Ali, P l Halvorsen
基于卷积神经网络的方法提高了生物医学图像分割的性能。然而，大多数这些方法无法有效地在小型和偏置数据集上有效地分段，并且在生物医学用例中是常见的。虽然存在包含多尺度融合方法的方法来解决以变量尺寸引起的挑战，但它们通常使用更适合通用语义分割计算机视觉问题的复杂模型。在本文中，我们提出了一种名为MSRF网的新型架构，专门为医学图像分割任务设计。所提出的MSRF网能够使用双尺度密集融合块DSDF交换不同接收领域的多尺度特征。我们的DSDF块可以在两个不同的分辨率尺度上严格地交换信息，我们的MSRF子网络依次使用多个DSDF块来执行多尺度融合。这允许保存分辨率，改进的信息流，以及高级和低级功能的传播，以获得精确的分割图。所提出的MSRF网允许捕获对象变性，并在不同的生物医学数据集中提供改进的结果。关于MSRF网的广泛实验证明了所提出的方法优于最重要的方法的技术方法。 MSRF净在四个公开可用数据集中推进了性能，而且，与最先进的方法相比，MSRF网络更广泛。

Unsupervised MMRegNet based on Spatially Encoded Gradient Information
Authors Wangbin Ding, Lei Li, Xiahai Zhuang, Liqin Huang
多模态医学图像可以为目标器官，肿瘤或组织提供相关和互补的解剖信息。将多模态图像注册到公共空间可以融合这些综合信息，并为临床应用提供便利性。最近，神经网络已被广泛调查以提高注册方法。然而，由于缺乏网络培训缺乏鲁棒标准，开发多种式登记网络仍然具有挑战性。此外，大多数现有的登记网络主要专注于成对注册，几乎可以适用于多个图像场景。在这项工作中，我们提出了一种多模态登记网络MMREGNET，其可以共同向目标图像共同注册多个模态的图像。同时，我们在空间编码的梯度信息中以无监督的方式培训MMREGNET。拟议的网络在两个数据集，即MM WHS 2019上进行了评估。结果表明，该网络可以达到心脏左心室和肝注册任务的有希望的性能。源代码在GitHub上公开发布。

Expressive Explanations of DNNs by Combining Concept Analysis with ILP
Authors Johannes Rabold, Gesina Schwalbe, Ute Schmid
可说明的ai已出现为黑盒机器学习方法的关键组件，具有高需求的可靠性或透明度。例子是医疗助理系统，以及涉及欧洲联盟一般数据保护监管的应用，包括透明度作为基石。这些需求需要审核分类器决定背后的理由的能力。虽然可视化是事实上的解释标准，但它们在表现力方面短暂，他们无法区分视觉特征的不同属性表现。眼睛打开与关闭，他们不能准确描述缺席的影响和特征之间的关系。另一种替代方案将是更具表现力的象征性代理模型。但是，这些需要符号输入，在大多数计算机视觉任务中不容易获得。在本文中，我们调查如何克服这一点，我们使用网络学到的固有功能来构建对馈送前进卷积深神经网络DNN的基本原理的全局，表现力的口头解释。特征的语义由培训在一组人类理解的视觉概念上培训的概念分析方法开采。通过电感逻辑编程ILP方法发现解释，并作为第一订单规则呈现。我们表明我们的解释是忠于原始的黑匣子模型。

Real-time Detection of Practical Universal Adversarial Perturbations
Authors Kenneth T. Co, Luis Mu oz Gonz lez, Leslie Kanthan, Emil C. Lupu
Universal对抗性扰动UAP是一个突出的对手普遍性示例，用于利用系统漏洞，并能够对深度神经网络DNN进行物理可实现和稳健的攻击。 UAP概括了许多不同的输入，这导致可以在比例下应用的现实和有效的攻击。在本文中，我们提出了高效且可扩展的算法，允许通过识别可疑神经元超激活来实时检测UAP。我们的结果表明Hyperneuron对多项任务图像分类，对象检测，对抗各种各样的普遍攻击以及现实情景，如感知的广告障碍和对抗斑块。 Hyderneuron能够同时检测对普遍的掩模和补丁UAP，而不是比现有的UAP防御性能相当或更好的性能，同时引入每个图像仅0.86毫秒的延迟显着降低。这表明可以实时可靠地减轻了许多现实和实践的普遍攻击，这表明了机器学习系统的强大部署的承诺。

Is In-Domain Data Really Needed? A Pilot Study on Cross-Domain Calibration for Network Quantization
Authors Haichao Yu, Linjie Yang, Humphrey Shi
训练后量化方法使用一组校准数据来计算用于网络参数和激活的量化范围。校准数据通常来自训练数据集，由于数据的灵敏度，可能无法访问。在这项工作中，我们想学习这样的问题，我们可以用尽域数据来校准训练的网络，没有具体了解原始数据集，我们超越了自然图像的领域，包括诸如X射线图像的巨大不同的域，如X射线图像，卫星图像和超声图像。我们发现跨域校准导致10个任务中的令人惊讶的稳定性能，在不同的图像域中具有13个不同的校准数据集。我们还发现量化模型的性能与源和校准域之间的克矩阵的相似性相关，可以用作选择校准集以更好的性能的标准。我们相信我们的研究开辟了借用跨域网络量化和压缩的跨域知识的门。

Texture Generation with Neural Cellular Automata
Authors Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo
神经细胞自动机NCA已经显示出了学习所需规则的显着能力，以种植图像，分类形态，段图像，以及进行诸如路径发现的一般计算。我们相信归纳之前他们介绍了赋予纹理的产生。自然界中的纹理通常由局部相互作用反应扩散系统的变体产生。人类制作的纹理同样经常以当地的方式生成纺织织造，例如或使用具有本地依赖性常规网格或几何图案的规则。我们展示了从单个模板图像中学习纹理生成器，产生方法令人尴尬的平行，表现出快速收敛和输出的高保真度，并且只需要围绕底层状态歧管的一些最小的假设。此外，我们调查学习模型的属性，这些模型都有用且有趣，例如非静止动态和损坏的固有鲁棒性。最后，我们使NCA模型展示的行为是生成纹理的学习，分布式的本地算法，使我们的方法与现有的纹理生成的工作区分开来。我们讨论了这种范式的优势。

Neural Trees for Learning on Graphs
Authors Rajat Talak, Siyi Hu, Lisa Peng, Luca Carlone
图形神经网络GNNS已成为一种灵活而强大的方法，用于学习图形。尽管取得了这一成功，但现有的GNN受到他们当地信息传递架构的限制，并且在其表现力的权力中被证明是限制的。在这项工作中，我们提出了一个新的GNN建筑神经树。神经树架构不执行传递在输入图的消息，而是在由输入图中构造的C树结构图中的树形结构图。 H树中的节点对应于输入图中的子图，并且它们以分层方式重新组织，使得H树中的节点的父节点始终对应于输入图中的更大子图。我们表明，神经树架构可以在无向图中近似于任何平滑的概率分布功能，以及模拟结树算法。我们还证明了实现分布函数的epsilon近似所需的参数的数量是输入图的树宽中的指数，但是其尺寸的线性。我们将神经树应用于3D场景图中的半监督节点分类，并显示这些理论属性在更传统的GNN架构中转化为预测准确性的显着增益。

Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
Authors Fenglin Liu, Xuancheng Ren, Zhiyuan Zhang, Xu Sun, Yuexian Zou
跳过连接是一种广泛使用的技术，可以提高深度神经网络的性能和融合，这被认为通过通过神经网络层传播线性分量来减轻由于非线性的优化而得到的难度。然而，从另一个角度来看，它也可以被视为输入和输出之间的调制机制，输入通过预定值1缩放的输入。在这项工作中，我们调查了跳过连接的有效性的规模因素如何，揭示规模的微不足道调整将导致虚假的梯度爆炸或符合模型的深度，可以通过归一化解决，特别地，层归一化，其在普通跳过连接上引起一致的改进。灵感来自于调查结果，我们进一步建议通过递归地应用与层归一化的跳过连接自适应调整输入的比例，这促进了性能，并在包括机器翻译和图像分类数据集的不同任务中促进了良好的性能。

Multi-scale super-resolution generation of low-resolution scanned pathological images
Authors Yanhua Gao 1 , Ting Xie 2 , Xun Wang 2 , Qingqing Yang 2 , Le Chen 2 , Kai Sun 2 , Youmin Guo 1 , Gang Yu 2 , Kuansong Wang 3 1 Department of Medical Imaging, The First Affiliated Hospital of Xi an Jiaotong University, 277 Yanta West Road, Xi an, 710061, China. 2 Department of Biomedical Engineering, School of Basic Medical Sciences, Central South University, 172 Tongzipo Road, Changsha, 410013, China. 3 Department of Pathology, School of Basic Medical Sciences, Central South University, 172 Tongzipo Road, Changsha, 410013, China.
数字病理学幻灯片易于存储和管理，方便浏览和传输。然而，由于例如在数字化期间的高分辨率扫描40倍的倍率40x，因此每个整个幻灯片图像的文件大小超过1GigAbyte，其最终导致巨大的存储容量和非常慢的网络传输。我们设计一种策略来扫描具有低分辨率5x的幻灯片，提出了一种超分辨率方法，以在诊断时恢复图像细节。该方法基于多尺度生成的对抗网络，其顺序地产生三个高分辨率图像，例如10x，20x和40x。在三个图像分辨率上比较了所产生的图像和真实图像的感知损耗，并且使用鉴别器来评估最高分辨率生成的图像和实图像的差异。执行由10种人组织的100,000种病理图像组成的数据集进行训练和测试网络。所生成的图像具有高峰值信号到噪声比PSNR和结构相似度指数SSIM。 10x至40x图像的PSNR为24.16,22.27和20.44，SSIM为0.845,0.680和0.512，比其他超分辨率网络更好，如DBPN，ESPCN，RDN，EDSR和MDSR。此外，目视检查表明，我们网络产生的高分辨率图像有足够的诊断细节，良好的颜色再现和靠近真实图像，而其他五个网络严重模糊，局部变形或错过重要细节。此外，基于所生成和真实图像的病理诊断，没有显着差异。所提出的多尺度网络可以产生良好的高分辨率病理图像，并将在5倍上提供大约15MB图像的低成本存储，用于数字病理的更快的图像共享方法。

Make Bipedal Robots Learn How to Imitate
Authors Vishal Kumar, Sinnu Susan Thomas
BipeDal机器人不会像人类那样表现得很好，因为他们不学会像我们这样做一样走路。在本文中，我们提出了一种培训双面机器人的方法，借助仿制学习IL来执行一些基本运动，其中教师将执行运动，并且机器人将尝试模仿教练运动。据我们所知，这是我们第一次训练机器人与指导员的单个视频进行动作，并且由于培训基于关节角度完成机器人将保持其关节角度始终处于返回的物理范围内帮助更快的培训。机器人的关节由Open卷积架构识别，然后在三个点之间的角度之间提取关节角度数据，从而产生嘈杂的解决方案。我们使用Savitzky Golay过滤器平滑数据并保留Simulatore数据解剖结构。巧妙地写的Deep Q网络DQN受过经历重播的培训，使机器人学会执行与教师类似的运动。本文的实施是公开可用的。

Window-Level is a Strong Denoising Surrogate
Authors Ayaan Haque, Adam Wang, Abdullah Al Zubaer Imran
CT图像质量严重依赖于辐射剂量，这导致辐射剂量和图像质量之间的折衷，影响随后的基于图像的诊断性能。然而，高辐射可能对患者和运营商都有害。已经尝试使用几种基于深度学习的基于深度的方法来表达低剂量图像。然而，这些方法需要访问大型训练集，特别是用于参考的全剂量CT图像，这通常难以获得。自我监督学习是一种新兴的替代方案，用于降低促进无监督学习的参考数据要求。目前可用的自我监督CT去噪作品要么依赖于外国域名，要么是借口并非很重要。为了解决上述挑战，我们提出了一种新颖的自我监督的学习方法，即图像去噪SSWL IDN的自我监督窗口调平，利用了创新，任务相关，简单，有效的替代预测窗口等效应。 SSWL IDN利用剩余学习和混合损失结合感知损失和MSE，全部包含在VAE框架中。我们的广泛和交叉结构域实验表明SSWL IDN在仅在5剂量级别获得的CT腹部和胸部图像中侵蚀性去噪的有效性。

RIDnet: Radiologist-Inspired Deep Neural Network for Low-dose CT Denoising
Authors Kecheng Chen, Jiayu Sun, Jiang Shen, Jixiang Luo, Xinyu Zhang, Xuelin Pan, Dongsheng Wu, Yue Zhao, Miguel Bento, Yazhou Ren, Xiaorong Pu
低水平的辐射暴露和对健康有害，低剂量计算断层摄影LDCT在肺癌和Covid 19的早期筛查中已被广泛采用。LDCT图像不可避免地受到复杂噪音引起的降解问题。据报道，与商业迭代重建方法相比，使用卷积神经网络的深度学习DL基于LDCT去噪方法CNN实现了竞争性能。大多数基于DL的方法都侧重于CNN提取的本地信息，同时忽略了放射科学家利用的显式非本地和上下文信息。为解决这个问题，我们提出了一种名为放射科医生的新型深度学习模型，灵感深深的被剥夺网络RIDNet来模仿放射科学家的工作流程读取LDCT图像。具体地，所提出的模型仅明确地集成了所有本地，非本地和上下文信息而不是本地信息。我们的放射科医生灵感模型可能是辐射学家作为熟悉的工作流程的青睐。对公共临床数据集的双盲读者研究表明，与现有技术的状态相比，我们所提出的模型在结构保真度，噪声抑制和总成绩方面实现了最令人印象深刻的性能。作为一个受访者的灵感模型，Ridnet给出了一个新的研究路线图，考虑了在设计决策支持工具以协助临床诊断时的行为。模型和代码可用

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

Interesting:

, (from )

pic from pexels.com

你可能感兴趣的:(计算机视觉,深度学习,Papers,计算机视觉,深度学习,Computer,Vision,Transformer,论文)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable 闲云野鹤01 大模型 linux 视觉检测 transformer
LLamaFactory微调Qwen-VL-3B时报错如下：TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr(modeling_utils,"ALL_PA
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
python+springboot+vue的音乐系统 QQ_511008285 python spring boot vue.js django flask node.js php
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
基于 Python 的图书管理系统（源码）
摘要：本论文详细阐述了利用Python语言开发一个简易图书管理系统的过程。该系统具备图书信息录入、删除、修改、查询以及借阅管理等核心功能，可有效提升图书管理的效率与便捷性。通过阐述系统的需求分析、设计思路、代码实现及测试过程，展示了Python在小型管理系统开发中的应用潜力，为相关领域的软件开发提供了有益参考。关键词：Python编程；图书管理系统；数据结构；代码实现一、引言（一）研究背景随着数字
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
超越RAG的搜索革命！分层框架让AI像专家团队一样深度思考 Python_金钱豹人工智能深度学习网络知识图谱大数据
❝一句话概括：与其训练一个越来越大的“六边形战士”AI，不如组建一个各有所长的“复仇者联盟”，这篇论文就是那本“联盟组建手册”。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Publishedonarxivon03Jul2025,byRenminUniversityofChina）*第一阶段：核心思想概览**论文的动机*在面对“未来的家庭娱乐会是什么样？”或“结合最新的财报和市场趋势，分析
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

【AI视野·今日CV 计算机视觉论文速览 第200期】Tue, 18 May 2021

Daily Computer Vision Papers

Interesting:

你可能感兴趣的:(计算机视觉,深度学习,Papers,计算机视觉,深度学习,Computer,Vision,Transformer,论文)

【AI视野·今日CV 计算机视觉论文速览第200期】Tue, 18 May 2021