AI视野·今日CS.CV 计算机视觉论文速览
Tue, 7 Apr 2020
Totally 100 papers
上期速览✈更多精彩请移步主页
***DualSDF基于两层次的语义形状操作, (from 康奈尔)
code: https://github.com/zekunhao1995/DualSDF
LaNet基于加速度计的道路表面分析和车道线识别, (from CMU)
SSN形状签名点云多类别目标检测, (from 港中文)
Source code: https://github.com/xinge008/SSN
基于深度的注意力体的引导单目数据深度估计, (from 香港中文)
人脸反射率, (from 约克大学)
CODE:https://github.com/unibas-gravis/basel-face-pipeline
https://github.com/waps101/AlbedoMM
3d目标检测, (from 伦敦大学学院)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200409103749527.png =600X)
dgriffiths3.github.io
多视角下的多人位姿估计Light3DPose, (from Checkout Technologies s.r.l.)
*****PIFusion高速的人体三维自画像, 基于单张RGBD图(from 清华大学)
基于相机解耦表达的多视角三维位姿估计, (from CVLab, EPFL)
***基于自监督的Flow2Stereo光流和立体匹配方法, (from 港中文)
****基于各向异性卷积的语义分割补全(语义场景补全SSC)方法,将三维卷积解构成一维卷积,并实现自适应的卷积核大小。 (from 中科大)
各向异性卷积:
data:https://waterljwant.github.io/SSC/
室内专修建模在线:https://planner5d.com/
基于半监督学习在浓雾下的光流方法, (from 新加坡国立)
谷歌地点数据集合Google Landmarks Dataset v2, (from Google Research)
dataset:https://github.com/cvdfoundation/google-landmark
*****基于图像超分辨的无损压缩, 这种方法首先编码了原始低分辨率图像,而后使用无损超分辨来得到高分辨率图,最后利用熵编码来压缩超分辨算子,随后实现了高速高压缩比的无损压缩。(from The University of Texas at Austin )
code:https://github.com/caoscott/SReC
ObjectNet Dataset, 对目标检测数据集在生活场景中对的应用进行了深入的探讨,区分的了物体检测和物体识别(from Ali Borji)
COVID-19 中使用的AI技术, (from 上海联影)
UAV-based P-DESTRE dataset基于无人机的行人识别数据集, (from University of Beira Interior, Portugal)
dataset:http://p-destre.di.ubi.pt/download.html
DualSDF: Semantic Shape Manipulation using a Two-Level Representation Authors Zekun Hao, Hadar Averbuch Elor, Noah Snavely, Serge Belongie 我们看到了用于机器学习的3D形状表示的寒武纪爆炸式增长。一些表示在捕获高分辨率细节时寻求高表达力。其他方法试图将形状表示为简单零件的组成,这对于人们来说是直观的,并且易于编辑和操纵。但是,很难在同一表示中同时实现保真度和可解释性。我们提出了DualSDF,一种在两个粒度级别上表达形状的表示形式,一种捕获精细的细节,另一种使用简单且语义上一致的形状基元表示抽象的代理形状。为了实现两个表示之间的紧密耦合,我们在共享的潜在空间上使用了变分目标。我们的两级模型提出了一种新的形状处理技术,用户可以交互地操作粗略的代理形状,并立即看到高分辨率形状中反映的更改。此外,我们的模型积极地增强和引导了操纵,以产生语义上有意义的形状,从而使得在最少的用户输入下进行复杂的操纵成为可能。 |
Rethinking Spatially-Adaptive Normalization Authors Zhentao Tan, Dongdong Chen, Qi Chu, Menglei Chai, Jing Liao, Mingming He, Lu Yuan, Nenghai Yu 最近,空间自适应归一化在条件语义图像合成中取得了巨大成功,该条件语义归一化使用从语义布局中学到的空间变化的转换来调制归一化的激活,以防止语义信息被冲走。尽管它具有令人印象深刻的性能,但仍需要对盒内的真正优势有更透彻的了解,以帮助减少这些新结构带来的大量计算和参数开销。在本文中,从投资回报的角度出发,我们对SPADE的有效性进行了深入分析,并观察到它的优势实际上主要来自其语义意识,而不是空间适应性。受此启发,我们提出了类自适应归一化CLADE,这是一种不适合空间位置或布局的轻量级变体。得益于此设计,CLADE大大降低了计算成本,同时仍然能够在生成过程中保留语义信息。在多个具有挑战性的数据集上进行的大量实验表明,尽管保真度与SPADE相当,但其开销却比SPADE便宜得多。以ADE20k数据集的生成器为例,CLADE引入的额外参数和计算成本分别为4.57和0.07,而SPADE引入的额外参数和计算成本分别为39.21和234.73。 |
There and Back Again: Revisiting Backpropagation Saliency Methods Authors Sylvestre Alvise Rebuffi, Ruth Fong, Xu Ji, Andrea Vedaldi 显着性方法试图通过在每个输入样本中生成重要性图来解释模型的预测。这类方法的一种流行类别是基于信号的反向传播并分析所得的梯度。尽管对此类方法进行了大量研究,但为弄清此类方法之间的差异以及这些技术的优势,所做的工作相对较少。因此,需要严格地理解不同方法之间的关系及其失败模式。在这项工作中,我们对基于反向传播的显着性方法进行了全面的分析,并提出了一个统一的框架,在该框架下可以统一几种这样的方法。这项研究的结果是,我们做出了另外三个贡献。首先,我们使用我们的框架提出NormGrad,这是一种基于卷积权重梯度的空间贡献的新颖的显着性方法。其次,我们结合不同层次的显着性图来测试显着性方法在不同网络级别(例如网络)中提取补充信息的能力。权衡空间分辨率和独特性,我们解释了为什么某些方法在特定层(例如最后一个卷积层以外的任何地方)都无法在Grad CAM上失败。第三,我们介绍了适用于任何显着性方法的类敏感度度量标准和元学习启发范例,以提高对所解释的输出类的敏感度。 |
Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments Authors Jacob Krantz, Erik Wijmans, Arjun Majumdar, Dhruv Batra, Stefan Lee 我们在连续的3D环境中开发了语言指导的导航任务集,在该环境中,代理必须执行低级操作才能遵循自然语言的导航方向。通过放置在连续的环境中,此设置可以解除许多在先有工作中隐含的假设,这些假设将环境表示为一张稀疏的全景图,其边缘对应于可导航性。具体来说,我们的设置放弃了已知环境拓扑,短距离oracle导航和完美代理本地化的假设。为了使这项新任务更加具体化,我们开发了一些模型,这些模型反映了先前设置以及单一模式基线中取得的许多进步。尽管这些技术中的一些已经转移,但我们发现连续设置中的绝对性能明显较低,这表明先前的导航图设置中的性能可能会因强大的隐式假设而夸大。 |
Optical Flow Estimation in the Deep Learning Age Authors Junhwa Hur, Stefan Roth 类似于计算机视觉的许多子领域,深度学习的最新进展也极大地影响了有关光流的文献。以前,文献被经典的基于能量的模型所支配,该模型将光流估计公式化为能量最小化问题。但是,随着卷积神经网络CNN相对于传统方法的实际好处在计算机视觉的许多领域以及其他领域变得显而易见,它们在运动估计方面的采用也有所增加,达到了目前的最新水平。精度的确定是由CNN方法确定的。我们首先回顾一下这种过渡以及CNN的早期工作到当前状态的发展,以进行光流估计。同时,我们讨论了它们的一些技术细节,并进行了比较,以概述哪些技术贡献导致了最显着的精度改进。然后,我们概述了深度学习时代引入的各种光流方法,包括基于替代学习范式的方法,例如无监督和半监督方法,以及对多帧情况的扩展,能够进一步提高准确性。改进。 |
LaNet: Real-time Lane Identification by Learning Road SurfaceCharacteristics from Accelerometer Data Authors Madhumitha Harishankar, Jun Han, Sai Vineeth Kalluru Srinivas, Faisal Alqarni, Shi Su, Shijia Pan, Hae Young Noh, Pei Zhang, Marco Gruteser, Patrick Tague GPS测量的分辨率,特别是在城市地区,不足以识别车辆的车道。在这项工作中,我们开发了一个深层的LSTM神经网络模型LaNet,该模型可通过定期对车辆实时采集的加速度计样本进行分类来确定车道上的车辆。我们的主要发现是,即使相邻的路面斑块也具有足够独特的特征以区分车道,即道路固有地表现出不同的颠簸,裂缝,坑洼和表面不平整。汽车行驶时,可以使用便宜的,易于安装的加速度计来捕获路面信息,这种加速度计越来越多地安装在汽车中,并且可以通过CAN总线进行访问。我们收集了60公里的行驶数据,并在此基础上进行了更多综合,这些数据捕获了诸如可变行驶速度,车辆悬架和加速度计噪声等因素。我们基于LSTM制定的深度学习模型LaNet,可学习道路事件颠簸,裂缝等车道的特定序列,并通过200米的行驶数据产生100条车道分类精度,而仅100 m的行驶距离就相当于一分钟左右的行驶时间,可达到90条以上的车道分类精度。我们设计了适用于实时车道分类的实用LaNet模型,并通过广泛的实验表明,即使在平整道路,大型多车道道路以及频繁车道变化的驱动器上,LaNet仍具有很高的分类精度。由于不同的路面具有不同的固有特性或熵,因此我们挖掘神经网络模型并发现一种机制,只需训练一次该模型即可轻松表征各种行驶距离下道路上可实现的分类精度。我们将LaNet呈现为低成本,易于部署且高度准确的方式,以实现细粒度的车道识别。 |
Computer Vision and Abnormal Patient Gait Assessment a Comparison of Machine Learning Models Authors Jasmin Hundall, Benson A. Babu 步态异常,其相关的跌倒和并发症使患者的发病率和死亡率较高。计算机视觉可以检测,预测患者的步态异常,评估跌倒风险,并为医生提供临床决策支持工具。本文对计算机视觉,机器学习模型如何执行异常患者的步态评估进行了系统的回顾。计算机视觉有助于步态分析,有助于捕捉患者的姿势。一些文献建议使用不同的机器学习算法,例如SVM,ANN,K Star,Random Forest,KNN等,对提取的特征进行分类以研究患者的步态异常。 |
DAISI: Database for AI Surgical Instruction Authors Edgar Rojas Mu oz, Kyle Couperus, Juan Wachs 在没有专业技术的情况下,远程指导外科医生进行手术可能对患者的治疗至关重要。但是,专家导师通常无法为受训者提供实时医疗指导。当没有导师时,后备自治机制应为医生提供所需的指导。但是,人工智能的医学自主指导受到通用化预测模型和训练这些模型所用的手术程序数据集的限制。这项工作提出了开发用于自主医学指导的智能人工系统的初步步骤。具体来说,我们展示了第一个AI手术指导DAISI数据库。 DAISI利用图像和指令来逐步演示如何执行来自各个医学学科的程序。该数据集是从真实的外科手术程序和学术教科书中获取的数据。我们使用DAISI来训练编码器解码器神经网络,该网络能够在给出当前手术视图的情况下预测医疗指令。然后,使用累积的BLEU得分和专家医生的输入来评估网络预测的指令。根据BLEU分数,预测的和真实的指令高达67个类似指令。此外,专家医师使用Likert量表主观评估算法,并认为预测的描述与图像有关。这项工作为AI算法提供了基线,以协助进行自主医学指导。 |
High-Dimensional Data Set Simplification by Laplace-Beltrami Operator Authors Chenkai Xu, Hongwei Lin 随着Internet和其他数字技术的发展,数据生成的速度已经比数据处理的速度快得多。由于大数据通常包含大量的冗余信息,因此可以在保留大数据集的关键信息的同时显着简化大数据集。本文基于Laplace Beltrami算子LBO的特征值和特征函数,开发了一种大数据简化方法。具体来说,给定一个可以视为高维空间中无序数据点集的数据集,构造在大数据集上定义的离散LBO,并计算其特征值和特征向量。然后,将本征函数的局部极值和鞍点作为高维空间中数据集的特征点,构成一个简化的数据集。此外,我们针对高维空间中未组织的数据点集上定义的功能开发了特征点检测方法,并设计了用于度量简化数据集对原始集合的保真度的度量。最后,通过示例和应用程序验证了所提出方法的效率和有效性,表明简化数据集是一种使用有限的数据处理能力来处理最大大小的数据集的方法。 |
A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects Authors Zewen Li, Wenjie Yang, Shouheng Peng, Fan Liu 卷积神经网络CNN是深度学习领域中最重要的网络之一。由于CNN在许多领域取得了令人瞩目的成就,包括但不限于计算机视觉和自然语言处理,因此在过去几年中,它引起了业界和学术界的极大关注。现有的评论主要集中在CNN在不同场景中的应用,而没有从一般的角度考虑CNN,并且没有涵盖最近提出的一些新颖的想法。在这篇评论中,我们旨在在这个快速增长的领域中尽可能提供新颖的想法和前景。此外,不仅涉及二维卷积,而且涉及一维和多维卷积。首先,本文首先简要介绍了CNN的历史。其次,我们概述了CNN。第三,介绍了经典和高级的CNN模型,尤其是那些使它们达到最新结果的关键点。第四,通过实验分析,我们得出一些结论,并为功能选择提供了一些经验法则。第五,涉及一维,二维和多维卷积的应用。最后,讨论了CNN的一些未解决问题和有希望的方向,以作为未来工作的指南。 |
Mapping individual differences in cortical architecture using multi-view representation learning Authors Akrem Sellami QARMA, LIS, INT , Fran ois Xavier Dup QARMA, LIS , Bastien Cagna INT , Hachem Kadri QARMA, LIS , St phane Ayache QARMA, LIS , Thierry Arti res QARMA, LIS, ECM , Sylvain Takerkart INT 在神经科学领域,近来对个体差异的理解已成为一项主要挑战,功能磁共振成像功能磁共振成像已被证明具有不可估量的价值。为此,神经科学家依靠基本方法,例如单脑特征与量化疾病严重程度或受试者在认知任务中表现的得分之间的单变量线性相关性。然而,迄今为止,由于缺乏有效地将它们结合的方法,任务fMRI和静息状态fMRI已被单独用于该问题。在本文中,我们介绍了一种新颖的机器学习方法,该方法可以将分别通过这两种fMRI协议测量的基于激活和连接的信息进行组合,以识别大脑功能组织中个体差异的标记。它结合了一个多视图深度自动编码器,该编码器旨在将两种功能磁共振成像模式融合到一个联合表示空间中,在该联合表示空间中训练了一个预测模型以猜测表征患者的标量得分。我们的实验结果证明了所提出的方法胜过竞争方法并产生可解释的和生物学上可信的结果的能力。 |
Deformable 3D Convolution for Video Super-Resolution Authors Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An, Yulan Guo 视频序列之间的时空信息对于视频超分辨率SR具有重要意义。但是,由于空间特征提取和时间运动补偿通常是顺序执行的,因此现有的视频SR方法无法充分利用时空时间信息。在本文中,我们提出了一个可变形的3D卷积网络D3Dnet,以结合来自空间和时间维度的时空信息以进行视频SR。具体而言,我们引入了可变形3D卷积D3D,以将2D空间可变形卷积与3D卷积C3D集成在一起,从而获得出色的时空时空建模能力和运动感知建模灵活性。大量实验证明了我们提出的D3D在利用时空信息方面的有效性。比较结果表明,我们的网络优于最新方法。代码位于 |
Self-Supervised Scene De-occlusion Authors Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Lin, Chen Change Loy 自然的场景理解是一项艰巨的任务,尤其是在遇到部分被遮挡的多个对象的图像时。通过更改对象的顺序和位置会增加此障碍。现有的场景理解范例仅能解析可见部分,从而导致场景解释不完整且结构化。在本文中,我们研究了场景去遮挡问题,该问题旨在恢复潜在的遮挡顺序并完成被遮挡对象的不可见部分。我们首次尝试通过新颖且统一的框架来解决此问题,该框架可恢复隐藏的场景结构,而无需使用顺序和无模态注释作为监督。这是通过部分完成网络PCNet掩码M和内容C来实现的,后者学会了以自我监督的方式分别恢复部分对象掩码和内容。基于PCNet M和PCNet C,我们设计了一种新颖的推理方案,通过渐进式顺序恢复,无模式完成和内容完成来完成场景去遮挡。在现实世界场景上的大量实验证明了我们的方法在其他替代方案中的优越性能。值得注意的是,我们以自我监督的方式进行培训的方法可达到与完全监督的方法相当的结果。提出的场景去遮挡框架使许多应用受益,包括高质量和可控的图像处理以及场景重组(请参见图1),以及将现有的模式蒙版注释转换为非模式蒙版注释。 |
The P-DESTRE: A Fully Annotated Dataset for Pedestrian Detection, Tracking, Re-Identification and Search from Aerial Devices Authors S.V. Aruna Kumar, Ehsan Yaghoubi, Abhijit Das, B.S. Harish, Hugo Proen a 在过去的几十年中,世界目睹了对城市空间安全性日益增长的威胁,这增强了对能够检测,跟踪和识别人群中感兴趣的人的视觉监控解决方案的相关性。尤其是,无人机是这种分析的潜在工具,因为它们为数据收集提供了一种廉价的方法,可以覆盖较大且难以到达的区域,同时可以减少人员需求。在这种情况下,所有可用的数据集都专门适用于行人重新识别问题,在该问题中,每个ID的多摄像机视图是在一天之内拍摄的,并允许将服装外观特征用于识别目的。因此,本文的主要贡献有两个方面1:我们宣布了基于UAV的P DESTRE数据集,这是同类中的第一个可以在多天内提供一致的ID注释的数据集,适用于极富挑战性的人员搜索问题,即,无法可靠使用衣物信息。除此功能外,P DESTRE批注还可以进行基于无人机的行人检测,跟踪,重新识别和软生物识别解决方案的研究,2我们将在众所周知的监视中比较最先进的行人检测,跟踪,重新识别和搜索技术所获得的结果数据集,以相同的技术在P DESTRE数据中获得的有效性。这样的比较能够为每个任务识别基于UAV的数据中最有问题的数据降级因素,并且可以用作此类技术后续进步的基准。可以免费获得数据集和进行的经验评估的全部详细信息,网址为: |
SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds Authors Xinge Zhu, Yuexin Ma, Tai Wang, Yan Xu, Jianping Shi, Dahua Lin 多类别3D对象检测旨在对点云中的多个类别的对象进行定位和分类。由于点云的性质,即非结构化,稀疏和嘈杂,未充分利用有益于多类识别的某些特征,例如形状信息。在本文中,我们提出了一种新颖的3D形状签名来探索来自点云的形状信息。通过结合对称,凸包和切比雪夫拟合的操作,所提出的形状信号性质不仅紧凑,有效,而且对噪声也很鲁棒,这是软约束,可以提高多类判别的特征能力。基于提出的形状签名,我们开发了用于3D对象检测的形状签名网络SSN,该网络由金字塔特征编码部分,形状感知分组头和显式形状编码目标组成。实验表明,该方法在两个大型数据集上的性能明显优于现有方法。此外,我们的形状签名可以充当即插即用组件,而消融研究表明其有效性和良好的可扩展性 |
Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio Authors Zhengsu Chen, Jianwei Niu, Lingxi Xie, Xuefeng Liu, Longhui Wei, Qi Tian 近年来,自动设计计算效率高的神经网络受到了广泛关注。现有方法要么利用网络修剪,要么利用网络体系结构搜索方法。本文提出了一种称为网络调整的新框架,该框架将网络准确性视为FLOP的函数,以便在每种网络配置下,可以估计每一层的FLOP利用率FUR并用来确定是增加还是减少该数目图层上的通道数。注意,FUR像非线性函数的梯度一样,仅在当前网络的一小部分附近才是准确的。因此,我们设计了一种迭代机制,以使初始网络经历多个步骤,每个步骤的调整率都较小,可以控制对网络的更改。整个搜索过程的计算开销是合理的,即,与从头开始重新训练最终模型的开销相当。在标准图像分类数据集和广泛的基础网络上进行的实验证明了我们方法的有效性,该方法始终优于修剪方法。该代码位于 |
Guiding Monocular Depth Estimation Using Depth-Attention Volume Authors Lam Huynh, Phong Nguyen Ha, Jiri Matas, Esa Rahtu, Janne Heikkila 从单个图像恢复场景深度是一个不适的问题,需要其他先验知识(通常称为单眼深度提示)才能消除不同3D解释的歧义。在最近的工作中,通过使用深度神经网络从大型数据集中以端到端的方式了解了这些先验。在本文中,我们提出指导深度估计,以偏向于普遍存在的平面结构,尤其是在室内环境中。这是通过将非局部共面性约束并入网络并使用一种称为深度关注量DAV的新颖关注机制来实现的。在两个受欢迎的室内数据集(NYU Depth v2和ScanNet)上进行的实验表明,我们的方法在使用竞争方法所需参数的一小部分的同时,可以达到最先进的深度估计结果。 |
Towards Detection of Sheep Onboard a UAV Authors Farah Sarwar, Anthony Griffin, Saeed Ur Rehman, Timotius Pasang 在这项工作中,我们考虑了在80 m高空飞行的无人机UAV上检测绵羊的任务。在这个高度,绵羊相对较小,只有约15像素宽。尽管深度学习策略在过去十年中获得了极大的普及,并且现在已在许多领域中广泛用于对象检测,但是在较小的对象的情况下,现有技术的检测器的性能很差。我们开发了绵羊的无人机图像的新数据集,并考虑了各种对象检测器,以从准确性和速度方面确定最适合我们任务的对象。我们的发现表明,在训练过程中使用加权Hausdorff距离作为损失函数的UNet检测器是检测无人机上绵羊的绝佳选择。 |
Efficient Deep Representation Learning by Adaptive Latent Space Sampling Authors Yuanhan Mo, Shuo Wang, Chengliang Dai, Rui Zhou, Wenjia Bai, Yike Guo 监督式深度学习需要大量带有注释的训练样本,例如用于分类任务的标签类,用于分割任务的像素或体素明智的标签图,获取起来既昂贵又耗时。在深度神经网络的训练过程中,带注释的样本以小批量的方式被馈送到网络中,在这些样本中,它们通常被视为同等重要。但是,某些样本在训练期间可能变得不太有用,因为这些样本的梯度大小开始消失。同时,可能需要更高实用性或更高硬度的其他样品来进行训练过程,并需要更多的利用。为了解决昂贵的注释和样本信息丢失的挑战,在这里我们提出了一种新颖的训练框架,该框架自适应地选择提供给训练过程的信息样本。自适应选择或采样是在生成模型所构造的潜在空间中基于硬度感知策略执行的。为了评估提出的训练框架,我们在三个不同的数据集上进行了实验,包括用于图像分类任务的MNIST和CIFAR 10,以及用于生物物理模拟任务的医学图像数据集IVUS。在所有三个数据集上,提出的框架优于随机抽样方法,这证明了提出的框架的有效性。 |
Detection and skeletonization of single neurons and tracer injections using topological methods Authors Dingkang Wang, Lucas Magee, Bing Xing Huo, Samik Banerjee, Xu Li, Jaikishan Jayakumar, Meng Kuan Lin, Keerthi Ram, Suyi Wang, Yusu Wang, Partha P. Mitra 神经科学数据分析传统上依赖于线性代数和随机过程理论。然而,神经元的树状形状不能轻易描述为向量空间中的点,减去两个神经元形状并不是有意义的操作,而计算拓扑结构的方法更适合其分析。在这里,我们介绍了离散莫尔斯DM理论的方法,该方法从体积脑图像数据中提取单个神经元的树状骨架,并总结通过示踪剂注射标记的神经元的集合。由于单个神经元在拓扑上是树,因此使用共识树形状来总结神经元集合是明智的,该共识树形状提供的信息摘要比传统的区域连通性矩阵方法更丰富。从概念上讲,优雅的DM方法缺少手动调整的参数,并且可以捕获数据的全局属性,这与以前固有的本地方法不同。对于稀疏标记神经元的个体骨架化,我们在精度和更快的校对方面超过了10种改进,较最新的非拓扑方法获得了实质性的性能提升。示踪剂注射的共识树摘要结合了区域连通性矩阵信息,但另外捕获了连接到注射部位的一组神经元的集体侧枝分支模式,并在单个神经元形态和示踪剂注射数据之间架起了桥梁。 |
Temporally Coherent Embeddings for Self-Supervised Video Representation Learning Authors Joshua Knights, Anthony Vanderkop, Daniel Ward, Olivia Mackenzie Ross, Peyman Moghadam 本文提出了用于自我监督视频表示学习的TCE临时相干嵌入。所提出的方法利用未标记视频数据的固有结构来在嵌入空间中显式实施时间一致性,而不是通过排名或预测性借口任务间接学习它。与世界上高级视觉信息平滑变化的方式相同,我们认为学习的表示中附近的帧应显示相似的属性。使用此假设,我们训练TCE模型对视频进行编码,以使相邻的帧彼此靠近且视频彼此分离。使用TCE,我们可以从大量未标记的视频数据中学习可靠的表示形式。我们通过添加分类层并微调UCF101数据集上视频动作识别的下游任务上的学习表示,来评估我们的自我监督训练的TCE模型。尽管使用了非常小的数据集进行预训练,但我们仍能获得68.7的准确性,并且优于最新的自我监督方法。值得注意的是,我们展示了与更复杂的基于3D CNN的网络相比具有竞争力的结果,同时在动作识别任务方面与2D CNN网络主干进行了训练。 |
Semantic Segmentation of highly class imbalanced fully labelled 3D volumetric biomedical images and unsupervised Domain Adaptation of the pre-trained Segmentation Network to segment another fully unlabelled Biomedical 3D Image stack Authors Shreya Roy, Anirban Chakraborty 我们工作的目标是对3D生物医学体积数据执行像素标签语义分割。对于大型生物医学数据集,手动注释始终很困难。因此,我们考虑两种情况,其中一个数据集被完全标记,而另一个数据集被假定为完全未标记。我们首先对完全标记的各向同性生物医学源数据FIBSEM进行语义分割,然后尝试将经过训练的模型用于分割目标未标记的数据集SNEMI3D,该数据集在不同类型的细胞体和其他细胞成分的情况下与源数据集具有某些相似之处。虽然,细胞成分的大小和形状各不相同。因此,在本文中,我们在无监督域自适应的情况下提出了一种新方法,同时将目标体数据的每个像素分为细胞边界和细胞体。此外,我们提出了一种新颖的方法,可以在存在相应像素级标签映射以及源域中的原始训练图像的情况下执行像素级语义分割时,为训练图像中的不同像素赋予非均匀权重。我们使用了从给定的地面真相标签图检索到的熵图或距离变换矩阵,这有助于克服医学图像数据中的类不平衡问题,在这些医学图像数据中,细胞边界非常薄,因此极容易被误分类为非边界。 |
Eisen: a python package for solid deep learning Authors Frank Mancolo Eisen是一个开放源代码python软件包,可轻松实现深度学习方法。它是专门为医学图像分析和计算机视觉任务量身定制的,但是它的灵活性允许扩展到任何应用程序。 Eisen基于PyTorch,并且遵循属于PyTorch生态系统的其他软件包的相同体系结构。这简化了它的使用,并使其与其他软件包提供的模块兼容。 Eisen实现了多种数据集加载方法,各种数据格式的IO,数据处理和转换,培训,验证和测试循环的全面实现,损失和网络体系结构的实现,培训工件,摘要和日志的自动导出,可视化实验构建,命令线路接口等。此外,它对社区的用户贡献开放。可以从以下位置下载文档,示例和代码 |
Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds Authors Tai Wang, Xinge Zhu, Dahua Lin LiDAR是自动驾驶系统感知环境的重要方法。 LiDAR获得的点云通常表现出稀疏和不规则的分布,因此对3D对象(尤其是小而远的3D对象)的检测提出了巨大挑战。为了解决此难题,我们提出了可重配置体素,这是一种从3D点云构造表示的新方法。具体来说,我们设计了一种偏向随机游走方案,该方案会根据局部空间分布以固定数量的体素自适应地覆盖每个邻域,并通过将所选邻域中的点积分来产生表示。从经验上我们发现,这种方法有效地提高了体素特征的稳定性,尤其是对于稀疏区域。在包括nuScenes,Lyft和KITTI在内的多个基准上的实验结果表明,这种新的表示形式可以显着提高小型和远距离物体的检测性能,而不会产生明显的间接费用。 |
A Morphable Face Albedo Model Authors William A.P. Smith, Alassane Seck, Hannah Dee, Bernard Tiddeman, Joshua Tenenbaum, Bernhard Egger 在本文中,我们将研究光度面部捕捉和统计3D面部外观建模的研究分为两条不同的链。我们提出了一种新颖的光舞台捕获和处理管道,用于获取耳对耳,真正固有的漫反射和镜面反射率贴图,这些贴图充分考虑了照明,相机和几何形状的影响。使用该管道,我们捕获了包含50个扫描的数据集,并将它们与23个扫描的唯一现有的公开可用反照率数据集3DRFE合并。这使我们能够建立第一个可变形的面部反照率模型。我们认为这是对面部镜面反射率反照率图的变异性的首次统计分析。该模型可以用作巴塞尔人脸模型的纹理模型的替代品,并且我们可以公开获得新的反照率模型。我们确保进行仔细的光谱校准,以使我们的模型建立在线性sRGB空间中,适合于对典型相机拍摄的图像进行逆向渲染。我们通过综合3DMM拟合流水线在最新技术分析中展示了我们的模型,该模型在反照率重建中是第一个集成镜面映射估计并优于巴塞尔人脸模型的模型。 |
Sub-Instruction Aware Vision-and-Language Navigation Authors Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, Stephen Gould 视觉和语言导航需要代理根据给定的自然语言指令在真实的3D环境中导航。尽管取得了重大进展,但很少有先前的作品能够充分利用视觉和文本序列之间的强烈对应关系。同时,由于缺乏中间监督,代理在导航过程中遵循指令各部分的表现仍然无法跟踪。在这项工作中,我们专注于视觉和语言序列的粒度以及通过完成指令对代理的可跟踪性。我们在训练过程中为坐席提供细粒度的注释,并发现他们能够更好地遵循说明,并且在测试时更有可能达到目标。我们用子指令及其对应的路径丰富了先前的数据集。为了利用这些数据,我们提出了一个有效的子指令注意和转移模块,该模块会在每个时间步参与并选择一条子指令。我们在四个最先进的智能体中实现了子指令模块,并与它们的基线模型进行了比较,并证明了我们提出的方法可以提高所有四个智能体的性能。 |
COVID-CAPS: A Capsule Network-based Framework for Identification of COVID-19 cases from X-ray Images Authors Parnian Afshar, Shahin Heidarian, Farnoosh Naderkhani, Anastasia Oikonomou, Konstantinos N. Plataniotis, Arash Mohammadi 正如我们所知,在21世纪第二个十年末,新型冠状病毒疾病COVID 19无疑改变了世界。 COVID 19具有极强的传染性,并迅速在全球传播,因此对其早期诊断至关重要。 COVID 19的早期诊断使医疗保健专业人员和政府机构能够打破过渡链并拉平流行曲线。但是,普通类型的COVID 19诊断测试需要特定的设备,并且灵敏度相对较低,假阴性率较高。另一方面,计算机断层扫描CT扫描和X射线图像显示与该疾病有关的特定表现。与其他肺部感染的重叠使以人为中心的COVID 19诊断具有挑战性。因此,迫切需要开发基于深度神经网络DNN的诊断解决方案,主要是基于卷积神经网络CNN,以促进19例阳性COVID病例的识别。但是,CNN容易丢失图像实例之间的空间信息,因此需要大型数据集。本文提出了一个基于胶囊网络的替代建模框架,称为COVID CAPS,它能够处理小型数据集,由于COVID 19的突然和快速出现,这一点非常重要。我们基于X数据集的初步结果射线图像显示,COVID CAPS优于以前的基于CNN的模型。 COVID CAPS的准确度为95.7,灵敏度为90,特异度为95.8,曲线下AUC的面积为0.97,而可训练参数的数量比同类产品少得多。 |
Finding Your (3D) Center: 3D Object Detection Using a Learned Loss Authors David Griffiths, Jan Boehm, Tobias Ritschel 大规模语义标记可轻松用于2D图像,但要实现3D场景则困难得多。诸如ShapeNet之类的3D存储库中的对象都带有标签,但遗憾的是仅是隔离的,因此没有上下文。范围扫描仪可以在城市级别获取3D场景,但是使用语义标签的场景却少得多。为了解决这种差异,我们引入了一种新的优化程序,该程序允许使用原始3D扫描训练3D检测,同时仅使用5个对象标签,并且仍然可以达到可比的性能。我们的优化使用两个网络。场景网络将整个3D场景映射到一组3D对象中心。由于我们假设场景没有中心标记,因此无法使用经典的损失(例如倒角)来训练场景。相反,我们使用另一个网络来模拟损失。该损失网络在一个小的标记子集上进行训练,并在存在干扰的情况下将非中心3D对象映射到其自己的中心。此函数非常相似,因此可以代替监督损耗所具有的梯度来使用。我们的评估表明,在较低的监督水平下,或在可比较的监督下,其质量较高时,竞争保真度。补充材料可以在下面找到 |
Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple Views Authors Alessio Elmi, Davide Mazzini, Pietro Tortella 我们提出了一种从几个校准后的相机视图中执行多人3D姿态估计的方法。我们的架构利用了最近提出的非投影层,将来自2D姿态估计器主干的特征图聚合到3D场景的全面表示中。然后,通过完全卷积的体积网络和解码阶段对这种中间表示进行细化,以提取具有亚体素精度的3D骨架。我们的方法使用一些看不见的视图在CMU Panoptic数据集上实现了最先进的MPJPE,即使只有一个输入视图也能获得有竞争力的结果。我们还通过对公开的Shelf数据集进行测试以评估模型的迁移学习能力,从而获得良好的性能指标。所提出的方法从本质上讲是一种纯净的自下而上的方法,它在计算上与场景中的人数无关。此外,即使2D零件的计算负担与输入视图的数量成线性比例,整体架构仍能够利用非常轻巧的2D主干,其速度比体积对应的速度快几个数量级,从而导致了快速的推理时间。该系统可以6 FPS的速度运行,在单个1080Ti GPU上最多可处理10个摄像机视图。 |
Attribute Mix: Semantic Data Augmentation for Fine Grained Recognition Authors Hao Li, Xiaopeng Zhang, Hongkai Xiong, Qi Tian 收集细粒度的标签通常需要专家级的领域知识,并且无法扩大规模。在本文中,我们提出了“属性混合”(Attribute Mix),这是一种在属性级别扩展细粒度样本的数据增强策略。原理在于,属性特征在细粒度的子类别之间共享,并且可以在图像之间无缝转移。为了实现这一目标,我们提出了一种自动属性挖掘方法来发现属于同一超级类别的属性,并且通过混合来自两个图像的语义上有意义的属性特征来操作属性混合。属性混合是一种简单但有效的数据扩充策略,可以在不增加推理预算的情况下显着提高识别性能。此外,由于属性可以在同一超级类别的图像之间共享,因此我们使用来自通用域的图像进一步用属性级别标签丰富训练样本。在广泛使用的细粒度基准测试中,实验证明了我们提出的方法的有效性。具体来说,在没有任何花哨的情况下,我们分别在200 CUB 200,FGVC飞机和Standford Cars上实现了90.2、93.1和94.9的精度。 |
A Local-to-Global Approach to Multi-modal Movie Scene Segmentation Authors Anyi Rao, Linning Xu, Yu Xiong, Guodong Xu, Qingqiu Huang, Bolei Zhou, Dahua Lin 场景是电影中讲故事的关键单元,它包含演员的复杂活动及其在物理环境中的互动。识别场景的组成是迈向电影语义理解的关键一步。与在传统视力问题中研究的视频相比,这是非常具有挑战性的,例如动作识别,因为电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。为了实现这一目标,我们通过构建大型视频数据集MovieScenes来扩展场景分割任务,该数据集包含来自150部电影的21K带注释的场景片段。我们进一步提出了一个局部到全局的场景分割框架,该框架跨三个级别(即剪辑,片段和电影)集成了多模式信息。该框架能够从长片电影的分层时间结构中提取复杂的语义,从而为场景分割提供自上而下的指导。我们的实验表明,所提出的网络能够以较高的精度将电影分割成场景,并且始终优于以前的方法。我们还发现,在MovieScenes上进行预培训可以对现有方法进行重大改进。 |
Appearance Shock Grammar for Fast Medial Axis Extraction from Real Images Authors Charles Olivier Dufresne Camaro, Morteza Rezanejad, Stavros Tsogkas, Kaleem Siddiqi, Sven Dickinson 我们将冲击图理论的思想与较新的基于外观的方法结合起来,用于从复杂自然场景中提取中间轴,在效率和性能方面改进了目前最好的无监督方法。我们做出以下具体贡献:通过使用基于局部,基于外观的标准来概括冲击类型定义,我们将冲击图表示形式扩展到真实图像; ii然后,我们使用冲击语法规则来指导我们对中间点的搜索,与其他方法相比,该方法大大减少了运行时间,该方法详尽地考虑了输入图像中的所有点。iii我们通过遵循“冲击语法”规则并推导了中间值,从而消除了对典型的后处理步骤(包括细化,非最大抑制和分组)的需要最后,我们对先前工作中使用的评估方案提出了一些基本问题,并提出了一种更合适的替代方案来评估从场景中提取中间轴的性能。我们在BMAX500和SK LARGE数据集上的实验证明了我们方法的有效性。我们的性能超越了现有技术,尤其是在高精度条件下表现出色,同时运行速度快了一个数量级,并且不需要后处理。 |
SHOP-VRB: A Visual Reasoning Benchmark for Object Perception Authors Michal Nazarczuk, Krystian Mikolajczyk 在本文中,我们为机器人应用程序中的视觉推理(特别是小物体的抓取和操纵)提供了一种方法和基准。该方法和基准测试专注于从视觉和文本数据推断对象属性。它涉及小型家用对象,包括其属性,功能,自然语言描述以及用于视觉推理查询的问题答案对以及它们对应的场景语义表示。我们还提出了一种生成合成数据的方法,该方法允许将基准扩展到其他对象或场景,并提出一种比现有数据集中更具挑战性的评估协议。我们提出了一种基于符号程序执行的推理系统。获得视觉和文本输入的解缠的表示,并将其用于执行表示算法推理过程的符号程序。我们在建议的基准上进行了一组实验,并比较了最新方法的结果。这些结果暴露了现有基准的缺点,可能导致对视觉推理系统实际性能的误导性结论。 |
Geometrically Principled Connections in Graph Neural Networks Authors Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou 图卷积运算符将深度学习的优势带入了以前认为无法实现的各种图和网格处理任务。随着它们的不断成功,人们常常希望通过使现有的深度学习技术适应非欧几里得数据来设计功能更强大的体系结构。在本文中,我们认为在新兴的几何深度学习领域中,几何应该仍然是创新背后的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型径向基函数RBFs联系起来。我们推测,与RBF一样,图卷积层将从向功能强大的卷积内核中添加简单功能中受益。我们介绍了仿射跳过连接,这是通过将完全连接的层与任何图卷积运算符组合而成的新颖构建块。我们通过实验证明了我们技术的有效性,并表明改进的性能是更多的参数带来的结果。配备仿射跳过连接的操作员在我们评估的每个任务(即形状重构,密集形状对应和图形分类)上的性能明显优于其基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络的未来研究。 |
Fair Latency-Aware Metric for real-time video segmentation networks Authors Evann Courdier, Francois Fleuret 随着监督语义分割取得令人满意的结果,许多最近的论文集中在使分割网络体系结构更快,更小和更高效上。特别地,研究通常旨在达到可以声称是实时的阶段。在自动驾驶车辆和机器人的实时视频操作或手术过程中的医学成像中,实现此目标尤其重要。 |
GANSpace: Discovering Interpretable GAN Controls Authors Erik H rk nen, Aaron Hertzmann, Jaakko Lehtinen, Sylvain Paris 本文介绍了一种简单的技术,可以分析生成对抗网络GAN,并为图像合成创建可解释的控件,例如视点变化,老化,光照和一天中的时间。我们基于激活空间中应用的主成分分析PCA确定重要的潜在方向。然后,我们表明可以基于这些编辑方向的逐层应用来定义可解释的编辑。此外,我们证明了BigGAN可以通过StyleGAN类方式的分层输入进行控制。用户可以使用这些机制识别大量可解释的控件。我们展示了来自各种数据集的GAN的结果。 |
Exploration of Input Patterns for Enhancing the Performance of Liquid State Machines Authors Shasha Guo, Lianhua Qu, Lei Wang, Xulong Tang, Shuo Tian, Shiming Li, Weixia Xu 尖刺神经网络SNN因其低功耗而受到越来越多的关注。但是,训练SNN具有挑战性。液体状态机LSM作为水库计算的一种主要类型,因其在SNN中的低培训成本而得到广泛认可。为了增强性能而探索LSM拓扑通常需要超参数搜索,这既耗费资源又耗时。我们反而探索了投入规模缩减对LSM的影响。研究LSM投入减少的主要原因有两个。一是大图像的输入尺寸需要有效的处理。另一个是输入探索通常比建筑搜索更经济。为了减轻有效处理LSM巨大输入空间的困难,并发现减少输入是否可以增强LSM性能,我们探索了几种输入模式,即满量程,扫描线,棋盘和补丁。几个数据集已被用来评估所提出的输入模式的性能,包括两个空间图像数据集和一个空间时间图像数据库。实验结果表明,与LSM的满量程输入模式相比,在棋盘模式下减少的输入将精度提高了5倍,将执行时间减少了50倍,并且输入存储量减少了75倍。 |
Cascaded Deep Video Deblurring Using Temporal Sharpness Prior Authors Jinshan Pan, Haoran Bai, Jinhui Tang 我们提出了一种简单有效的用于视频去模糊的深度卷积神经网络CNN模型。所提出的算法主要包括来自中间潜在帧的光流估计和潜在帧恢复步骤。它首先开发了一个深CNN模型,以估计来自中间潜在帧的光流,然后基于估计的光流恢复潜在帧。为了更好地探索视频中的时间信息,我们在约束深度CNN模型以帮助潜在帧恢复之前开发了时间清晰度。我们开发了一种有效的级联训练方法,并以端到端的方式共同训练了提议的CNN模型。我们表明,探索视频去模糊的领域知识能够使深度CNN模型更加紧凑和高效。大量的实验结果表明,所提出的算法在基准数据集以及现实世界的视频上表现出优异的性能。 |
Image-based phenotyping of diverse Rice (Oryza Sativa L.) Genotypes Authors Mukesh Kumar Vishal, Dipesh Tamboli, Abhijeet Patil, Rohit Saluja, Biplab Banerjee, Amit Sethi, Dhandapani Raju, Sudhir Kumar, R N Sahoo, Viswanathan Chinnusamy, J Adinarayana 在水稻中开发抗旱或耐旱品种,特别是在气候变化的背景下实现高产,是全世界的一项重要任务。对于高产水稻品种的需求是印度,中国以及其他以稻米为主要主食的亚洲非洲国家的首要关注。进行本研究以区分耐旱和易感基因型。在受控条件下共生长了150种基因型,以便在新德里印度农业研究理事会印度农业研究委员会Nanaji Deshmukh植物表象学中心的高通量植物表象学设施进行评估。在目前的研究中,从150个基因型中选出10个基因型的一个子集。为了区别基因型,我们考虑了一些特征,例如每株植物的叶片数,通过接合叶尖而形成的植物凸壳的凸壳和凸壳面积,植物的单位凸壳的叶数。 ,植物的树冠垂直传播和水平传播。我们训练了您只看一次的YOLO深度学习算法来检测叶尖并估算水稻植株的叶数。利用这个提出的框架,我们根据选择的性状筛选了基因型。使用Ward聚类方法将这些基因型进一步分为耐旱基因型和干旱敏感性基因型的不同组。 |
A Generalized Multi-Task Learning Approach to Stereo DSM Filtering in Urban Areas Authors Lukas Liebel, Kesnia Bittner, Marco K rner 市区的城市模型和高度图可作为许多应用程序(例如灾难管理或城市规划)的宝贵数据源。虽然此信息不是全球可用的,但可以用由廉价卫星图像自动生成的数字表面模型DSM代替。但是,立体声DSM经常遭受噪声和模糊的困扰。此外,它们被植被严重扭曲,这对于大多数应用而言意义不大。这样的基本模型可以通过卷积神经网络CNN进行过滤,并在从数字高程模型DEM和3D城市模型派生的标签上进行训练,以获得精确的DSM。我们提出了一个模块化的多任务学习概念,它将现有方法整合到一个通用框架中。我们的编码器解码器模型具有共享编码器和多个特定任务的解码器,它们利用车顶类型分类作为次要任务和多个目标,包括条件对抗项。在最终的多任务损失函数中,将基于学习到的不确定性估计值自动对贡献的单个目标损失进行加权。我们评估了该网络体系结构家族的特定实例的性能。我们的方法在数量和质量上都始终优于现有数据,并且可以很好地推广到独立研究区域的新数据集。 |
On-device Filtering of Social Media Images for Efficient Storage Authors Dhruval Jain, DP Mohanty, Sanjeev Roy, Naresh Purre, Sukumar Moharana 模因,季节性的问候语等人工制作的图像如今正充斥着社交媒体平台。这些最终开始占用智能手机的大量内部存储器,并且使用户浏览数百张图像并删除这些合成图像变得很麻烦。为了解决这个问题,我们提出了一种基于卷积神经网络CNN的新颖方法,用于通过对这些合成图像进行分类并允许用户一次性删除它们来对社交媒体图像进行设备上过滤。该定制模型使用深度方向可分离的卷积层来在智能手机上实现较低的推理时间。我们已经在各种相机图像数据集上对模型进行了广泛的评估,以涵盖相机拍摄的图像的大多数方面。还测试了各种合成的社交媒体图像。所提出的解决方案在Places 365数据集上的准确性达到98.25,在我们准备的包含30K实例的Synthetic图像数据集上达到95.81。 |
Robust 3D Self-portraits in Seconds Authors Zhe Li, Tao Yu, Chuanyu Pan, Zerong Zheng, Yebin Liu 在本文中,我们提出了一种使用单个RGBD相机的鲁棒3D自画像的有效方法。得益于提出的PIFusion和轻量级的束调整算法,我们的方法可以在几秒钟内生成详细的3D自画像,并显示了处理穿着极宽松衣服的对象的能力。为了实现高效且鲁棒的重建,我们提出了PIFusion,它将基于学习的3D恢复与体积非刚性融合相结合,以生成对象的精确稀疏部分扫描。此外,提出了一种非刚性的体积变形方法来连续地精炼所学形状。最后,提出了一种轻量级的束调整算法,以确保所有部分扫描不仅可以彼此循环,而且可以与所选的实时关键观察保持一致。结果和实验表明,与现有方法相比,该方法可实现更鲁棒和有效的3D自画像。 |
Class Anchor Clustering: a Distance-based Loss for Training Open Set Classifiers Authors Dimity Miller, Niko S nderhauf, Michael Milford, Feras Dayoub 现有的开放集分类器通过测量网络对数空间中的距离来区分已知输入和未知输入,假设已知输入比未知输入更接近训练数据。但是,这种方法通常事后应用到经过交叉熵损失训练的网络中,这既不能保证也不能鼓励人们对集群行为的希望。为了克服此限制,我们引入了类别锚聚类CAC损失。 CAC是完全基于距离的损失,它明确地鼓励训练数据在logit空间中围绕类依赖的锚点周围形成紧密的簇。我们显示,经过训练的CAC损失开放集分类器优于具有挑战性的TinyImageNet数据集上的所有最新技术,在AUROC中实现了2.4的性能提升。此外,我们的方法在许多其他相关数据集上的表现优于其他基于距离的方法。我们将公开提供CAC的代码。 |
Deep Space-Time Video Upsampling Networks Authors Jaeyeon Kang, Younghyun Jo, Seoung Wug Oh, Peter Vajda, Seon Joo Kim 视频超分辨率VSR和帧插值FI是传统的计算机视觉问题,并且最近结合了深度学习,性能一直在提高。在本文中,我们研究了在空间和时间上共同对视频进行升采样的问题,随着显示系统的发展,这一问题变得越来越重要。一种解决方案是独立运行VSR和FI。这是非常低效的,因为每个解决方案都涉及沉重的深度神经网络DNN。为此,我们通过有效地将VSR和FI合并为一个联合框架,提出了一种用于时空视频上采样的端到端DNN框架。在我们的框架中,提出了一种新颖的加权方案来有效地融合输入帧,而无需显式的运动补偿来有效地处理视频。结果显示出定量和定性的更好结果,同时与基线相比,计算时间缩短了x7,参数数量减少了30个。 |
Detecting the Saliency of Remote Sensing Images Based on Sparse Representation of Contrast-weighted Atoms Authors Zhou Huang, Huai Xin Chen, Yun Zhi Yang, Chang Yin Wang, Bi Yuan Liu 目标检测是遥感遥感影像分析中的重要任务。为了降低冗余信息的计算复杂度并提高图像处理效率,视觉显着性模型逐渐应用于该领域。本文通过研究基于对比加权原子LCWA的稀疏表示SR,提出了一种新的显着性检测方法。具体而言,本文使用拟议的LCWA原子学习公式在正负样本上构建显着词典,在非显着原子上构建判别词典。提出了一种在线判别词典学习算法来求解原子学习公式。然后,我们通过结合SR系数和重构误差来测量显着性。此外,在提出的联合显着性度量标准下,判别字典会生成各种显着图。最后,提出了一种基于全局梯度优化的融合方法来集成多个显着图。实验结果表明,在六种评估措施下,该方法明显优于现有方法。 |
AutoToon: Automatic Geometric Warping for Face Cartoon Generation Authors Julia Gong 1 , Yannick Hold Geoffroy 2 , Jingwan Lu 2 1 Stanford University, 2 Adobe Research 讽刺漫画是一种夸张的艺术肖像,放大了人脸独特而细微的特征。这项任务通常留给艺术家,因为事实证明使用自动方法很难很好地捕捉对象的独特特征。深度端到端方法的最新发展在捕获样式和更高级别的夸张方面取得了可喜的结果。然而,漫画的关键部分,面部翘曲,对于这些系统仍然具有挑战性。在这项工作中,我们提出了AutoToon,这是第一个受监督的深度学习方法,可为漫画的翘曲分量产生高质量的翘曲。完全脱离了样式,可以与任何样式化方法配对以创建各种漫画。与现有技术相比,我们利用SENet和空间转换器模块,直接在艺术家翘曲领域进行训练,在翘曲之前和之后都施加损耗。如我们的用户研究所示,我们在保留面部细节的同时,实现了引人注目的夸张,既放大了脸部的明显特征。 |
Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics Authors Simon Jenni, Hailin Jin, Paolo Favaro 我们介绍了一种基于对图像的特定变换的辨别的自我监督特征学习的新原理。我们认为,学习特征的泛化能力取决于什么图像邻域大小足以区分不同的图像变换。所需的邻域大小越大,并且该特征可以描述的图像统计数据越全局。准确描述全局图像统计信息可以更好地表示对象的形状和配置以及它们的上下文,从而最终将其更好地推广到新任务,例如对象分类和检测。这提出了选择和设计图像转换的标准。基于此标准,我们介绍了一种新颖的图像变换,称为有限上下文修复LCI。这种转换修补了仅在有限上下文的矩形小像素边界条件下的图像补丁。由于边界信息有限,因此修复师可以学习匹配局部像素统计信息,但是不太可能匹配图像的全局统计信息。我们声称可以使用相同的原理来证明变换的性能,例如图像旋转和翘曲。确实,我们通过实验证明,学会区分LCI,图像变形和旋转等变换,会在诸如Pascal VOC,STL 10,CelebA和ImageNet的几个数据集上产生具有最新泛化能力的功能。值得注意的是,我们的受过训练的功能与通过ImageNet标签的有监督学习而受训练的功能在地方上的表现相当。 |
Hyper-spectral NIR and MIR data and optimal wavebands for detecting of apple trees diseases Authors Dmitrii Shadrin 1 , Mariia Pukalchik 1 , Anastasia Uryasheva 2 and 3 , Nikita Rodichenko 3 , Dzmitry Tsetserukou 2 1 Center for Computational and Data Intensive Science and Engineering, Skolkovo Institute of Science and Technology, 2 Space Center, Skolkovo Institute of Science and Technology, 3 Tsuru Robotics tsapk llc. 植物病害可能导致粮食产量和食品质量急剧下降,成为农民高度优先的问题。苹果黑星病,念珠菌病和白粉病是全球范围内最严重的苹果树病,每年可能造成50至60的产量损失,这些都是由使用杀真菌剂控制的,而这会带来巨大的财务和时间支出。这项研究提出了一种现代方法,用于分析不同阶段苹果树病的近红外和中红外范围的光谱数据。使用获得的光谱,我们发现了用于检测特定疾病并将其与其他疾病和健康树木区分开的最佳光谱带。拟议的仪器将为农民提供有关苹果树病不同阶段的准确,实时信息,从而可以更有效地定时和选择杀真菌剂,从而实现更好的控制并提高产量。可通过链接获得获得的数据集以及Matlab中用于处理数据和查找最佳光谱带的脚本 |
EfficientPS: Efficient Panoptic Segmentation Authors Rohit Mohan, Abhinav Valada 了解自主机器人的操作场景对其功能至关重要。这种场景理解需要识别交通参与者的实例以及可以由全景分割任务有效解决的一般场景语义。在本文中,我们介绍了有效的全景分割EfficientPS体系结构,该体系结构由共享的主干组成,该主干可以有效地编码和融合语义丰富的多尺度特征。我们并入了一个新的语义头,该词头将相关的精细特征和上下文特征进行了聚合,而Mask R CNN的新变体作为实例头。我们还提出了一种新颖的全景融合模块,该模块可将我们EfficientPS架构的两个负责人的输出logit紧密集成在一起,以产生最终的全景分割输出。此外,我们介绍了KITTI全景分割数据集,其中包含针对具有挑战性的KITTI基准的全景注释。对Cityscapes,KITTI,Mapillary Vistas和Indian Driving Dataset的广泛评估表明,我们提出的架构在这四个基准上始终保持着最新的技术水平,同时是迄今为止最高效,最快的全景分割架构。 |
Feature Super-Resolution Based Facial Expression Recognition for Multi-scale Low-Resolution Faces Authors Wei Jing, Feng Tian, Jizhong Zhang, Kuo Ming Chao, Zhenxin Hong, Xu Liu 低分辨率图像上的面部表情识别FER对于人群场景站,教室等中的组表情识别应用是必需的。将小尺寸的面部图像分类为正确的表情类别仍然是一项艰巨的任务。出现此问题的主要原因是由于分辨率降低而导致的区别性功能丧失。超分辨率方法通常用于增强低分辨率图像,但是在分辨率非常低的图像上,FER任务的性能会受到限制。在这项工作中,受特征超分辨率方法用于物体检测的启发,我们提出了一种基于生成对手网络的特征级超分辨率方法,用于鲁棒的面部表情识别FSR FER。特别地,使用预训练的FER模型作为特征提取器,并且利用从低分辨率和原始高分辨率的图像提取的特征来训练生成器网络G和鉴别器网络D。生成器网络G尝试通过使低分辨率图像的特征更接近相应的高分辨率图像的特征,将其转换为更具区分性的特征。为了获得更好的分类性能,我们还基于固定的FER模型计算出的分类概率,提出了一种有效的分类感知损失重加权策略,以使我们的模型更多地关注易于错误分类的样本。在真实世界情感面孔RAF数据库上的实验结果表明,与分别使用图像超分辨率和表情识别的方法相比,我们的方法在单个模型上对各种降采样因子均获得令人满意的结果,并且在低分辨率图像上具有更好的性能。 |
Structural-analogy from a Single Image Pair Authors Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen Or, Lior Wolf 近年来,通过使用深度神经网络,无监督图像到图像翻译的任务有了长足的进步。典型地,所提出的解决方案学习了两个大的,不成对的图像集合的特征分布,并且能够改变给定图像的外观,同时保持其几何形状完整。在本文中,我们探索了仅给出一对图像A和B的情况下神经网络理解图像结构的能力。我们试图生成结构上对齐的图像,即生成保留外观和样式的图像。 B,但具有与A相对应的结构安排。关键思想是在不同比例的图像块之间进行映射。这样可以控制产生类比的粒度,从而确定样式和内容之间的概念区别。除了结构对齐之外,我们的方法还可以用于在其他条件生成任务中生成高质量图像,这些条件生成任务仅使用图像A和B指导图像合成,样式和纹理转移,文本翻译以及视频翻译。我们的代码和其他结果位于 |
Confident Coreset for Active Learning in Medical Image Analysis Authors Seong Tae Kim, Farrukh Mushtaq, Nassir Navab 深度学习的最新进展已在各种应用程序中取得了巨大的成功。尽管已经广泛研究了半监督或无监督学习方法,但深度神经网络的性能高度依赖于带注释的数据。问题在于,由于注释时间和医学数据中昂贵的注释成本,注释的预算通常受到限制。主动学习是解决此问题的方法之一,主动学习器被设计为指示需要注释哪些样本才能有效地训练目标模型。在本文中,我们提出了一种新颖的主动学习方法,即自信核心集,该方法同时考虑了不确定性和分布,以有效地选择信息量丰富的样本。通过对两个医学图像分析任务的对比实验,我们表明我们的方法优于其他主动学习方法。 |
Clustering based Contrastive Learning for Improving Face Representations Authors Vivek Sharma, Makarand Tapaswi, M. Saquib Sarfraz, Rainer Stiefelhagen 一个好的聚类算法可以发现数据中的自然分组。如果明智地使用这些分组,则会为学习表示形式提供一种弱监督的形式。在这项工作中,我们介绍了基于聚类的对比学习CCL,这是一种基于聚类的新表示学习方法,该方法使用从聚类中获得的标签以及视频约束条件来学习判别性面部特征。我们演示了针对视频人脸聚类的学习表征这一具有挑战性的任务的方法。通过一些消融研究,我们分析了从不同来源创建成对的正负标签的影响。在三个具有挑战性的视频面部聚类数据集BBT 0101,BF 0502和ACCIO上进行的实验表明,CCL在所有数据集上均达到了最新水平。 |
Iterative Context-Aware Graph Inference for Visual Dialog Authors Dan Guo, Hui Wang, Hanwang Zhang, Zheng Jun Zha, Meng Wang 视觉对话是一项具有挑战性的任务,需要理解隐式视觉和文本上下文之间的语义依赖性。该任务可以在具有稀疏上下文和未知图结构关系描述符的图形模型中引用关系推理,而如何对基础上下文感知的关系推理进行建模至关重要。为此,我们提出了一种新颖的上下文感知图CAG神经网络。图中的每个节点都对应一个联合语义特征,包括基于对象的视觉和历史相关的文本上下文表示。对话中的图形结构关系使用自适应的top K消息传递机制进行迭代更新。具体地,在每个消息传递步骤中,每个节点选择最相关的K个节点,并仅从它们接收消息。然后,在更新之后,我们将图注意力集中在所有节点上,以获取最终的图嵌入并推断答案。在CAG中,每个节点在图中具有与不同的相关K邻居节点不同的动态关系,并且只有最相关的节点才是上下文感知关系图推断的属性。在VisDial v0.9和v1.0数据集上的实验结果表明,CAG优于比较方法。可视化结果进一步验证了我们方法的可解释性。 |
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation Authors Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang 我们提供了一种轻巧的解决方案,可以从使用空间校准相机捕获的多视图图像中恢复3D姿势。基于可解释表示学习的最新进展,我们利用3D几何体将输入图像融合到统一的潜在姿势表示中,该姿势可以从相机视点中解脱出来。这使我们能够在不使用计算密集型体积网格的情况下有效地推理出不同视图之间的3D姿势。然后,我们的体系结构将所学的表示形式限制在摄像机投影操作员上,以产生准确的每视图2d检测,可以通过可区分的直接线性变换DLT层将其简单地提升为3D。为了有效地做到这一点,我们提出了一种DLT的新颖实现,它在GPU架构上比基于标准SVD的三角测量方法快几个数量级。我们在两个大型人体姿态数据集H36M和Total Capture上评估了我们的方法,该方法的性能优于或优于最新的体积方法,而与它们不同的是,它们可以产生实时性能。 |
Comparative Analysis of Multiple Deep CNN Models for Waste Classification Authors Dipesh Gyawali, Alok Regmi, Aatish Shakya, Ashish Gautam, Surendra Shrestha 在错误的地方浪费是财富。我们的研究重点是分析自动垃圾分类和收集的可能性,以帮助其进一步循环利用。正在实践各种方法来管理废物,但效率不高,需要人工干预。自动废物分类将填补这一空白。该项目测试了众所周知的深度学习网络架构的废物分类,并结合了自己的努力和“垃圾网”的数据集。卷积神经网络用于图像分类。以垃圾箱形式构建的硬件用于将这些废物分类到不同的隔室中。如果无需人工进行废物分类,这项研究将节省宝贵的时间,并在废物管理领域引入自动化。城市固体废物是巨大的可再生能源。这种情况对政府,社会和工业家都是双赢的。由于对ResNet18网络进行了微调,因此发现最佳验证精度为87.8。 |
DSA: More Efficient Budgeted Pruning via Differentiable Sparsity Allocation Authors Xuefei Ning, Tianchen Zhao, Wenshuo Li, Peng Lei, Yu Wang, Huazhong Yang 预算修剪是在资源限制下修剪的问题。在预算修剪中,如何跨层分配资源(即稀疏分配)是关键问题。传统方法是通过离散地搜索分层效率降低效率来解决此问题的。在本文中,我们提出了差分稀疏分配DSA,一种有效的端到端预算修剪流程。 DSA利用新颖的微分修剪过程,通过基于梯度的优化找到了分层修剪率。它在连续空间中分配稀疏性,这比基于离散评估和搜索的方法效率更高。此外,DSA可以从头开始修剪,而传统的预算修剪方法则应用于预先训练的模型。在CIFAR 10和ImageNet上的实验结果表明,DSA可以实现比当前迭代预算修剪方法更好的性能,同时,将整个修剪过程的时间成本缩短至少1.5倍。 |
BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation Authors Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang 低级细节和高级语义对于语义分割任务都是必不可少的。但是,为了加快模型推论,当前的方法几乎总是牺牲低层的细节,这会导致精度显着下降。我们建议分别处理这些空间细节和分类语义,以实现实时语义分割的高精度和高效率。为此,我们提出了一种高效且有效的架构,在速度和准确性之间进行了很好的权衡,这被称为“双边分割网络BiSeNet V2”。该体系结构涉及一个细节分支,该分支具有宽通道和浅层,用于捕获低级细节并生成高分辨率特征表示;一个语义分支,具有窄通道和深层,用于获取高级语义上下文。由于减少了信道容量和快速的下采样策略,语义分支是轻量级的。此外,我们设计了一个引导聚合层,以增强相互连接并融合两种类型的要素表示。此外,还设计了一种增强训练策略来提高分割性能,而无需任何额外的推理成本。大量的定量和定性评估表明,所提出的体系结构在针对几种最新的实时语义分割方法方面表现出色。具体来说,对于2,048x1,024的输入,我们在Cityscapes测试集上以156 FPS的速度在一张NVIDIA GeForce GTX 1080 Ti卡上实现了72.6的平均IoU,这比现有方法要快得多,但分割精度却更高。 |
Flow2Stereo: Effective Self-Supervised Learning of Optical Flow and Stereo Matching Authors Pengpeng Liu, Irwin King, Michael Lyu, Jia Xu 在本文中,我们提出了一种统一的方法来共同学习光流和立体匹配。我们的第一个直觉是可以将立体匹配建模为光流的特殊情况,并且我们可以利用立体视频背后的3D几何形状来指导这两种形式的对应关系的学习。然后,我们将这些知识注册到最新的自我监督学习框架中,并训练一个单一的网络来估计流量和立体声。其次,我们揭示了以前的自我监督学习方法中的瓶颈,并建议创建一组新的具有挑战性的代理任务以提高性能。这两种见解产生了一个单一模型,该模型在KITTI 2012和2015基准测试中,在所有现有的无监督流和立体声方法中都达到了最高的准确性。更引人注目的是,我们的自我监督方法甚至胜过了几种最先进的完全监督方法,包括KITTI 2012上的PWC Net和FlowNet2。 |
A Discriminator Improves Unconditional Text Generation without Updating the Generato Authors Xingyuan Chen, Ping Cai, Peng Jin, Hongjun Wang, Xingyu Dai, Jiajun Chen 我们提出了一种新颖的机制来改进带有鉴别器的文本生成器,该鉴别器经过训练可以估计样本来自真实数据或生成数据的概率。与直接更新生成器参数的最新离散语言生成对抗网络GAN相比,我们的方法仅保留生成的样本,这些样本被判别器确定为来自真实数据的可能性较高。这不仅可以检测到有价值的信息,还可以避免GAN引入的模式崩溃。这种新机制在概念上很简单,并且在实验上很强大。据我们所知,这是第一种通过使用鉴别器来改进以最大似然估计MLE训练的神经语言模型LM的方法。实验结果表明,当在不同softmax温度下同时测量样本质量和样本多样性时,我们的机制改善了基于RNN和基于Transformer的LM,这是先前指出的语言GAN的不足。此外,通过递归添加更多的标识符,可以创建更强大的生成器。 |
Adversarial-Prediction Guided Multi-task Adaptation for Semantic Segmentation of Electron Microscopy Images Authors Jiajin Yi, Zhimin Yuan, Jialin Peng 语义分割是电子显微镜EM图像分析的重要步骤。尽管监督模型已取得重大进展,但需要大量劳动的像素级逐个注释是一个主要限制。更为复杂的是,由于领域转移,监督学习模型可能无法很好地推广到新的数据集上。在这项研究中,我们引入了对抗性预测指导的多任务网络,以学习在新的未标记目标域上使用的训练有素的模型的适应性。由于目标域上没有可用的标签,因此,我们不仅学习源域上有监督分割的编码表示形式,而且还学习目标数据的无监督重构。为了提高几何线索的判别能力,我们进一步通过语义预测空间中的多层次对抗学习来指导表示学习。在公共基准上进行的比较和消融研究证明了我们方法的最新性能和有效性。 |
Neuron Linear Transformation: Modeling the Domain Shift for Crowd Counting Authors Qi Wang, Tao Han, Junyu Gao, Yuan Yuan 跨域人群计数CDCC由于在公共安全中的重要性而成为热门话题。 CDCC的目的是减少源域和目标域之间的域偏移。最近,典型的方法试图通过图像翻译和对抗学习来提取领域不变特征。当涉及特定任务时,我们发现任务差距的最终体现在模型的参数中,并且域权重显然可以通过模型权重的差异来表示。为了直接在参数级别描述域间隙,我们提出了一种神经元线性变换NLT方法,该方法利用NLT来学习神经元级别的偏移,然后将源模型转移到目标模型。具体来说,对于源模型的特定神经元,NLT利用很少的标记目标数据来学习一组参数,这些参数通过线性变换来更新目标神经元。在六个真实世界的数据集上进行的广泛实验和分析证明,与其他领域自适应方法相比,NLT获得了最佳性能。消融研究还表明,与有监督和微调训练相比,NLT更加强大且有效。此外,我们将在论文被接受后发布代码。 |
Deep Homography Estimation for Dynamic Scenes Authors Hoang Le, Feng Liu, Shu Zhang, Aseem Agarwala 同构估计是许多计算机视觉问题中的重要步骤。近来,与传统方法相比,深度神经网络方法已显示出解决此问题的优势。但是,这些新方法未考虑输入图像中的动态内容。他们仅使用可以通过单应性完全对齐的图像对来训练神经网络。本文研究并讨论了如何设计和训练可处理动态场景的深度神经网络。我们首先收集具有动态内容的大型视频数据集。然后,我们开发了一个多尺度神经网络,并表明当使用我们的新数据集进行适当训练时,该神经网络已经可以在一定程度上处理动态场景。为了以更原则的方式估计动态场景的单应性,我们需要确定动态内容。由于动态内容检测和单应性估计是两个紧密耦合的任务,因此我们遵循多任务学习原则并扩展了多尺度网络,以便它可以联合估计动态蒙版和单应性。我们的实验表明,对于具有动态场景,模糊伪影或缺乏纹理的挑战性场景,我们的方法可以可靠地估计单应性。 |
Anisotropic Convolutional Networks for 3D Semantic Scene Completion Authors Jie Li, Kai Han, Peng Wang, Yu Liu, Xia Yuan 作为体素明智的标记任务,语义场景完成SSC尝试从单个深度和RGB图像中同时推断场景的占用率和语义标签。 SSC面临的主要挑战是如何有效利用3D上下文来对形状,布局和可见性有严重差异的各种对象或东西进行建模。为了处理这种变化,我们提出了一种称为各向异性卷积的新型模块,该模块具有竞争性方法(如标准3D卷积及其一些变化)所无法提供的灵活性和功能。与仅限于固定3D接收场的标准3D卷积相反,我们的模块能够对尺寸各向异性体素进行明智的建模。基本思想是通过将3D卷积分解为三个连续的1D卷积来启用各向异性3D接收场,并且每个此类1D卷积的内核大小都是在运行中自适应确定的。通过堆叠多个这样的各向异性卷积模块,可以在保持可控制数量的模型参数的同时,进一步提高体素模型的建模能力。在两个SSC基准(NYU Depth v2和NYUCAD)上进行的大量实验证明了该方法的优越性能。我们的代码位于 |
Attentive One-Dimensional Heatmap Regression for Facial Landmark Detection and Tracking Authors Shi Yin, Shangfei Wang, Xiaoping Chen, Enhong Chen 尽管热图回归被认为是定位面部标志的最先进方法,但它具有巨大的空间复杂性,并且容易出现量化误差。为了解决这个问题,我们提出了一种新颖的专注于一维热图回归的面部标志定位方法。首先,我们预测两组一维热图来表示x和y坐标的边际分布。与当前的热图回归方法相比,这些一维热图大大降低了空间复杂性,后者使用二维热图来表示x和y坐标的联合分布。尽管GPU内存有限,但所提出的方法具有较低的空间复杂度,但仍可以输出高分辨率的一维热图,从而大大减轻了量化误差。其次,采用共同注意机制对x和y坐标中存在的固有空间模式进行建模,因此也可以捕获x和y轴上的关节分布。第三,基于一维热图结构,我们提出了一种面部地标检测器,该面部地标检测器捕获用于在图像上进行地标检测的空间模式,而跟踪器进一步利用用于地标跟踪的时间细化机制来捕获时间模式。在四个基准数据库上的实验结果证明了我们方法的优越性。 |
Learning and Recognizing Archeological Features from LiDAR Data Authors Conrad M Albrecht, Chris Fisher, Marcus Freitag, Hendrik F Hamann, Sharathchandra Pankanti, Florencia Pezzutti, Francesca Rossi 我们提出了一种遥感管道,该管道通过机器深度学习处理LiDAR光检测和测距数据,以将考古特征检测应用于大型地理空间数据平台(例如, IBM PAIRS Geoscope。 |
Deeply Aligned Adaptation for Cross-domain Object Detection Authors Minghao Fu, Zhenshan Xie, Wen Li, Lixin Duan 跨域对象检测最近已在现实世界中吸引了越来越多的关注,因为它有助于构建适应新环境的强大检测器。在这项工作中,我们提出了一种基于Faster R CNN的端到端解决方案,其中在训练过程中地面真相注释可用于源图像(例如卡通),但不适用于目标图像(例如水彩)。由于观察到不同神经网络层的可传递性互不相同,我们建议对Faster R CNN的不同层应用多种域对齐策略,其中对齐强度从低层逐渐降低到较高层。此外,在我们的网络中获得区域提议后,我们开发了前景背景感知对齐模块,以通过分别从源域和目标域对齐前景和背景区域的特征来进一步减少域不匹配。在基准数据集上进行的大量实验证明了我们提出的方法的有效性。 |
Any-Shot Sequential Anomaly Detection in Surveillance Videos Authors Keval Doshi, Yasin Yilmaz 监视视频中的异常检测最近已引起关注。即使在公开可用的数据集上使用最先进的方法具有竞争力,但它们仍需要大量的训练数据。此外,一旦缺乏新数据,他们就缺乏一种连续更新训练模型的具体方法。此外,在线决策是该领域的重要但也是最常被忽略的因素。由于这些研究空白,我们提出了一种使用转移学习和任何镜头学习的监视视频在线异常检测方法,从而显着降低了培训的复杂性,并提供了仅使用几个标记的标称示例即可检测异常的机制。我们提出的算法利用基于神经网络的模型的特征提取能力进行转移学习和统计检测方法的任意拍摄能力。 |
ReADS: A Rectified Attentional Double Supervised Network for Scene Text Recognition Authors Qi Song, Qianyi Jiang, Nan Li, Rui Zhang, Xiaolin Wei 近年来,场景文本识别一直被认为是序列问题。连接主义者的时间分类CTC和注意序列识别Attn是解决此问题的两种非常流行的方法,尽管它们分别在某些情况下可能会失败。 CTC更加专注于每个字符,但在文本语义依赖性建模方面却很弱。基于Attn的方法具有更好的上下文语义建模能力,同时倾向于对有限的训练数据过度拟合。在本文中,我们精心设计了一种用于一般场景文本识别的整流注意力双监督网络ReADS。为了克服CTC和Attn的弱点,我们在我们的方法中都应用了它们,但是在两个受监管的分支中使用不同的模块,这两个模块可以相互补充。此外,引入了有效的空间和通道注意机制以消除背景噪声并提取有效的前景信息。最后,实现了一个简单的整流网络来校正不规则文本。可以端到端地训练ReADS,并且仅需要单词级别的注释。在各种基准上进行的大量实验验证了ReADS的有效性,该技术可实现最先进的性能。 |
gDLS*: Generalized Pose-and-Scale Estimation Given Scale and Gravity Priors Authors Victor Fragoso, Joseph DeGol, Gang Hua 增强现实AR,3D映射和机器人技术中的许多现实应用程序都需要从多个摄像机或单个移动摄像机捕获的多个图像中快速准确地估计摄像机的姿势和比例。在姿势和比例估计器中实现高速并保持高精度常常是相互矛盾的目标。为了同时实现这两者,我们利用了关于解决方案空间的先验知识。我们提出了gDLS,这是一种利用旋转和比例先验的广义相机模型姿态和比例估计器。 gDLS允许应用程序灵活权衡每个先验的贡献,这很重要,因为先验通常来自嘈杂的传感器。与最先进的广义姿态和比例估计器(例如gDLS)相比,我们在合成数据和真实数据上的实验一致证明gDLS加快了估计过程并提高了比例和姿态精度。 |
ObjectNet Dataset: Reanalysis and Correction Authors Ali Borji 最近,Barbu等人引入了一个名为ObjectNet的数据集,其中包含日常生活中的对象。他们显示出该数据集上最先进的对象识别模型的性能显着下降。由于他们的结果对深度模型的泛化能力的重要性和影响,我们再来看一下他们的发现。我们强调了他们工作中的一个主要问题,即将对象识别器应用于包含多个对象而不是孤立对象的场景。使用我们的代码,后者可以提高大约20 30的性能。与ObjectNet论文中报告的结果相比,我们观察到可以恢复大约10 15的性能损失,而无需增加任何测试时间数据。按照Barbu等。的结论,但是,我们还得出结论,该数据集上的深层模型遭受了严重破坏。因此,我们认为ObjectNet仍然是一个具有挑战性的数据集,用于测试模型的泛化能力,而不是对其进行训练的数据集。 |
FAIRS -- Soft Focus Generator and Attention for Robust Object Segmentation from Extreme Points Authors Ahmed H. Shahin, Prateek Munjal, Ling Shao, Shadab Khan 已经积极研究了来自用户输入的语义分割,以促进数据注释和其他应用程序的交互式分割。最近的研究表明,极端点可以有效地用于编码用户输入。从极端点生成的热图可以附加到RGB图像,并输入到模型中进行训练。在这项研究中,我们为FAIRS提供了一种新方法,可以以极端点和正确点击的形式根据用户输入生成对象细分。我们提出了一种新颖的方法,以一种新颖且可扩展的方式有效地编码来自极端点和纠正性点击的用户输入,该方法允许网络处理可变数量的点击,包括纠正输出的纠正性点击。我们还将双重关注模块与我们的方法集成在一起,以提高模型优先关注对象的功效。我们证明,这些添加有助于在多个大型数据集上从用户输入进行的密集对象分割方面,对现有技术进行重大改进。通过实验,我们证明了我们的方法具有生成高质量训练数据的能力,以及在以原则性方式结合极端点,指导点击和纠正点击时的可扩展性。 |
Optimization of Image Embeddings for Few Shot Learning Authors Arvind Srinivasan, Aprameya Bharadwaj, Manasa Sathyan, S Natarajan 在本文中,我们改进了图神经网络解决方案中生成的图像嵌入,以减少镜头学习。我们为现有网络(如Inception Net,U Net,Attention U Net和Squeeze Net)提出了备用架构,以生成嵌入并提高模型的准确性。我们以产生嵌入的时间为代价来提高所创建嵌入的质量。拟议的实现优于Omniglot数据集上1镜头和5镜头学习的现有技术水平。实验涉及测试集和训练集,它们之间没有共同的类别。已将5路和10路20路测试的结果制成表格。 |
It Is Not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction Authors Karttikeya Mangalam, Harshayu Girase, Shreyas Agarwal, Kuan Hui Lee, Ehsan Adeli, Jitendra Malik, Adrien Gaidon 对于人类环境中的自动导航(例如,对于自动驾驶汽车和社交机器人)而言,具有多个社交交互代理的人类轨迹预测至关重要。在这项工作中,我们提出了预测的终端条件网络PECNet,以实现灵活的人类轨迹预测。 PECNet推断远处的轨迹终点,以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符合社会要求的轨迹。此外,我们提出了一个简单的截断技巧,以提高少数镜头的多模态轨迹预测性能。我们证明,PECNet在斯坦福无人机航迹预测基准上提高了19.5,在ETH UCY基准上提高了40.8,提高了艺术水平。 |
SimAug: Learning Robust Representations from 3D Simulation for Pedestrian Trajectory Prediction in Unseen Cameras Authors Junwei Liang, Lu Jiang, Alexander Hauptmann 本文着重于预测在看不见的场景和摄像机视角下人们的未来轨迹的问题。我们提出一种有效利用多视图3D模拟数据进行训练的方法。我们的方法找到了最困难的摄像机视图,将其与训练中原始摄像机视图中的对抗性数据混合在一起,从而使模型能够学习能够推广到看不见的摄像机视图的可靠表示。我们将我们的方法称为SimAug。我们展示了SimAug在三个超出领域的真实世界基准测试中均取得了最佳结果,并且在斯坦福无人机和VIRAT ActEV数据集以及领域训练数据中获得了最先进的技术。我们将发布我们的模型和代码。 |
Fine grained classification for multi-source land cover mapping Authors Yawogan Jean Eudes Gbodjo, Dino Ienco, Louise Leroux, Roberto Interdonato, Raffaelle Gaetano 如今,人们普遍同意有必要更好地表征农业监测系统以应对全球变化。及时和准确的土地利用土地覆盖图可以通过提供小规模有用的信息来支持这一愿景。这里,提出了一种深度学习方法来处理对象级别的多源土地覆盖图。该方法基于递归神经网络的扩展,该扩展通过专用于多时间数据上下文的关注机制得到了丰富。此外,引入了一种新的分层预培训策略,该策略旨在利用土地覆盖类别中的分层关系下的特定领域知识。在法国留尼汪岛的留尼汪岛上进行的实验证明,与遥感标准方法进行土地覆被制图相比,该建议的重要性。 |
Neural Architecture Search for Lightweight Non-Local Networks Authors Yingwei Li, Xiaojie Jin, Jieru Mei, Xiaochen Lian, Linjie Yang, Cihang Xie, Qihang Yu, Yuyin Zhou, Song Bai, Alan Yuille 非本地NL块已在各种视觉任务中得到了广泛研究。但是,很少将NL块嵌入移动神经网络中,这主要是由于以下挑战:1 NL块通常具有沉重的计算成本,这使得难以在计算资源有限的应用中应用; 2一个发现最佳配置以将NL块嵌入移动神经网络的开放问题。我们建议AutoNL克服以上两个障碍。首先,我们通过压缩转换操作并合并紧凑特征来提出轻量级非局部LightNL块。通过新颖的设计选择,所提出的LightNL模块在计算上比传统模块便宜400倍,而不会牺牲性能。其次,通过放松LightNL块的结构使其在训练过程中可区分,我们提出了一种有效的神经体系结构搜索算法,以端对端的方式学习LightNL块的最佳配置。值得注意的是,仅使用32个GPU小时,在典型的移动设置为350M FLOP的情况下,搜索到的AutoNL模型在ImageNet上就达到了77.7 top 1的精度,大大优于以前的移动模型,包括MobileNetV2 5.7,FBNet 2.8和MnasNet 2.1。代码和模型可在以下位置获得 |
Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning Authors Guoqing Wang, Hu Han, Shiguang Shan, Xilin Chen 面部表情攻击检测PAD已经成为面部识别系统中亟待解决的问题。常规方法通常会假设测试和培训是在同一领域内,因此它们可能无法很好地推广到看不见的场景中,因为为PAD学习的表示形式可能会过度适合培训集中的受试者。有鉴于此,我们提出了一种有效的跨域人脸PAD纠缠表示学习方法。我们的方法包括学习DR Net的纠缠表示和学习MD Net的多域学习。 DR Net通过生成模型学习了一对编码器,可以将PAD信息特征与主题区分特征区分开。来自不同域的解缠结特征被馈送到MD Net,MD Net为最终的跨域人脸PAD任务学习与域无关的特征。在几个公共数据集上的大量实验验证了所提出的跨域PAD方法的有效性。 |
Weakly-Supervised Mesh-Convolutional Hand Reconstruction in the Wild Authors Dominik Kulon, Riza Alp G ler, Iasonas Kokkinos, Michael Bronstein, Stefanos Zafeiriou 我们介绍了一种用于单眼3D手姿势估计的简单有效的网络体系结构,该体系结构由图像编码器和随后通过直接3D手网格重建损失训练的网格卷积解码器组成。我们通过在YouTube视频中收集大规模的手势数据集来训练我们的网络,并将其用作缺乏监管的来源。我们基于弱监督的网格卷积的系统在很大程度上优于最新方法,甚至可以将野外基准测试中的错误减少一半。数据集和其他资源可在以下位置获得: |
Optical Flow in Dense Foggy Scenes using Semi-Supervised Learning Authors Wending Yan, Aashish Sharma, Robby T. Tan 在浓雾的场景中,现有的光流方法是错误的。这是由于浓雾粒子引起的劣化而破坏了光流的基本假设,例如亮度和渐变常数。为了解决该问题,我们引入了一种半监督式深度学习技术,该技术在训练过程中使用真实的雾图像而没有光流场真相。我们的网络将域转换和光流网络集成在一个框架中。最初,给定一对合成雾图像,其相应的干净图像和光流地面真相,在一个训练批次中,我们以监督的方式训练网络。随后,给定一对彼此不对应的真实雾图像和一对清晰图像,在下一个训练批次中,我们以无监督的方式训练网络。然后,我们交替地交替训练综合数据和真实数据。我们使用没有基本事实的真实数据,因为在这种情况下拥有基本事实是很棘手的,而且还避免了合成数据训练的过拟合问题,在合成数据训练中,关于合成数据的知识不能推广到真实数据测试。结合网络体系结构设计,我们提出了一种新的训练策略,该策略结合了有监督的综合数据训练和无监督的实际数据训练。实验结果表明,我们的方法在估计浓雾环境中的光流方面是有效的,并且优于最新方法。 |
Understanding (Non-)Robust Feature Disentanglement and the Relationship Between Low- and High-Dimensional Adversarial Attacks Authors Zuowen Wang, Leo Horne 最近的工作提出了这样的假设:神经网络中的对抗性漏洞是由于它们过度使用了训练数据中固有的非健壮特征。我们凭经验表明,对于PGD攻击,有一个训练阶段,其中神经网络开始严重依赖于非健壮功能来提高自然准确性。我们还提出了一种减少对PGD样式攻击的脆弱性的机制,该机制包括将一定数量的包含主要健壮特征的图像混合到每个训练批次中,然后证明健壮准确性得到了改善,而自然准确性并未受到实质性的损害。我们表明,针对健壮功能的培训可提高各种体系结构和针对不同攻击的健壮准确性。最后,我们凭经验证明这些健壮的功能不会引起空间不变性。 |
A Simple Baseline for Multi-Object Tracking Authors Yifu Zhan, Chunyu Wang, Xinggang Wang, Wenjun Zeng, Wenyu Liu 近年来,作为多目标跟踪的核心组件的目标检测和再识别已取得了显着进展。但是,很少有人关注在单个网络中完成两项任务以提高推理速度。沿此路径进行的初始尝试最终导致结果降低,这主要是因为重新识别分支的学习不正确。在这项工作中,我们研究了故障背后的根本原因,并因此提出了解决问题的简单基准。它以30 fps的速度远远超过了公共数据集的最新技术水平。我们希望这个基准可以启发并帮助评估该领域的新想法。代码和预先训练的模型将被发布。网址中提供了代码 |
Deblurring by Realistic Blurring Authors Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Bjorn Stenger, Wei Liu, Hongdong Li 现有的用于图像去模糊的深度学习方法通常使用成对的清晰图像及其模糊对应物来训练模型。但是,合成模糊图像不一定能以足够的精度对真实场景中的真实模糊过程进行建模。为了解决这个问题,我们提出了一种结合两种GAN模型的新方法,即通过学习GAN BGAN和通过DeBlur GAN DBGAN来学习模糊图像,以便通过主要学习如何模糊图像来学习更好的图像去模糊模型。第一个模型BGAN学习如何使用未配对的清晰和模糊图像集来模糊清晰图像,然后指导第二个模型DBGAN学习如何正确地对此类图像进行模糊处理。为了减少真实模糊和合成模糊之间的差异,利用了相对论模糊损失。作为额外的贡献,本文还介绍了包括各种模糊图像的真实世界模糊图像RWBI数据集。我们的实验表明,所提出的方法在新提出的数据集和公共GOPRO数据集上均实现了始终如一的优异定量性能以及更高的感知质量。 |
Pixel Consensus Voting for Panoptic Segmentation Authors Haochen Wang, Ruotian Luo, Michael Maire, Greg Shakhnarovich 我们方法的核心是像素共识投票,它是基于广义霍夫变换的实例分割框架。像素对包含实例质心的可能区域进行离散的概率投票。在投票热图中出现的检测到的峰值处,将应用反投影来收集像素并生成实例蒙版。与滑动窗口检测器密集地枚举对象提议不同,我们的方法检测作为像素明智投票之间共识的结果的实例。我们使用卷积神经网络的本机运算符实现投票聚合和反投影。质心投票的离散化将实例分割的训练减少到像素标记,类似于FCN样式语义分割并与之互补,从而形成了一种高效且统一的架构,可以共同对事物进行建模。我们展示了我们的管道对COCO和Cityscapes全景分割的有效性,并获得了竞争性结果。代码将是开源的。 |
Multi-Variate Temporal GAN for Large Scale Video Generation Authors Andres Mu oz, Mohammadreza Zolfaghari, Max Argus, Thomas Brox 在本文中,我们提出了一种用于视频生成的网络体系结构,该体系结构可对时空时间一致性进行建模,而无需诉诸昂贵的3D架构。特别是,我们详细介绍了噪声生成,序列生成和帧生成的组成部分。该体系结构促进了相邻时间点之间的信息交换,从而在结构级别和详细级别上都提高了所生成帧的时间一致性。该方法在UCF 101数据集上达到了由初始分数衡量的最先进的定量性能,这与对生成的视频的定性检查是一致的。我们还介绍了一种新的定量方法,该方法使用下游任务进行评估。 |
Group Based Deep Shared Feature Learning for Fine-grained Image Classification Authors Xuelu Li, Vishal Monga 细粒度图像分类已成为一项重大挑战,因为此类图像中的对象之间的类间视觉差异较小,但姿势,照明和视点等方面的差异较大。大多数现有工作着重于通过深度网络体系结构高度定制的特征提取,这些结构具有已证明可以提供最先进的性能。鉴于细分类中来自不同类别的图像共享重要的功能,我们提出了一种新的深度网络体系结构,该体系显式地对共享特征进行建模并消除其影响,从而获得增强的分类结果。我们对共享特征的建模基于新的基于组的学习,其中,将现有的类划分为组,并发现了多个共享特征模式。我们将此框架称为基于组的深度共享特征学习GSFL,并将由此产生的学习网络称为GSFL Net。具体而言,拟议的GSFL网络开发了一种经过特殊设计的自动编码器,该编码器受新提出的特征表达损失的约束,可以将一组特征分解为它们的组成共享分量和判别分量。在推理过程中,仅使用区分特征组件来完成分类任务。我们专业的自动编码器的主要优势在于它用途广泛,可以与最新的细粒度特征提取模型结合使用,并与它们一起训练以直接改善其性能。在基准数据集上进行的实验表明,GSFL Net可以通过更具解释性的体系结构来提高现有技术中分类的准确性。 |
TimeGate: Conditional Gating of Segments in Long-range Activities Authors Noureldien Hussein, Mihir Jain, Babak Ehteshami Bejnordi 识别远程活动时,浏览整个视频非常耗时且计算量大,因为它可能长达几分钟。因此,仅对视频的显着部分进行采样非常重要。我们建议使用TimeGate,以及新颖的条件选通模块,以对远程活动中最具代表性的片段进行采样。 TimeGate具有两个新颖的特性,可以解决以前的采样方法(如SCSampler)的缺点。首先,它可以对段进行差异化采样。因此,TimeGate可以装配现代的CNN并作为一个统一的模型进行端到端的培训。第二,采样是基于段及其上下文的条件。因此,TimeGate更适合于远程活动,因为分段的重要性在很大程度上取决于视频上下文。TimeGate减少了针对Charades,Breakfast和MultiThumos远程活动的三个基准的现有CNN的计算。特别是,TimeGate在保持分类精度的同时将I3D的计算量减少了50。 |
Google Landmarks Dataset v2 -- A Large-Scale Benchmark for Instance-Level Recognition and Retrieval Authors Tobias Weyand, Andre Araujo, Bingyi Cao, Jack Sim 随着图像检索和实例识别技术的快速发展,需要具有挑战性的数据集以准确测量其性能,同时提出与实际应用相关的新挑战。我们推出了Google Landmarks Dataset v2 GLDv2,这是在人造和自然地标领域进行大规模,细粒度实例识别和图像检索的新基准。 GLDv2是迄今为止最大的此类数据集,包括超过500万张图像和200k个不同的实例标签。它的测试集由118k张图像组成,这些图像带有地面真相注释,可用于检索和识别任务。地面真相构建涉及800多个小时的人工注释器工作。我们的新数据集具有一些具有挑战性的属性,这些属性受现实世界应用程序的启发,而以前的数据集并未考虑这些问题。拖尾类的分布非常长,域外测试照片的比例很大,类内变异性也很大。该数据集来自Wikimedia Commons,这是世界上最大的人群共享地标照片集。我们根据最先进的方法以及来自公共挑战的竞争结果,为识别和检索任务提供基线结果。我们通过证明在其上训练的图像嵌入在独立数据集上实现竞争性检索性能,进一步证明了该数据集适合进行迁移学习。可以在以下位置获取数据集图像,地面真实情况和度量标准评分代码 |
SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation Authors Chenfeng Xu, Bichen Wu, Zining Wang, Wei Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka LiDAR点云分段是许多应用程序中的重要问题。对于大规模点云分割,事实上的方法是投影3D点云以获得2D LiDAR图像,并使用卷积对其进行处理。尽管常规RGB和LiDAR图像之间存在相似之处,但我们发现LiDAR图像的特征分布在不同的图像位置会急剧变化。由于卷积滤波器会拾取仅在图像中特定区域有效的局部特征,因此使用标准卷积来处理此类LiDAR图像是有问题的。结果,网络的容量被利用不足并且分段性能降低。为了解决这个问题,我们建议空间自适应卷积SAC根据输入图像对不同位置采用不同的滤波器。由于SAC可以实现为一系列元素级乘法,im2col和标准卷积,因此可以高效地进行计算。这是一个通用框架,因此可以将几种先前的方法视为SAC的特殊情况。使用SAC,我们构建了用于LiDAR点云分割的SqueezeSegV3,并在SemanticKITTI基准上以至少3.7 mIoU的性能优于所有先前发布的方法,并且推理速度相当。 |
Temporally Distributed Networks for Fast Video Segmentation Authors Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff, Federico Perazzi 我们介绍了TDNet,这是一个为快速,准确地进行视频语义分段而设计的时间分布式网络。我们观察到,可以通过组合从几个较浅的子网提取的特征来近似估算从深CNN的某个较高层提取的特征。利用视频中固有的时间连续性,我们将这些子网分布在顺序的帧上。因此,在每个时间步骤中,我们只需要执行轻量级计算即可从单个子网络中提取子特征组。然后,通过应用新颖的注意力传播模块来补偿用于分割的全部特征,该模块可以补偿帧之间的几何变形。还引入了分组知识蒸馏损失,以进一步提高完整和子特征级别的表示能力。在Cityscapes,CamVid和NYUD v2上进行的实验表明,我们的方法以更快的速度和更低的延迟实现了最先进的准确性。 |
Self-Supervised Viewpoint Learning From Image Collections Authors Siva Karthik Mustikovela, Varun Jampani, Shalini De Mello, Sifei Liu, Umar Iqbal, Carsten Rother, Jan Kautz 训练深度神经网络以估计对象的视点需要标记的大型训练数据集。但是,众所周知,手动标记视点非常困难,容易出错且耗时。另一方面,从互联网(例如汽车或人脸)上挖掘许多未分类的物体类别图像相对容易。我们试图回答这样的研究问题:是否可以通过纯粹的自我监督来成功地利用这种未标记的野生图像集合来成功地训练一般对象类别的视点估计网络。这里的自我监督是指网络具有的唯一真正的监督信号是输入图像本身。我们提出了一种新颖的学习框架,该框架结合了综合范式进行分析,以具有生成网络的视点感知方式重构图像,并具有对称性和对抗性约束,以成功地监督我们的视点估计网络。我们表明,对于人脸,汽车,公共汽车和火车等几个物体类别,我们的方法在竞争之下具有完全监督的方法。我们的工作为自我监督的观点学习开辟了进一步的研究,并为其提供了坚实的基础。我们在以下位置开源代码 |
Privacy-Preserving Eye Videos using Rubber Sheet Model Authors Aayush K Chaudhary, Jeff B. Pelz 基于视频的眼动仪会根据眼睛图像视频估计视线。由于安全和隐私问题笼罩着技术进步,因此应对此类挑战至关重要。我们提出了一种新的方法来处理眼部视频中的隐私问题,方法是根据“橡胶板模型”在视频捕获管道中用不同的虹膜模板替换当前可识别的虹膜纹理。我们扩展到图像融合和中值表示,以证明可以操纵视频而不会显着降低分割和瞳孔检测的准确性。 |
Lossless Image Compression through Super-Resolution Authors Sheng Cao, Chao Yuan Wu, Philipp Kr henb hl 我们介绍一种简单有效的无损图像压缩算法。我们将低分辨率版本的图像存储为原始像素,然后进行多次无损超分辨率迭代。对于无损超分辨率,我们以低分辨率输入为条件,预测高分辨率图像的概率,并使用熵编码来压缩此超分辨率算子。基于超分辨率的压缩SReC能够在大型数据集上通过实际运行时间实现最新的压缩率。可以在以下网址在线获取代码 |
Application of Structural Similarity Analysis of Visually Salient Areas and Hierarchical Clustering in the Screening of Similar Wireless Capsule Endoscopic Images Authors Rui Nie 2 , Huan Yang 1 , Hejuan Peng 2 , Wenbin Luo 2 , Weiya Fan 2 , Jie Zhang 2 , Jing Liao 2 , Fang Huang 2 , Yufeng Xiao 1 1 Depatment of Gastroenterology, Second Affiliated Hospital, Army Medical University Third Military Medical University , Chongqing, China. 2 Chongqing Jinshan Science Technology Group Co., Ltd., Chongqing, China. 小肠胶囊内窥镜检查是检查小肠病变的主流方法,但单次小肠胶囊内窥镜检查可产生60,000张120,000张图像,其中大部分相似且没有诊断价值。医生需要2到3个小时才能从这些图像中识别出病变。这很耗时,并且增加了误诊和漏诊的可能性,因为医生很可能会在长期专注于大量相似图像的同时经历视觉疲劳。 |
Adaptive Partial Scanning Transmission Electron Microscopy with Reinforcement Learning Authors Jeffrey M. Ede 压缩传感应用于扫描透射电子显微镜以减少电子剂量和扫描时间。但是,已建立的方法使用的静态采样策略不适用于样本。我们扩展了循环确定性策略梯度,以训练深度LSTM和可区分的神经计算机,以自适应地采样扫描路径段。循环代理与卷积生成器配合完成部分扫描。我们证明了我们的方法优于基于螺旋扫描的既定算法,并且我们希望我们的结果可以推广到其他扫描系统。源代码,预训练的模型和训练数据可在以下位置获得: |
Investigating Image Applications Based on Spatial-Frequency Transform and Deep Learning Techniques Authors Qinkai Zheng, Han Qiu, Gerard Memmi, Isabelle Bloch 这是巴黎电信公司PRIM项目的报告。该报告是关于基于空间频率变换和深度学习技术的应用程序的。在这份报告中,有两项主要工作。第一项工作是关于基于深度学习的增强型JPEG压缩方法。我们提出了一种新颖的方法,通过在发送方发送较少的图像数据来高度增强JPEG压缩。在接收端,我们提出了一种DC恢复算法以及深度残差学习框架,以恢复高质量的图像。第二项工作是基于信号处理的对抗示例防御。我们提出了小波扩展方法来扩展图像数据特征,这使得生成对抗性示例变得更加困难。我们进一步采用小波去噪以减少对抗性扰动的影响。通过大量实验,我们证明了这两项工作在其应用场景中都是有效的。 |
Review of Artificial Intelligence Techniques in Imaging Data Acquisition, Segmentation and Diagnosis for COVID-19 Authors Feng Shi, Jun Wang, Jun Shi, Ziyan Wu, Qian Wang, Zhenyu Tang, Kelei He, Yinghuan Shi, Dinggang Shen 2019年COVID 19冠状病毒病大流行在世界各地蔓延。 X射线和计算机断层扫描CT等医学成像在全球对抗COVID 19的斗争中发挥着至关重要的作用,而最近出现的人工智能AI技术进一步增强了成像工具的功能并为医学专家提供帮助。我们在此回顾AI赋权的医学影像社区对COVID 19的快速响应。例如,AI赋能的图像采集可以显着帮助自动化扫描程序,并以与患者最少的接触来重塑工作流程,从而为患者提供最佳保护影像技术人员。而且,AI可以通过准确确定X射线和CT图像中的感染情况来提高工作效率,从而便于后续量化。此外,计算机辅助平台帮助放射线医师做出临床决策,即用于疾病诊断,跟踪和预后。因此,在这篇综述文件中,我们涵盖了COVID 19涉及的医学成像和分析技术的整个流程,包括图像采集,分割,诊断和随访。我们特别关注AI与X射线和CT的集成,这两者在一线医院中被广泛使用,以描述针对COVID 19的医学成像和放射学的最新进展。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com