【AI视野·今日CV 计算机视觉论文速览 第225期】Wed, 23 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 23 Jun 2021
Totally 73 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第225期】Wed, 23 Jun 2021_第1张图片

Daily Computer Vision Papers

Tracking Instances as Queries
Authors Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Ying Shan, Bin Feng, Wenyu Liu
最近,基于查询的深网络由于其结束到结束管道和竞争结果,在几个基本计算机视觉任务等上,例如对象检测,语义分段和实例分割。但是,如何建立基于查询的视频实例分段Vis框架,具有优雅的架构和强大的性能仍有待解决。在本文中,我们呈现TextBF QueryTrack i.e.,跟踪实例作为查询,基于统一的查询的VIS框架完全利用QueryInst中的实例和查询之间的一个对应关系。该方法在YouTube VIS上获取52.7 52.3 AP 2019年2021个数据集,该数据集在CVPR 2021 TextBF的YouTube VIS挑战中赢得了2个ND,在CVPR 2021 TextBF中,单一级别测试适度的培训数据量。我们还提供QueryTrack Reset50基线结果,YouTube Vis 2021 DataSet作为VIS社区的参考。

Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation
Authors Lei Ke, Xia Li, Martin Danelljan, Yu Wing Tai, Chi Keung Tang, Fisher Yu
多个对象跟踪和分割需要检测,跟踪和分割属于一组给定类的对象。大多数方法仅利用时间维度来解决关联问题,同时依赖于分割掩码本身的单帧预测。我们提出了原型跨关注网络PCAN,能够利用丰富的Spatio时间信息进行在线多对象跟踪和分段。 PCAN首先将空格时间内存蒸馏成一组原型,然后采用跨注意力从过去框架中检索丰富的信息。为了段,PCAN采用原型外观模块来学习一组对比前景和背景原型,然后随着时间的推移传播。广泛的实验表明,PCAN在YouTube VIS和BDD100K数据集中表现出当前的视频实例跟踪和分段竞争获奖者,并显示了一个阶段和两个阶段分割框架的功效。代码将在HTTP VIS.XYZ PUB PCAN上获得。

Unsupervised Object-Level Representation Learning from Scene Images
Authors Jiahao Xie, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy
对比自我监督的学习在很大程度上缩小了对想象成的预训练的差距。然而,它的成功高度依赖于想象成的对象中心,即相同图像的不同增强视图对应于相同的对象。当预先训练在具有许多物体的更复杂的场景图像上,如此重种策划约束变得不可行。为了克服这种限制,我们介绍了对象级别表示学习ORL,这是一个新的自我监督的学习框架朝向场景图像。我们的主要洞察力是利用图像级别自我监督的预培训作为发现对象级语义对应之前,从而实现了从场景图像学习的对象级别表示。对Coco的广泛实验表明,ORL显着提高了自我监督学习在场景图像上的性能,甚至超越了在几个下游任务上的监督Imagenet预训练。此外,当可用更具未标记的场景图像时,ORL提高了下游性能,证明其在野外利用未标记数据的巨大潜力。我们希望我们的方法能够激励未来的研究从场景数据学习更通用的无监督的代表。项目页面

MetaAvatar: Learning Animatable Clothed Human Models from Few Depth Images
Authors Shaofei Wang, Marko Mihajlovic, Qianli Ma, Andreas Geiger, Siyu Tang
在本文中,我们的目标是创建一个可概括和可控的神经签名距离场SDF,其代表来自单眼深度观察的穿着人。深度学习的最新进展,特别是神经隐式表示,使人类的形状重建和来自不同传感器输入的可控化身产生。然而,为了产生从新型输入姿势的现实布变形,通常需要水密网格或密集的全身扫描作为输入。此外,由于有效地建模姿势依赖布变形,用于各种身体形状和布型,现有方法从头开始,每个受试者布型优化,这是计算昂贵的。相比之下,我们提出了一种能够快速生成现实穿着人体化身的方法,表示为可控神经SDFS,仅给出单眼深度图像。我们通过使用元学习来实现这一目标,以学习预测神经SDF的参数的HyperNetwork的初始化。 Hypernetwork在人类的姿势上被调节,并且代表了一种穿着的神经化身,根据输入姿势使非刚性变形。同时,与从头划痕培训的型号相比,它是有效地融合了多种身体形状和布料的前锋,因此可以更快地融入微调。我们定性和定量地表明,我们的方法优于所需的现有方法的状态,这些方法需要完整网格作为输入,而我们的方法只需要将深度帧作为输入运行,并且更快地运行百分比。此外,我们证明了我们的META学习的HyperNetWork是非常强大的,是第一个生成具有逼真动态布变形的头像,给出少于8个单眼深度框架。

RootPainter3D: Interactive-machine-learning enables rapid and accurate contouring for radiotherapy
Authors Abraham George Smith, Jens Petersen, Cynthia Terrones Campos, Anne Kiil Berthelsen, Nora Jarrett Forbes, Sune Darkner, Lena Specht, Ivan Richter Vogelius
风险轮廓的器官仍然是放射疗法的瓶颈,许多深入学习方法在评估临床数据时缺乏承诺的结果。我们研究了在风险轮廓型任务中使用交互式机器学习方法产生的准确性和时间节省。我们将该方法与Eclipse轮廓软件进行比较,并与手动描绘找到强有力的协议,骰子得分为0.95。使用纠正符号创建的注释也花费更少的时间来创建,因为与手动方法相比,由于手动方法相比,在平均地描绘2分钟和2秒的心中,逐渐消除了大量时间,而且在923张图像被划定后,比较手动划定时为7分钟和1秒钟。我们的实验表明,具有纠正符号的交互式机器学习为非计算机科学家提供了一种快速和可接近的方式,可以培养深入学习模型,将自己的兴趣结构分段为常规临床工作流程。

Towards Reducing Labeling Cost in Deep Object Detection
Authors Ismail Elezi, Zhiding Yu, Anima Anandkumar, Laura Leal Taixe, Jose M. Alvarez
深度神经网络在对象检测方面达到了非常高的准确性,但它们的成功铰链大量标记数据。为了减少对标签的依赖性,已经提出了各种主动学习策略,通常基于探测器的置信度。但是,这些方法偏向最佳性能的类,并且可以导致获取的数据集不是测试集中数据的代表不好。在这项工作中,我们提出了一个统一的主动学习框架,这考虑了探测器的不确定性和鲁棒性,确保网络在所有类别中准确地执行。此外,我们的方法能够伪标记非常自信的预测,抑制潜在的分布漂移,同时进一步提高了模型的性能。实验表明,我们的方法全面优于Pascal VOC07 ​​12和MS Coco的广泛主动学习方法,其具有高达7.7的相对改善,或标记成本的降低至高达82。

G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation
Authors Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang
分析蛋白质的结构是理解其功能的关键部分,从而成为它们在分子水平的生物学中的作用。此外,以有条不紊的方式设计新的蛋白质是一个主要的工程挑战。在这项工作中,我们介绍了一种用于比较,变形和产生3D蛋白质结构的联合几何神经网络方法。将蛋白质结构视为3D开放曲线,我们采用平方根速度函数SRVF表示,并利用其合适的几何特性以及深度剩余网络的复位,以进行联合注册和比较。我们的试剂处理更好的大蛋白质变形,同时更加计算效率。在数学框架之上,我们进一步设计了一种几何变分自动编码器G VAE,曾经培训,将原始,以前看不见的结构映射到低维潜伏超球中。通过预塑造空间的球形结构的动机,我们自然地采用了von Mises Fisher VMF分布来模拟隐藏变量。我们通过产生新型蛋白质结构和预测损坏的蛋白质结构的完成来测试模型的有效性。实验结果表明,我们的方法能够产生合理的结构,与训练数据中的结构不同。

Enhanced Separable Disentanglement for Unsupervised Domain Adaptation
Authors Youshan Zhang, Brian D. Davison
域适应旨在在将现有标记域传输到新域时减轻域间隙。但是,基于现有的脱谕式的方法没有完全考虑域不变和域特定功能之间的分离,这意味着域不变的功能不是歧视的。在训练期间,重建的特征也不充分使用。在本文中,我们提出了一种新颖的增强可分离解剖学ESD模型。我们首先使用Disentangler来蒸发域不变和域特定功能。然后,我们应用功能分离增强过程,以最大限度地减少域不变和域特定功能之间的污染。最后,我们的模型重建了完整的特征向量,在训练阶段期间用于进一步解剖。来自三个基准数据集的广泛实验,最优于现有技术的状态,尤其是在挑战跨域任务上。

Residual Networks as Flows of Velocity Fields for Diffeomorphic Time Series Alignment
Authors Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang
非线性大型时间翘曲是时间序列分析中有挑战性的滋扰来源。在本文中,我们提出了一种新的散丝颞变压器网络,用于两者和关节时间序列对齐。我们的ResetT TW Deep Reseutal Network用于时间扭曲通过合成增量漫射映射的流动来解决对准问题。通过流量方程来控制,我们的残余网络resnet构建光滑,流体和常规速度场的流动,因此产生了光滑且可逆的变换,即扩散翘曲功能。灵感来自优雅的大变形扩散度量映射LDDMM框架,最终变换由时间依赖的矢量字段的流量构建,这些传感器字段除了我们的剩余网络的构建块。后者自然被视为流程方程的欧拉离散化模式。曾经接受过培训,我们的RESET TW通过单个廉价的前进通行证对齐看不见的数据。正如我们在UCR存档和多变量时间序列MSR动作3D,佛罗伦萨3D和MSR日常活动中所示的单变量84个数据集的实验中所示,Resnet TW在联合对准和分类中实现了竞争性能。

PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in Point-Cloud Technology
Authors Mohammad Arif Ul Alam, Md Mahmudur Rahman, Jared Q Widberg
随着深度神经网络和基于计算机视觉的人类活动认可的进步,Point Cloud Data Technologies Lidar的就业,MMWAVE由于其隐私保护性而受到了很多兴趣。鉴于准确的PCD技术的高度承诺,我们通过采用高效的信号处理和新颖的机器学习技术来跟踪各个人来开发自适应多居民跟踪和HAR系统来开发.Palla,一种多居民活动识别系统。更具体地说,我们提出了基于IA Voxized特征表示的实时PCD精细调谐方法,II有效聚类DBSCAN和桦木,自适应顺序隐藏马尔可夫模型的基于多人跟踪和交叉模型的跨性能减少技术和III新颖自适应深度学习的域适应技术的改进RAR在存在数据稀缺和多样性设备,位置和人口多样性的情况下的准确性。我们通过6个参与者,IA实时PCD进行实验评估我们的框架和系统,使用三台设备3D LIDAR和79 GHz MMWAVE,II一个公开可用的3D LIDAR活动数据28参与者和III一种嵌入式硬件原型系统,该系统提供了有前途的Har表演居民96场景,多人跟踪的63种改善而不是艺术框架的状态,而不会在边缘计算设备中失去显着的系统性能。

A Latent Transformer for Disentangled and Identity-Preserving Face Editing
Authors Xu Yao, Alasdair Newson, Yann Gousseau, Pierre Hellier
高质量的面部图像编辑是电影后生产行业的一个具有挑战性的问题,需要高度的控制和身份保存。以前的作品试图解决这个问题可能遭受面部属性的纠缠和人的身份丧失。此外,许多算法仅限于某个任务。为了解决这些限制,我们建议通过样式生成器的潜在空间来编辑面部属性,通过培训专用的潜在变换网络并在丢失函数中包含显式解剖和标识保存术语。我们进一步介绍了一条管道,以概括我们的脸部编辑到视频。我们的模型实现了脱屑,可控和身份保存的面部属性编辑,即使在真实的挑战性情况下,也是如此。,非合成图像和视频。我们对图像和视频数据集进行了广泛的实验,并显示了我们的模型在视觉质量和定量评估中表明了现有技术的其他状态。

MEAL: Manifold Embedding-based Active Learning
Authors Deepthi Sreenivasaiah, Thomas Wollmann
图像分割是自主驾驶中的一个共同且具有挑战性的任务。培训数据的足够像素级别注释的可用性是障碍。主动学习通过表明最有前途的标签样本有助于学习少量数据。在这项工作中,我们提出了一种基于新的基于池的主动学习方法,该方法在每个获取步骤中提出有前途的图像区域。通过基于统一歧管近似与熵的模型表示,通过组合嵌入作为模型信息的不确定性度量来构建问题,以探索开发框架中的探索开发框架。我们将所提出的方法应用于具有挑战性的自主行驶数据集Camvid和City展示,并与现有技术进行了定量比较。我们发现,与其他方法相比,我们的主动学习方法在Camvid上实现了更好的性能,而在城市景观上,性能升降措施可以忽略不计。

HybVIO: Pushing the Limits of Real-time Visual-inertial Odometry
Authors Otto Seiskari, Pekka Rantalankila, Juho Kannala, Jerry Ylilammi, Esa Rahtu, Arno Solin
我们呈现Hybvio,一种新型混合方法,用于基于优化的基于优化的基于过滤的视觉惯性内径vio。我们的方法的核心是强大的,独立的VIO,具有改进的IMU偏置建模,异常值抑制,实体性检测和特征轨道选择,可调节到嵌入式硬件上运行。通过松散耦合的SLAM模块实现长期一致性。在学术基准测试中,我们的解决方案在所有类别中产生了出色的性能,特别是在实时使用情况,我们优于现有技术的现实状态。我们还展示了使用自定义数据集对消费级硬件对消费类硬件的车辆跟踪的可行性,并与当前的商业诉讼替代品相比,表现出良好的性能。

Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval
Authors Zhipeng Wang, Hao Wang, Jiexi Yan, Aming Wu, Cheng Deng
基于零拍摄的图例的图像检索ZS SBIR是一种新型跨模型检索任务,其中抽象草图用作检索零拍场面下的自然图像的查询。大多数现有方法将ZS SBIR视为传统的分类问题,并采用跨熵或基于三重子的损失来实现检索,这忽略了草图和自然图像之间的域间隙问题以及草图中的大型课堂多样性。为此,我们提出了一种用于ZS SBIR的新型域平滑网络DSN。具体地,提出了一种跨模型对比方法,以学习广义表示通过与额外的增强样本进行采矿关系来平滑域间差距。此外,探讨了具有草图特征的特定特定存储库,以减少草图域中的帧内多样性。广泛的实验表明,我们的方法尤其优于粗略和柏林数据集中的现有技术的状态。我们的源代码公开提供

Proposal Relation Network for Temporal Action Detection
Authors Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang
本技术报告提出了我们在AcitiatiyNet挑战中的时间作用检测任务的解决方案2021.本任务的目的是定位和识别Long Untrimmed视频中感兴趣的行为。任务的关键挑战来自于,时间的行动持续时间急剧变化,并且目标动作通常嵌入无关的活动的背景中。我们的解决方案在BMN上构建,主要包含三个步骤1动作分类和通过速度,CSN和Vivit 2提案的特征编码。我们通过嵌入拟议的提案关系网络PRN来改善BMN,我们可以通过其中产生高质量的3动作检测的建议。我们通过分配具有相应分类结果的提案来计算检测结果。最后,我们在不同设置下的结果集合并在测试集上实现44.7,这在平均地图方面将冠军队伍提高了1.9的冠军。

Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling
Authors Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Yuanjie Shao, Nong Sang
弱监督的时间行动定位WS TAL任务旨在识别和本地化未经监控视频中的行动实例的时间开始和结束,只有视频级标签监控。由于缺乏背景类别的消极样本,网络难以将前景和背景分开,导致检测性能差。在本报告中,我们展示了我们的2021 HACS挑战基于Basnet的弱监督学习轨道解决方案,以解决上述问题。具体而言,我们首先采用预训练的CSN,速度,TDN和Vivit作为特征提取器来获取特征序列。然后,我们提出的本地全局背景建模网络LGBM Net通过仅基于多实例学习MIL仅使用视频级标签培训到本地化实例。最后,我们集合了多种模型来获得最终的检测结果并在测试集上达到22.45张图

nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles
Authors Holger Caesar, Juraj Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, Sammy Omari
在这项工作中,我们提出了基于世界的第一个闭环ML的自主驾驶计划基准。虽然有一个基于ML的ML的议员持有人,但缺乏建立的数据集和指标在这一领域有限。自主车辆运动预测的现有基准专注于短期运动预测,而不是长期规划。这引用了以前的作品来使用基于L2的度量标准的开放循环评估,这不适合公平地评估长期规划。我们的基准通过引入大规模驾驶数据集,轻质闭环模拟器和运动规划特定度量来克服这些限制。我们提供高质量的数据集,拥有来自美国和亚洲的4个城市的人类驾驶数据1500h,具有广泛不同的交通模式波士顿,匹兹堡,拉斯维加斯和新加坡。我们将提供具有无功代理的闭环仿真框架,并提供一系列一般和方案特定的规划指标。我们计划在Neurips 2021发布数据集,并在2022年初开始组织基准挑战。

Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis
Authors Lorenzo Quir s, Enrique Vidal
自动识别手写文档的布局是迈向这些文件中的信息提取的重要一步。最常见的应用程序是馈送下游应用程序,例如自动文本识别和关键字发现,但是,对布局的识别还有助于建立文档中的元素之间的关系,其允许丰富可以提取的信息。大多数现代文档布局分析系统旨在仅解决文档布局问题的一部分,即基线检测或区域分割。相比之下,我们评估掩模RCNN架构以综合方式解决基线检测和区域分割问题的有效性。我们在两个手写文本数据集和一个手写音乐数据集上呈现实验结果。分析的架构产生了有希望的结果,在所有三个数据集中优于现有技术的表现优于现有技术。

DeepMesh: Differentiable Iso-Surface Extraction
Authors Benoit Guillard, Edoardo Remelli, Artem Lukoianov, Stephan Richter, Timur Bagautdinov, Pierre Baque, Pascal Fua
几何深度学习最近在持续深度隐式领域的出现时取得了惊人的进展。它们允许详细建模任意拓扑的水密曲面,同时不依赖于3D欧几里德网格,从而导致学习参数化,这些参数化在分辨率中是无限的。遗憾的是,这些方法通常不适合需要基于显式网格的表面表示的应用程序,因为将隐式字段转换为这种表示依赖于行进的立方体算法,其不能相对于底层隐式区域区分。在这项工作中,我们删除了此限制,并引入了一种可分别的方法来生成深度隐式字段的显式表面网格表示。我们的主要识别是,通过推理隐式场扰动如何影响局部表面几何形状,可以最终将表面样本的3D位置与基础深度隐式区域区分开来。我们利用这一点来定义DeepMesh End以结束可分变的网格表示,可以改变其拓扑。我们使用两个不同的应用来通过可微分渲染和物理驱动的形状优化来验证我们的理论洞察单视图3D重建。在两种情况下,我们结束到最终可分辨率参数化,给我们了解最先进的算法。

A Review of the Vision-based Approaches for Dietary Assessment
Authors Ghalib Tahir, Chu Kiong Loo
肥胖等饮食相关问题在今天的现代世界中是一个日益令人担忧的问题。如果目前的趋势持续,很可能是生活质量,通常受到显着影响,因为肥胖与其他慢性疾病如高血压,不规则血糖水平和心脏病风险的增加。这些问题的主要原因是生活方式差和不健康的饮食习惯,重点是选择少数食物群,如糖,脂肪和碳水化合物。在这方面,基于计算机的食物识别提供了自动视觉视觉的方法来评估饮食摄入并帮助人们进行更健康的选择。因此,以下论文介绍了对食品认可的视觉识别方法的简要介绍,包括他们的准确性,性能和流行食品数据库的使用来评估现有模型。该工作进一步旨在突出该领域的未来挑战。建议使用新的高质量研究,用于开发标准基准以及利用持续学习的食品认可方法。

RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video
Authors Jiayi Wang, Franziska Mueller, Florian Bernard, Suzanne Sorli, Oleksandr Sotnychenko, Neng Qian, Miguel A. Otaduy, Dan Casas, Christian Theobalt
跟踪和重建两只手中的3D姿势和几何形状是一个具有挑战性的问题,对几个人类计算机交互应用具有高相关性,包括AR VR,机器人或手语识别。现有的工作要么限制为更简单的跟踪设置,但只考虑单个手或两个空间分离的手,或依靠更少的无处不在的传感器,例如深度摄像机。相比之下,在这项工作中,我们向手中的骨骼姿势和3D表面几何形状的第一个实时方法从单个RGB相机显式考虑关闭交互。为了解决RGB数据中的固有深度歧义,我们提出了一种新的多任务CNN,其回归多个互补信息,包括分段,密集匹配到3D手模型,以及2D关键位置,以及新提出的手中的相对深度和手部间距地图。随后在生成模型拟合框架中使用这些预测,以便为双手估计3D手模型的姿势和形状参数。我们通过广泛的消融研究通过广泛的消融研究来通过实验验证我们的RGB两只手跟踪和3D重建管道的各个组成部分。此外,我们证明我们的方法先前提供了从RGB的两只手跟踪性能,并定量和定性优于现有的基于RGB的方法,这些方法没有明确设计用于两只手交互。此外,我们的方法甚至与基于深度的实时方法进行了同步。

The Hitchhiker's Guide to Prior-Shift Adaptation
Authors Tomas Sipka, Milan Sulc, Jiri Matas
在许多计算机视觉分类任务中,测试时间的类前沿通常与培训集上的前沿不同。在这种先前换档的情况下,必须相应地调整分类器以保持接近最佳性能。本文分析了对新前锋的概率分类器改编的方法,并在未标记的测试集中估算新前锋。我们提出了一种解决基于混淆矩阵的现有估计方法的已知问题的新方法,其中判定概率和混淆矩阵的不一致估计导致估计的前沿中的负值。细粒度图像分类数据集的实验提供了对先前换档估计和分类器适应的最佳实践的洞察,并且表明所提出的方法实现了现有技术的结果。将最佳做法应用于具有自然不平衡的前沿的两个任务,从网络爬网和工厂种类的分类中学习,分别增加了1.1和3.4的识别准确性。

Give Me Your Trained Model: Domain Adaptive Semantic Segmentation without Source Data
Authors Yuxi Wang, Jian Liang, Zhaoxiang Zhang
受益于从特定情况源收集的相当大的像素级别注释,训练有素的语义分段模型表现得很好,但由于大域移位而在新的情况目标中失败。为了缓解域间隙,先前的横域语义分割方法始终假设在分布对齐期间源数据和目标数据的CO存在。但是,在真实方案中访问源数据可能会引发隐私问题并违反知识产权。为了解决这个问题,我们专注于一个有趣且具有挑战性的跨域语义分割任务,其中仅向目标域提供训练的源模型,并进一步提出了一个统一的框架,称为域自适应语义分段,没有源数据DAS 3。具体地,DAS 3由三种方案组成,即特征对准,自训练和信息传播。首先,我们主要在网络输出上发出焦点熵损失,以通过提供的源模型隐式对准目标功能。其次,除了Vanilla自我训练中的正伪标签外,我们首先向场引入负面伪标签,并开发双向自我训练策略,以增强目标域中的表示学习。最后,信息传播方案通过伪半监督学习进一步减少了目标域内的域内差异。对真实和跨城市驾驶数据集的综合的广泛结果验证了DAS 3产生了最新性能的状态,即使是需要访问源数据的方法。

Self-Supervised Iterative Contextual Smoothing for Efficient Adversarial Defense against Gray- and Black-Box Attack
Authors Sungmin Cha, Naeun Ko, Youngjoon Yoo, Taesup Moon
我们提出了一种新颖且有效的输入转化基于对灰色和黑色盒子攻击的对抗性防御方法,这是计算效率,并且不需要对分类模型的任何对抗训练或再培训。首先表明,非常简单的迭代高斯平滑可以有效地洗掉对抗性噪音并实现大大高的鲁棒精度。基于观察,我们提出了自我监督的迭代语境平滑SSIC,其旨在以语境自适应方式重建从高斯平滑图像的原始辨别特征,同时仍然平滑对抗噪声。从想象中的实验,我们表明我们的SSIC为灰色和黑盒攻击达到了高标准精度和非常竞争力的鲁棒精度,例如,基于PGD攻击和基于得分的攻击。值得强调的一份值是我们的防御是没有计算昂贵的对抗性训练,但可以通过输入转换来接近其强大的准确性。

Confidence-Aware Learning for Camouflaged Object Detection
Authors Jiawei Liu, Jing Zhang, Nick Barnes
被证明的信心意识学习是一种有效的解决方案,以防止网络过度自信。我们展示了一种使用动态监控的信心识的伪装对象检测框架,以产生准确的伪装地图和有意义的信心,代表了对当前预测的模型认识。伪装的物体检测网络旨在产生我们的伪装预测。然后,我们将其与输入图像连接并馈送到置信估计网络以产生一个频道置信度图。我们为置信度估计网络产生动态监控,代表伪装预测与地面真相伪装地图的协议。通过生产的置信度图,我们将信心意识到学习与置信度图作为指导,以便更加关注损失功能中的硬低置信像素。我们声称,一旦训练,我们的置信度估计网络就可以评估预测的像素明显的准确性,而不依赖于地面真理伪装地图。四个伪装对象检测测试数据集的广泛结果说明了所提出的模型在解释伪装预测方面的优越性。

Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition
Authors Jingye Chen, Bin Li, Xiangyang Xue
由于其广泛的应用,汉字识别引起了很多研究兴趣。虽然已经研究了多年,但这条领域的一些问题尚未完全解决,例如,零射击问题。以前的基于字符和基于激进的方法没有从根本上解决零射击问题,因为测试集中的某些角色或激进术可能不会出现在饥饿状态下的数据下的训练集中。灵感来自于人类可以概括地知道如何在学习某些角色的中风命令之前知道如何编写字符,我们通过将每个字符分解为一系列笔画来提出基于行程的方法,这是中文最基本的单位人物。然而,我们观察到中风序列和汉字之间存在一个到许多关系。为了解决这一挑战,我们使用基于匹配的策略来将预测的笔划序列转换为特定字符。我们在手写字符,印刷艺术字符和场景字符上评估所提出的方法。实验结果验证了所提出的方法优于两个字符零射击和激进零拍摄任务的现有方法。此外,所提出的方法可以很容易地推广到其特征可以分解为笔触的其他语言。

Multi-layered Semantic Representation Network for Multi-label Image Classification
Authors Xiwen Qu, Hao Che, Jun Huang, Linchuan Xu, Xiao Zheng
多标签图像分类MLIC是一个基本实用的任务,旨在为图像分配多个可能的标签。近年来,已经提出了许多深度卷积神经网络CNN基于CNN的方法,其模型标签相关性以发现标签的语义并学习图像的语义表示。本文通过改善标签相关性和语义表示的学习来实现这一研究方向。一方面,除了每个标签的本地语义外,我们建议进一步探索由多个标签共享的全局语义。另一方面,现有方法主要学习CNN的最后一个卷积层的语义表示。但已经注意到,CNN不同层的图像表示捕获不同的特征或具有不同的鉴别能力。因此,我们建议在多个卷积层中学习语义表示。为此,本文设计了一种多层语义表示网络MSRN,通过建模标签相关性并利用标签语义来指导通过注意机制在多层学习的语义表示来发现标签的本地和全局语义。在包括VOC 2007,Coco,Nus宽的四个基准数据集的广泛实验表明,拟议的MSRN竞争性表现为艺术模型的竞争性能。

Part-Aware Measurement for Robust Multi-View Multi-Human 3D Pose Estimation and Tracking
Authors Hau Chu, Jia Hong Lee, Yao Chih Lee, Ching Hsien Hsu, Jia Da Li, Chu Song Chen
本文介绍了一种基于校准多视图的多人3D姿态估计和跟踪方法。即使若干人类姿势估算嘈杂,主要挑战就在于确定越野和时间对应。与以前的解决方案与来自多种视图构建3D的先前解决方案,我们的方法利用时间一致性来匹配在每个视图中使用先前构造的3D骨架估计的2D姿势。因此,同时完成横视和时间关联。由于误认为误认为和嘈杂的预测,我们设计了两个旨在更好的对应和3D重建的策略。具体地,我们提出了对2D 3D关联的部分感知测量和在重建期间可以应对2D异常值的滤波器。我们的方法与现有技术的状态有效且有效地比较它在校园内的两个基准96.8上实现了竞争结果。此外,我们扩展了校园评估帧的长度,以更具挑战性,我们的提案也达到了良好的结果。

A Comparison for Patch-level Classification of Deep Learning Methods on Transparent Images: from Convolutional Neural Networks to Visual Transformers
Authors Hechen Yang, Chen Li, Peng Zhao, Ao Chen, Xin Zhao, Marcin Grzegorzek
如今,计算机视野领域透明图像的分析逐渐成为一个热点。在本文中,我们比较不同深度学习的分类性能,以解决透明图像难以分析的问题。我们以相同的比例将透明图像裁剪为8 8和224 224像素块,然后根据地上的基于地面,将两个不同的像素贴片分成前景和背景。我们还使用4种类型的卷积神经网络和新的Vit网络模型来比较前景和背景分类实验。我们得出结论,VIT在分类8 8像素贴片中的最差可能性,但它在分类224 224中的大多数卷积神经网络中表现优于大多数卷积神经网络。

Universal Domain Adaptation in Ordinal Regression
Authors Chidlovskii Boris, Assem Sadek, Christian Wolf
我们解决了序数回归的通用领域适应UDA的问题,或者试图解决标签不独立的分类问题,而是遵循自然秩序。我们表明,在执行IN或设置的情况下,开发了用于分类和群集假设的UDA技术。我们提出了一种用辅助学习辅助任务的辅助任务的方法,该方法涉及识别公共和私有实例之间的双重作用,并通过排名将类标签扩展到私有目标图像之间。结合对抗域歧视,我们的模型能够解决封闭式集,部分和打开的集配置。我们在三个面年龄估计数据集中评估我们的方法,并表明它优于基线方法。

Creating A New Color Space utilizing PSO and FCM to Perform Skin Detection by using Neural Network and ANFIS
Authors Kobra Nazaria, Samaneh Mazaheri, Bahram Sadeghi Bigham
肤色检测是与计算机视觉相关的各种应用中的必需步骤。这些应用程序将包括面部检测,在电影和照片中寻找色情图像,寻找种族,年龄,诊断等。因此,提出适当的皮肤检测方法可以提供解决问题的解决方案。在本研究中,首先使用FCM和PSO算法创建新的色彩空间。然后,利用线性和非线性模式,在新的色彩空间中进行了皮肤分类。此外,它已经在RGB和Lab颜色空间中完成了ANFIS和神经网络。 RBG颜色空间中的皮肤检测已经使用Mahalanobis距离和欧几里德距离算法进行。相比之下,这种方法比同一数据库上最准确的方法具有18.38个更高的准确性。此外,该方法在测试Compaq数据集中的相同误差率1 eer中实现了90.05,测试了PratheeAn数据集中的92.93精度,与上一个方法在Compaq数据库上相比,1 eer增加了0.87。

SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning
Authors Sungmin Cha. Beomyoung Kim, Youngjoon Yoo, Taesup Moon
我们考虑一个类增量语义分割ciss问题。虽然一些最近提出的算法利用知识蒸馏kd技术的变体来解决这个问题,但它们仅部分地解决了CISS中的关键额外挑战,导致灾难性的遗忘I.,背景类别和多标签预测问题的语义漂移。为了更好地解决这些挑战,我们提出了一种新方法,通过仔细组合针对语义分割量身定制的多种技术,将作为SSUL M语义分段与内存未知标签称为SSUL M语义分割。更具体地说,我们在后台上课中制作了三个主要贡献1,以帮助学习未来的课程帮助可塑性,2次冻结骨干网以及二进制交叉熵损失和伪标签的分类器,以克服灾难性的遗忘帮助稳定,3利用微小示例存储器在CISS中首次提高可塑性和稳定性。因此,我们显示了我们的方法比标准基准数据集上最近的最近最近的最近最近的最新状态的性能更好。此外,与彻底和广泛的消融分析,我们为我们的贡献提供了良好的,并与分类的标准类增量学习相比,讨论了CISS问题的不同自然。

Hand-Drawn Electrical Circuit Recognition using Object Detection and Node Recognition
Authors Rachala Rohith Reddy, Mahesh Raveendranatha Panicker
随着神经网络的最新进展,在手拉电路中自动产生模拟就绪电子电路的算法中存在复兴。然而,文献中的大多数方法被局限于分类不同类型的电气组件,并且只有少数这些方法已经示出了从扫描图像重建电路示意图的方法,这对于进一步的网表生成自动化非常重要。本文提出了一种基于对象检测和电路节点识别自动识别手绘电路的实时算法。该拟议的方法采用您只看一次版本5 YOLOV5,用于检测电路组件和基于新的Hough基于Hough变换的节点识别方法。使用YOLOV5对象检测算法,在检测组件时实现了98.2的平均平均精度MAP0.5。所提出的方法还能够以80精度重建电路示意图。

Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach
Authors Hyolim Kang, Jinwoo Kim, Kyungmin Kim, Taehyun Kim, Seon Joo Kim
通用事件边界检测GEBD是一种新介绍的任务,旨在检测与自然人感知相对应的一般事件边界。在本文中,我们介绍了一种新的基于对比的学习方法来处理Gebd。我们的直觉是视频片段的特征相似性在事件边界附近会显着变化,同时在视频的剩余部分中保持相对相同。在我们的模型中,时间自相似矩阵TSM用作中间表示,该中间表示是作为信息瓶颈的角色。通过我们的模型,与给定的基线相比,我们实现了显着的性能提升。我们的代码可供选择

DocFormer: End-to-End Transformer for Document Understanding
Authors Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha
我们为Docomfer提供了一种基于多模态变压器的基于模式,用于了解VDU的视觉文档的任务。 VDU是一个具有挑战性的问题,旨在以其不同的格式,收据等和布局来理解文档。此外,Docomformer使用精心设计的任务以无监督的方式预先培训,这促进了多模态交互。 Docomformer使用文本,视觉和空间功能,并使用新型多模态自我注意层结合它们。 Docomformer还共享跨多种方式的学习空间嵌入式,这使得模型可以轻松地将文本与Visual Tokens相关联,反之亦然。 Docomformer在4个不同的数据集中评估,每个数据集都有强基线。 Docomformer在所有这些中实现了最新的结果,有时会跳动模型4X其尺寸。参数。

Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies from Single RGB Images
Authors Liguo Jiang, Miaopeng Li, Jianjie Zhang, Congyi Wang, Juntao Ye, Xinguo Liu, Jinxiang Chai
我们介绍一种方法,即在实时从单个图像中准确地重建3D人类姿势和详细的3D全身几何模型。我们的方法的关键思想是一个新的结束到结束多任务深度学习框架,它使用单个图像来预测五个输出同时前景分割掩模,2D关节位置,语义身体分区,3D部分方向和UV坐标UV地图。多任务网络架构不仅为重建产生了更多的视觉提示,而且还使每个单独的预测更准确。 CNN回归通量进一步与基于优化的精确运动姿势重建和全身形状建模的算法相结合。我们表明实时重建达到了之前未看到的准确拟合,特别是对于野生图像。我们展示了我们实时3D姿势和人体重建系统在野外视频中的各种具有挑战性的结果。我们显示系统通过定量评估和与现有方法的定量评估和比较来推进3D人体的前沿和从单幅图像的姿态重建。

Unsupervised Embedding Adaptation via Early-Stage Feature Reconstruction for Few-Shot Classification
Authors Dong Hoon Lee, Sae Young Chung
我们向下游提出了无人监督的嵌入适应性。基于调查结果,深神经网络在记忆之前学会概括,我们开发早期特征重建ESFR一种具有特征重建的新型适应方案,并且重度驱动的早期停止,从而寻找更广泛的特征。结合ESFR一致地提高了基线方法对所有标准设置的性能,包括最近提出的转换方法。 ESFR与转换方法结合使用,进一步实现了迷你成像,分层的Imagenet和Cub上的最新性能,特别是在1次拍摄设置上以先前的最佳执行方法提高了1.2 2.0的准确性。

Spatial-Temporal Super-Resolution of Satellite Imagery via Conditional Pixel Synthesis
Authors Yutong He, Dingjie Wang, Nicholas Lai, William Zhang, Chenlin Meng, Marshall Burke, David B. Lobell, Stefano Ermon
高分辨率卫星图像已证明可用于广泛的任务,包括衡量全球人口,当地经济生计和生物多样性,其中许多其他任务。不幸的是,高分辨率图像既不经常收集,购买昂贵,难以高效,有效地缩放这些下游任务在两次和空间。我们提出了一种新的条件像素综合模型,使用丰富,低成本,低分辨率图像,在位置和时间内产生准确的高分辨率图像。我们表明我们的模型达到了照片现实样本质量和优于竞争基线的竞争对手的基线,特别是在地面上的条件迅速变化的地理位置中。

Wallpaper Texture Generation and Style Transfer Based on Multi-label Semantics
Authors Ying Gao, Xiaohan Feng, Tiange Zhang, Eric Rigall, Huiyu Zhou, Lin Qi, Junyu Dong
纹理包含丰富的图像信息,广泛用于计算机图形和计算机视觉等各种领域。随着机器学习的发展,纹理综合和一代得到了大大提高。作为日常生活中的一个非常共同的元素,壁纸包含丰富的纹理信息,使得难以用简单的单一标签注释。此外,壁纸设计人员花了很多时间来创造不同风格的壁纸。为此目的,本文通过使用多标签语义来描述壁纸纹理图像。基于这些标签和生成的对抗性网络,我们为感知驱动的壁纸纹理生成和风格转移提供了一个框架。在该框架中,训练了感知模型,以识别由发电机网络产生的壁纸是否是足够逼真的并且具有给定感知的属性描述这些多标签语义属性被视为生成壁纸图像的条件变量。生成的壁纸图像可以转换为使用Corpergan具有众所周知的艺术家风格的壁纸图像。最后,使用美学评估方法,定量测量所生成的壁纸图像。实验结果表明,所提出的方法可以产生符合人类美学的壁纸纹理,具有艺术特征。

SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for Day-Night Place Recognition
Authors Sourav Garg, Michael Milford
地点识别是移动机器人本地化和导航的关键能力。基于图像或视觉地位识别VPR是一个具有挑战性的问题,因为场景外观和摄像机观点可以在重新求地的地方显着变化。与传统序列分数聚集或单图像基础技术相比,基于顺序表示的最近的VPR方法已经显示了有希望的结果。与这些努力平行,在基于深度学习的点云处理的进步之后,基于3D点云的地方识别也正在探讨。然而,一个关键问题仍然是基于显式的3D结构的位置表示总是优于基于RGB图像序列的隐式空间表示,其可以固有地学习场景结构。在这种扩展的摘要中,我们尝试通过考虑类似的公制范围来比较这两种类型的方法来表示位置。我们将3D点云的方法PointVlad与基于图像序列的方法SEQNET等,并展示了基于图像序列的技术方法,甚至可以超越通过基于点云的方法来实现给定度量标准的方法。这些性能变化可以归因于输入传感器的数据丰富度的差异以及移动机器人的数据累积策略。虽然对苹果对比的完美苹果可能不可行,但对于这两个不同的方式可能是可行的,而所呈现的比较朝着回答空间表示的更深层次问题的方向迈出了阶段,与自动驾驶和增强虚拟现实等若干应用相关。源代码可公开可用

VoxelEmbed: 3D Instance Segmentation and Tracking with Voxel Embedding based Deep Learning
Authors Mengyang Zhao, Quan Liu, Aadarsh Jha, Ruining Deng, Tianyuan Yao, Anita Mahadevan Jansen, Matthew J.Tyska, Bryan A. Millis, Yuankai Huo
生物成像的最新进展为科学家提供了优异的高空间时间分辨率,以观察活细胞的动态作为3D体积视频。不幸的是,3D生物医学视频分析滞后,通过废弃架3D分析工具通过资源不敏感人类策施来阻碍。这里,生物学家通常需要通过通过最大强度投影损害2D分析来丢弃相当多的富3D空间信息。最近,基于像素的单元实例分段和跟踪为理解蜂窝动态提供了一种简洁和最概括的计算范例。在这项工作中,我们提出了一种新的基于VoxeLembed的学习方法的新型空间颞型体素,以执行3D容量视频序列的同时细胞实例分段和跟踪。我们的贡献是四倍折叠1,所提出的体素嵌入呈现与3D上下文信息2的像素嵌入呈现一个简单的多流学习方法,其允许有效的空间时间嵌入3完成一个阶段3D小区实例分段的结束到结束框架,而无需重型参数调谐4所提出的3D量化是通过具有12 GB内存的单个GPU的存储器高效。我们在具有来自ISBI单元跟踪挑战的不同小区类型的四个3D数据集中评估我们的VoxeLembed方法。所提出的VoxeLembed方法在两个密集的注释数据集中实现了一致的优势整体性能OP。性能在两个稀疏的注释队列中也具有竞争力,其中有20.6和2个具有分段注释的数据集。结果表明,VOXELEMBED方法是更广泛和记忆有效的解决方案。

An Alternative Auxiliary Task for Enhancing Image Classification
Authors Chen Liu
图像重建可能是图像分类最主要的辅助任务。在本文中,我们调查估计输入图像的傅里叶变换作为潜在的替代辅助任务,希望它可以进一步提高主要任务上的性能,或者在图像重建中引入新的约束不适合覆盖的新颖限制。我们在CIFAR 10数据集上尝试了五个流行的分类架构,并且经验结果表明我们所提出的辅助任务通常会提高分类准确性。更值得注意的是,结果表明,在某些情况下,我们所提出的辅助任务可以增强使用快速梯度符号方法产生的对抗对抗攻击的抗性。

Multimodal trajectory forecasting based on discrete heat map
Authors Jingni Yuan, Jianyun Xu, Yushi Zhu
在协会运动预测竞争中,任务是预测交通场景中感兴趣目标的概率未来轨迹分布。我们使用Vectorized Lane Map和2 S目标历史轨迹作为输入。然后,模型输出6个预测轨迹,每个目标概率。

Gait analysis with curvature maps: A simulation study
Authors Khac Chinh Tran, Marc Daniel, Jean Meunier
步态分析是检测神经系统和肌肉骨骼疾病并评估患者全球健康的临床调查的一个重要方面。在本文中,我们建议将我们的注意力集中在从深度相机提供的体表中提取相关的曲率信息。我们假设3D网格在前一步中可用,并证明了曲率图谱有用,以评估具有两个简单模拟异常Gaits的非对称异常,与正常的曲线相比。这项研究设定了对医疗专业人士的基于曲率的步态分析系统的未来发展的理由。

Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement
Authors Huiwen Luo, Koki Nagano, Han Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li
我们介绍了一种基于GAN的高度强大的GaN框架,用于从单个无约束照片数字化一个人的标准化3D头像。虽然输入图像可以是微笑的人或在极端照明条件下拍摄,但我们的方法可以可靠地在漫反射条件下在中性表达和皮肤纹理中可靠地产生一个人脸的高质量纹理模型。切削刃3D面部重建方法使用非线性可线性面部模型与GaN基解码器相结合捕获一个人的相似性和细节,但未能产生中性的头部模型,没有含有未幻想的反照纹理,这对于创造可致力于和动画友好的头像来说至关重要虚拟环境。现有工作方法的关键挑战是缺乏包含标准化3D面的培训和地面真理数据。我们提出了一种解决这个问题的两级方法来解决这个问题。首先,我们通过将非线性可线性面部模型嵌入样式创器2网络来采用高强度稳定的标准化3D面部发生器。这使我们能够生成详细但规范化的面部资产。然后,此推断后跟一个感知的细化步骤,该步骤使用所生成的资产作为正规化,以应对标准化面的有限可用培训样本。我们进一步引入了一个标准化的面部数据集,它包括组合摄影测量扫描,精心挑选的照片,并在漫射照明条件下产生中性表达的假人。虽然我们准备的数据集包含了比基于切削刃GaN的3D面部重建方法更少的次数,但我们表明可以为非常具有挑战性的无约束输入图像产生高质量的标准化面部模型,并对当前状态展示出色的性能艺术。

MODETR: Moving Object Detection with Transformers
Authors Eslam Mohamed, Ahmad El Sallab
移动物体检测MOD是自动驾驶管道的重要任务。 MOD通常通过2个流卷积架构处理,该架构包含外观和运动提示,而不考虑空间或运动功能之间的帧间关系。在本文中,我们通过在空间和运动流跨越多头注意机制来解决这个问题。我们提出了模块,包括用于空间和运动模态的多流变换器编码器的移动对象检测变压器网络,以及使用设定预测产生移动物体边界框的对象变压器解码器。整个架构训练结束结束,使用BI段丢失结束。探索用变压器模型结合运动提示的几种方法,包括两个流RGB和方法的光学流量,以及利用序列信息的多流架构。为了结合时间信息,我们提出了一种新的时间位置编码TPE方法来扩展DETR中的空间位置编码SPE。我们探索了两个建筑选择,平衡了速度和时间之间。为了评估我们的网络,我们在Kitti Mod 6数据集上执行Mod任务。结果显示了最重要的5张用于MOD的变压器网络的MOD技术。此外,所提出的TPE编码提供了通过SPE基线提供10个地图改进。

Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object Detection and Segmentation
Authors Eslam Mohamed, Ahmed El Sallab
移动物体对自动驾驶任务具有特别重要性。通过为移动目标产生边界框来分割对象像素或移动对象检测,检测移动对象可以作为移动对象分割。在本文中,我们介绍了一种基于变压器的多任务学习体系结构,通过一个网络共同执行两个任务。由于动作功能对任务的重要性,整个设置基于时空时间聚合。我们评估各个任务架构与MTL设置的性能,都使用早期共享编码器和迟到的共享编码器解码器变压器。对于后者,我们介绍了一个新颖的联合任务查询解码器变压器,使我们能够从共享模型中专用题头进行任务。为了评估我们的方法,我们使用Kitti Mod 29数据集。结果Show1.5移动物体检测的地图改进,以及各个任务网络的移动对象分割的IOU改进。

Mapping Slums with Medium Resolution Satellite Imagery: a Comparative Analysis of Multi-Spectral Data and Grey-level Co-occurrence Matrix Techniques
Authors Agatha C. H. de Mattos, Gavin McArdle, Michela Bertolotto
联合国人居署估计,超过10亿人生活在全球贫民窟。然而,用于检测贫民窟区域的位置的最先进的技术采用高分辨率卫星图像,其昂贵地获得和处理。因此,研究人员已经开始使用自由和开放的访问媒体分辨率图像。然而,没有明确的共识,其中数据准备和机器学习方法是与此类图像数据一起使用的最合适的。在本文中,我们评估了由标记的Sentinel 2图像组成的开放式访问数据集上的两种技术多谱数据和灰度Co发生矩阵特征提取,其空间分辨率为10米。这两种技术都与规范相关森林分类器配对。结果表明,灰度级CO发生矩阵比所有四个城市的多频谱数据更好。它为97的贫民窟等级的平均精度和94的联盟的平均交叉点,而多光谱数据具有75和64的各个度量。这些结果表明,具有至少10米的分辨率的开放式卫星图像可以适合于跟踪发展目标,例如在城市中检测贫民窟。

BEyond observation: an approach for ObjectNav
Authors Daniel V. Ruiz, Eduardo Todt
随着自动化的兴起,无人驾驶车辆成为商业产品的热门话题,作为科学研究主题。它构成了一个多学科领域的机器人,包括嵌入式系统,控制理论,路径规划,同时定位和映射SLAM,场景重建和模式识别。在这项工作中,我们展示了对传感器数据融合和最先进的机器学习算法的探索性研究可以执行称为视觉语义导航的体现人工智能E AI任务。此任务,A.K.A对象目标导航objectNav由自主导航使用自主视觉观察,在没有事先知识的情况下,使用Enocentric的视觉观测到达属于目标语义类的对象。我们的方法达到了栖息地挑战2021 Objectnav的第四位,在牧场相和试验标准阶段。

Photozilla: A Large-Scale Photography Dataset and Visual Embedding for 20 Photography Styles
Authors Trisha Singhal, Junhua Liu, Lucienne T. M. Blessing, Kwan Hui Lim
社交媒体平台的出现是一种开发数字摄影的催化剂,可以在视觉应用中发出繁荣。通过这种动机,我们介绍了一个被称为photozilla的大规模数据集,其中包括超过10个不同的摄影风格的990k图像。然后,数据集用于培训3个分类模型,以自动将图像分类为相关的样式,从而精确为96。随着数码摄影的快速演变,我们已经看到了以指数率的速度出现的新型摄影风格。在该帐户上,我们介绍了一种基于暹罗的新型网络,该网络使用训练有素的分类模型作为基础架构,以便仅用25个训练样本进行调整和分类看不见的样式。我们报告了68多种以确定其他10种不同类型的摄影风格的准确性。可以找到此数据集

FDeblur-GAN: Fingerprint Deblurring using Generative Adversarial Network
Authors Amol S. Joshi, Ali Dabouei, Jeremy Dawson, Nasser M. Nasrabadi
在使用从犯罪场景中获取的指纹图像,移动摄像机或低质量传感器时,自动识别系统变得困难,以验证由于图像模糊和失真引起的身份。我们提出了一种指纹去孔模型Fdeblur GaN,基于条件生成的对抗网络CGANS和堆GAN的多阶段框架。此外,我们将两个辅助子网络集成到模型中,以获取去掩盖任务。第一子网络是脊柱提取器模型。添加以生成脊地图,以确保在去孔过程中保留指纹信息和细节并防止模型产生错误的细节。第二子网络是验证者,其可帮助发电机在生成过程中保留ID信息。使用模糊指纹和相应的脊地图的数据库,深网络学会从输入模糊样品中去布勒。我们与两种不同的指纹匹配算法组合评估所提出的方法。我们在指纹数据库上实现了95.18的准确性,以便为匹配去误坏和地面真相指纹的任务。

GAIA: A Transfer Learning System of Object Detection that Fits Your Needs
Authors Xingyuan Bu, Junran Peng, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang
通过对大规模数据集进行预培训的转移学习在最近在计算机视觉和自然语言处理中发挥了越来越重要的作用。然而,由于存在具有特殊需求的许多应用方案,例如某些延迟约束和专业数据分布,因此对每个任务要求利用大规模预训练是非常昂贵的。在本文中,我们专注于物体检测领域,并呈现名为Gaia的转移学习系统,这可以根据异构下游需求自动和有效地分娩定制解决方案。盖亚能够提供强大的预训练权重,选择符合下游需求的模型,例如延迟约束和指定的数据域,以及为其任务的数量不足的从业者收集相关数据。与盖亚,我们在Coco,Objects365,Open Images,Caltech,Citypersons和Uodb上达到了有希望的结果,该网站集是一个数据集,包括基蒂,VOC,Wigerface,DotA,Clipart,Comic等等。以可可为例,盖亚能够有效地生产覆盖从16毫秒到53ms的广泛延迟的模型,并在没有口哨和钟声的情况下将AP从38.2到46.5产生。为了使每个从业者受益于对象检测社区,盖亚被释放

Understanding top-down attention using task-oriented ablation design
Authors Freddie Bickford Smith, Brett D Roads, Xiaoliang Luo, Bradley C Love
最高注意力允许神经网络,人为和生物学,专注于对给定任务最相关的信息。众所周知,这提高了视觉感知的性能。但仍然尚不清楚注意力带来其感知提升的关注,特别是在涉及到识别日常场景中的物体等自然的环境中。视觉任务的哪些方面确实有人注意到处理我们的目标是通过基于一般框架的计算实验来回答这一点,这些计算实验是一般的框架,称为任务导向的消融设计。首先,我们定义了广泛的视觉任务,并确定了六个因素,该因素是任务变异性。然后在每项任务上,我们比较两个神经网络的性能,一个具有顶级注意力和一个没有。这些比较揭示了注意力令人感知升压的任务依赖,了解对角色扮演的思考。虽然许多现有的认知帐户链接对刺激水平变量的关注,如可视杂乱和对象量表,我们在系统级变量中找到了更大的解释性,从而捕获模型之间的交互,培训数据的分布和任务格式。这一发现表明,研究了如何研究的转变可能是富有成效的。我们公开提供我们的代码和结果,以及与超出此超出此基于Imagenet的实验相关的统计数据。我们的贡献为支持更多人类等视觉模型和更具信息丰富的机器学习实验的设计。

On the importance of cross-task features for class-incremental learning
Authors Albin Soutif Cormerais, Marc Masana, Joost Van de Weijer, Bart omiej Twardowski
在课堂增量学习中,资源有限的代理需要学习一系列分类任务,形成一个不断增长的分类问题,而不是能够从先前任务中访问数据的约束。任务增量学习的主要区别在于,任务ID可在推理时间可用,是学习者还需要执行跨任务判别,即区分尚未见到的类。解决此问题的方法很多,大多数利用不可忽略的尺寸的外部存储器缓冲。在本文中,我们会消除跨任务特征的学习,研究其对IL类基本重播策略性能的影响。我们还定义了课堂增量学习的新遗忘措施,并看看遗忘不是低性能的主要原因。我们的实验结果表明,未来的阶级增量学习算法不仅应该防止遗忘,而且旨在提高跨任务功能的质量。当每项任务的类别很小时,这尤其重要。

Data Augmentation for Opcode Sequence Based Malware Detection
Authors Niall McLaughlin, Jesus Martinez del Rincon
数据增强已成功用于深度学习的许多领域,以显着提高模型性能。通常,数据增强模拟数据的现实变化,以便增加训练集的表观多样性。但是,对于基于操作码的恶意软件分析,在深度学习方法已经实现了最先进的状态性能,它不会立即清楚如何应用数据增强。在本文中,我们使用固定变换的基本方法研究不同的数据增强方法,并转移到适应数据的方法。我们提出了一种基于网络内的操作码嵌入层的新型数据增强方法及其对应的操作码嵌入矩阵,以在训练期间执行自适应数据增强。据我们所知,这是第一篇关于对应用于操作码序列的恶意软件分类的不同增强方法进行系统研究。

Improving Ultrasound Tongue Image Reconstruction from Lip Images Using Self-supervised Learning and Attention Mechanism
Authors Haiyang Liu, Jihan Zhang
语音生产是一种动态程序,涉及包括舌头,下巴和嘴唇的多人器官。建模声带变形的动态是了解演讲的根本问题,这是人类日常沟通的最常见方式。研究人员采用了几个感官流来同时描述该过程,其与其他流无可争议地统计学。在本文中,考虑到嘴唇的可观察图像序列,我们解决了以下问题,我们可以描绘相应的舌动作。我们将这个问题作为自我监督的学习问题,并采用了两条流卷积网络和长短的短记忆网络的学习任务,具有注意机制。我们通过利用未标记的唇镜视频来评估所提出的方法来预测即将到来的超声舌片图像序列。结果表明,我们的模型能够生成靠近真实超声舌片图像的图像,并导致两个成像模式之间的匹配。

A Stealthy and Robust Fingerprinting Scheme for Generative Models
Authors Li Guanlin, Guo Shangwei, Wang Run, Xu Guowen, Zhang Tianwei
本文提出了一种新颖的指纹识别方法,用于生成模型的知识产权保护。用于判别模型的先前解决方案通常采用对抗示例作为指纹,其产生异常推理行为和预测结果。因此,这些方法并不隐蔽,可以通过对手容易地识别。我们的方法利用了不可见的后门技术来克服上述限制。具体而言,我们设计验证样本,其模型输出看起来正常,但可以触发后门分类器以进行异常预测。我们提出了一种新的后门嵌入方法,具有独特的三重损失和细粒度分类,以提高指纹的有效性。广泛的评估表明,该解决方案可以优于各种GAN模型的鲁棒性,唯一性和隐私性的其他策略。

Analysis and Tuning of a Voice Assistant System for Dysfluent Speech
Authors Vikramjit Mitra, Zifang Huang, Colin Lea, Lauren Tooley, Sarah Wu, Darren Botten, Ashwini Palekar, Shrinath Thelapurath, Panayiotis Georgiou, Sachin Kajarekar, Jefferey Bigham
语音发音的功能困难和变化可能会严重降低语音识别性能,对于许多具有中等至严重语音障碍的人,语音操作系统不起作用。当前的语音识别系统主要接受来自流利扬声器的数据,因此,由于声音或单词重复,声音延长或可听块,因此不会概括与疑难解比的语音。这项工作的重点是对消费者语音识别制度的定量分析,这些人的口吃和生产导向方法提高普通语音助理任务的性能,即天气。在基线时,该系统引入了大量的插入和替换误差,导致预期的语音字错误率为13.64对具有流畅性障碍的个体的绝对差。我们认为,通过简单地调整现有的混合语音识别系统中的解码参数,可以通过流畅性障碍的个人的相对于个人来改进ISWER。调整这些参数转换为3.6更好的域识别和1.7相对于所有口吃狭窄的18个研究参与者的默认设置更好的识别识别。

Trinity: A No-Code AI platform for complex spatial datasets
Authors C.V.Krishnakumar Iyer, Feili Hou, Henry Wang, Yonghong Wang, Kay Oh, Swetava Ganguli, Vipul Pandey
我们展示了一个没有代码人工智能AI平台,称为三位一体,主要设计目标是使机器学习研究人员和非技术性地理空间域专家能够以自己的方式进行实验,以便自己独立地解决各种复杂问题的数据集。通过转换复杂的时空时间数据集来实现这种多种问题,以使复杂的Spatio时间数据集更换,使其通过标准深度学习模型来消耗,在这种情况下,卷积神经网络CNNS,并赋予标准方式以标准方式制定不同问题的能力,例如。语义细分。使用直观的用户界面,一个托管复杂功能工程的衍生物,深度学习内核和可扩展数据处理机制的功能存储,Trinity为域专家提供了一个强大的平台,以与科学家和工程师分享舞台,在解决业务关键问题方面。它可以通过标准化模型建筑和部署来快速原型设计,快速实验,并减少生产的时间。在本文中,我们展示了三位一体的动机及其设计以及展示样本应用来激励降低棒的想法以使用AI。

MIMIR: Deep Regression for Automated Analysis of UK Biobank Body MRI
Authors Taro Langner, Andr s Mart nez Mora, Robin Strand, H kan Ahlstr m, Joel Kullberg
英国Biobank Ukb正在进行大规模研究超过500万志愿者,收集有关遗传学,生活方式,血液生物化学等卫生相关信息。医疗成像还针对100,000个科目,70,000个后续会话,使器官,肌肉和身体组成的测量。最高可达170,000个安装MR图像,因此各种方法相应地从事大规模图像分析。这项工作提出了一种实验推理引擎,可以自动预测来自UKB颈部的主体元数据的综合型材,以膝关节MRI。在交叉验证中,它准确推断出年龄,身高,体重和性等基线特征,也是DXA,器官体积和抽象性能的模拟体组成的测量,如握力,脉搏率,2型糖尿病状态AUC 0.866 。建议的系统可以在小时内自动分析数千个科目并提供个人置信区间。基础方法基于用于MRI数据的二维表示的基于图像的卷积神经网络。这项工作旨在使拟议的系统免费提供给研究人员,他们可以使用它在发布新英国Biobank图像数据后立即获得72种不同的测量的快速和全自动估算。

A Survey on Human-aware Robot Navigation
Authors Ronja M ller, Antonino Furnari, Sebastiano Battiato, Aki H rm , Giovanni Maria Farinella
智能系统越来越多的日常生活中的一部分,并且已经无缝地整合到难以想象没有它们的世界。另一方面,这些系统的物理表现为迄今为止仅用于特定应用,并且通常仅限于功能角色而仅使用。在行业,娱乐和军事领域。鉴于研究社区的当前增长和创新有关机器人导航的主题,人体机器人互动和人类活动认可,似乎这可能很快就会发生变化。机器人越来越容易获得和使用,一般来说,它们的接受程度正在增长。然而,可以作为伴侣作用的社会兼容机器人的设计需要考虑各种研究领域。本文涉及社会兼容机器人的导航方面,并为相关研究领域的现有解决方案提供了调查,以及可能的未来方向的展望。

Learning-Based Practical Light Field Image Compression Using A Disparity-Aware Model
Authors Mohana Singh, Renu M. Rameshan
光场技术越来越多地引起了研究界的注意力与许多可能的应用。商业集水摄像机中的透镜阵列有助于在单个曝光中捕获光线的空间和角度信息。虽然明亮场数据的高度维度实现了其优越的能力,但它也会阻碍其广泛的采用。因此,有一种令人信服的需要高效地压缩光场图像。现有解决方案通常由几个单独的模块组成,其中一些模块可能没有设计用于光场数据的特定结构和质量。这增加了编解码器的复杂性并导致不切实际的解码运行时间。我们提出了一种基于新的学习,视差辅助模型,用于压缩能够并行解码的4D光场图像。该模型结束于最终培训,消除了手部调节单独模块并允许联合学习速率和失真。差异辅助方法确保了重建光场的结构完整性。与最新技术的比较显示PSNR和SSIM指标方面的令人鼓舞的表现。此外,编码和解码运行时存在值得注意的增益。源代码可用

Differentiable Architecture Search Without Training Nor Labels: A Pruning Perspective
Authors Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Wei Huang, Gholamreza Haffari
通过利用重量共享和连续放松来使梯度下降能够通过双级优化范例来交替地优化超优化超值权重和架构参数,由于其简单和效率,纺织可分辨率架构搜索飞镖已成为神经结构中的主流方法。 。然而,最近的作品发现,搜索架构的性能几乎没有随着飞镖的优化程序而增加。此外,几个并发作品表明,NAS可以在没有标签的情况下找到更多的竞争架构。上述观察结果表明,飞镖中的监督信号可能是架构优化的指标,鼓励一个基本问题而不是使用监督信号执行双级优化,我们可以在没有任何培训的情况下找到高质量的架构TextBF,我们提供通过在初始化问题中定制NAS作为网络修剪的肯定答案。通过利用初始化网络修剪的最新技术,我们设计了一个Freeflow代理,可在没有任何培训和标签的情况下进行候选人操作的重要性,并提出了一种名为Texit培训的新框架,并相应地标记免费神经结构搜索TextBF Freenas。我们展示了,没有任何培训和标签,具有拟议的Freeflow代理的Freenas可以优于大多数NAS基线。更重要的是,我们的框架非常有效,其分别在单个GPU上仅完成了架构搜索,分别为NAS替补脚201和飞镖搜索空间。我们希望我们的工作激励从初始化修剪的角度来解决NAS的更多尝试。

Kernel Clustering with Sigmoid-based Regularization for Efficient Segmentation of Sequential Data
Authors Tung Doan, Atsuhiro Takasu
内核分割旨在将数据序列划分为几个可能具有非线性和复杂结构的非重叠段。通常,它被配制为具有组合限制的离散优化问题。一种最佳解决此问题的流行算法是动态编程DP,其具有二次计算和内存要求。鉴于实践中的序列太长,该算法不是一种实用的方法。虽然已经提出了许多启发式算法来近似最佳分割,但它们无法保证其解决方案的质量。在本文中,我们采取可分散的方法来缓解上述问题。首先,我们介绍了基于新的SIGMOID正规化,以平稳地近似于组合限制。将其与平衡内核聚类的目标相结合,我们制定了与基于SIGMOID的正则化KCSR称为核心聚类的可分散模型,其中可以利用基于梯度的算法来获得最佳分割。其次,我们开发了拟议模型的随机变体。通过使用具有更低时间和空间复杂性的随机梯度下降算法,用于优化,第二模型可以在重叠数据序列上执行分段。最后,为了同时分割多个数据序列,我们略微修改基于Sigmoid的正则化,以进一步引入所提出的模型的扩展变体。通过对各种类型的数据序列的大量实验,我们的模型的性能进行评估,并与现有方法进行比较。实验结果验证了所提出的模型的优势。我们的MATLAB源代码可在GitHub上获得。

Recent Deep Semi-supervised Learning Approaches and Related Works
Authors Gyeongho Kim
这项工作的作者提出了最近的半监督学习方法和相关工程的概述。尽管神经网络在各种应用中取得了显着成功,但存在很少的强大约束,包括需要大量标记的数据。因此,半监督学习,这是一种学习方案,其中利用稀缺标签和更大量的未标记数据来训练模型,例如,深度神经网络变得更加重要。基于半监督学习的关键假设,这是歧管假设,集群假设和连续性假设,工作审查了最近的半监督学习方法。特别地,主要讨论了在半监督学习设置中使用深神经网络的方法。此外,现有的作品首先基于潜在的想法和解释,然后详细说明了统一上述思想的整体方法。

SA-LOAM: Semantic-aided LiDAR SLAM with Loop Closure
Authors Lin Li, Xin Kong, Xiangrui Zhao, Wanlong Li, Feng Wen, Hongbo Zhang, Yong Liu
基于LIDAR的SLAM系统允许比其他更准确且稳定,而其环路闭合检测仍然是一个开放的问题。随着点云的3D语义分割的开发,可以方便地获得语义信息,对高级智能和导电才能获得。在本文中,我们提出了一种新颖的语义辅助激光雷达,基于LoAM的Loop闭合,名为SA Loam,它利用了内径测量的语义以及环路闭合检测。具体地,我们提出了一个语义辅助ICP,包括语义匹配,下采样和平面约束,并在我们的环路闭合检测模块中集成了基于语义图的位置识别方法。从语义中受益,我们可以提高本地化准确性,有效地检测回路闭环,即使在大规模场景中也可以构建全局一致的语义地图。关于基提和福特校园数据集的广泛实验表明,我们的系统显着提高了基线性能,具有解读数据的泛化能力,与最先进的方法相比,实现了竞争力。

Encoder-Decoder Architectures for Clinically Relevant Coronary Artery Segmentation
Authors Jo o Louren o Silva, Miguel Nobre Menezes, Tiago Rodrigues, Beatriz Silva, Fausto J. Pinto, Arlindo L. Oliveira
冠状动脉X射线血管造影是针对冠状动脉疾病的诊断和治疗的关键临床手术,每年占全球死亡的大约16个。然而,在这些过程中获得的图像具有低分辨率和对比度差,使病变检测和评估具有挑战性。准确的冠状动脉细分不仅有助于减轻这些问题,而且还允许通过定量方法提取相关解剖学特征以进一步分析。尽管之前提出了冠状动脉的自动分割,但之前的方法使用了非最佳分割标准,但导致效果不太有用。大多数方法只要分段为主要船只,丢弃剩余的重要信息,或基本地丢弃整个冠状动脉树,主要是对造影信息,产生嘈杂的输出,包括与诊断不相关的船只。我们根据其临床相关性采用更好的临床标准和分段船只。另外,我们同时执行导管分割,这对于由于由导管的已知直径提供的刻度因子而言,这可能是诊断,并且是尚未以良好的结果执行的任务。为了获得最佳方法,我们对编码器解码器架构进行了广泛的比较研究,培训了焦点损失的组合和广义骰子损失的变体。基于有效网络和UNET架构,我们提出了一系列高效和高性能的分割模型,使用新的解码器架构,有效的保险,其最佳性能的版本分别为动脉和导管级别实现了0.8904和0.7526的平均骰子得分,平均广义骰子得分为0.9234。

Incremental Deep Neural Network Learning using Classification Confidence Thresholding
Authors Justin Leo, Jugal Kalita
大多数现代的分类神经网络都无法考虑未知的概念。训练有素的神经网络通常在不现实的场景中测试,只有来自一组已封闭的已知类别的示例。在尝试开发更现实的模型中,介绍了在开放式环境中工作的概念。这反过来导致增量学习的概念,其中一个具有自己的架构和初始训练的数据集的模型可以在测试阶段期间识别未知的类,并且如果检测到新类的证据,则自动更新本身。在增量学习中出现的一些问题是低效使用资源来重复恢复分类器,随着时间的推移,随着多个类添加分类准确性的降低。根据需要多次,将该过程实例化新类的过程累计错误。为了解决这些问题,本文提出了归属神经网络的分类信心阈值方法,以便通过限制遗忘来保持高精度。瘦方法还用于减少用于检索神经网络的资源。所提出的方法基于该想法,即使在接触到与新类相关联的有限数量的样本时,网络也能够逐步学习新类。该方法可以应用于大多数现有的神经网络,对网络架构的最小变化。

BiAdam: Fast Adaptive Bilevel Optimization Methods
Authors Feihu Huang, Heng Huang
由于其许多应用,彼此最近吸引了对机器学习的兴趣增加,如超参数优化和策略优化。虽然最近已经提出了一些方法来解决双脚问题,但这些方法不考虑使用自适应学习率。为了填补这一差距,在本文中,我们提出了一类快速有效的自适应方法,用于解决外部问题可能是不凸显的贝纤维优化问题,内部问题强烈凸起。具体地,我们提出了一种基于基本动量技术的快速单环BIADAM算法,该算法实现了TILDE O EPSILON 4的样本复杂性,用于寻找epsilon固定点。与此同时,我们通过使用差异减少技术提出了BIADAM算法VR BIADAM的加速版本,这达到了TILDE O epsilon 3的最佳已知的样本复杂性。为了进一步减少估计衍生物的计算,我们提出了一种快速单环随机近似的双地算法SabiaDam,避免了Hessian逆,这仍然实现了Tilde O epsilon 4的样本复杂性,而没有大批次。我们进一步提出了一种加速版的SabiaDAM算法VR SabiaDam,其也达到了Tilde O epsilon 3的最佳已知的样本复杂性。我们将统一的自适应矩阵应用于我们的方法,作为Super Adam Citep Huang2021Super,包括许多类型的自适应学习率。此外,我们的框架可以灵活地使用势头和方差减少技术。特别是,我们为受约束和无约束的Bilevel优化提供有用的收敛分析框架。据我们所知,我们首先研究了具有自适应学习率的自适应贝罗级优化方法。

f-Domain-Adversarial Learning: Theory and Algorithms
Authors David Acuna, Guojun Zhang, Marc T. Law, Sanja Fidler
无监督域适应在许多机器学习应用中使用,在培训期间,模型可以访问目标域中的未标记数据,以及相关标记的数据集。在本文中,我们介绍了一种新颖且一般的域对抗性框架。具体而言,我们推导了一种新的泛化,用于基于F分流的变分特征来利用分布之间的差异的新差异的新概率。它恢复了本David等人的理论结果。 2010A作为一个特例,并支持在实践中使用的分歧。基于这一界限,我们推出了一种新的算法框架,在Ganin等人的原始侵略性训练方法中引入了一个关键校正。 2016年。我们展示了在过去几年中推出的许多常规方和临时目标,然后不需要实现与艺术域对抗方法的状态不好的性能。在现实世界自然语言和计算机视觉数据集上进行的实验分析表明,我们的框架优于现有的基准,并获得了以前在域对抗学习中未被考虑的F分歧的最佳结果。

Dive into Deep Learning
Authors Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola
这本开放源书代表我们试图使深入学习的可接近,教授读者的概念,上下文和代码。整本书在Jupyter笔记本中起草,无缝集成了与自包含代码的博览会数字,数学和交互式示例。我们的目标是提供一种资源,我可以为每个人自由提供II,II提供足够的技术深度,以便在实际成为应用机器的路径上提供一个出发点,以实际成为应用机器学习科学家III,包括可抵押的代码,显示读者如何解决实践中的问题IV允许美国和社区的快速更新,v大v互动讨论技术细节的互动讨论和回答问题。

Context-aware PolyUNet for Liver and Lesion Segmentation from Abdominal CT Images
Authors Liping Zhang, Simon Chun Ho Yu
计算断层摄影CT图像的准确肝脏和病变分割在临床实践中,辅助肝脏肿瘤疾病的诊断和评估临床实践。然而,由于对比度,分辨率和图像质量的多样性,自动肝脏和损伤分割来自对比增强的CT卷是非常具有挑战性的。以前基于UNET为2D切片的方法通过Slice Segation缺乏足够的空间上下文或遭受高GPU计算成本,这限制了性能。为了解决这些问题,我们提出了一种用于精确肝脏和病变细分的新型语境意识到Polyunet。它共同探讨了结构多样性和连续的相邻切片,以丰富特征表现力和空间上下文信息,同时避免GPU内存消耗的过载。此外,我们利用缩小和两个阶段的细化策略来排除无关背景,并专注于细粒细分的特定区域。我们的方法在Miccai 2017年肝肿瘤细分中实现了非常竞争力的表现,在肝脏分段,病变分割,病变检测和5个中排名第3次RD,第12个,第2个Nd和5个地方,并排名第3位,第5位,并排名肿瘤负荷分别估计。

Image simulation for space applications with the SurRender software
Authors J r my Lebreton, Roland Brochard, Matthieu Baudry, Gr gory Jonniaux, Adrien Hadj Salah, Keyvan Kanani, Matthieu Le Goff, Aurore Masson, Nicolas Ollagnier, Paolo Panicucci, Amsha Proag, Cyril Robin
基于视觉的导航的图像处理算法需要可靠的图像仿真能力。在本文中,我们解释了为什么传统渲染引擎可能呈现可能对空间应用潜在关键的限制。我们介绍了空中客车投降软件V7,并提供了一个使其成为一个非常强大的空间图像模拟器的功能的详细信息。我们展示了我们计算机视觉解决方案的开发过程中的核心的投降,我们提供了一系列渲染图像的渲染图像,以便在月球和太阳系勘探中的各种用例,以便在轨道与集合和行星机器人中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页



pic from pexels.com

你可能感兴趣的:(Transformer,计算机视觉,Papers,计算机视觉论文,transformer,顶会前沿,cv,视觉)