编译 | CV君
报道 | OpenCV中文网(微信id:iopencv)
本篇文章盘点WACV2021图像分割相关论文,包括抠图、实例、全景、语义分割,自然灾害评估等相关应用。值得关注的是有一篇文本抠图,在以往工作中很少或从未研究过的。
共计 11 篇。如有遗漏,欢迎补充。
下载包含这些论文的 WACV 2021 所有论文:
『WACV 2021 开幕,更偏重技术应用,附论文下载』
实例分割
[1].Weakly Supervised Instance Segmentation by Deep Community Learning
文中作者引入一个用于弱监督实例分割的深度社区学习框架,该框架基于一个端到端可训练的深度神经网络,在目标检测、实例掩码生成和目标分割多个任务之间有主动交互。加入两种有经验的目标定位技术:class-agnostic bounding box regression 和 segmentation proposal generation,且是在没有完全监督的情况下进行的。
所提出的算法在不进行后处理情况下,在标准基准数据集上实现了比现有弱监督方法大幅提高的性能。
作者 | Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han
单位 | 首尔大学;ETRI
论文 | https://arxiv.org/abs/2001.11207
主页 | https://cv.snu.ac.kr/research/WSIS_CL/
#WACV 2021##航空影像##实例分割#
[2].MSNet: A Multilevel Instance Segmentation Network for Natural Disaster Damage Assessment in Aerial Videos
MSNet:用于航空视频自然灾害评估的多级实例分割网络
本文研究通过航空视频分析,有效评估飓风、洪水或火灾等自然灾害后的建筑物损失问题。
做出了两个主要贡献:
第一个贡献是一个新的数据集,包括来自社交媒体用户生成的航拍视频,并带有实例级的建筑损伤掩码标注。为利用航拍视频评估建筑物损伤的模型的定量评估提供了第一个基准。
第二个贡献是一个新的模型:MSNet,包含了新的区域 proposal 网络设计和一个无监督的分数细化网络,用于边界盒和掩模分支的置信度分数校准。
实验表明,新的模型和新的数据集与以前的方法相比,取得了最先进的结果。
作者表示将发布数据、模型和代码。
作者 | Xiaoyu Zhu, Junwei Liang, Alexander Hauptmann
单位 | 卡内基梅隆大学
论文 | https://w.url.cn/s/AC2eIwl
代码 | https://github.com/zgzxy001/MSNET
语义分割
[3].Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings
作者 | Marco Toldo, Umberto Michieli, Pietro Zanuttigh
单位 | 意大利帕多瓦大学
论文 | https://arxiv.org/abs/2011.12616
主页 | https://lttm.dei.unipd.it/paper_data/UDAclustering/
代码 | https://github.com/LTTM/UDAclustering
[4].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection
提出 Detection Aware 3D Semantic Segmentation (DASS) 网络来解决当前架构的局限性。
DASS 可以在保持高精度鸟瞰(BEV)检测结果的同时,将几何相似类的 3D语义分割结果提高到图像 FOV 的 37.8% IoU。
作者 | Ozan Unal, Luc Van Gool, Dengxin Dai
单位 | 苏黎世联邦理工学院;鲁汶大学
论文 | https://arxiv.org/abs/2009.10569
[5].Multi Projection Fusion for Real-Time Semantic Segmentation of 3D LiDAR Point Clouds
本次工作,作者提出全新的 multi-projection 融合框架,通过使用球面和鸟瞰投影,利用 soft voting 机制对结果进行融合,实现点云语义分割。所提出的框架在 SemanticKITTI 数据集上的mIoU达到了 55.5,高于最先进的基于single projection 的方法 RangeNet++ 和 PolarNet,比前者快1.6倍,比后者快3.1倍。同时具有更高的 throughput(吞吐量)。
对于未来工作方向,作者称将两种 projections 结合成单一的多视图统一模型,并研究在框架内使用两种以上的 projections 。
作者 | Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw
单位 | Nile University;
论文 | https://arxiv.org/abs/2011.01974
[6].Shape From Semantic Segmentation via the Geometric Renyi Divergence
作者 | Tatsuro Koizumi, William A. P. Smith
单位 | 约克大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Koizumi_Shape_From_Semantic_Segmentation_via_the_Geometric_Renyi_Divergence_WACV_2021_paper.pdf
全景分割
[7].Boosting Monocular Depth With Panoptic Segmentation Maps
作者 | Faraz Saeedan, Stefan Roth
单位 | 达姆施塔特工业大学
论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Saeedan_Boosting_Monocular_Depth_With_Panoptic_Segmentation_Maps_WACV_2021_paper.pdf
视频目标分割
[8].Reducing the Annotation Effort for Video Object Segmentation Datasets
为进一步改进视频目标分割的性能,需要更大、更多样化、更具挑战性的数据集。然而用像素掩码对每一帧进行密集标注并不能扩展到大型数据集。
因此作者使用深度卷积网络,从较便宜的边界框标注中自动创建像素级的伪标签,并研究这种伪标签能在多大程度上承载训练最先进的VOS方法。令人欣喜的是,仅在每个对象的单个视频帧中添加一个手动标注的掩码,足以生成伪标签,用来训练VOS方法,并达到与完全分割视频训练时几乎相同的性能水平。
基于此,为 TAO 数据集的训练集创建像素伪标签,手动标注验证集的一个子集。得到了新的TAO-VOS基准,公布在 https://www.vision.rwth-aachen.de/page/taovos(近期公开)
作者 | Paul Voigtlaender, Lishu Luo, Chun Yuan, Yong Jiang, Bastian Leibe
单位 | 亚琛工业大学;清华大学
论文 | https://arxiv.org/abs/2011.01142
代码 | https://www.vision.rwth-aachen.de/page/taovos
备注 | WACV 2021
目标部分分割
[9].Part Segmentation of Unseen Objects using Keypoint Guidance
作者开发了一种端到端学习方法,利用关键点位置引导迁移学习过程,将 pixel-level 目标部分分割从完全标记的目标集迁移到另一个弱标记的目标集。对于部分分割来说,作者证明非参数化的模板匹配方法比像素分类更有效,特别是对于小的或不太频繁的部分。
为验证所提出方法的通用性,作者引入了两个新的数据集,共包含 200 只四足动物,同时具有关键点和部分分割标注。并证明所提出方法在训练过程中使用有限的部分分割标签,可以在新型物体部分分割任务上以较大的优势优于现有模型。
作者 | Shujon Naha, Qingyang Xiao, Prianka Banik, Md. Alimoor Reza, David J. Crandall
单位 | 印第安那大学艺术科学学院
论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Naha_Part_Segmentation_of_Unseen_Objects_Using_Keypoint_Guidance_WACV_2021_paper.pdf
数据集 | http://vision.sice.indiana.edu/animal-pose-part/
图像抠图
Towards Enhancing Fine-Grained Details for Image Matting
提出一个关于图像抠图问题的新观点,明确地将这个任务分为两个部分:一个是提取高级语义线索的语义部分,另一个是提供精细细节和低级纹理线索的纹理补偿部分。
基于这一点,提出一种新的深度图像抠图方法,明确定义了两条路径:编码器-解码器语义路径和无下采样纹理补偿路径。进一步提出了一个新的损失项,帮助网络缓解不准确的trimap问题,更好地检测那些 "纯 "背景部分。
所提出的方法在具有挑战性的Adobe Composition1k测试数据集上实现了新的最先进的性能。
作者 | Chang Liu, Henghui Ding, Xudong Jiang
单位 | 南洋理工大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Liu_Towards_Enhancing_Fine-Grained_Details_for_Image_Matting_WACV_2021_paper.pdf
Text Matting
ATM: Attentional Text Matting
本次研究,作者尝试解决从图像背景中提取字符(通常为WordArts)的 Text Matting(文本抠图)问题。与传统的图像抠图问题不同,文本抠图的难度要大得多,因为它的前景有三个特性:小、多目标、结构和边界复杂。
方案是提出一个两阶注意力文本抠图 pipeline,作者称是首个文本抠图方法。构建了一个文本抠图图像合成引擎,并合成了一个具有多样性大规模的高质量文本抠图数据集。
在合成和真实图像数据集上进行了大量实验,证明所提出方法比最先进的图像抠图方法在文本抠图任务上的优越性。
作者 | Peng Kang, Jianping Zhang, Chen Ma, Guiling Sun
单位 | 美国西北大学;加拿大麦吉尔大学;南开大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Kang_ATM_Attentional_Text_Matting_WACV_2021_paper.pdf
代码 | https://github.com/TextMatting/TextMatting
【推荐阅读】
WACV 2021 论文大盘点-目标检测篇
WACV 2021 论文大盘点-人脸技术篇
- END -