CVPR2019 图像分割论文阅读(一)

因为主要是学习图像语义分割,所以针对cvpr中的语义分割论文。

DFANET:https://arxiv.org/abs/1904.02216

是旷世公司的作品

摘要:This paper introduces an extremely efficient CNN architecture named DFANet for semantic segmentation under resource constraints. Our proposed network starts from a single lightweight backbone and aggregates discriminative features through sub-network and sub-stage cascade respectively. Based on the multi-scale feature propagation, DFANet substantially reduces the number of parameters, but still obtains sufficient receptive field and enhances the model learning ability, which strikes a balance between the speed and segmentation performance. Experiments on Cityscapes and CamVid datasets demonstrate the superior performance of DFANet with 8× less FLOPs and 2× faster than the existing state-of-the-art real-time semantic segmentation methods while providing comparable accuracy. Specifically, it achieves 70.3% Mean IOU on the Cityscapes test dataset with only 1.7 GFLOPs and a speed of 160 FPS on one NVIDIA Titan X card, and 71.3% Mean IOU with 3.4 GFLOPs while inferring on a higher resolution image。

 

本论文介绍了一种高效的CNN结构:DFANet用于在资源限制下的语义分割。

我们提出的网络从单个轻量级骨干网开始,分别通过子网和子级级联聚合判别特征。

基于多尺度特征传播,DFANet大大减少了参数的数量,但仍然获得了足够的感受野,提高了模型学习能力,在速度和分割性能之间取得了平衡。

Cityscapes和CamVid数据集的实验证明了DFANet的优越性能,其FLOP比现有的最先进的实时语义分割方法少8倍,同时提供相当的精度。(其中FLOP全称floating point operations per second是描述模型的计算力,并不是德州扑克的翻前意思)一个 MFLOPS (megaFLOPS) 等于每秒1百万 (=10^6) 次的浮点运算,
一个 GFLOPS (gigaFLOPS) 等于每秒10亿 (=10^9) 次的浮点运算,
一个 TFLOPS (teraFLOPS) 等于每秒1万亿 (=10^12) 次的浮点运算,
一个 PFLOPS (petaFLOPS) 等于每秒1千万亿 (=10^15) 次的浮点运算。
 

总的来说分割率是70% 左右                   mask rcnn,91%map

至于mean iou和map是否能放在一起比较我还没弄清楚

 

总结:FANet是一套用在资源有限的模型,其特点是针对了轻量级的层。

 

 

Introduction:

介绍了现在虽然语义分割发展不错,但是实时分割还欠缺火候,而且在高性能的语义分割还不错,资源限制的语义分割更是没有研究。

对于减少运算资源,许多方式是通过在input上做些文章,比如减小输入图像的尺寸,修剪网络中的冗余通道(

A deep convolutional encoder-decoder architecture
for image segmentation

Adam Paszke, Abhishek Chaurasia, Sangpil Kim, and Eugenio Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint
arXiv:1606.02147, 2016.

这两种方法非常愚蠢,自认为通过降低像素能够让模型运行更快,其实损失的是空间信息,这会导致小目标丧失分割能力。

然后又有两篇论文(不列举了),通过构建了多支结构融合空间信息。这方法不错,但是对于运算资源是一种考验。

引出了本文的论文,又不需要大量的计算资源,又是实时的。

 

 

作者提到了空间金字塔,总是会拿卷积层会丢失信息来说事。

然后提出他所给出的两种策略,第一,重新使用high-level特征连接每一层。

其次,我们将网络体系结构处理路径中不同阶段的特征结合起来,以增强特征表示能力。

(那么这两个乍一看,和FCN有什么区别?看一下图最直观)

CVPR2019 图像分割论文阅读(一)_第1张图片

 

具体说明呢,就是用了空间金字塔和多尺度池化两个方案的融合,具体说来有三个方面:

 

 

你可能感兴趣的:(语义分割)