【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

概述

像素级语义分割不仅要精度也要速度,现有算法精度有但速度慢。因此本文提出了LinkNet,在不显著增加参数量的情况下进行学习,最后在CamVid数据集上取得了SOTA,Cityscapes数据集上也是类似结果。

  • Paper
  • Code | Pytorch

总结

  • 创新点:
    • 1.编码器和解码器直接相连,共享了学习信息,保留了通常丢失掉的空间信息
    • 2.编码器用ResNet18,编解码器参数更少
  • 不足:依旧是编解码器
  • 分析:编解码器直接相连,保留空间信息,共享学习减少学习参数量
  • 结论:CamVid中的SOTA、省成本、速度快精度高

1. Introdution

CNN网络在图像分类、定位、场景理解上很成功,现有许多学者聚焦于场景理解即逐像素级的语义分割。现有语义分割网络大多以编码器解码器为其核心。目标检测算法有YOLO、FastRCNN、SSD等优化速度的算法,但目前针对语义分割的还没有。通常由于池化和步长卷积而丢失的编码信息使用池化索引和全卷积来恢复,本文则绕过空间信息,直接从编码器到对应的解码器,提高精度的同时显著减少了处理时间,使得原本要丢失的信息保留。

2. Related Work

用于场景理解的神经网络架构可细分为编码器网络解码器网络,它们基本上就是判别器生成器。SOTA一般使用分类模型作为它们的判别器,生成器使用来自于判别器储存的池化索引,或使用卷积来学习参数执行上采样。#P2

3. Architecture

【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第1张图片
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第2张图片
Every conv(k × k)(im, om) and full-conv(k × k)(im, om) operations has at least three parameters. Here, (k × k) represent (kernel − size) and (im, om) represent (inputmap, outputmap) respectively. 本文网络使用ResNet18作为编码器,不同于其他语义分割网络的亮点是将每个编码器和解码器连接起来,以此可以恢复由于下采样而丢失的空间信息,此外,解码器在每一层共享由编码器学习到的知识,所以解码器使用的参数更少。

4. Results

与其他现有网络比较的两个尺度:1.速度(执行前向传播所用的时间,涉及的操作次数)2.在Cityscapes和CamVid数据集上的精度。
速度
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第3张图片
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第4张图片
精度
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第5张图片
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第6张图片
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第7张图片
【2017-VCIP】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation_第8张图片

5. Conclusion

提出了一个专用于语义分割的网络LinkNet。使用嵌入式平台成本大大降低,以更快更高效的方式执行大规模计算,性能也还不错,节省大量成本。

你可能感兴趣的:(星夜鱼塘,计算机视觉,深度学习,目标检测)