语义分割深度学习算法要点

参考:AI研习社微信公众号

  • 语义分割难点:将各个像素点分类到某一实例,再将各个实例(分类结果)与实体(人、道路等)一一对应。
  • 出现在真实的理解图像或视频的动作的挑战:关键点检测、动作识别、视频字幕、视觉问题回答等。
  • 常用数据集:

PASCAL VOC——train/val   11k张;test  10张;用平均交并比(mIoU)评估图像分割模型的性能

PASCAL-Context——train 10k;val 10k;test  10k

COCO

Cityscapes——包含50个城市的复杂的城市场景分割图,train/val  23.5k;test   1.5k

  • 一些网络效果:

FCN——使用ImageNet预训练模型,在2012年的PASCAL VOC上mIoU=62.2%

ParseNet——PASCAL-Context的mIoU=40.4%,2012年的PASCAL VOC 的mIoU=69.8%

卷积与反卷积——2012年的PASCAL VOC的mIoU=72.5%

U-Net——扩展FCN模型用于生物显微镜图像。扩展研究FPN、PSPNet、DeepLabv3

FPN——基于DeepMask和SharpMask框架的FPN在COCO的AR=48.1%

金字塔场景解析网络(PSPNet)——使用COCO的预训ResNet,在2012年的PASCAL VOC的mIoU=85.4%

Mask R-CNN——最好的Mask R-CNN使用ResNeXt提取特征和FPN结构,2016年COCO的AP=37.1%,2017年的COCO的AP=41.8%

DeepLab,DeepLabv3,DeepLabv3+

  • DeepLab——带空卷积核、空间金字塔池化、全连接的CRFs

以ResNet-101为主干的DeepLab在2012年的PASCAL VOC的mIoU=79.7%,PASCAL-Context的mIoU=45.7%,Cityscapes的mIoU=70.4%

  • DeepLabv3——带孔卷积的级联和并行模块(空洞空间金字塔池化ASPP)

使用ResNet-101在ImageNet和JFT-300M上预训练的最佳DeepLabv3在2012年的PASCAL VOC上mIoU=86.9%,Cityscapes的mIoU=81.3%

  • DeepLabv3+——结合了编码-解码器结构框架的DeepLabv3,引入空洞可分离卷积,包含深度卷积(将输入的每一个通道进行卷积)和逐点卷积(1*1的卷积和深度卷积作为输入)。

DeepLabv3+框架:一个具有基本的CNN和一个ASPP的编码器产生特征表示,具有3*3卷积的解码器接收特征表示,产生最终预测图像。

在COCO和JFT上预训练的最佳DeepLabv3+在2012年的PASCAL VOC的mIoU=89.0%,Cityscapes的mIoU=82.1%

  • 路径聚合网络(PANet)——基于Mask R-CNN和FPN框架,同时增强信息传播。特征提取使用改进的FPN架构,添加自底向上的增强路径,从而改善底层特征传播。

ResNeXt作为特征提取器,PANet在2016年COCO中获42.0%的平均精度分数。还使用7个特征提取器的集合进行2017年COCO获46.7%的平均精度。

  • 环境编码网络(EncNet)——环境编码网络捕捉一张图像中的全局信息,以提高场景分割性能。

在PASCAL-Context的mIoU=52.6%,pixAcc=81.2%;在2012年的PASCAL VOC的mIoU=85.9%

总结:

各体系结构之间的主要问题之一是考虑输入图像的全局视觉环境,以提高分割的预测能力。最先进的模型架构试图连接图像的不同部分,以便理解对象之间的关系。

 

 

 

你可能感兴趣的:(图像分割)