参考:AI研习社微信公众号
PASCAL VOC——train/val 11k张;test 10张;用平均交并比(mIoU)评估图像分割模型的性能
PASCAL-Context——train 10k;val 10k;test 10k
COCO
Cityscapes——包含50个城市的复杂的城市场景分割图,train/val 23.5k;test 1.5k
FCN——使用ImageNet预训练模型,在2012年的PASCAL VOC上mIoU=62.2%
ParseNet——PASCAL-Context的mIoU=40.4%,2012年的PASCAL VOC 的mIoU=69.8%
卷积与反卷积——2012年的PASCAL VOC的mIoU=72.5%
U-Net——扩展FCN模型用于生物显微镜图像。扩展研究FPN、PSPNet、DeepLabv3
FPN——基于DeepMask和SharpMask框架的FPN在COCO的AR=48.1%
金字塔场景解析网络(PSPNet)——使用COCO的预训ResNet,在2012年的PASCAL VOC的mIoU=85.4%
Mask R-CNN——最好的Mask R-CNN使用ResNeXt提取特征和FPN结构,2016年COCO的AP=37.1%,2017年的COCO的AP=41.8%
DeepLab,DeepLabv3,DeepLabv3+
以ResNet-101为主干的DeepLab在2012年的PASCAL VOC的mIoU=79.7%,PASCAL-Context的mIoU=45.7%,Cityscapes的mIoU=70.4%
使用ResNet-101在ImageNet和JFT-300M上预训练的最佳DeepLabv3在2012年的PASCAL VOC上mIoU=86.9%,Cityscapes的mIoU=81.3%
DeepLabv3+框架:一个具有基本的CNN和一个ASPP的编码器产生特征表示,具有3*3卷积的解码器接收特征表示,产生最终预测图像。
在COCO和JFT上预训练的最佳DeepLabv3+在2012年的PASCAL VOC的mIoU=89.0%,Cityscapes的mIoU=82.1%
ResNeXt作为特征提取器,PANet在2016年COCO中获42.0%的平均精度分数。还使用7个特征提取器的集合进行2017年COCO获46.7%的平均精度。
在PASCAL-Context的mIoU=52.6%,pixAcc=81.2%;在2012年的PASCAL VOC的mIoU=85.9%
总结:
各体系结构之间的主要问题之一是考虑输入图像的全局视觉环境,以提高分割的预测能力。最先进的模型架构试图连接图像的不同部分,以便理解对象之间的关系。