图像分割总体介绍

概览

初识图像分割

顾名思义,图像分割就是指将图像分割成多个部分。在这个过程中,图像的每个像素点都和目标的种类相关联。图像分割方法主要可分为两种类型:语义分割和实例分割。语义分割会使用相同的类标签标注同一类目标(下图左),而在实例分割中,相似的目标也会使用不同标签进行标注(下图右)。
图像分割总体介绍_第1张图片
图像分割模型的基本架构包括编码器与解码器。编码器通过卷积核提取图像特征。解码器负责输出包含物体轮廓的分割蒙版。

分割类别


图像分割(image segmentation):根据某些规则将图片分成若干个特定的、具有独特性质的区域,并抽取出感兴趣的目标。

目前图像分割任务发展出了以下几个子领域:

  • 普通分割:将不同分属不同物体的像素区域分开。 如前景与后景分割开,狗的区域与猫的区域与背景分割开。
  • 语义分割(semantic segmentation) :从像素层次来识别图像; 为图像中的每个像素指定类别标记,用相应的表示的类别来标记图像的每个像素
  • 实例分割(instance segmentation):实例分割具有挑战性,因为它需要正确检测图像中的目标,同时还要精确地分割每个实例
  • 全景分割(panoptic segmentation):要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中,语义标签指的是物体的类别,而实例id则对应同类物体的不同编号。
    图像分割总体介绍_第2张图片

应用场景

图像分割总体介绍_第3张图片
图像分割总体介绍_第4张图片
以及工业探伤等等

任务表达

图像分割总体介绍_第5张图片
Mask(掩模): 覆盖预测单个通道,表示图像中存在特定类别的区域
图像分割总体介绍_第6张图片

常用数据集

  • PASCAL VOC 2012 Segmentation Competition
  • COCO 2018 Stuff Segmentation Task
  • BDD100K: A Large-scale Diverse Driving Video Database
  • Cambridge-driving Labeled Video Database (CamVid)
  • Cityscapes Dataset
  • Mapillary Vistas Dataset
  • ApolloScape Scene Parsing

PASCAL VOC 2012

PASCAL:pattern analysis, statistical modelling and computational learning
VOC:visual object classes
VOC2012数据集分为20类,包括背景为21类,分别如下:

  • 人:人
  • 动物:鸟、猫、牛、狗、马、羊
  • 车辆:飞机、自行车、船、巴士、汽车、摩托车、火车
  • 室内:瓶、椅子、餐桌、盆栽植物、沙发、电视/监视器

官网链接:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

COCO

  • MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于2014年出资标注的Microsoft COCO数据集,与ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
  • 而在ImageNet竞赛停办后,COCO竞赛就成为是当前物体识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软、Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。
  • 目前为止有语义分割的最大数据集,提供的类别有 80 类,有超过 33 万张图片,其中 20 万张有标注,整个数据集中个体的数目超过 150 万个

官网:http://cocodataset.org/

BDD100K: A Large-scale Diverse Driving Video Database

  • 2018年5月伯克利大学AI实验室(BAIR)发布了目前最大规模、内容最具多样性的公开驾驶数据集BDD100K,同时设计了一个图片标注系统。
  • BDD100K 数据集包含10万段高清视频,每个视频约40秒,720p,30 fps 。每个视频的第10秒对关键帧进行采样,得到10万张图片(图片尺寸:1280720 ),并进行标注。
    https://bair.berkeley.edu/blog/2018/05/30/bdd/
    图像分割总体介绍_第7张图片

Cambridge-driving Labeled Video Database (CamVid)

  • CamVid是第一个具有目标类别语义标签的视频集合。 数据库提供32个ground truth语义标签,将每个像素与语义类别之一相关联。
  • 该数据库解决了对实验数据的需求,以定量评估新兴算法。 数据是从驾驶汽车的角度拍摄的
  • 包含戴姆勒在内的三家德国单位联合提供,包含50多个城市的立体视觉数据;像素级标注;提供算法评估接口。
    http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
    https://www.cityscapes-dataset.com/

Mapillary Vistas

Mapillary Vistas是世界上最大最多样化的像素精确和特定实例标注的街道级图像公开数据集。

ApolloScape Scene Parsing

  • 百度公司提供的ApolloScape数据集将包括具有高分辨率图像和每像素标注的RGB视频,具有语义分割的测量级密集3D点,立体视频和全景图像。
  • Scene Parsing数据集是ApolloScape的一部分,它为高级自动驾驶研究提供了一套工具和数据集。场景解析旨在为图像中的每个像素或点云中的每个点分配类别(语义)标签。

图像分割总体介绍_第8张图片

你可能感兴趣的:(深度学习,人工智能,计算机视觉,深度学习,大数据)