【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别

Directions in the CV

  • 物体分割(Object segment)属于图像理解范畴。那什么是图像理解?Image Understanding (IU) 领域包含众多sub-domains,如图像分类、物体检测、物体分割、实例分割等若干问题。每个问题研究的范畴是什么?每个问题中,各个approach对应的the result of processing是什么?
  • Image Understanding (IU) is an interdisciplinary approach which fuse computer science, mathematics, engineering science, physics, neurosciences, and cognitive science etc. together.
  • 一般我们将CV分为三个大方向:图像处理、图像分析、图像理解。其中图像理解分为以下三个部分
  • Image Classification:
    即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。其中ImageNet是最权威的测评集,每年的ILSVRC催生大量优秀的深度网络结构,为其他任务提供基础,在应用领域,人脸、场景识别都可以视为分类任务。
  • Detection
    分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求获得这一目标的类别信息和位置信息。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因而检测模型的输出是一个列表,列表的每一项使用一个数据组给出检出目标的类别和位置,常用矩形检测框的坐标表示。
  • Segmentation
    分割包括语义分割(semantic segmentation)和实例分割(instance segmentation),前者是对背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。

后期我会写CV综述,此处留坑占位!
也会对object segmentation的方法进行总结,占坑!

Image Classification

  • The task of object classification requires binary labels indicating whether objects are present in an image.
  • Definition:Image Classification根据image中不同图像信息中不同的feature,把不同类别的object region进行分类。
  • 该任务需要我们对出现在某幅图像中的物体做标注。
  • 例如:一共有1000个物体类的image中,某个物体要么有,要么没有。可实现:输入一幅测试图片,输出该图片中物体类别的候选集。如下图所示,不同形状的图形,通过分类分成了8类
    【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别_第1张图片

Object localization (目标定位)

  • 在图像分类的基础上,我们还想知道图像中的目标具体在图像的什么位置,通常是以边界框的(bounding box)形式。
  • 基本思路
  1. 多任务学习,网络带有两个输出分支。一个分支用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置,即完成回归任务输出四个数字标记bounding box位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为“背景”时才使用。
  2. 人体位姿定位/人脸定位
    目标定位的思路也可以用于人体位姿定位或人脸定位。这两者都需要我们对一系列的人体关节或人脸关键点进行回归。
  3. 弱监督定位
    由于目标定位是相对比较简单的任务,近期的研究热点是在只有标记信息的条件下进行目标定位。其基本思路是从卷积结果中找到一些较高响应的显著性区域,认为这个区域对应图像中的目标。

Object detection(目标检测)

  • Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box.
  • 理解:object detection=classification+localization
  • 定义:物体探测包含两个问题,一是判断属于某个特定类的物体是否出现在图中;二是对该物体定位,定位常用表征就是物体的边界框(bounding box)。
  • 可实现:输入测试图片,输出检测到的物体类别和位置。如下图,移动的皮卡丘和恐龙

  • 【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别_第2张图片

语义分割(Semantic Segmentation)

  • The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented.
  • 语义标注(Semantic scene labeling)/分割(segmentation):该任务需要将图中每一点像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。

Instance segmentation

  • instance segment = object detect +semantic segment
  • 相对物体检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割可以标注出图上同一物体的不同个体
  • 分类任务通常来说就是识别出包含单个对象的图像是什么,但在分割实例时,我们需要执行更复杂的任务。我们会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!
  • 如下图所示,把不同的实例对象进行了分割,并用不同的颜色进行边缘标注(而不是边框标注)
    【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别_第3张图片

Some examples

【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别_第4张图片
【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别_第5张图片

综述

图像理解领域中的object segmentation方向包括了:image classification、object localization、object detection、semantic segmentation、instance-level segmentation。分类复杂度依次递增,分类详细程度依次递增。


若干参考资料:

  1. https://blog.csdn.net/niaolianjiulin/article/details/52948274?utm_source=copy
  2. https://blog.csdn.net/np4rHI455vg29y2/article/details/79250952
  3. https://www.jianshu.com/p/e3ec3f1ed6fc
  4. https://yq.aliyun.com/articles/396373

你可能感兴趣的:(Salient,Object,Detection)