语义分割领域该如何学习?导论与学习规划

为什么学图像分割

重要性与是什么:计算机视觉有三大方向:图像识别Recognition,目标检测Detection,图片分割。

        图像识别告诉你图像里面有什么,图里有个猫、还是有个狗、还是有辆车。其实就是图像分类

        目标检测告诉你图像上的目标在哪里,用方框标记位置。

        图片分割是像素级的

        实例分割除了 person1 person2,还有就是不区分背景,也就是不把背景作为一个object进行涂色标注。注意下面这个,语义分割将背景割出来,涂上黄色;实例分割直接把背景忽略掉

语义分割领域该如何学习?导论与学习规划_第1张图片

        图像分割≈语义分割+实例分割

                Image Segmentation,Semantic Segmentation,Instance Segmentation

机会与挑战

        (1)实现目标分割是下一步任务的前提

        语义分割的目的是为下一步的工作,提供更优良的特征。是一种特殊的特征工程。

        典型的技术路线(解决一个图像问题的思路):目标分割 ——>目标检测——>目标识别。

                目标识别就是图像识别,就是图像分类。目标检测是标记方框,说里面是什么。

                (真的是这样倒着来的吗?先做分割,再做方框检测,再做图像分类?

        复杂场景中,要想达到准确识别,就要实现精确分割。分割是做好下一步任务的前提。

                这就好比,理解用文言文写的一句话的意思,要首先断句,把一整个长的句子,按照语法规则拆成长短不一的句子块。句子你给断明白了,下一步,你逐个分析断开的每个句子成分的意思和关系,最终搞懂这句文言文的意思。

                “理解文言文的意思”好比目标识别,“断句”就好比图像分割'。你先把这个图里面的object准确的、不多一倒卖、不少点的地割好,我再逐个分析割出来的这个东西的形状和图案纹理,最终判断这张图上有的是什么东西(尤其是识别起来特别困难的情景)。

(2)图像分割仍然存在较大提升空间,机会和挑战并存

        复杂场景,图片分割的识别率还是不高,有很多时候会分割错误,提升空间较大。

图像分割发展历程

2010年:传统分割是将图像中感兴趣区域ROI的边界找到,使得边界内部和外部的像素分别具备相似的特征,比如强度和纹理。实际上这是基于边缘检测的图像分割。注意:你只是割开了,但是你不知道割开的每个部分代表的实际含义,做不到语义分割。

语义分割领域该如何学习?导论与学习规划_第2张图片

2010年—2015年:用ML的方法进行语义分割,比如随机森林和SVM 

2015年以后:随着FCN的出现,深度学习正式进入语义分割领域。不仅能把object的不规则边缘标出来,还能告诉你每一个object的对应什么东西。

语义分割领域该如何学习?导论与学习规划_第3张图片

图像分割的前进方向

  1. 进一步提升分割精度,尤其是物体object边缘分割精度
  2. 进一步提升分割效率(速度)。只有实现了更快的分割才能有更快的检测和识别。
  3. 更好的应对复杂场景,保证在复杂场景依旧可以有较高的分割精度。现实场景往往很复杂。
  4. 着重发展小样本物体分割  :小样本物体总是被现有数据集忽略(极其罕见的、不常见的物体,training set里面没有这个类别的东西,于是就割不出来了,这个分割任务不不就相当于没完成好吗?)
  5. 标注ground truth的分割的成本极高,耗时耗力耗眼睛。怎么能非手工的获取到ground truth的不规则边缘分割呢?

经典的分类模型(用ANN CNN进行分类,已经AlexNet VGG等CNN-based method要学会)是进行分割算法的基础

推荐学习的语义分割论文

经典论文板块:打好地基

        前三篇是基础中的基础,是经典的语义分割的方法,有开宗立派的地位。后三篇是开拓语义分割这个领域,引入新思想,拓宽思路的文章。

  1. FCN,深度学习语义分割开山之作
  2. U-net,医学图像分割领头者
  3. DeepLab,带孔卷积,大有所为
  4. GCN,将图卷积神经网络引入语义分割领域。
  5. DFN,从宏观角度看待语义分割
  6. RefineNet,经典综合类网络

实时论文板块:盖第一层楼

这个板块的论文,只有一个,那就是“快”,也就是“分割的快”

  1. Enet,实时分割入门必读
  2. BiSeNet,旷视实时分割系列佳作一
  3. DFANet,旷视实时分割系列佳作二
  4. Light-Weight RefineNet,综合性轻量级网络。

RGB-D论文板块:盖第二层楼

  1. RedNet,RGB-D数据的语义分割入门必读
  2. RDFNet,RGB-D语义分割进阶

论文该怎么读?

论文部分

  1. 泛读:标题——>abstract——>conclusion——>通过读dataset描述了解这篇文章具体是做什么任务的、解决什么问题的——>全文的所有图表看了——>论文小标题都看了,了解模型由几部分组成——>着重读模型部分,了解(1)操作流程(2)组件有哪些,起什么作用(3)用的trick(4)实验参数设置
  2. 做笔记,写博客介绍这篇文章。力图让两年后对这个模型一无所知的自己,二三十分钟看完这篇文章以后,可以知道(1)解决什么问题(2)模型的创新之处是什么(3)为什么这样创体就能performance好?给个直觉性的解释

代码部分

  1. 根据论文作者公开的代码,或者github上其他大佬复现的代码---star数要高
  2. 根据你在这篇文章之外的知识和掌握的模型,指出这个模型什么地方做的不好、什么地方改一改也许会更好。自己代码实现,对模型进行微调或者创新

你可能感兴趣的:(计算机视觉,深度学习,人工智能)