Localization and Detection

Computer Vision Tasks

Classification + Localization: 分类不多说,定位就是找到对应的对象的位置区域,把它框选出来(即Bounding Box),这个选框包含:位置信息(x,y),和大小信息(w,h)。同样的,这里的图像只包含单个对象。 

Object Detection:对于给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别。与定位的不同就是图像中包含的对象数不确定。 

Instance Segmentation:实例分割,就是在检测的基础上,把每个对象的轮廓勾勒出来,随之而来的就是语义分割(Semantic segmentation)

Computer vision task

Classification + Localization

训练过程

1. 先训练一个分类的模型,主要是训练用于提取特征的卷积网络部分(这部分可以使用迁移学习,用别人预训练好的模型,如ImageNet的与训练模型) --> Classification head

2.  在第一步中训练好的卷积网络后(有两种方式,如下第二张图),接上用于确定选框的全连接的回归网络 --> “regression head”,然后进行训练。

3. 测试时,将卷积网络后接上两个全连接的头,完成选框定位和分类 

Classification + Localization  
Localization  

回归

有两种方式不定类回归(class-agnostic)和特定类(class-specific)回归。

    - 不定类回归:输入一张图,无论它的类别是什么,输出为4个数字(一个框)

    - 特定类回归:假设共有C个类,那么共有C x 4 数字(每个类1个选框)

Sliding Window

滑窗:更方便的处理不同尺寸的图片。(天池比赛的冠军讲解中,好多都有提到,好像很厉害)

图片size比我们的框的size要大一些,那我们就上下左右,都按照我们定的size移动一下,然后用分类器算一下score,然后移动四次后,我们可以获得四个框,对应四个不同的类别的分数值,然后对使用一些方法对这些边框和分数值进行合并。很多人说很好用。

Sliding Window 1
Sliding Window 2
Sliding Window 3

你可能感兴趣的:(Localization and Detection)