目标检测算法R-cnn系列

目标检测:R-cnn、faster-r-cnn等

R-cnn:

  • 候选区域:使用 选择性搜索(Selective Search) 等算法(合并像素,非常耗时)在输入图像中生成一组候选区域。
  • 特征提取:候选区->特征向量。
  • 区域分类:SVM判断是否有物体,并进行分类。
  • 区域校准:对边界框(bounding box)进行校准。

有大量的重复计算,非常耗时。

fast-r-cnn ICCV 2015

解决了特征图重复计算的问题。

  • 候选区域:使用 选择性搜索(Selective Search) 等算法(合并像素,非常耗时)在输入图像中生成一组候选区域。
  • 特征提取:对整张图像进行特征提取。
  • 候选区域特征:利用 RoIPooling 算法分别生成每个候选区域的特征。
  • 候选区域分类与回归。
ROI Pooling:

ref
ROI Pooling解决的是候选区域大小不一致的问题,ROI Pooling之后,候选区域的大小一致,就可以进行并行的计算,加快速度。

faster-r-cnn

ref1 zhihu
ref2 bilibili

  • 特征提取:使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层等。
  • 生成锚框(anchors)。
    注:其实这个锚框是作者自己人为设计的9个框。
    每一个点都配备这9种anchors作为初始的检测框。

    在这里插入图片描述
  • 使用RPN将每个框映射到两个通道,一个用于二分类(目标/非目标),一个用于回归(调整锚框大小和位置)。然后就可以根据得分大小,经过回归生成候选区域。这里面的回归比较复杂,没看懂。大概的意思就是利用候选框和真实目标框训练一个回归器,回归器的输出是四维向量,分别表示锚框的水平偏移、垂直偏移、宽度调整和高度调整。
  • ROI Pooling。
  • 分类。

你可能感兴趣的:(算法岗面经,深度学习的自我学习和学习资料,目标检测,算法,cnn)