Faster RCNN 和SSD的常用trick

近期计划对Faster RCNN、SSD的一系列trick进行总结。主要分为:框架结构上面的trick、参数设置上的trick、在文字检测特定领域的trick。

首先,是对Faster RCNN、SSD原始框架上的一些改进。包括:

  1. 通过各种方式来增加上下文信息辅助检测。例如通过空间RNN来引入上下文信息[80],通过放大faster rcnn的候选框来获得上下文信息[81][82][83],用dilation 卷积来获得上下文[84][85],用global pooling来获取上下文信息[86],对每个候选框都加入全局的分类结果来获得上下文信息[87]。Dssd[88]通过反卷积来利用SSD框架同一位置上高层感受野更大的特征增强本层的特征,来加入上下文信息。
  2. 改进分类损失。Sheng Tang等人[85]提出要加入sink类来改善某些背景类容易错分的情况, Tsung-Yi Lin等人[89]提出了focal loss,来改善单阶段框架下,类别数目不匹配的情况。
  3. 训练方式和样本扩增。OHEM[90]通过在线困难样本挖掘训练了更有判别力分类分支网络。A-fast-rcnn[91]采用生成对抗式网络的训练形式,在线产生训练困难的有遮挡或形变的样本。SSD[68]采用了丰富的数据扩增,包括镜像、颜色畸变、尺度缩放和纵横比缩放,极大提高了检测性能。
  4. 增强特征。Hypernet[92]把从高层到底层的多特征融合,然后进行ROIpooling,获得了更高的精度,FPN[93]通过反卷积网络,构建了每层都有相同特征强度的特征金字塔,对多尺度的目标都可以很好地处理。Jiannan Li [94]提出用生成对抗式网络式的训练,将小目标通过ROIpooling得到的特征逼近大目标ROIPooling提出的特征。
  5. 改进proposal 产生方式。J Hosang [95]通过实验表明,proposal方法的recall是影响检测器的性能的决定因素之一。CRAFT[98]通过两级的模型来回归出更好的object proposal。
  6. 改进回归方式,Spyros Gidaris [97]提出窗口微调与多窗口投票。首先利用Fast R-CNN[64]系列框架中对窗口进行回归的这个过程,反复迭代,然后用所有窗口投票,决定最终的目标类别与位置。

 

转自:https://www.jianshu.com/p/70711a18f5f7?from=timeline&isappinstalled=0

 

你可能感兴趣的:(机器学习)