《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译

R i c h   f e a t u r e   h i e r a r c h i e s   f o r   a c c u r a t e   o b j e c t   d e t e c t i o n   a n d   s e m a n t i c   s e g m e n t a t i o n Rich\ _{}feature\ _{}hierarchies\ _{}for\ _{}accurate\ _{}object\ _{}detection\ _{}and\ _{}semantic\ _{}segmentation Rich feature hierarchies for accurate object detection and semantic segmentation

R o s s   G i r s h i c k , J e f f   D o n a h u e , T r e v o r   D a r r e l l , J i t e n d r a   M a l i k Ross\ _{}Girshick,Jeff\ _{}Donahue,Trevor\ _{}Darrell,Jitendra\ _{}Malik Ross GirshickJeff DonahueTrevor DarrellJitendra Malik

用 于 精 确 目 标 检 测 和 语 义 分 割 的 丰 富 特 征 层 次 用于精确目标检测和语义分割的丰富特征层次

  摘要:在规范的PASCAL VOC数据集上测量的目标检测性能在过去几年中一直处于稳定状态。性能最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合在一起。在本文中,我们提出了一种简单的且可扩展的检测算法,相对于之前VOC 2012上的最佳结果,该算法将平均精度均值(mAP)提高了30%以上,是mAP达到53.3%。我们的方法结合了两个关键的见解:(1)一个可以将高容量卷积神经网络(CNN)应用于自下而上的候选区域,以便对目标进行定位和分割;(2)当标记的训练数据不足时,对辅助任务进行有监督的预训练,然后进行特定领域的微调,可以显著提高性能。由于我们将候选区域与CNN结合在一起,因此我们将我们的方法称为R-CNN:具有CNN特征的区域。我们还将R-CNN与OverFeat(一种最近提出的基于相似CNN架构的滑动窗口检测器)进行了比较。我们发现,在200类ILSVRC2013检测数据集上,R-CNN优于OverFeat。

《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译_第1张图片

图1 目标检测系统概述。我们的系统(1)拍摄输入图像,(2)提取大约2000个自下而上的候选区域,(3)使用大型卷积神经网络(CNN)计算每个候选的特征,然后(4)使用类别的线性分类器SVM对每个区域进行分类。 R-CNN在PASCAL VOC 2010上实现了53.7%的平均精度均值(mAP)。为进行比较,[39]报告35.1%mAP在使用相同的候选区域,但采用空间金字塔和视觉效果的方法的情况下。流行的可变形的组件模型(deformable part models )的性能为33.4%。在200类的ILSVRC2013检测数据集中,R-CNN的mAP为31.4%,相比之前获得最好结果24.3%的OverFeat [34]有了很大的提高。

你可能感兴趣的:(论文阅读,R-CNN,卷积神经网络)