Mask R-CNN翻译

2.相关工作

RCNN:RCNN是基于区域的方法。它为需要检测的物体画出边界框。这样就有了可控数量的候选物体区域。可以在每个RoI中独立地使用卷积神经网络。Fast RCNN使用RoIPool作用于每一个RoI的feature map上。这使得它的速度加快,精度提高。Faster RCNN改进了流程,通过RPN学习到了注意机制。Faster RCNN是灵活的和鲁棒的,产生了很多基于它的改进。Faster RCNN是在许多判断基准下的主要的框架。

实例分割:被高效的RCNN驱动,许多实例分割的方法是基于segment proposal的。早期的方法凭借的是自底向上的分割。DeepMask 和后来的模型开始了propose segment candidate,然后再使用Fast RCNN进行分类。在这些方法中,分割在识别之前,这样做速度慢,精确度低。同样的,Dai等人提出了一个复杂的多阶段的方法,这个方法是从框回归建议中预测分割建议,然后进行分类。相反,我们的方法是同时预测masks和图像的种类,这样做更简单,更灵活。

最近,Li等人将分别将分割建议系统和物体检测系统进行了合并,作为全卷积的实例分割(FCIS),他们的共同思想是使用全卷积去预测对位置敏感的输出频道。这些频道同时含有物体类别、框、mask的信息,这使得系统更快。但是FCIS对重叠的实例存在系统性的错误,并且为这些实例生成了虚假的边框。显示出,FCIS在实例分割的基础性难点中表现不好。

另一类实例分割的方法是语义分割。语义分割从对每个像素点进行分类开始。它尝试将属于同一类别的像素点切分成不同的实例。和以上方法的先分割策略不同,Mask RCNN是采用先实例化策略。我们希望在未来的研究中,这两种策略可以结合使用。

3.Mask RCNN

Mask RCNN在概念上是简单的:Faster RCNN对每一个候选物体有两个输出。一个是物体的种类,一个是边界框的偏移。我们添加了第三个输出,这个输出是物体的掩膜。Mask RCNN的自然和直觉的想法就是这样的。但是这个多加上的掩膜和之前的两个输出是有区别的。它需要我们提取物体的更好的空间布局信息。接下来,我们介绍了Mask RCNN的关键元素,包括像素到像素的微调,这个是Fast RCNN和Faster RCNN最缺少的部分。

Faster RCNN:我们现在简洁地回顾一下Faster RCNN的探测器。Faster RCNN包括了两个阶段。第一个阶段叫做区域建议网络(RPN),这个网络给出了候选物体的边界框。第二个阶段本质上是Fast RCNN,它使用RoIPool从每一个候选框中提取出了特征,然后利用这些特征进行分类和边界框的回归。这些特征被两个阶段共享,可以让程序更快(特征不是在Fast RCNN提取出来的吗?怎么和RPN共享?)。我们希望读者把Faster RCNN和其他框架做一个完整的比较。

Mask RCNN:Mask RCNN也是分为两个阶段,它的RPN是独立的第一阶段。在第二阶段,并行地预测图像分类和框偏移。Mask RCNN为每一个RoI输出一个二进制的掩膜。

你可能感兴趣的:(机器学习)