maskrcnn里面的ground truth来历

基于区域的卷积神经网络

  基于区域的卷积神经网络(R-CNN)是 Faster R-CNN 工作流的最后一步。从图像上获得卷积特征图之后,用它通过 RPN 来获得目标建议并最终为每个建议提取特征(通过 RoI Pooling),最后我们需要使用这些特征进行分类。R-CNN 试图模仿分类 CNNs 的最后阶段,在这个阶段用一个全连接层为每个可能的目标类输出一个分数。

  R-CNN 有两个不同的目标:

    1. 将建议分到一个类中,加上一个背景类(用于删除不好的建议)。

    2. 根据预测的类别更好地调整建议的边框。

  在最初的 Faster R-CNN 论文中,R-CNN 对每个建议采用特征图,将它平坦化并使用两个大小为 4096 的有 ReLU 激活函数的全连接层。

  然后,它对每个不同的目标使用两种不同的全连接层:

    • 一个有 N+1 个单元的全连接层,其中 N 是类的总数,另外一个是背景类。

    • 一个有 4N 个单元的全连接层。我们希望有一个回归预测,因此对 N 个类别中的每一个可能的类别,我们都需要 Δcenterx、Δcentery、Δwidth、Δheight。

maskrcnn里面的ground truth来历_第1张图片

训练和目标

  R-CNN 的目标与 RPN 的目标的计算方法几乎相同,但是考虑的是不同的可能类别。我们采用建议和真实边框,并计算它们之间的 IoU。

  那些有任何真实边框的建议,只要其 IoU 大于 0.5,都被分配给那个真实数据。那些 IoU 在 0.1 和 0.5 之间的被标记为背景。与我们在为 RPN 分配目标时相反的是,我们忽略了没有任何交集的建议。这是因为在这个阶段,我们假设已经有好的建议并且我们对解决更困难的情况更有兴趣。当然,这些所有的值都是可以为了更好的拟合你想找的目标类型而做调整的超参数。

  边框回归的目标是计算建议和与其对应的真实框之间的偏移量,仅针对那些基于 IoU 阈值分配了类别的建议。

  我们随机抽样了一个尺寸为 64 的 balanced mini batch,其中我们有高达 25% 的前景建议(有类别)和 75% 的背景。

  按照我们对 RPN 损失所做的相同处理方式,现在的分类损失是一个多类别的交叉熵损失,使用所有选定的建议和用于与真实框匹配的 25% 建议的 Smooth L1 loss。由于 R-CNN 边框回归的全连接网络的输出对于每个类都有一个预测,所以当我们得到这种损失时必须小心。在计算损失时,我们只需要考虑正确的类。

你可能感兴趣的:(深度学习)