Mask OBB 论文学习笔记

论文基本信息

  • 标题:Mask OBB: A Semantic Attention-Based Mask Oriented Bounding Box Representation for Multi-Category Object Detection in Aerial Images
  • 作者:Jinwang Wang,Jian Ding, Haowen Guo , Wensheng Cheng, Ting Pan and Wen Yang
  • 机构:School of Electronic Information, Wuhan University ;State Key Lab. LIESMARS, Wuhan University
  • 来源:remote sensing
  • 时间:2019
  • 链接:https://www.mdpi.com/2072-4292/11/24/2930

论文概要

解决问题

提出了一种旋转目标检测的新思路,基于mask-rcnn 利用分割的方法来做旋转目标检测。

已有方法

  • 基于HBB的遥感目标检测算法
方法 概要
R-P-Faster R-CNN[1] 检测遥感图像中的小目标。
Deformable Convolutional Network(DCN)[2] 研究遥感图像目标检测中的几何建模问题
multi-scale CNN[3] 多尺度的检测方法
HSF-Net[4] 用于检测航拍图像中特定的船只目标
Sig-NMS[5] 这不算检测算法,只是优化了传统的NMS,提高了对小物体的检测精度。
  • 基于OBB的遥感目标检测算法— regression-based methods
方法 概要
DRBox [6] 直接回归多角度的OBB
FR-O[7] 回归OBB相对于HBB的偏移量
ICN[8] 结合图像级联和特征金字塔网络提取特征,然后再回归OBB相对于HBB的偏移量。
RRPN[9] 通过RRPN产生一些带有方向信息的proposals,然后再回归偏移量
R-DFPN[10] 解决了遥感图像中船只目标宽度窄的问题
Oriented R-CNN[11] 提出了一种新的OBB的表示方法,改造了Faster R-CNN,回归6个值来表示proposals。
  • 表示OBB的方法
方法名 表示方法 解释
θ -based OBB ( cx , cy , h , w , θ ) (cx,cy)表示OBB中心点的位置。h,w, θ分别表示高,宽,和角度
point-based OBB {( x i , y i ) i = 1,2,3,4 }
h -based OBB {( x 1 , y 1 , x 2 , y 2 , h )} (x1,y1)(x2,y2)是OBB的第一个和第二个点,h表示OBB的高度

Mask OBB 论文学习笔记_第1张图片

方法/研究内容

利用了mask rcnn的框架,修改了FPN,提出了ILC-FPN,提出了SAN从特征图中提取语义特征图用于分割。然后进行多个任务的融合。

创新点

  • 提出了mask-oriented bounding box representation(mask obb),将旋转目标检测看错像素级的分类问题(分割的思想)
  • 提出了ILC-FPN,改进的FPN能够处理目标尺度变化大的问题
  • 提出了SAN,提供语义特征来区分目标和背景

性能/效果

数据集 OBB mAP HBB mAP
DOTA 75.33% 76.89%
HRSC2016 96.70%

算法流程

总体框架

Mask OBB 论文学习笔记_第2张图片
整体是一个基于mask-rcnn的两阶段的网络,backbone出来后,第一阶段是通过RPN生成proposals,并且通过SAN生成掩码图(语义特征图)。第二阶段时将backbone产生的特征图和proposals同时传入ROI Align中生成固定大小的特征向量。将SAN生成的语义特征图送人ROI Align生成固定大小的特征向量。再把两个特征向量融合送入FC层,分别进行HBB的回归,OBB的回归和分类。最后对回归的OBB进行后处理(利用Topological Structural Analysis Algorithm算法生成OBB框)。

Mask OBB Representation

不同于point-based OBBs和θ -based OBBs ,在本文中采用了mask obb来表示一个obb区域。Mask OBB就是有目标的区域为1,没有目标的区域为0。如图
Mask OBB 论文学习笔记_第3张图片

在DOTA和HRSC2016中分别采用的是point-based OBBs的表示方法。所以需要制作标签。本文采用的方法是直接将obb框中的置为1,框外的置为0,以此来生成相应的gt map。
在预测得到mask map后,通过后处理得到对应的DOTA和HRSC2016中对应的表示方法,处理方法采用Topological Structural Analysis Algorithm[54]。

Inception Lateral Connection Feature Pyramid Network(ILC-FPN)

低层次的特征图语义信息少,位置信息多。高层次的特征图反之。FPN就是取不同层的特征图进行融合,尽可能的融合兼顾语义信息与位置信息的特征图。但是普通的FPN无法处理非常大的object。
为了解决这个问题,文章提出了ILCN。结构如下
Mask OBB 论文学习笔记_第4张图片

Semantic Attention Network

输入:backnone出来的5层特征图
输出:固定尺寸的语义分割图。
从feature map中提取语义信息图(用于分割的),对不同层次的信息进行上采样、下采样至相同尺寸后,然后再进行融合。
Mask OBB 论文学习笔记_第5张图片
输出用于HBB分支和OBB分支。而这个预测出来的语义分割图与obb的gtmap是没法直接算损失的,需要将obb的gtmap转换成语义分割的gt map然后算损失。

Multi-Task Learning

损失函数
在这里插入图片描述

实验

  • 不同OBB表示方法,对map的影响
    Mask OBB 论文学习笔记_第6张图片
  • 总体的实验效果比较Mask OBB 论文学习笔记_第7张图片

消融实验

Mask OBB 论文学习笔记_第8张图片
ILC-FPN提高了1.12%的mAP在OBB上,在HBB上提高了1.47%
SAN在提高了0…72%在OBB上,在HBB上提高了0.88%

存在的问题


在上图所示的情况下,预测结果不理想。

新手小白。如有什么错误,欢迎批评指正!

你可能感兴趣的:(深度学习,目标检测)