Jiaming Han∗, Jian Ding∗, Nan Xue, Gui-Song Xia
Wuhan University, Wuhan, China
{hanjiaming, jian.ding, xuenan, guisong.xia}@whu.edu.cn
最近,航拍图像中的物体检测在计算机视觉中受到了广泛关注。与自然图像中的物体不同,空中物体通常以任意方向分布。因此,检测器需要更多的参数来编码方向信息,这通常是高度冗余和低效的。此外,由于普通CNN没有明确地对方向变化进行建模,因此需要大量的旋转增强数据来训练准确的目标检测器。在本文中,作者提出了一个旋转等变检测器(ReDet)来解决这些问题,它明确地编码了旋转等变和旋转不变性。更准确地说,作者将旋转等变网络结合到检测器中以提取旋转等变特征,它可以准确地预测方向并导致模型尺寸的巨大减小。基于旋转等变特征,我们还提出了旋转不变RoI Align(RiRoI Align),它根据RoI的方向自适应地从等变特征中提取旋转不变特征。在几个具有挑战性的航拍图像数据集DOTA-v1.0、DOTA-v1.5和HRSC2016上进行的大量实验表明,我们的方法可以在航拍物体检测任务上实现最先进的性能。与之前的最佳结果相比,我们的ReDet在DOTA-v1.0、DOTA-v1.5和HRSC2016上分别获得了1.2、3.5和2.6 mAP,同时将参数数量减少了60\%(313Mb与121Mb)。
本文研究了航空图像中的目标检测问题,最近在计算机视觉领域出现了具有挑战性问题。与自然图像中的物体不同,航空图像中的目标通常以任意方向分布。为了应对这些挑战,作为定向对象检测任,航空目标检测通常通过依赖面向边界框(OBBS)表示而不是使用水平边界盒(HBB)来制定。
最近,已经提出了许多精心设计的面向对象探测器,并提出关于对挑战的航空图像数据集进行有希望的结果的报告。为了在不受约束的航空图像中实现精准目标检测,其中大多数都致力于提取旋转不变特征。在实践中,Rotated Rol(RRol)warping(例如,RRol池和RRol Align)是提取旋转不变特征最常用的方法,可以根据纹理精确扭曲区域特征指向二维平面中RRoI的边界框。但是,RROI与常规CNN功能的扭曲无法产生精确的旋转不变特征。旋转不变性通过采用更大容量的网络和更多的训练样本来模拟旋转变化。如图1所示,常规CNN不具有旋转等变性,即,向CNNS馈送旋转图像与原始图像的旋转特征映射不同。因此,当方向改变时,从常规CNN特征图中扭曲出来的区域特征通常是不稳定和微妙的。
图1.本文方法(顶部)以及 RRoI warping(下面)的比较。CNN特征对于旋转Tr不是等变的,即将一个旋转后的图像输入进CNN和旋转原图的特征图是不一样的。因此,相应的RoI特征对于旋转是会变动的。然而,本文方法采用了rotation-equivariant CNNs(ReCNN),来提取旋转同变特征。设I、Φ分别是网络的输入和ReCNN,该方法的需同变性可以表示为Φ(TrI)= TrΦ(I),也就是说,对图像I做旋转,与旋转它的特征图是一样的。既然我们有了rotation-equivariant特征,rotation-invariant特征就可以通过RRoI warping提取。而RRoI Align只能实现空间维度的旋转不变,于是作者提出了一个新的Rotation-invariant RoI (RiRoI)Align,在空间维度和朝向维度提取旋转不变的特征。
最近一些提出的方法将CNN扩展到更大的群体,利用分组卷积实现旋转同变性。这些方法的特征图具有来自不同方向的定向通道录制功能(这些方法的特征图带有额外的朝向通道,记录不同朝向的特征)。但是,直接将RRoI warping 应用在旋转同变的特征上,无法产生旋转不变的特征,因为它只能在2D平面上扭曲区域特征,即空间维度,而方向通道仍然没有对齐。要提取完整的旋转不变特征,我们还需要根据RROI的方向,调整特征图的方向维度。
本文提出了一种旋转等变Rotation-equivariant检测器(ReDet),以从旋转等变特征中提取完整的旋转不变特征。如图1所示,该方法由两部分组成:旋转等变特征提取和旋转不变特征提取。首先,我们backbone中加入旋转等变网络以产生旋转等变特征,可以准确地预测方向,降低方向变化建模的复杂度。由于直接应用RRoI warping仍然无法从旋转等变特征中提取旋转不变特征,作者提出了一种新颖的旋转不变RiRoI Align(Riroi对齐)。它可以根据空间尺寸维度的RROI边界框,通过循环地切换朝向通道与特征插值来对齐朝向维度的特征。最后,旋转等变的Backbone和RiRoI Align组合起来,形成了ReDet,以提取完整的旋转不变特征,用于精准的航空目标检测。
在具有挑战性的航拍数据集DOTA和HRSC2016上进行了广泛的实验证明了该方法的有效性。本文贡献如下:(a)我们提出了一种用于高质量航空目标检测的旋转等变检测器,其编码旋转等变性和旋转不变性。作为最好的知识,本文时第一次将旋转等变性引入定向目标检测。(b)作者设计了一种新颖的RiRoI Align,来从旋转等变特征中提取旋转不变特征。与其他RRoI warping方法不同,Riroi对齐在空间和方向尺寸中产生完全旋转的功能。(c)该方法分别实现了DOTA-V1.0,DOTA-V1.5和HRSC2016数据集,分别取得80.10,76.80和90.46mAP。与之前的最佳方法相比,该方法获得1.2,3.5和2.6 mAP改进。与基线相比,本文方法显示了一致和实质性的改进,同时降低了60%的参数量(313MB与121MB)。此外,该方法实现了更好的模型大小与准确率平衡(如图2所示)。
图2.模型大小vs.DOTA-v1.5数据集上的准确率(mAP)。作者用ResNet18(R18)和ResNet50(R50)主干网络评测了RetinaNet OBB,Faster R-CNN OBB(FR),Mask-RCNN(Mask)和Hybrid Task Cascade(HTC)。所有的算法都是作者针对DOTA重新实现的,与表7保持一致。ReDet用ResNet18(R18)和ResNet50(R50)主干网络进行了测试。与其它方法相比,基于ReR18ReDet取得了相近的准确率;而ReR50则超越了所有其它方法一大截子,更好地平衡了模型大小和准确率。
与大多数使用HBBS的通用目标检测器不同,定向对象检测器定位需要通过OBBS来定位并分类目标,它可以提供更准确的目标方向信息。这对于航空目标的检测非常重要,它们具有大纵横比、任意取向和密集分布的特点。随着通用目标检测的发展,已经提出了许多精心设计的方法用于定向对象检测,在具有挑战性的数据集上表现不错。为了检测任意方向的物体,一些方法采用大量的不同角度、尺度和宽高比的旋转anchors来获得更好的回归。但这增加了计算复杂度。Ding等人提出了RoI Transformer来将Horizontal RoIs(HRoIs)变换为RRoIs,不需要用大量的anchors。Gliding vertex和CneterMap 分别使用四边形和mask来准确地描述朝向目标。和将水平感受野和旋转anchors之间的特征进行对齐。DRN通过动态特征选择和优化来检测朝向目标。CSL将角度预测看作为一个分类任务,避免不连续的边界问题。最近,一些基于CenterNet方法也显示其在检测小目标方面的优点。这些方法致力于优化目标表征或特征表征。本文方法尝试通过网络整体来优化特征表征:从主干网络到检测head。具体而言,本文方法在主干网络中产生旋转等变特征,极大地降低了方向变化建模的复杂度。在检测head中,RiRoI Align提取完全旋转不变的特征,目标定位更加鲁棒。
Cohen等人首次提出组卷积,将4倍fold的旋转等变加入CNNs。 Hexaconv在六边形格子上将组卷积扩展到6倍。为了在更多方向上实现旋转等变性,一些方法通过差值对滤波器进行重新采样过滤,而另一些方法采用谐波harmonics作为滤波器,在连续域中产生等变特征。这些方法逐渐将旋转等变性扩展到更大的分组上,并在分类任务上取得不错的效果,而本文的方法将旋转等变网络加入到检测器中,在检测任务上取得巨大提升。这是第一次有人将旋转同等变性系统的应用到定向目标检测任务中去。
旋转不变特征对于检测任意方向目标非常重要。然而,CNNS在建模旋转变化方面表现出较差的性能,这意味着需要更多的参数来编码方向信息。STN和DCN直接在网络中模拟旋转,并且已被广泛应用于面向对象检测。Cheng等人提出了一种旋转不变层,其对目标函数施加了显式的正则化约束。虽然上述方法可以在ImageLevel中取得旋转不变性的近似效果,但需要大量的训练样本和参数。此外,目标检测需要实例级别的旋转不变特征。因此,一些方法将Rol warping扩展为RRol warping,例如,Rol Transformer学习如何将HRoIs变换为RRols,然后利用一个旋转位置敏感的Rol Align操作来扭曲区域特征。但是,常规CNN不具有旋转等变性,因此,即使通过RRO对齐,我们仍然无法提取旋转不变的功能,如图1所示。不同于上述方法,本文方法提出了旋转不变Rol Align(RiRol Align)以从旋转等变特征中提取旋转不变特征。具体而言,作者在主干网络中加入旋转等变网络,来产生旋转等变特征,然后在空间维度和方向维度上利用RiRol Align从旋转等变特征中完整地提取旋转不变特征。
等变性是一种将变换应用于输入的属性,以可预测的方式产生特征的变换结果。给定一个变换分组g和函数φ:x→y,等变性可以表示为:
其中Tg是指在相应空间中对每一组的操作。特别是当TgY对所有TgX相同时,等变就成为了不变性。
同时,已知CNNS是具有平移不变性的。让Tt表示平移分组(R2,+)的操作,并将其应用于K维的特征图上:Z2→Rk,平移不变性就可以表示为:
其中ψ:Z2→Rk表示卷积核,*是卷积操作。最近提出的方法将CNNs扩展到组群,实现平移和旋转不变。设H表示旋转分组,如循环分组CN包含多个离散的旋转角度,角度时2πN的倍数。我们可以将分组组G作为平移分组(R2,+)和旋转分组H的简介乘积,即G≅(R2,+)⋊H。在公式2中,将x∈(R2,+)替换为g∈G,旋转等变性卷积可以定义为:
常规CNN由一系列卷积层组,具有平移权重共享的性质。类似地,旋转同变性网络也由一组旋转同变层组成,权重共享的程度更高,即平移和旋转权重共享。设Φ={Li|i∈{1,2,······,M}}表示对于分组G,具有M个旋转等变层的网络。对于某一层,旋转变换可以通过该层被保留下来:
如果我们对输入I使用Tr,将它输入到网络Φ,变换Tr则会被整个网络保留下来:
对于输入做任意的旋转变换,如果其输出保持不变,则说这个输出特征是旋转不变的。旋转不变特征可分为三个层级:图像层级、实例层级和像素层级。在这里,我们主要关注实例层级的旋转不变特征,这更适合目标检测任务。和分别表示图像I的Rol和特征图f的Rol。假设是一个HRol(x,y,w,h),对方向保持不变,其中(x,y),w,h分别表示HRol的中心点、宽度和高度。虽然是一个关于方向的RRol(x,y,w,h,θ)。与等式5相似,对于Rol,旋转等变性可以表示为:
如果我们将HRol看作是图像I的RolTrIR的旋转不变的表征,可以当做是Φ(TrIR)在对应特征空间中的旋转不变表征。为了得到Φ(IR),我们需要知道旋转变换。幸运的是,通常是方向θ的一个函数。在实践操作中,我们可以简单地采用RRPN或R-CNN来学习RRol的方向θ,以及变换。最后,利用反向变换Tr`得到旋转不变特征Φ(IR),如等式6:
本节介绍旋转等变检测器(ReDet)的详细信息,编码旋转等变性和旋转不变性。首先,我们采用旋转等变的网络作为主干,以提取旋转等变的特征。如前面所述,直接对旋转等变特征图使用RRol Align无法得到旋转不变的功能。因此,作者设计了一种新颖的Rotation-invariant RoI Align(RiRol Align),从旋转等变的特征图上产生Rol旋转不变特征。ReDet的整体结构如图3所示。给定一个输入图像,我们将其输入到旋转等变网络中,再采用RPN生成HRols,然后是Rol Transformer(RT),将HRoIs转换为RRoIs。最后,通过RiRol Alig来提取旋转不变特征,用于Rol的分类和边界框回归。
图3. ReDet的概览。(a)旋转同变检测器的整体结构。首先使用旋转同变主干网络提取旋转同变特征,后面跟着一个RPN和RT,产生RRoIs。然后使用旋转不变的RoI Align(RiRoI Align)产生旋转不变的特征,用于分类和边框回归。(b)旋转同变的特征图。在循环分组CN之下,大小是(K,N,H,W)的旋转等变的特征图有N个方向通道,每个方向通道对应着CN的一个元素。(c)RiRoI Align。RiRoI Align有两部分组成:空间对齐和方向对齐。对于一个RRoI(x,y,w,h,θ),空间对齐会从空间维度中扭曲RRoI,而朝向对齐则循环地切换朝向通道,进行特征插值,产生完全旋转不变的特征。
目前目标检测器通常采用CNN作为主干网络,自动提取语义信息丰富的深度特征,例如广泛使用的带有特征金字塔网络(FPN)的ResNet。作者还采用了带有FPN的ResNet作为基线模型,实现了一个旋转等变的主干网络,命名为Rotation-equivariant ResNet(ReResNet)。
具体来说,作者基于e2cnn重新实现了旋转等变网络的所有层,包括卷积、池化、归一化、非线性等。考虑到计算成本,ReResNet和ReFPN只对离散分组(R2,+)⋊CN等变,即所有的平移变换和N个离散的旋转变换。如图3(b)所示,我们可以向旋转等变的主干网络,以产生旋转等变特征图。与普通特征图不同,大小为(K,N,H,W)的旋转等变特征图f有N个方位通道:,每个方位通道fi的特征图对应CN中的一个元素。
与常见的主干网络相比,旋转等变网络具有以下优点:(1)更高的权重共享。作者介绍了旋转等变特征图具有一个额外的方向维度,来自不同方向的特征通常共享相同的滤波器,这些滤波器具有不同旋转变换,即共享旋转权重。(2)丰富的方向信息。对于具有固定方向的输入图像,旋转等变主干网络可以输出多个方向特征。这对于需要精确方向信息的面向对象检测很重要。(3)模型尺寸更小。与基线相比,作者在设计主干网络时有两种选择:相似的计算量或相似的参数量。通常,保持与基线模型相似的计算量,即保持相同的输出通道。由于旋转权重共享,旋转等变主干网络大幅度降低了模型大小,约1/N的参数量。
如第三节所述,对于一个RRoI(x,y,w,h,θ),我们可以利用RRoI warping从旋转等变特征图中提取旋转不变的RoI特征。然而,常见的RRoI warping只能在空间维度上对齐特征,而方向维度则不对齐。因此,作者提出RiRoI Align来提取完全旋转不变的特征。如图3(c)所示,RiRoI Align包括两个部分:(a)空间对齐。对于RRoI(x,y,w,h,θ),空间对齐从特征图f对其做扭曲,以在空间维度上产生旋转不变的区域特征fR,这与RiRoI Align一致。(b)方向对齐。为了确保不同方向的RRoIs产生完全旋转不变的特征,我们在方向维度中进行了方向对齐。具体而言,对于输出区域特征fR,我们将方向对齐公式表示为:
其中SC和Int分别表示切换通道和特征插值操作。对于区域特征fR,首先计算一个索引值r,循环切换方向通道,确保CN(r)是第一个方向通道。但是,由于旋转等变性仅在离散的分组CN中得到,如果θ∉CN,还需要对特征做插值。更准确地说,我们使用最近的l方向通道对方向特征进行插值。例如,=2时第i个方向通道的输出特征可以表示为:
其中α=θN/2π-r表示一维插值的距离因子。请注意,我们使用mod函数来确保i∈[1,N]。与RRoIAlign+MaxPool的比较。与RiRoI Align不同,通过RRoI Align然后在方向维度上最大池化特征(即方向池化)是另一种提取旋转不变特征的方法。分类任务通常采用方向池化操作。对于特征图上的每个位置,它仅保留响应最强的方向,而丢弃其他方向的特征。但是,作者认为来自所有方向的响应,无论强弱,对于目标检测都是不可或缺的。在RiRoI Align中,保留了所有方向的特征,通过方向对齐操作来对齐。
DOTA是航空影像中面向对象检测的最大数据集,有两个已发布的版本:DOTAv1.0和DOTA-v1.5.DOTA-v1.0包含2806幅大型航空影像,大小范围为800×800至4000×4000,在15个常见类别中有188,282个实例:飞机(PL)、棒球场(BD)、桥梁(BR)、地面跑道场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)DOTA-v1.5是为DOAI挑战赛20193发布的一个新类别,集装箱起重机(CC)和更多极小的实例(小于10像素)。DOTA-v1.5包含402,089个实例。与DOTA-v1.0相比,DOTA-v1.5更具挑战性,但在训练中更稳定。按照前面方法中的设置,我们使用训练和验证集进行训练,使用测试集进行测试。我们将原始图像裁剪成1024×1024个面片,步长为824。采用随机水平翻转,避免训练时过拟合,不使用其他招数。为了与其他方法进行公平的比较,我们准备了三个尺度{0.5,1.0,1.5}的多尺度数据,以及用于训练和测试的随机轮换。
HRSC2016是一个具有挑战性的带有OBB标注的船舶检测数据集,其中包含1061幅航拍图像,大小范围从300×300到1500×900。它在训练、验证和测试集中分别包括436、181和444幅图像。我们使用训练和验证集进行训练,使用测试集进行测试。所有图像的大小都调整到(800,512)而不改变纵横比。训练过程中应用随机水平翻转。
ImageNet预处理。对于原始的ResNet,我们直接使用来自Pytorch[25]的ImageNet预处理模型。对于ReResNet,我们基于mmclassification4实现它。我们在ImageNet-1K上训练ReResNet,初始学习率为0.1。所有模型都经过100个时期的训练,学习率在{30,60,90}个时期除以10。批次大小设置为256。
检测时微调。我们采用以FPN[17]为基线方法骨干的ResNet[12]。采用带有ReFPN的ReResNet作为我们提议的ReResNet的主干。对于RPN,我们在每个金字塔级别的每个位置设置15个锚。对于美国有线电视新闻网,我们以1:3的正负比对512个感兴趣区域进行采样进行训练。为了测试,我们在NMS之前采用了10000个感兴趣区域(每个金字塔等级2000个),在NMS之后采用了2000个感兴趣区域。我们采用与mmdetection[3]相同的训练时间表。采用SGD优化器,初始学习率为0.01,学习率在每个衰减步骤除以10。动量和重量衰减分别为0.9和0.0001。我们在DOTA的12个时代和HRSC2016的36个时代对所有车型进行培训。我们使用4个总批量为8的V100GPU进行训练,使用单个V100GPU进行推理。
在本节中,我们在DOTA-v1.5测试集上进行了一系列消融实验,以评估我们提出的方法的有效性。注意,我们使用原始的ResNet+FPN和RRoIAlign分别作为基线方法的主干和RoI扭曲方法。旋转等变骨干。我们评估了表1旋转等变主干的有效性。基于分类的旋转等变骨干网的性能比较。和检测(det).group表示主干与其等价的轮换组。我们报告了在没有FPN的情况下ILSVRC2012上的前1名精度和在DOTA-v1.5测试集上的mAP方面的检测性能。模型大小仅包括主干的大小。
表1.分类(CLS)和检测旋转等级骨干的性能比较和检测(DET)。组表示骨干网上的旋转组。我们在没有FPN的情况下报告ILSVRC 2012上的前1个精度和在地图方面的DOTA-V1.5测试中的检测性能。模型大小仅包括骨干的大小。
表2。旋转等变主干在其他检测器上的性能。更快的OBB和OBB是我们为车载基站重新实现的版本。
不同设置下的Net50+ReFPN。如表1所示,与ResNet50相比,ReResNet50实现了更低的级别-筛分精度由于参数的减少,但它获得了更高的检测mAP。我们发现循环组c8下的主干实现了更好的精度-参数权衡。C8gains下的reresnet50+refpn1.83检测mAP改进,只有1/8参数(103Mb对12Mb)。此外,我们还在表2中将ReResNet+ReFPN扩展到其他方法。速度更快的美国有线电视新闻网OBB和速度更快的OBB都超过了其对手,这进一步证明了旋转等变主链的有效性。
表3。RiRoI对齐与RRoI对齐的比较。#interpolate表示用于插值的方向通道数量(与秒中的l相同。4.2).对于方向为θ的RRoI,我们使用其最近的{1,2,4}方向通道来插值其特征。议员。是MaxPool的缩写。主干采用ReR50+ReFPN。
快速投资回报调整的有效性。如表3所示,与RRoIAlign相比,RiRoIAlign由于其方向对齐机制而显示出显著的改进。而RRoIAlign+MaxPool导致mAP显著下降,这表明在面向对象检测中不希望出现方向池。与RRoIAlign相比,使用l=2插值的RiRoIAlign实现了最高的66.86mAP和0.87mAP改进。此外,我们发现l=4插值的RiRoIAlign仅获得0.33mAP。原因可能是过多的插值会损害等变性质和方向之间的内在联系。与旋转增强的比较。从另一个角度来看,我们的方法可以被视为一种特殊的网络内旋转增强,它从一个方向学习,并且可以应用于多个方向。相比之下,旋转增强通过生成具有更多方向的样本来增强网络,并且通常需要更多的时间来收敛。如表4所示,虽然我们的方法在1x调度下没有超过旋转增强基线,但是我们的ReDet保留了相似数量的参数,仅用18%的额外训练时间就显示出2.59mAP的改进。此外,带旋转增强的2x基线比我们的ReDet*高0.68,但它需要两倍的训练时间。
表4。与旋转增强的比较。比较了基线方法和旋转(rot)方法的性能。)增强和不带旋转增强的ReDet。ReDet*保留了与基线相似数量的参数。我们在环状基团C8下报道了具有R18(用于基线)和ReR18(用于ReDet)主链的mAP。为了公平比较,我们从{0,45,90,315}中随机选择旋转角度。
表5。所提出的ReDet在其他数据集上的性能。以COCO风格报告了DOTA-v1.0和HRSC2016的性能。使用ReR50+ReFPN(resp.R50+FPN)作为ReDet。
其他数据集上的性能。为了证明我们提出的方法的一般性,我们还评估了在DOTA-v1.0和HRSC2016上的ReDet性能。如表5所示,与基线相比,ReDet在两个数据集上都取得了更好的性能。此外,ReDet在AP75和mAP上有显著的改进,这证明了它的精确定位能力。
DOTA-v1.0上的结果。如表6所示,我们在DOTA-v1.0OBB任务上比较了我们的ReDet和其他最先进的方法。没有花哨的功能,我们的单比例模型实现了76.25mAP,优于所有单比例模型和大多数多比例模型。在有限的数据扩充(即多尺度数据和随机旋转)下,我们的方法在整个数据集上实现了最先进的80.10mAP,并在12/15类别中获得了最佳或次佳的结果。
DOTA-v1.5上的结果。与DOTA-v1.0相比DOTA-v1.5包含了很多极小的实例,增加了物体检测的难度。在表7中报告了DOTA-v1.5测试集的OBB和HBB结果。在单尺度数据下,本文方法获得了66.86OBB地图和67.66HBB地图,大大优于视网膜OBB、更快的R-CNNOBB、MaskR-CNN[11]和HTC[2]。特别是对于具有小实例(如HA、SP、CC)和大规模变化(如PL、BD)的类别,本文方法表现得更好。此外,如图2所示,我们的ReDet实现了更好的参数与精度的权衡,这进一步证明了它的效率。与OWSR之前的最佳结果相比,本文的多尺度模型实现了最先进的性能,约为76.80OBBmAP和78.08HBBmAP。本文的ReDet和基线方法之间的定性比较如图4所示。
HRSC2016上的结果。HRSC2016包含许多任意方向的细长船实例。我们将我们的ReDet与表8中其他最先进的方法进行比较。本文的方法实现了最先进的性能,即在VOC2007和VOC2012指标下,mAP分别为90.46和97.63。
本文提出了一种用于航空目标检测的旋转等变检测器,它由旋转等变主干和RiRoI对齐两部分组成。前者产生旋转等变特征,而后者从旋转等变特征中提取旋转不变特征。在DOTA和HRSC2016上的大量实验证明了该方法的有效性。