Weakly Supervised Learning Based on Coupled Convolutional Neural Networks for Aircraft Detection
基于耦合卷积神经网络的弱监督学习用于飞机检测
Fan Zhang, Bo Du, Senior Member, IEEE, Liangpei Zhang, Senior Member, IEEE, and Miaozhong Xu
IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTESENSING, VOL. 54, NO. 9, SEPTEMBER201
【abstract】
本文的目标是使用基于耦合卷积神经网络的弱监督学习来进行高分辨率遥感图像(VHR)中的机场检测。
目前已存方法存在一下几个弊端:
(1)难以提取高级特征和分层特征代表;
(2)对大型图像进行人工注释代价昂贵,且不可信;
(3)在大型图像上进行小区域定位非常耗时。
【Overview of The Proposed Method】
论文提出的方法,是基于耦合CNN模型的弱监督学习方法,下面分为三个部分介绍该方法:弱监督、耦合CNN中的CRPNet和LOCNet。
一 弱监督
弱监督学习同样基于CNN模型,它只需要弱标签,例如图像级标签来作为训练样本。若标签只需说明图像中有无包含目标,并且弱监督可以挖掘相关数据(见下),因此,弱监督学习在训练过程中只需要少量的人工注释工作。
二 CRPNet(candidate region proposal network)
即 候选区提议网络,用于进行大尺寸的高分辨率遥感图像(VHR)的特征提取工作,方法如下:
1.预训练
使用辅助数据来进行预训练,辅助数据来自California大学的Merced数据集。该数据集包含21个场景类,每个场景类中包含100个图像样本。
预训练过程中,使用Merced数据集中包含飞机的图片为正样本,不包含飞机的图片为负样本(辅助数据),并将负样本加入训练数据集。
2.迭代训练
对于给定的VHR图像,从中标记飞机作为正样本,使用辅助数据作为负样本进行训练。在每一次迭代过程中,CRPNet产生一张候选区域图,并且从原始图像中自动挖掘负样本组成背景数据集,并更新训练样本集。自动挖掘负样本,指的是在迭代过程中收集背景类中获得高分(可能性大于0.5)的难样本,并添加近负样本当中。难样本(hard example)指的是CRPNet在背景中检测到的包含飞机的区域,但背景中实际上不可能包含飞机,所以将这一类候选区域作为难样本,添加到负样本中。
3.候选区域生成
当CRPNet训练完毕后,我们使用候选区域图来产生用于机场检测的候选区域。候选区域图是对象概率的图,并且每个像素表示原始图像中的矩形区域。我们表示候选区域的概率大于0.5,背景概率小于0.5。 我们也可以将其视为二元分类问题。 如果像素具有> 0.5的概率,那么我们提取以该像素为中心的区域,其大小为196×196,其略大于训练图像大小。 对于给定所有的候选区域,采用贪婪非最大抑制,如果某区域与另一个超过0.75可能性的区域交叉重叠,则拒绝该区域。
三 LOCNet
LCONet以候选区域作为输入,并使用贪心滑动窗口搜索来定位飞机的位置并输出概率。
1.首先,将生成的候选区域控制缩放尺寸在0.75和1.25之间均匀采样的尺度进行调整,然后从固定大小的尺寸图像中随机采样每个训练图像,以构建训练小批次。
2.LCONet与CRPNet共享卷积层,训练过程如下:
(1)预训练CRPNet,并用标记样本和辅助样本来调整CRPNet;
(2)使用CRPNet更新的数据集来训练单独的LOCNet,LOCNet的卷积层由CRPNet初始化;
(3)使用LOCNet来初始化CRPNet的卷积层,然后用更新的数据集训练CRPNet(即迭代训练)。
至此,两个网络共享卷积层,并形成耦合CNN模型。
3.检测
我们将滑动窗口过程应用于多个精确采样的尺度,首先,从候选区域提取不同尺寸的子图像,然后将子图像重新缩放为固定的图像大小(如128*128,(128*0.75)*(128*0.75),(128*1.25)*(128*1.25)),并将它们输入到三个具有相同的参数LOCNet中,这样有利于在大尺寸图像中检测小尺寸目标。
对于每一个尺寸的图像,将计算背景与飞机的得分,并分别求平均,若>0.5,则认为是飞机图像。