卷积神经网络(CNN)最近在广泛的图像分类任务1-3中取得了最先进的性能。但要做到这一点,需要大量的标记数据。不幸的是,在遥感应用中,数据收集可能耗时且昂贵。此外,当引入新的传感器时,人们希望仍然能够利用由类似的前身系统收集的历史数据。一般来说,在能够准确评估新系统的效用之前,等待执行大量繁重的数据收集是不可行的。出于这些原因,我们探索了使用CNN进行迁移学习的想法。本质上,目的是证明来自多个类似遥感传感器的数据可以被集中利用,以解决相关的自动目标识别(ATR)任务,并满足训练数据要求。
CNN以前是用MUSCLE自主水下航行器(AUV)收集的合成孔径声纳(SAS)数据开发的,用于水雷分类。利用这项工作,我们证明了两种类型的迁移学习在水下目标分类任务中的可行性:目标概念迁移和传感器迁移。具体地说,我们修改了网络的目标概念,从水雷到未爆弹药(UXO),以便成功地将未爆弹药——而不是水雷——从杂乱中区分出来。我们演示的第二种类型的CNN迁移学习涉及传感器之间的迁移:使用来自一个传感器的SAS数据训练CNN,并对其进行调整,使其能够在不同的频带下对来自不同传感器的SAS进行推断。在真实、测量的SAS图像上的实验结果说明了这些形式的CNN迁移学习的可行性。
本文的其余部分组织如下。第2节提供了CNN的必要背景。第3节显示了目标概念迁移学习的结果,第4节显示了传感器迁移学习的成果。第5节给出了结论。
CNN是一种复杂的分类算法,其强大的表现能力来源于它的强大表现能力。CNN的标准架构包括交替的卷积和池化操作层,然后是完全连接层和最终(完全连接输出)预测层。一层的输出是下一层的输入,这种嵌套功能结构与非线性激活功能(激活函数)相结合,实现了高度复杂的决策面。CNN的输入是一幅图像,输出是属于所考虑的每个类别(这里是目标和杂波)的概率。训练CNN意味着学习滤波器的参数(和偏差项)。这个基本架构的示意图如图1所示。
对于我们的应用程序,初始层的输入是在检测阶段由Mondrian检测算法在更大的SAS场景级图像(通常跨越50 m x 110 m)上标记的警报的SAS幅度或相位“码片”。这些输入图像的尺寸为267像素乘267像素,每个维度的分辨率为1.5cm。最后一层的输出是属于每个类别(目标或杂波)的概率。每个卷积层和全连接层使用一个sigmoid激活函数,而每个池化层使用纯平均而不是常用的最大池化方法。每个卷积层与预定大小的固定数量的滤波器(即内核)相关联。
深度网络的训练过程学习模型的参数,对于卷积层,这些参数是滤波器和相关的偏差项。(没有与池层关联的参数。)该模型试图最小化所考虑的训练数据的标准分类误差。在每次训练迭代中,通过批梯度下降来更新模型参数。因为要学习的自由模型参数可能有数千个甚至数百万个,所以必须有一组非常大的训练数据以避免过度拟合。反过来,“从头开始”训练CNN可能需要相当长的时间,即使使用高吞吐量的计算资源,如图形处理单元(GPU)。
在这项工作中,我们通过使用在不同地点的八次海上实验中收集的SAS图像的大型数据库,利用了七个先前为水雷识别任务训练的CNN。每个CNN通过卷积层的数量、滤波器的数量和大小(以像素为单位)、采用的池化因子以及假定的输入数据类型(例如,幅度图像或相位图像)来区分。表I总结了这些CNN的基本架构,其中所采用的卷积层数量等于给定列中的元素数量。每个CNN中要学习的自由参数的数量大约为个,这对于CNN来说相对较小。就上下文而言,流行的VGG-net8有大约个参数。
我们首先通过改变被认为是目标和杂乱的对象的类别来探索目标概念迁移学习的思想。目标是改进已经训练的CNN,使其能够正确区分新的对象类,而无需“从头开始”训练网络。
此前,MUSCLE AUV在八次海上实验中收集的SAS数据已用于训练七个CNN,其中目标类包括水雷状物体形状,包括圆柱体、截锥、楔形和其他人造物体。所有其他报警都被分配到杂乱类。MUSCLE SAS的中心频率为300 kHz,带宽为60 kHz。
对于这些迁移学习实验,来自三个不同海上实验(未在早期训练过程中使用)的MUSCLE SAS数据被视为测试数据。为了实现转移学习场景,目标类被修改为仅由圆柱形对象组成(作为UXO的替代物,UXO通常采用这种形状)。所有其他对象(包括以前被视为目标的对象)都被认为属于杂波类。
用这种方式将训练数据“重新标记”,进行CNN的细化。之前训练的CNN参数通过批量梯度下降更新,batch_size为32,固定学习率为1.0,并结合错误分类错误损失函数。在每次迭代中,每个类的批次使用的数据从38个随机选择的数据点的更大的池中抽样,抽样偏差有利于(即选择)更困难的情况,由蒙德里安检测分数量化。为了增加数据集,提高鲁棒性,每个报警图像在距离方向上随机反射一个轴,并随机平移。cnn的每个输入数据点对应一个4m × 4m的SAS图像框,如图1所示。
对2000个epoch执行了迁移学习优化,其中一个epoch被定义为对应于来自单个批处理的更新,而不是整个数据集的完整传递。对于前1000个epochs,杂波类数据点被限制从原始训练中被视为目标的对象子集中提取,但在细化阶段被视为杂波。对于下面的1000个epochs,允许从所有被分配为再训练的杂波标签的警报中提取杂波类数据点。这一过程是为了检查将细化的重点放在“取消学习”新标记的杂波情况上是否足够,还是考虑完整的杂波情况是必要的。
目标概念迁移学习实验的结果在表II-IV中总结为接收器操作特性(ROC)曲线(AUC)下的面积。具体地说,对于所考虑的七个CNN中的每个CNN,对于三个测试数据集中的每个测试数据集,AUC显示为在第0个epoch(即,在任何细化发生之前)、第1000个epoch和第2000个epoch。
从表中可以看出,在细化开始之前,性能相当差,因为CNN已经被训练成将某些对象作为目标,然后在测试阶段将其视为杂波。在使用新的标记规则改进CNN参数后,性能得到了显著提高。可以注意到,考虑完整的杂波情况是需要获得最佳性能的,这表明“不学习”改变的标签情况本身是不够的。从表中还可以看出,使用SAS相位图像作为输入的CNN G无法通过细化来提高性能,这表明在这种数据表示中,改变了标签的杂波对象(与目标类)是不可区分的。
对于使用量级图像作为输入的六个cnn,完整的ROC曲线作为细化时间的函数的性能演变也显示在TJM1测试数据集的图2中。
接下来,我们通过考虑来自新传感器的数据来阐述传感器迁移学习的思想。目标是从使用MUSCLE数据训练的cnn开始,并使用来自不同传感器(即SeaOtter Mk II AUV上的SAS系统)的少量数据对其进行优化,以便网络能够正确地对来自新传感器的测试数据进行分类。这种方法将消除对新传感器的大量标记训练数据的需要,否则就需要“从零开始”训练网络。
在本研究中,我们使用SeaOtter Mk II AUV于2016年9月在德国水域收集的SAS数据。SeaOtter SAS的中心频率为150khz,带宽为30khz。这里考虑的数据集包括476个SAS场景图像,总共覆盖约2.61平方公里的海床。
将蒙德里安检测算法应用于场景图像,产生29208个候选告警。调查数据是在一个已知含有二战时期真正的未爆弹药的地区收集的,但没有适当的地面真相。因此,我们手动标记所有候选告警,将疑似UXO分配给目标类,并将所有其他告警分配给杂波类。(虽然得到的分类率可能不准确,但这种方法仍然可以公平地评估传感器迁移学习的潜力。)
为了形成相对均衡的训练和测试数据集,将左舷声纳产生的报警作为训练数据,右舷声纳产生的报警作为测试数据。这样的划分结果是在训练集和测试集中分别有65和73个目标。我们再次从七个CNN开始,这些CNN使用MUSCLE AUV在8次海上实验中收集的SAS数据进行训练,如第3节所示。然后,利用来自SeaOtter的训练数据集对这些CNN进行细化,从而影响迁移学习。这种改进使用了与第3节相同的学习率、批处理大小和数据增强技术。对分辨率略低的SeaOtter图像芯片进行上采样(通过线性插值),以匹配之前MUSCLE训练数据的像素大小(即1.5 cm x 1.5 cm)。应用于MUSCLE数据的相同图像归一化过程也应用于SeaOtter数据。对2000个epoch执行了迁移学习优化,其中一个epoch再次定义为对应于来自单个批处理的更新,而不是整个数据集的完整传递。
根据AUC,传感器迁移学习实验的结果如表V所示。具体地说,对于SeaOtter测试数据集,在任何细化之前(即在epoch 0)和经过细化(在epoch 2000),显示了考虑的七个CNN中的每个CNN以及集合的AUC。集合情况使用7个CNN对一个警报的预测的平均值作为最终预测。
在改进之前,CNN仍然根据MUSCLE传感器数据的一般特征和用于训练的特定目标类型(即水雷代替品形状)进行定制。因此,在SeaOtter测试数据上的分类性能相对较弱。当CNN在细化过程中接触到更多的SeaOtter训练数据时,性能会提高。这一结果可以在表V和图3中观察到,图3显示了完整的ROC曲线的级数作为细化历元的函数。事实上,我们可以看到,仅仅在500个epochs之后,这种细化就或多或少地趋同了。
有趣的是,相对少量的SeaOtter训练数据需要显著提高性能。例如,在细化过程中,只有65个新目标类的示例可用。这强调了迁移学习方法的前景,以及所涉及的最小标记数据需求。相反,成功的主要因素之一是新传感器的测试数据和训练数据来自相同的底层统计分布。
我们论证了两种类型的迁移学习在水下目标分类任务中的可行性:目标-概念迁移和传感器迁移。这种转移学习利用为一个SAS系统的数据训练的地雷分类任务的CNN,并使用与新任务相关的少量数据执行参数优化。迁移学习的成功表明,基于MUSCLE数据开发的CNN可以与来自其他侧视声纳系统的数据一起使用,这些声纳系统在不同的频段工作,并产生不同分辨率的图像;应用于类似但不同的分类任务,如不同的目标类,也是可行的。反过来,可以用最少的标记数据相对快速地开发出功能强大的分类器,从而减少新传感器所需的昂贵数据调查量,以及训练一个有力的分类器所需的计算时间。