The SEN1-2 Dataset for Deep Learning in SAR-Optical Data Fusion
Jul 2018 by M. Schmitt & L. H. Hughes & X. X. Zhu
关键词
合成孔径雷达(SAR)、光学遥感(optical remote sensing)、哨兵一号、哨兵二号、深度学习、数据融合
0. 摘要
虽然在许多技术领域,深度学习爆发了一波影响力,但是在遥感领域生成足够大量的训练数据仍然是一个很有挑战性的难题,尤其是涉及到来自于多种传感器的带有异质特征的数据。举一个例子,合成孔径雷达(SAR)的数据和光学影像的融合就很能说明问题。在这篇文章中,我们推出了一个SEN1-2数据集,用来为将深度学习应用到SAR-Opt数据融合领域提供助力。SEN1-2容纳了 282,384 对儿(pairs of)呈对应关系的图像块儿(patches),空间上,来自全球,时间上则囊括了每一个气象季节。抛开对数据集的详细描述不谈,我们还展示了几个实例性的实际应用,像是SAR图像着色、SAR-Opt图像匹配,还包括把输入的SAR图像转变成光学图像。既然SEN1-2是此类首个大型开源数据集,我们相信它将会支撑在「遥感领域的深度学习」和「多传感器数据融合」领域的长远发展。
1. 引言
在过去的几年里,深度学习在遥感领域崭露头角( Zhang et al., 2016, Zhu et al., 2017 ),这主要是因为在遥感观测结果和我们期待的地理信息之间存在着高度非线性的关系,这样的关系用物理模型来解释非常操蛋,但深度神经网络却可以模拟出来。深度学习在遥感这一块最让人感觉靠谱的方向之一应该就是数据融合( Schmitt and Zhu, 2016 ),这尤其适合SAR和光学数据的联合研究,因为它俩无论在几何方面还是辐射测量的表征上都截然不同。SAR系统基于距离测量(range measurements)并主要观测目标场景的理化性质,光学图像基于角度测量(angular measure- ments)观测环境的化学特征的信息。
为了推动深度学习技术在SAR-Opt数据融合领域的发展,能够搞一个完美对齐的图像或图像块组成的大型数据集相当重要,但这需要在工程上作出很大的努力。与此同时,比起传统的计算机视觉使用一些随处可得的图像就能玩得溜,遥感图像一般颇为昂贵,发射一颗遥感卫星要花好多钱,这就造成了图像成本相对比较高的问题。不过,在2014年,情况被大大改善了,哨兵系列卫星的第一颗——搭载着SAR系统的哨兵一号A(Sentinel-1A)被欧洲空间局ESA送上太空,多说两句,哨兵系列工程是哥白尼计划的一部分,这一计划最终目的是持续性地向终端用户免费提供各种卫星的观测数据。
利用这个新潮的大型遥感数据源,我们就在这篇文章了里推出了被称为SEN1-2的数据集。它包括282,384对儿SAR-Opt图像块,这些图像都是哨兵一号和哨兵二号的观测结果。这些图像块范围遍布全球陆地,四季都有。这篇文章主要描述了一下数据集的制作过程,它的特点(characteristics)和特征(features),还有一些用作实例的应用。
2.哨兵一号、哨兵二号遥感数据集介绍
哨兵卫星是ESA的哥白尼工程的一部分,其目的是取代过去在气候、海洋、陆地检测的领域的遥感任务,以保持数据的连续性。为了完成这一任务,六个不同的卫星投入运行,它们在地球观测方面有不同的侧重。在这些任务中,我们尤其关注哨兵一号和哨兵二号,因为它们分别提供了合成孔径雷达和光学遥感最常规的影像。
2.1 哨兵一号
哨兵一号( Torres et al., 2012 )包括两个极地轨道卫星,配备了C波段SAR遥感系统,使它们获得了无视天气情况进行观测的能力。
哨兵一号以预编程模式运行,以避免冲突并向长期运行的程序生成具有一致性的数据存档。取决于选择四种特有的成像模式中的某一种,图像分辨率最高可达五米,覆盖四百公里内的区域,而且,哨兵一号在赤道附近能提供双极化能力,重访时间也非常短,大概一周。将卫星高度和姿态的高精度和基于距离的SAR系统的高精度相结合,哨兵一号具有高开箱即用( high out-of-the-box )的地理定位精度( Schubert et al., 2015 )。
对于我们数据集中的哨兵一号图像,采用了最为常规的干涉宽幅宽带(IW)模式下采集,结果就是所谓的地面检测(GRD)效果。这些图像中每个像素都包含dB标度和σ0反向散射系统,采用的方向角为五米,范围是二十米。为了简化操作,我们把注意力集中在垂直极化(VV)数据上而把其他的极化抛到一边。最后,对于精确的正射校正,恢复的轨道信息与三十米的SRTM-DEM或者是ASTER-DEM相结合,弥补了高纬度地区无法得到数据的缺陷。
终端用户可能对数据做自己想要的预处理来使数据更适合自己的任务,因此,我们就没有做什么散斑过滤之类的工作。
2.2 哨兵二号
哨兵二号( Drusch et al., 2012 )包括了在同一个极地轨道上的两颗卫星,它们彼此相差180°,这项工程目的是为SPOT和LandSat类型的多光谱图像数据续命,所得到的数据提供了有关地球表面几十年的信息。它的扫描宽幅达到290公里,当卫星运行在赤道面附近(仅有一颗)时,回访时间大约是十天,有两颗卫星是则是五天。在没有云的时候,它尤其适合处在生长季节内的植被检测。
对于我们所使用的哨兵二号卫星数据的部分来说,只涉及了红色、绿色和蓝色通道(也就是第4、3和2波段),用RGB来生成逼真的彩色图像。哨兵二号的数据并非以卫星图片的形式分发,而是精确的地理参考颗粒(granules),因此就省了我们做进一步处理。与SAR系统不同,光学图像选择数据必须参考云层覆盖的量,对于刚开始的选择,在数据库里查询,从而能使用那些云层覆盖率在一个百分点以下的颗粒。