【多标签语义场景分类数据集】MLRSNet

【多标签语义场景分类数据集】MLRSNet: A multi-label high spatial resolution remote sensing dataset for semantic scene understanding

  • 本文的贡献
  • MLRSNet的简介

  • 文章地址:link
  • 数据集地址:link 和 link
  • 关键词:多标签图像数据集;语义场景理解;卷积神经网络(CNN);图片分类;图像检索

本文的贡献

本文提出了一种新颖的大规模高分辨率多标签遥感数据集,称为“ MLRSNet”,用于语义场景理解。它包含109,161个高分辨率遥感图像,这些图像被注释为46个类别,并且该类别中的样本图像数量从1500到3000不等。图像的固定大小为256×256具有各种像素分辨率的像素。此外,数据集中的每个图像都标记有60个预定义的类别标签中的几个,并且与每个图像相关联的标签的数量从1到13不等。此外,本文说明了MLRSNet数据集的构造过程,并给出了几种图像的评估和比较。基于多标签的图像分类和图像检索的深度学习方法。实验表明,基于多标签的深度学习方法可以在图像分类和图像检索上取得更好的性能。

总而言之,本文的三个主要贡献如下:
(1)对相关数据集进行总结回顾。涵盖不同规模的单标签数据集和多标签数据集,其中大多数通常不足以进行遥感场景理解任务。

(2)为了语义场景的理解,开发了一种多标签的高空间分辨率遥感数据集,即MLRSNet。据我们所知,该数据集是具有最丰富的多标签信息的大型高分辨率多标签遥感数据集。数据集具有较高的类内多样性,可以为语义场景理解领域中的多种方法的评估和发展提供更好的数据资源。

(3)评估了使用MLRSNet进行多标签图像分类和多标签图像检索的最新神经网络方法。这些结果表明,基于深度学习的方法对于基于多标签的图像分类和图像检索任务具有显着的性能。
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

MLRSNet的简介

MLRSNet由来自世界各地的109,161张带标签的RGB图像组成,分为46大类:飞机,机场,荒地,棒球场,篮球场,海滩,桥梁,丛林,云,商业区,密集的居民区,沙漠,侵蚀农田,农田,森林,高速公路,高尔夫球场,地面田径场。港口和港口,工业区,交叉路口,岛屿,湖泊,草地,活动房屋公园,山脉,立交桥,公园,停车场,大路,铁路,火车站,河流,环形交叉路口,船坞,雪山,稀疏居民区,体育场,储罐,游泳池,网球场,露台,输电塔,蔬菜大棚,湿地和风力涡轮机。如图1所示,样本图像的数量随1500至3000个不同的大类而变化很大。。此外,为数据集中的每个图像分配了60个预定义类别标签中的几个,并且与每个图像关联的标签数量在1到13之间变化。表1中列出了与每个预定义标签关联的数据集中存在的图像数量,图2显示了一些具有相应多标记结果的示例。
【多标签语义场景分类数据集】MLRSNet_第1张图片
【多标签语义场景分类数据集】MLRSNet_第2张图片
【多标签语义场景分类数据集】MLRSNet_第3张图片
此外,MLRSNet具有多种分辨率:像素分辨率从大约10m到0.1m,并且每个多标签图像的大小固定为256×256像素以各种分辨率覆盖场景。与其它场景理解数据集相比,MLRSNet在地理范围和对象类别数量方面具有更大的可变性。MLRSNet与ImageNet从地面视角收集室外物体的数据不同,MLRSNet通过卫星或空中传感器从高空角度描述了地球上的物体。因此,可以基于MLRSNet和ImageNet组合来训练深度神经网络。本文可以实现更高的场景识别精度,并有效解决对象旋转,类内可变性和类间相似性的挑战。表2列出了MLRSNet与其他广泛使用的场景理解数据集之间的差异。
【多标签语义场景分类数据集】MLRSNet_第4张图片
与现有的遥感图像数据集,MLRSNet具有以下显着特征:

层次结构: MLRSNet包含3个一流的类别,例如土地使用和土地覆盖(例如,商业区,农田,森林,工业区,山脉),自然物体和地貌(例如,海滩,云,岛屿,湖泊,河流,丛林),以及人造物体和地形(例如飞机,机场,桥梁,高速公路,立交桥),46个二等类别(如图1所示)和60个三等标签(如表1所示))。

多标签: 如图2所示,MLRSNet数据集中的每个图像都有一个或多个相应的标签,因为遥感图像通常包含许多互不排斥的对象类别。几个实验表明,在图像分类或图像检索任务中,多标签数据集往往比单标签数据集具有更令人满意的性能。

大规模: 如表2所示,MLRSNet具有大量高分辨率的多标签遥感场景图像。它包含109,161张高分辨率遥感图像,分为46个类别,一个类别中的样本图像数量从1500到3000不等,所有这些都比列出的大多数其他数据集都要大。MLRSNet是为场景图像识别而收集的大规模高分辨率遥感数据集,可覆盖范围更广的卫星或航空图像。它旨在作为替代方案来促进场景图像识别方法的发展,尤其是需要大量标记训练数据的基于深度学习的方法。

多样性: 为了提高数据集的泛化能力,我们尝试根据地理和季节分布,天气状况,观察视角,捕获时间和图像分辨率。即,空间分辨率,视点,对象的姿势,照明,背景以及遮挡。

参考文献
[1] Xq A , Pzb C , Yw A , et al. MLRSNet: A multi-label high spatial resolution remote sensing dataset for semantic scene understanding[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 169:337-350.

你可能感兴趣的:(论文导读,神经网络,机器学习,计算机视觉,人工智能,深度学习)