遥感技术在地球观测、资源监测以及环境保护等领域扮演着愈发重要的角色,基础模型的研究一直是吸引研究者目光的焦点。
这里仅简单梳理目前遥感领域基础模型的相关论文。由于遥感领域的迅速发展,这里所涉及的模型可能仅是冰山一角,而且难免存在一些疏漏。对于错误的内容,欢迎大家指出。
发表时间:2022.7.28
论文链接:https://ieeexplore.ieee.org/abstract/document/9844015
GitHub:https://github.com/comeony/RingMo
简介:利用 RS 图像的生成式自监督学习 (SSL) 的优势,提出了一个名为 RingMo 的 RS 基础模型框架,它由两部分组成。首先,通过收集来自卫星和航空平台的200万张遥感图像,构建了一个大规模数据集,涵盖了全球多个场景和物体。其次,提出了一种针对复杂遥感场景中密集和小物体设计的遥感基础模型训练方法。
数据类型:RGB
下游任务:场景分类、目标检测、语义分割、变化检测
发表时间:2022.12.8
论文链接:https://ieeexplore.ieee.org/abstract/document/9956816
GitHub:https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA
简介:首次尝试提出适合 RS 任务的大型视觉模型,并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体,提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力,减少计算成本和内存占用,同时通过提取学习更好的对象表示来自生成的不同窗口的丰富上下文。
数据类型:RGB
下游任务:场景分类、目标检测、语义分割
发表时间:2023.1.15
论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/hash/01c561df365429f33fcd7a7faa44c985-Abstract-Conference.html
GitHub:https://sustainlab-group.github.io/SatMAE
简介:提出了 SatMAE,一种基于掩码自动编码器(MAE)的时态或多光谱卫星图像的预训练框架。通过时间嵌入以及跨时间独立屏蔽图像块利用时间信息。同时证明了将多光谱数据编码为具有不同光谱位置编码的频带组是有益的。
数据类型:RGB;Sentinel (卫星数据)
下游任务:Land Cover Classification、Multi-label Classification、Building Segmentation
发表时间:2023.4.6
论文链接:http://openaccess.thecvf.com/content/ICCV2023/html/Reed_Scale-MAE_A_Scale-Aware_Masked_Autoencoder_for_Multiscale_Geospatial_Representation_Learning_ICCV_2023_paper.html
GitHub:https://github.com/bair-climate-initiative/scale-mae
简介:提出了 Scale-MAE,这是一种预训练方法,可以在整个预训练过程中明确学习不同已知尺度的数据之间的关系。 Scale-MAE 通过以已知输入比例屏蔽输入图像来预训练网络,其中图像覆盖的地球区域决定了 ViT 位置编码的比例,而不是图像分辨率。 Scale-MAE 使用标准 ViT 主干对屏蔽图像进行编码,然后通过带通滤波器对屏蔽图像进行解码,以较低/较高尺度重建低频/高频图像。
数据类型:RGB
下游任务:land-use/land-cover classification、semantic segmentation
发表时间:2023.4.11
论文链接:https://arxiv.org/abs/2304.05215
简介:提出一种在遥感领域放大和微调ViT的有效方法,首次提出十亿参数级别的遥感大模型。
数据类型:RGB
下游任务:Rotated Object Detection、Semantic Segmentation
发表时间:2023.9.22
论文链接:https://arxiv.org/abs/2304.05215
简介:利用 SAM 和现有的 RS 目标检测数据集来开发一个高效的pipeline,用于生成大规模 RS 分割数据集,称为 SAMRS。 SAMRS 总共拥有 105,090 张图像和 1,668,241 个实例,在大小上超出现有高分辨率 RS 分割数据集几个数量级。它提供对象类别、位置和实例信息,可单独或组合用于语义分割、实例分割和对象检测。
数据类型:RGB
下游任务:Semantic Segmentation, Instance Segmentation、Object Detection
发表时间:2023.6.28
论文链接:https://ieeexplore.ieee.org/abstract/document/10409216
GitHub:https://github.com/bair-climate-initiative/scale-mae
简介:设计了一种基于 SAM 基础模型并结合语义类别信息的遥感图像自动实例分割方法。为 SAM 输入生成适当提示,使得SAM 能够为遥感图像生成语义上可辨别的分割结果。
数据类型:RGB
下游任务:Instance Segmentation
发表时间:2023.6.28
论文链接:https://www.sciencedirect.com/science/article/pii/S1569843223003643
简介:探索涉及使用各种输入提示(例如边界框、单个点和文本描述符)跨多尺度数据集测试 SAM在遥感数据集上的应用。同时使用一种新颖的自动化技术,将文本提示派生的一般示例与一次性训练相结合。提高了SAM在遥感图像上的分割准确性,凸显了 SAM 在遥感图像中部署的潜力,并减少了手动注释的需求。
数据类型:RGB
下游任务:Image Segmentation
发表时间:2023.11.13
论文链接:https://ieeexplore.ieee.org/abstract/document/10315957
简介:提出了一种称为RingMo-SAM的多模态遥感图像分割的基础模型,它不仅可以分割光学和SAR遥感数据中的任何内容,还可以识别对象类别。首先,通过收集该领域的多个开源数据集,构建包含数百万个分割实例的大规模数据集来训练模型。然后,通过构建实例型和地形型类别解耦掩码解码器(CDMDecoder),实现了各种对象的类别分割。此外,还设计了一种嵌入多模态遥感数据特征的提示编码器。不仅支持多框提示,提高复杂遥感场景下多目标的分割精度,还支持SAR特征提示,提高SAR图像的分割性能。
数据类型:RGB;SAR
下游任务:Semantic Segmentation
发表时间:2023.12.5
论文链接:https://arxiv.org/abs/2312.02464
GitHub:https://github.com/sstary/SSRS
简介:提出了一个简化的框架,旨在通过利用称为 SAM 生成对象 (SGO) 和 SAM 生成边界 (SGB) 的两个新概念来利用 SAM 的原始输出。提出了一种新颖的对象损失,并进一步引入边界损失作为增强组件,以帮助通用语义分割框架中的模型优化。引入了对象一致性的概念来利用缺乏语义信息的分段区域。通过对对象内预测值的一致性施加约束,对象损失旨在增强语义分割性能。此外,边界损失通过将模型的注意力引导到对象的边界信息来利用 SGB 的独特特征。
数据类型:RGB;NIRRG
下游任务:Semantic Segmentation
发表时间:2023.6.19
论文链接:https://arxiv.org/abs/2306.11029
GitHub:https://github.com/ChenDelong1999/RemoteCLIP
简介:提出了 RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义的鲁棒视觉特征,以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺问题,利用数据缩放,基于 Box-to-Caption (B2C) 和 Mask-to-Box (M2B) 转换来转换异构注释,并进一步合并无人机图像,从而产生 12 倍大的预训练数据集。
下游任务:Cross-modal Retrieval、Object Counting、Zero-shot Image Classification、Few-shot Classification、Full-shot Linear Probing and k-NN Classification
发表时间:2023.6.20
论文链接:https://arxiv.org/abs/2306.11300
GitHub:https://github.com/om-ai-lab/RS5M
简介:提出了一个新框架,其中包括领域预训练视觉语言模型(DVLM),弥补了通用视觉语言模型(GVLM)和特定领域下游任务之间的差距。此外,还提出了遥感(RS)领域的图文配对数据集RS5M,其中包含500万张带有英文描述的RS图像。该数据集是通过过滤公开可用的图像文本配对数据集和使用预先训练的 VLM 对仅带有字幕标签的 RS 数据集进行过滤而获得的。这些构成了第一个大规模RS图像文本配对数据集。对 CLIP 模型进行了微调,并在 RS5M 上尝试了几种参数高效的微调方法来实现 DVLM。
下游任务:Zero-shot Classification、Remote Sensing Cross-Modal Text–Image Retrieval、Semantic Localization
发表时间:2023.7.28
论文链接:https://arxiv.org/abs/2307.15266
GitHub:https://github.com/Lavender105/RSGPT
简介:构建了一个高质量的遥感图像描述数据集(RSICap),以促进遥感领域大型 VLM 的开发。RSICap 包含 2,585 个人工注释的说明文字,具有丰富且高质量的信息。该数据集提供每张图像的详细描述,包括场景描述(例如住宅区、机场或农田)以及物体信息(例如颜色、形状、数量、绝对位置等)。同时提供了一个名为RSIEval的基准评估数据集。该数据集由人工注释的标题和视觉问答对组成,允许在遥感背景下对 VLM 进行全面评估。RSGPT 是一种预训练方法,专为高效且通用的遥感 (RS) 视觉语言任务而设计。
下游任务:Remote Sensing Image Captioning、Remote Sensing Visual Question Answering
发表时间:2023.11.24
论文链接:https://arxiv.org/abs/2311.15826
GitHub:https://github.com/mbzuai-oryx/geochat
简介:提出了 GeoChat - 第一个多功能遥感 VLM,它提供具有高分辨率 RS 图像的多任务对话功能。具体来说,GeoChat 不仅可以回答图像级查询,还可以接受区域输入以进行特定于区域的对话。此外,它可以通过参考对象的空间坐标,在视觉上将其响应中的对象接地。为了解决特定领域数据集的缺乏,通过从现有的不同 RS 数据集扩展图像文本对来生成一个新颖的 RS 多模态指令跟踪数据集。
下游任务:Scene Classification、Visual Question Answering、Visual Grounding
发表时间:2023.12.12
论文链接:https://arxiv.org/abs/2312.06960
简介:介绍了一种在不使用任何文本注释的情况下训练遥感图像视觉语言模型的方法。使用在地面上拍摄的同地互联网图像作为连接遥感图像和语言的中介。具体来说,使用大量配对的互联网和卫星图像训练遥感图像的图像编码器,以与 CLIP 的图像编码器对齐。
下游任务:Zero-shot Image Segmentation、Visual Question Answering (VQA).
发表时间:2023.6.14
论文链接:https://arxiv.org/abs/2306.08625
简介:首次将RIS引入遥感,提出了一个用于RRSIS的数据集RefSegRS。
下游任务:Referring Remote Sensing Image Segmentation
发表时间:2023.12.19
论文链接:https://arxiv.org/abs/2312.12470
GitHub:https://github.com/Lsan2401/RMSIN
简介:构建了RRSIS-D用于遥感领域RIS问题;由于遥感图像复杂的空间尺度和方向的阻碍,导致分割结果不理想。因此,设计了RMSIN网络。使用该网络在RRSIS-D中进行训练和测试
下游任务:Referring Remote Sensing Image Segmentation
不完全统计,后续将持续更新,更新日期:2024年2月5日