m0_61899108

【综述】Transformers in Remote Sensing: A Survey

论文

论文：Transformers in Remote Sensing: A Survey

论文地址：https://arxiv.org/abs/2209.01206

[2209.01206] Transformers in Remote Sensing: A Survey (arxiv.org)

Transformers in Remote Sensing: A Survey - 专知论文 (zhuanzhi.ai)

项目地址：https://github.com/VIROBO-15/Transformer-in-Remote-Sensing

GitHub - VIROBO-15/Transformer-in-Remote-Sensing

摘要

在过去的十年里，基于深度学习的算法在遥感图像分析的不同领域中得到了广泛的应用。最近，基于变压器Transformer的架构，最初引入于自然语言处理，已经渗透到计算机视觉领域，其中自我注意机制已经被用来取代流行的卷积算子来捕捉长距离依赖。在计算机视觉最新进展的启发下，遥感领域也见证了越来越多的视觉转换器用于各种任务的探索。虽然一些调查的重点一般是计算机视觉中的变压器，但据我们所知，我们是第一次系统地审查在遥感中基于变压器的最新进展。我们的调查涵盖了60多种最新的基于变压器的方法，用于遥感领域的不同遥感问题：甚高分辨率(VHR)、高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论变压器在遥感方面的不同挑战和开放问题来结束调查。

1 引言

在过去的几十年里，遥感成像技术有了长足的进步。现代机载传感器以更高的空间、光谱和时间分辨率覆盖地球表面，从而在许多研究领域发挥关键作用，包括生态学、环境科学、土壤科学、水污染、冰川学、土地测量和地壳分析。遥感成像的自动分析带来了独特的挑战，例如，数据通常是多模式的(例如，光学或合成孔径雷达传感器)，位于地理空间(地理位置)，通常在全球范围内，数据量不断增长。

深度学习，特别是卷积神经网络(CNN)已经主导了计算机视觉的许多领域，包括目标识别、检测和分割。这些网络通常将RGB图像作为输入，并执行一系列卷积、局部归一化和池化操作。CNN通常依赖于大量的训练数据，所得到的预先训练的模型然后被用作各种下游应用的通用特征提取器。计算机视觉中基于深度学习的技术的也在许多遥感任务方面取得了重大进展，包括高光谱图像分类、变化检测和极高分辨率卫星实例分割。

卷积运算是CNN的主要组成部分之一，它捕捉输入图像中元素(如轮廓和边缘信息)之间的局部相互作用。CNN编码偏移，例如空间连通性和平移等变性。这些特性有助于构建可泛化和高效的体系结构。然而，CNN中的局部感受场限制了对图像中的长期依赖关系的建模(例如，远距离部件关系)。此外，卷积是与内容无关的，因为卷积过滤器的权重是固定的，对所有输入施加相同的权重，而不考虑它们的性质。最近，视觉转换器(VITs)[1]在计算机视觉的各种任务中表现出了令人印象深刻的性能。VITs基于自我注意机制，该机制通过学习序列元素之间的关系来有效地捕获全局交互。最近的工作[2]、[3]表明，VITs具有依赖于内容的远程交互建模能力，并且可以灵活地调整其接受域以对抗数据中的干扰和学习有效的特征表示。因此，VITs及其变体已被成功地用于许多计算机视觉任务，包括分类、检测和分割。

随着VITs在计算机视觉方面的成功，遥感领域也见证了在许多任务中使用基于变压器的框架的显著增长(见图1)，例如，非常高分辨率的图像分类、变化检测、全景锐化、建筑物检测和图像字幕。这开启了新一波有希望的遥感研究，采用了不同的方法，要么利用ImageNet预培训[4]-[6]，要么使用视觉转换器进行遥感预训练[7]。类似地，文献中存在基于纯变压器设计[8]、[9]的方法，或者利用基于变压器和CNN的混合方法[10]-[12]。因此，由于针对不同遥感问题的基于变压器的方法的迅速涌入，要跟上最近的进展，正变得越来越具有挑战性。

图1：遥感成像中最新的基于变压器的技术。在左边和中间：饼状图按照不同的遥感成像问题和数据类型表示，代表了本次调查所涵盖的文章的统计数据。右边：我们展示了一张图表，说明了最近论文数量的持续增长。

在这项工作中，我们回顾了这些进展，并介绍了在流行的遥感领域中基于变压器的最新方法。综上所述，我们的主要贡献如下：

我们将全面概述遥感成像中基于变压器的模型。据我们所知，我们是第一个提出关于遥感变压器的综述，从而弥合了计算机视觉和遥感在这一快速增长和流行领域的最新进展之间的差距。
我们概述了CNN和变压器，讨论了它们各自的优点和缺点。
我们回顾了60多篇基于变压器的研究文献，讨论了遥感领域的最新进展。
在综述的基础上，讨论了变压器在遥感领域面临的不同挑战和研究方向。

本文件的其余部分安排如下：第二节讨论与遥感成像有关的其他调查。在第三节中，我们概述了遥感中的不同成像方式，而第四节简要概述了CNN和视觉转换器。然后，我们在第七节中回顾了基于变压器的方法在甚高分辨率(VHR)成像(第五节)、高光谱图像分析(第六节)和合成孔径雷达(SAR)方面的进展。在第八节中，我们总结了我们的综述，并讨论了未来的研究方向。

2 相关工作

在过去的十年中，一些文献对遥感成像中的机器学习技术进行了回顾。Tuia等人。[13]比较和评价了不同的主动学习算法在有监督遥感图像分类任务中的应用。[14]的工作集中在高光谱图像分类问题上，并回顾了与机器学习和视觉技术相关的最新进展。朱等人。[15]全面回顾了深度学习技术在遥感图像分析中的应用。他们的工作提供了对现有方法的全面审查，并描述了有关遥感深度学习的资源清单。Ma等人。[16]回顾遥感中关于图像分辨率和研究区域的主要深度学习概念。为此，他们的工作研究了不同的遥感任务，如图像配准、融合、场景分类、目标分割等。

最近，随着自然语言处理(NLP)中基于转换器的模型的突破[17]，基于转换器的方法在计算机视觉社区内出现了显著的激增。可汗等人。[18]概述了视觉中的变压器模型，重点介绍了识别、生成性建模、多模式、视频处理和低级视觉任务。Shamshad等人。[19]调查变压器模型在医学成像中的使用，重点关注不同的医学成像任务，如分割、检测、重建、配准和临床医学报告生成。[20]的工作概述了使用变压器对视频数据建模的日益增长的趋势。他们的工作还比较了视觉转换器在不同视频任务中的表现，比如动作识别。

与上述调查不同的是，我们的工作回顾了基于变压器的方法在遥感热门领域的最新进展。据我们所知，这是第一次全面介绍变压器在遥感方面的情况，特别是在甚高分辨率、高光谱和合成孔径雷达图像分析方面的进展。

3 遥感图像数据

遥感图像通常从一系列来源和数据收集技术获得。遥感图像数据通常具有空间分辨率、光谱分辨率、辐射分辨率和时间分辨率。空间分辨率指的是图像中的每个像素大小以及相应像素所代表的地球表面面积。空间分辨率表征了成像场景中可以分离的小而精细的特征。光谱分辨率是指传感器通过识别更窄的波长(例如，10 nm)来收集有关场景的信息的能力。另一方面，辐射分辨率表征了每个像素中信息的范围，传感器的动态范围越大，意味着图像中要识别的细节越多。时间分辨率是指在地面上相同位置的连续图像之间所花费的时间，这些图像是由感应器获取来。在这里，我们简要讨论常用的遥感成像类型，图2所示的例子很少。

超高分辨率图像 Very High-resolution Imagery

近年来，超高分辨率(VHR)卫星传感器的出现为产生更高空间分辨率的图像铺平了道路，这些图像有助于土地利用变化检测、基于对象的图像分析(目标检测和实例分割)、精确农业耕作(如作物、土壤和病虫害管理)和应急反应。此外，传感器技术的这些最新进展以及基于深度学习的新技术使人们能够使用VHR遥感图像来分析沿海和内陆水域的生物物理和生物地球化学过程。如今，光学传感器以更精细的空间分辨率(例如，10至100厘米/像素)产生地球表面的全色和多光谱图像。

高光谱图像 Hyperspectral Imagery

在这里，场景中的每个像素都是使用具有精细波长分辨率的连续光谱来捕捉的。连续光谱的波长延伸到可见光以外，包括从紫外线(UV)到红外(IR)的波长。通常，高光谱图像的光谱分辨率是用波数和纳米(Nm)表示的。用来测量像素的最常用的连续光谱是中红外，即近红外和可见光波段。为了获得高光谱图像，有不同的电磁测量方法，如拉曼光谱、X射线光谱、太赫兹光谱、三维超声成像、磁共振和共聚焦激光显微镜扫描仪，它们可以测量特定激发波长下每个像素的整个发射光谱。高光谱图像具有高维、精细光谱分辨率强的特点。这些图像提供了广泛的应用，包括环境科学[21]和采矿[22]。与常规图像只包含可见光谱内的原色(红、绿、蓝)不同，高光谱图像包含丰富的光谱信息，可以反映感兴趣物品的物理结构和化学成分。在遥感领域，高光谱图像的自动分析是一个活跃的研究课题。

合成孔径雷达图像 Synthetic Aperture Radar Imagery

地球观测卫星每天通过发射和接收电磁信号产生大量的合成孔径雷达图像。在过去的几十年里，SAR图像因其更高的空间分辨率、全天候能力、去噪工具(如CAESAR)以及最近在SAR特定图像处理方面的进展而变得流行起来。合成孔径雷达图像可用于多种应用，包括地理定位、目标检测、基本雷达的功能以及复杂环境下的地球物理特征估计，如粗糙度、含水率和密度。此外，合成孔径雷达图像可用于灾害管理(浮油探测、冰层追踪)、林业和水文学。

4 从CNN 到 Vision Transformer

在本节中，我们首先对CNN进行简要概述，然后对最近用于不同视觉任务的视觉转换器进行简要描述。

A. 卷积神经网络 Convolutional Neural Networks

卷积神经网络(CNN)已经主导了各种计算机视觉任务，包括图像分类[23]和目标检测[24]。CNN通常由两个主要部分组成：卷积层和池层。卷积层通过将输入中的局部区域与一组核进行卷积来生成特征地图。这些特征服从非线性函数，对于每个卷积层重复相同的过程。在CNN中，池化层对特征地图执行下采样操作(通常利用最大或平均操作)。在不同的现有CNN架构中，卷积层和池层之后是一组完全连通层，其中最后一个完全连通层是计算每个对象类别分数的Softmax。

流行的CNN主干 Popular CNN Backbones

在这里，我们简要讨论文献中不同的流行的CNN主干架构。

AlexNet：Krizevsky等人。[23]提出了一种用于图像分类任务的CNN体系结构AlexNet。AlexNet由五个卷积层和三个全连通层组成。提出的网络结构利用纠错线性单元(REU)来提高训练效率。该网络包含6000万个参数和50万个神经元，并在大规模ImageNet数据集上进行网络训练[25]。采用不同的数据增强技术来增加训练集。在ImageNet 2012大赛中，AlexNet以39.7%和18.9%的前1名和前5名错误率取得了具有竞争力的表现。

VGGNet：不同于AlexNet、Simonyan和Zisserman[26]介绍的一种名为VGGNet的体系结构，该体系结构总共由16层组成。该网络接受224×224大小的输入图像，有大约1.38亿个参数。它使用不同的数据增强技术，包括网络训练期间的规模抖动。VGGNet结构包括3×3滤波器的卷积层，其中接收场在每个像素处以一个像素的步长进行卷积。VGGNet包含多个池化层，以两个像素的跨度在2×2窗口上执行空间池化。此外，VGGNet包含两个完全连接的层，后跟一个用于产生输出预测的Softmax。VGG架构在2014年ImageNet分类挑战中实现了最高的分类准确率。

RESNET：与AlexNet和VGGNet不同，他等人。[27]引入残差神经网络(ResNet)来堆叠残差块来构建网络。RESNET为培训网络提供了一种剩余学习方法，这种方法比以前使用的同行深入得多。它不是学习未引用的函数，而是将层显式地重新表示为参考层输入的学习残差函数。大量的经验证据表明，剩余网络更容易优化，从更高的深度获得更高的精度。

基于CNN的体系结构的发展导致了新技术、改进的硬件(例如GPU和TPU)、更好的优化方法和许多开源库的兴起。感兴趣的读者可以浏览与CNN遥感方法相关的调查论文[15]、[16]。以前的工作已经分析了CNN能够捕获图像特定的归纳偏差，从而提高了它们在学习更好的特征表示方面的有效性。然而，CNN并不捕获有助于增强表示的表现力的长范围依赖关系。接下来，我们将简要介绍能够对图像中的远程依赖关系进行建模的视觉转换器。

B. 视觉变形器 Vision Transformer

最近，基于变形器的模型在许多计算机视觉和语言处理(NLP)任务中取得了可喜的结果。V Aswani等人。[17]首先介绍了作为注意力驱动的机器翻译应用模型的转换器。为了捕获远程依赖关系，转换器使用自我关注层，而不是传统的递归神经网络，后者努力编码序列元素之间的这种依赖关系。

为了有效地捕获输入图像中的远程依赖关系，[1]的工作引入了用于图像识别任务的视觉转换器(VITs)，如图3所示。VITs[1]将图像解释为一系列补丁，并通过与NLP任务中使用的类似的传统变压器编码器对其进行处理。VITs在通用视觉数据方面的成功不仅在计算机视觉的不同领域引起了人们的兴趣，而且在遥感领域也引起了兴趣，近年来在遥感领域探索了许多基于VIT的技术来完成各种任务。

接下来，我们将简要描述变压器中自我注意的关键组成部分。

自注意力 Self-Attention

自我注意机制一直是转换器的一个组成部分，因为它捕获了远程依赖关系，并编码了所有序列令牌之间的交互(补丁嵌入)。自我注意的关键思想是学习自我对齐，即通过聚合序列中所有其他标记的全局知识来更新标记[28]。给定2D图像 $x\in R^{H*W*C}$ ，该过程开始于将图像展平成一系列2D块 $x_pat \in R^{M*(P^2C)}$ ，其中C表示通道数，H和W表示图像的高度和宽度，P×P是每个单独块的尺寸，表示块的总数。使用E维线性可学习投影层来投影这些平坦的面片，并可以表示为矩阵。自我关注的目的是理解所有M个嵌入之间的相互作用，这是通过引入三个可学习的权重矩阵来修改输入X到查询(如 $W^Q \in R^{E*E_q}$ ) 、关键字(如 $W^K \in R^{E*E_k}$ )和值(如 $W^V \in R^{E*E_v}$ )来实现的，其中Eq=Ek。该序列X首先被投影到这些权重矩阵上，以获得，和。相对关注矩阵 $A \in R^{M*M}$ 为

。

掩码自注意力 Masked Self-Attention

所有实体都关注通常的自我关注层。在变压器模型[17]的解码器中使用的这些自我注意块被屏蔽，以防止关注随后的未来实体，该模型被训练以预测序列中的下一个实体。该任务通过具有掩码 $M\in R^{n*n}$ 的逐元素乘法运算来执行，其中M是上三角矩阵。在这里，掩码自关注力表现为

其中◦代表Hadamard product 矩阵乘法。在掩码自注意力中，当预测序列中的实体时，未来实体的注意力等级被设置为零。

多头自注意力 Multi-Head Attention

多头注意(MHA)包括多个自我注意块，这些自我注意块在通道上同时串联，以捕捉不同嵌入序列之间不同的复杂交互。多头自我注意的每个头部都有自己的可学习权重矩阵，分别表示为 $W^{Q_i}$ 、 $W^{K_i}$ 和 $W^{V_i}$ ，其中i=0,···,(h−1)其中h表示多头自我注意中的头部个数。因此，我们可以表达，

其中，每个头部的输出被串联以形成单个矩阵 $B \in R^{M*hE}$ ，而 $W^O * R^{hE_v*M}$ 计算头部的线性变换。

流行的Transformer主干 Popular Transformers Backbones

在这里，我们简要讨论一些最新的基于变压器的主干。

VIT：[1]的工作引入了一种体系结构，其中直接利用一个纯转换器来对图像块序列进行图像分类。VIT架构设计不使用特定于图像的归纳偏差(例如，平移等价性和局部性)，并且在大规模ImageNet21k或JFT-300M数据集上执行预训练。

Swin：刘等人。[29]通过引入可产生层次化特征体系结构来改进VIT设计表示。Swin变换具有关于输入图像大小的线性计算复杂性，其中效率是通过将自注意计算限制在非重叠的局部窗口而实现的，同时允许跨窗口连接。

PVT：[30]的工作引入了金字塔视觉转换器(PVT)架构，以执行像素级密集预测任务。PVT体系结构利用一个逐渐缩小的金字塔和一个空间缩减关注层来生成高分辨率的多尺度特征地图。与具有相似参数的CNN相比较，PVT主干在目标检测和分割任务上取得了令人印象深刻的性能。

变压器提供了独特的特性，这些特性对不同的视觉任务很有用。与计算静态过滤器的CNN中的卷积运算相比，自关注中的过滤器是动态计算的。此外，输入点数的排列和变化对自我注意几乎没有影响。最近的研究[2]、[3]探索了视觉转换器的不同有趣的特性，并将它们与CNN进行了比较。例如，最近[2]的工作表明，视觉转换器对严重的闭塞、区域移位和扰动更健壮。接下来，基于图4所示的分类，我们对遥感中的变压器进行了回顾。

遥感领域 Transformer的应用示意图

5 VHR图像中Transformer

在这里，我们回顾了基于变压器的方法，用于解决超高分辨率(VHR)图像中的不同问题。

A. 场景分类

遥感场景分类是一个具有挑战性的问题，其中的任务是自动将语义类别标签与包含真实物体和不同土地覆盖类型的给定高分辨率图像相关联。在现有的基于视觉变换的VHR场景分类方法中，Bazi等人提出了基于视觉变换的VHR场景分类方法。[4]探索[1]标准视觉转换器架构(VIT)的影响，并研究用于生成加法数据的不同数据增强策略。此外，他们的工作还评估了在保持分类精度的同时通过修剪层来压缩网络的影响。

【综述】Transformers in Remote Sensing: A Survey_第4张图片

CTNet体系结构包括两个模块：VIT流(T-流)和CNNS流(C-流)。T-STREAM和C-STREAM用于获取语义特征和局部结构信息。该图来自[31]。

[31]的工作引入了一个联合CNN-transformers框架，其中有一个CNN流和另一个VIT流，如图5所示。来自两个流的特征被级联，整个框架使用包括交叉熵和中心损失的联合损失函数进行训练，以优化两个流的体系结构。张某等人。[32]介绍了一种名为遥感变压器(TRS)的框架，该框架通过用多头自我注意取代空间卷积来努力结合神经网络和变压器的优点。由此产生的多头自我注意瓶颈具有较少的参数，并且与其他瓶颈相比被证明是有效的。文献[5]提出了一种双流Swin变压器网络(TSTNet)，该网络由两个流组成：原始流和边流。原始流提取标准图像特征，而边缘流包含可微的边缘Sobel算子模块，并提供边缘信息。在此基础上，引入加权特征融合模块，有效地融合了两个数据流的特征，提高了分类性能。[6]的工作引入了一个基于转换器的框架，该框架带有一个旨在生成同质和异质补丁的补丁生成模块。补丁生成模块直接生成异质补丁，而同质补丁则通过超像素分割方法得到。

遥感预训练 Remote Sensing Pre-training

与前述只使用变压器或使用在ImageNet数据集上预先训练的骨干网络的CNN-变压器混合设计的方法不同，[7]最近的工作是在大规模Million AID遥感数据集上从头开始培训视觉变压器骨干，如Swin[33]。然后，针对包括场景分类在内的不同任务对训练后的主干模型进行微调。图6显示了使用Grad-CAM++[34]获得的不同ImageNet(IMP)和遥感预训练(RSP)模型的响应图。可以观察到，与IMP模型相比，RSP模型通过更多地关注重要目标来学习更好的语义表征。此外，基于变压器的主干，如Swin-T，由于自我注意机制，更好地捕获上下文信息。此外，诸如ViTAEv2-S这样的主干结合了CNN和变压器以及RSP的优点，可以获得更好的识别性能。

在使用不同模型获得的响应图方面对示例VHR图像进行了比较。原始图像如(A)所示，而评估的模型是：(B)IMP-ResNet50、(C)Seco-Resnet-50、(D)RSP-Resnet-50、(E)IMP-Swin-T、(F)RSP-Swin-T、(G)IMP-ViTAEv2-S和(H)RSP-ViTAEv2-S。这里，IMP是指ImageNet预训练，RSP是指遥感预训练。在响应图中，颜色越暖表示响应度越高。该图来自[7]。

表I显示了上述分类方法在最常用的VHR分类基准之一：AID[35]上的比较。AID数据集包含从多源传感器获取的图像。数据集具有高度的类内差异，因为图像来自不同的国家、不同的时间和季节以及不同的成像条件。数据集共有10,000张图像和30个类别。性能是根据所有类别的平均分类准确率来衡量的。有关AID的更多细节，请参阅[35]。除了对Million-AID数据集执行初始预训练的RSP之外，这里的所有方法都使用在ImageNet基准上预训练的模型。

B. 目标检测

VHR成像中的目标定位是一个极具挑战性的问题，因为不同的目标类别具有极大的尺度差异和多样性。这里的任务是同时识别和定位(矩形或定向边界框)属于不同对象的所有实例图像中的类别。现有的大多数方法采用了一种混合策略，结合了现有的两级和单级检测器中CNN和变压器的优点。除了混合策略，很少有近期的工作也探索基于DETR的变压器目标检测范例[36]。

基于混合CNN-Transformer的方法 Hybrid CNN-Transformers based Methods

[37]的工作引入了局部感知Swin变压器(LPSW)主干，以改进用于检测VHR图像中小目标的标准变压器。提出的LPSW努力结合了变压器和CNN的优点，以提高局部感知能力，从而获得更好的检测性能。使用不同的检测器对所提出的方法进行了评估，例如MASK RCNN[38]。[39]的工作介绍了一种基于变压器的检测体系结构，其中预先训练的CNN用于提取特征，而变压器适用于处理遥感图像的特征金字塔。张某等人。[40]介绍了一种检测框架，利用一个高效的变压器作为分支网络，以提高CNN对全局特征的编码能力。此外，还采用产生式模型将输入的遥感航空影像扩展到主干网的前方。[41]的工作提出了一个基于RetinanNet的检测框架，在骨干网络和后处理网络之间使用特征金字塔转换器(FPT)来生成有语义意义的特征。FPT支持跨尺度的不同级别的要素之间的交互。[42]的工作引入了一个框架，其中采用转换器来对采样特征之间的关系进行建模，以便对它们进行适当的分组。因此，无需任何后处理操作即可获得更好的分组和边界框预测。该方法有效地消除了背景信息，有助于提高检测性能。

张某等人。[43]介绍了一种将深度可分卷积的局部特性与MLP的全局(信道)特性相结合的混合架构。[44]的工作引入了一个两级无角度检测器，其中RPN和回归都是无角度的。他们的工作还评估了建议的基于变压器主干的检测器(Swin-Tiny)。刘等人。[45]提出了一种称为TransConvNet的混合网络结构，旨在通过聚合全局和局部信息来结合CNN和转换器的优点，以更好地关注上下文来解决CNN的旋转不变性。此外，设计了一种自适应特征融合网络，用于从多个分辨率获取信息。[46]的工作介绍了一种检测框架，称为定向Rep-Points，它利用灵活的自适应点作为表示。提出的无锚点学习方法从分类、定位和定向三个方面学习选择点样本。具体地说，为了学习任意定向空中目标的几何特征，引入了一种质量评估和样本分配方案，该方案测量和识别用于训练的高质量样本点，如图7所示。此外，他们的方法利用空间约束来惩罚位于定向框之外的样本点，以实现点的稳健学习。

【综述】Transformers in Remote Sensing: A Survey_第7张图片

图7：面向锚点的RepPoints检测体系结构概述[46]，它努力学习选择点样本进行分类、回归和定位。RepPoints使用与[46]中相同的共享头部结构，只是采用了质量评估和样本分配策略(APAA)来选择用于训练的高质量样本点。这一数字来自[46]。

基于DETR的检测方法 DETR-based Detection Methods

最近很少有方法研究将基于变压器的DETR检测框架[36]用于VHR成像中的定向目标检测。[47]的工作使标准DETR适用于面向对象检测。在他们的方法中，通过用深度可分离的卷积取代标准的注意机制，为变压器设计了高效的编码器。戴等人。[48]提出了一种基于变压器的检测器，称为AO2-DETR，其中采用面向对象的提案生成方案来显式生成面向对象的提案。此外，他们的方法包括一个面向自适应的建议细化模块，该模块被设计为通过消除区域特征和对象之间的未对齐来计算旋转不变特征。此外，利用旋转感知匹配损失来执行用于没有重复预测的直接集合预测的匹配处理。

表II显示了上述检测方法在最常用的VHR检测基准DOTA上的比较[49]。该数据集包括2806张大型航空图像，涉及15个不同类别的物体：飞机、棒球场、篮球场、足球场、桥梁、场地跑道、小型车辆、轮船、大型车辆、网球场、环形交叉路口、游泳池、港口、储油罐和直升机。检测性能精度用平均平均精度(MAP)来衡量。关于DOTA的更多细节，我们参考[49]。结果表明，这些最新的方法大多获得了相似的检测精度，但使用Swin-T主干时性能略有改善。

C. 图像变化检测

在遥感中，图像变化检测是检测地球表面变化的一项重要任务，在农业[50]、[51]、城市规划[52]和地图修订[53]中有着广泛的应用。这里，任务是生成通过比较多时相或双时相图像而获得的变化图，所得到的二值变化图中的每个像素根据相应位置是否已改变而具有零值或一值。在最近的基于变压器的变化检测方法中，Chen等人。[54]提出了一种双时相图像转换器，封装在基于深度特征差分的框架中，用于对时空上下文信息进行建模。在该框架中，编码器被用来捕获基于令牌的时空中的上下文。然后，将得到的上下文化标记馈送到解码器，在那里在像素空间中精炼特征。郭某等人。[55]提出了一种深度多尺度暹罗结构，称为MSPSNet，它利用并行卷积结构(PCS)和自我注意。MSPSNet通过PCS对不同的时间图像进行特征融合，然后进行基于自我关注的特征求精，进一步增强多尺度特征。[56]的工作引入了一种基于Swin Transformer的网络，该网络具有暹罗U形结构，称为SwinSUNet，用于变化检测。提出的SwinSUNet由三个模块组成：编码器、融合和解码器。该编码器将输入图像转换为令牌，并通过使用分层Swin变换来产生多尺度特征。所得到的特征在具有线性投影和Swin变换器块的融合中串联。解码器包含在Swin变换器块内的上采样和合并，以逐步生成变化预测。

Wang等人。[57]介绍了一种称为UV ACD的体系结构，该体系结构将CNN和转换器相结合以进行变化检测。在UV ACD中，高层语义特征通过CNN主干提取，而转换器通过捕捉时态信息交互来生成更好的变化特征。[58]的工作引入了一种混合架构，TransUNetCD，它努力结合变压器和UNet的优点。这里，编码器提取从CNN中提取的特征，并用全局上下文信息来丰富它们。然后对相应的要素取消采样并进行合并利用多尺度特征获取全局-局部特征进行定位。[59]的工作介绍了一种混合多尺度转换器，称为混合TransCD，它通过多个感受域利用不同的标记来捕获细粒度和大对象特征。

表III显示了上述变化检测方法在最常用的基准上的比较：WHU[60]和Levir[61]。WHU数据集由一对高分辨率(0.075m)图像组成。这里，图像的大小是32507×15354。LEVIR数据集包括637对高分辨率(0.5m)图像。这些图像的大小为1024×1024。绩效是根据相对于变更类别的F1分数来衡量的。图8在WHU-CD数据集的示例图像上与SwinSUNet进行了不同方法的定性比较。

图8：可视化的不同CD方法的结果，例如FC-EF[62]、FC-SIAM-CONC[62]、FC-SIAM-DIFF[62]、CDNet[63]、DASNet[64]、STANet[61]和SwinSUNet[56]与(A)-(D)样本图像集WHU-CD[60]测试集进行比较。诸如五颜六色的颜色被用来表达不同的外延；白色代表真肯定，黑色代表真否定，红色代表假阴性，绿色代表假阴性。该图来自[56]。

D. 图像分割

在遥感中，通过像素级分类自动将图像分割成语义类别是一个具有挑战性的问题，具有广泛的应用前景，包括地质调查、城市资源管理、灾害管理和监测。现有的大多数基于变压器的遥感图像分割方法通常采用混合设计，目的是结合神经网络和变压器的优点。[65]的工作介绍了一个基于轻型变压器的框架Efficient-T，该框架包含一种隐式边缘增强技术。所提出的Efficient-T采用分层Swin变换和MLP头。在[66]中引入了一种称为CCTNet的耦合CNN-Transers框架，旨在将CNN捕获的边缘和纹理等局部细节与通过Translers获得的全局上下文信息相结合，用于遥感图像中的目标分割。此外，还引入了测试时间增加和后处理步骤等不同的模块，以去除推理中的孔洞和小物体，从而恢复出完整的分割图像。在[67]中引入了一种名为STransFuse的CNN-Transformers框架，该框架提取多个尺度上的粗粒度和细粒度特征表示，然后利用自注意机制自适应地组合。[68]的工作提出了一种混合体系结构，其中捕捉远程依赖关系的Swin变压器主干与U型解码器相结合，该U型解码器采用基于深度可分离卷积的Arous空间金字塔池块以及SE块来更好地保留图像中的局部细节。[69]的工作利用预先训练好的Swin Transformer主干，结合U-Net、特征金字塔网络和金字塔场景分析网络三种解码器设计，对航空图像进行语义分割。

我们在Tab IV中展示，在两个最常用的语义切分数据集：Potsdam[70]和Vaihingen[71]上对上述方法进行了定量比较。Potsdam数据集包括38个斑块，每个斑块的分辨率为6000×6000像素，在Potsdam市上空采集，地面采样距离为5厘米。该数据集有六个类别。Vaihingen数据集包括33个样本，其中每个样本的分辨率从1996×1995到3816×2550像素。在这里，地面采样距离为9厘米。此数据集包含与Potsdam相同的类别。性能是根据使用真阳性、假阳性、假阴性和真阴性计算的总体准确率(OA)来衡量的。图9显示了在Potsdam数据集上Trans-CNN和其他方法之间的定性比较。

图9：混合Trans-CNN与其他现有分割方法之间的定性比较。这些例子来自Potsdam数据集。

【综述】Transformers in Remote Sensing: A Survey_第12张图片

图9：混合Trans-CNN与其他现有分割方法之间的定性比较。这些例子来自波茨坦数据集。每隔两行将结果显示为一组。这里，从左到右和从上到下是：(A)相应的地面事实，(B)从AFNet+TTA获得的结果，(C)ResUNet的结果，(D)CASIA2的结果，(E)使用Trans-CNN获得的结果，以及(F)RGB图像。AFNet+TTA、ResUNet、CASIA2和Trans-CNN的增量分类结果分别显示在(G)、(H)、(I)和(J)中。该数字来自[68]。

建筑提取 Building Extraction

最近还探索了基于变压器的技术来解决建筑物提取问题，其任务是自动识别遥感图像中的建筑物和非建筑物像素。在[72]中引入了一个双路径转换器框架，该框架努力学习空间和通道方向上的长期依赖关系。[73]的工作提出了一个变压器框架，STEB-UNet，包括基于Swin Transformer的编码助推器，该编码助推器从从不同尺度生成的多级特征中捕获语义信息。编码器助推器进一步集成在融合了局部和大规模语义特征的U形网络设计中。一种基于转换器的体系结构，称为BuildFormer，包括基于窗口的线性关注、卷积MLP以及批归一化在[74]中被引入。[75]的工作探索了建立不同区域的提取模型的泛化问题，并提出了一种转移学习方法来将模型从一个区域微调到另一个不可见区域的子集。

除了语义图像分割和使用转换器进行建筑物提取之外，[37]最近的一项工作探索了实例分割问题，其中的任务是自动将每个像素分类到图像中的一个对象类中，同时还区分多个对象实例。他们的方法旨在结合神经网络和变压器的优点，通过设计一个局部感知Swin变压器主干来增强局部和全局特征信息。

E. 其他

除了上面讨论的问题之外，基于变压器的技术也被用于其他vhr遥感任务，例如图像字幕和超分辨率。

图像字幕 Image Captioning

遥感图像中的图像字幕是一个具有挑战性的问题，其任务是生成对给定图像的语义自然描述。最近很少有作品探索使用变压器进行图像字幕。[103]的工作介绍了一个框架，其中标准变压器通过集成剩余连接、丢弃层和自适应融合特征来适应遥感图像字幕生成。此外，还利用强化学习技术进一步改进了字幕生成过程。文献[107]提出了一种编解码器的体系结构，该结构首先从编码器的不同层次的CNN中提取多尺度特征，然后在解码器中使用多层聚合转换器来有效地利用多尺度特征来生成句子。[108]的工作介绍了基于令牌的掩码转换器的主题框架，其中主题令牌被集成到编码器中，并在解码器中充当用于捕获改进的全局语义关系的先验。

图像超分辨率 Image Super Resolution

遥感图像超分辨率是从低分辨率图像中恢复高分辨率图像的任务。最近的一些著作探索了用于这一任务的变压器。在[111]中引入了一种基于变压器的多级增强结构，它利用了不同阶段的特征。所提出的多级结构可以与传统的超分辨率技术相结合，以融合多分辨率的低维和高维特征。[113]提出了一种融合局部和全局特征信息的CNN-Transform混合结构，以实现超分辨率。[109]的工作探讨了多幅图像的超分辨率问题，其中的任务是将同一场景的多幅低分辨率遥感图像合并成一幅高分辨率的图像。这里，介绍了一种基于变换的方法，包括具有残差块的编码器、融合模块和基于超像素卷积的解码器。

为了总结变形器在VHR图像中的回顾，我们在表5中对文献中的不同技术进行了全面的概述。（具体论文链接见github）

VHR图像中Transformer的应用***

6. 高光谱图像中的Transformer

如前所述，高光谱图像由几个光谱品牌表示，分析高光谱数据在广泛的问题中至关重要。在这里，我们介绍了最近基于变压器的方法不同的高光谱成像(HSI)任务的回顾。

A. 图像分类

在这里，任务是自动分类，并为通过高光谱传感器获取的图像中的每个像素分配一个类别标签。接下来，我们首先回顾最近的工作，这些工作要么是基于纯变压器设计，要么是利用混合CNN-变压器方法。然后，我们讨论了几种最新的基于变换的融合不同模式的高光谱图像分类方法。

基于纯Transformer的方法 Pure Transformers-based Methods

在现有的工作中，[114]的方法引入了来自转换器的双向编码器表示，称为HSIBERT，它致力于捕获全局依赖。所提出的体系结构是灵活的，可以从不同的区域推广，需要执行预训练。在[8]中引入了一个基于变压器的主干，称为SpectralFormer，它可以接受像素或斑块状的输入，并被设计为从附近的高光谱波段捕获光谱局部序列信息。SpectralFormer利用跨层跳跃连接，通过学习跨层的软残差，从浅层到深层循环信息，从而产生分组频谱嵌入。为了避免卷积核的固定几何结构问题，文[115]提出了一种光谱-空间变换网络，该网络包括空间注意模块和光谱关联模块。而当空间注意通过将所有输入特征通道与空间核权重聚合在一起来连接局部区域，通过整合对应的掩蔽特征地图的所有空间位置来实现光谱关联。在[9]中，变压器也在空间和光谱维度进行了探索。在这里，引入了一个框架，包括学习捕获沿光谱维度的交互作用的光谱自我注意和设计用于关注沿空间维度的特征的空间自我注意。然后，来自光谱和空间自我注意的结果特征被组合并输入到分类器。

基于混合CNN-Transformer的方法 Hybrid CNN-Transformers based Methods

最近的几项工作探索了结合CNN和Transformers的优点，以更好地捕捉高光谱图像分类的局部信息和远程相关性。为此，在[116]中引入了一种称为CTN的卷积变换网络，它利用中心位置编码，通过将像素位置与光谱特征相结合来生成空间位置特征，并通过卷积变换来进一步获得局部-全局特征，如图10所示。文献[117]提出了一种高光谱图像变换(HIT)分类方法，该方法将卷积嵌入到变换结构中，以进一步整合局部空间上下文信息。该方法包括两个主要模块，其中一个模块称为光谱自适应三维卷积投影，用于通过光谱自适应三维卷积层从高光谱图像中生成空间光谱局部信息。另一个模块名为Conv-Permuator，它使用纵深卷积来分别沿光谱、高度和宽度维度捕获空间光谱表示。

【综述】Transformers in Remote Sensing: A Survey_第13张图片

图10：用于高光谱图像分类的CTN框架概述[116]。对于给定的HSI数据块，CTN将其处理为中心位置编码(CPE)、卷积变换和分类模块。这里，输出表示类别标签。该图来自[116]。

文献[12]介绍了一种多尺度卷积变压器，它能有效地捕捉空间频谱信息，并可与变压器网络集成。此外，定义了自监督预任务，其在编码器中屏蔽中心像素的令牌，而其余令牌被输入到解码器，以便重建对应于中心像素的光谱信息。在[118]中，提出了一种光谱-空间特征标记化转换器，称为SSFTT，用于生成光谱-空间特征和语义特征。SSFTT包括通过使用3D和2D卷积产生低级别光谱和空间特征的特征提取模块一层。此外，在SSFTT中使用了高斯加权特征标记器进行特征变换，然后输入到变换编码器进行特征表示。因此，采用线性层来产生样品标签。赵等人。[116]提出了一种卷积变换网络(CTN)，该网络采用中心位置编码将光谱特征与像素位置相结合。该体系结构引入了卷积变换块，有效地集成了高光谱图像斑块的局部和全局特征。Yang等人。[117]介绍了一种高光谱图像转换器(HIT)框架，其中卷积运算被嵌入到转换器设计中，以便也整合本地空间上下文信息。HIT框架由光谱自适应3D卷积投影组成，用于捕获局部空间光谱信息。此外，HIT框架采用了卷积置换模块，该模块使用深度卷积来显式捕获不同维度上的空间光谱信息：高度、宽度和光谱。文献[118]提出了一种光谱-空间特征标记化转换器，称为SSFTT，它由一个用于编码浅光谱-空间特征的光谱-空间特征提取方案和一个产生转换后的特征作为编码器输入的特征变换模块组成。

基于多模融合变压器的方法 Multi-modal Fusion Transformers based Methods

最近很少有基于变换的工作也在探索融合不同的模式，如高光谱、合成孔径雷达、激光雷达用于高光谱图像分类。在[119]中引入了多模式融合变压器，MFT包括一种数据融合方案，用于从多模式数据(例如，激光雷达、合成孔径雷达)以及标准的高光谱补丁令牌中导出变压器中的类别令牌。此外，MFT中的注意机制将来自高光谱和其他模式的标记的信息融合为集成特征的新标记。[120]的工作介绍了一种方法，其中利用光谱序列变换来沿光谱维度从高光谱图像中提取特征，并利用空间分层变换来以分层方式从高光谱和激光雷达数据中生成空间特征。

表VI显示了两种流行的高光谱图像分类基准：Indian Pines和Pavia，比较了几种典型的基于CNN的方法与基于纯变换和混合CNN变换的方法。Indian Pines的数据集是通过机载可见光/红外成像光谱仪(A VIRIS)获取的美国印第安纳州西北部的传感器。这里，图像在空间维度上包括145×145个像素，地面采样距离(GSD)为20米，有220个光谱波段，覆盖400-2500 nm的波长范围。去掉噪声频段后，保留了200个频谱品牌。原始数据集包含16个类，其中几个方法丢弃了较小的类。其余类别的训练样本数目为每班200个。Pavia数据集包括通过反射光学系统成像光谱仪(ROSIS)传感器在意大利帕维亚上空获取的图像。这里，图像在空间维度上由610×340个像素组成，GSD为1.3米，103个光谱波段覆盖从430到860 nm。该数据集包含9个类别，每个类别的训练样本数量为200个。通常用三个指标来定量评价方法的性能：总体精度、平均精度和卡帕系数。总体准确率(OA)表示正确分类测试样本的比例，而平均准确率(AA)反映每个类别的平均识别准确率。卡帕系数是指由模型生成的分类图与可用地面实况之间的一致性。图11给出了在PAVIA数据集上HSIBert[114]和其他现有的基于CNN的方法之间的定性比较。

图11：在分类图可视化方面，HSI-BERT和几种基于CNN的方法在PAVIA数据集上的定性比较。这里，(A)CNN、(B)CNN-PPF、(C)CDCNN、(D)DRCNN和(E)HSI-Bert。该图来自[114]。

B. 高光谱全息锐化

在高光谱全色锐化问题中，任务是利用配准的全色图像的空间信息对低分辨率的高光谱图像进行空间增强，同时保持低分辨率图像的光谱信息。全息锐化在遥感中的各种任务中扮演着重要的角色，包括分类和变化检测。此前，基于CNN的方法在这项任务中显示出了令人振奋的结果。最近，通过利用有用的全局上下文信息，基于转换器的方法已经对这个问题取得了良好的效果。由[139]提出的多尺度空间光谱相互作用变换MSIT包括一个卷积变换编码器，用于从低分辨率和全色图像中提取多尺度局部和全局特征。[137]的工作引入了一种体系结构，其中全局特征使用变压器构建，局部特征使用浅层CNN计算。同时学习以金字塔方式提取的这些多尺度特征。该方法进一步引入了同时考虑空间损失和频谱损失的损失公式，用于使用真实数据进行训练。梁等人。[136]提出了一种PMACNet框架，在该框架中，低分辨率图像的感兴趣区域和回归到高分辨率图像的残差都在并行的CNN结构中学习。然后，基于学习到的感兴趣区域，利用像素方式的注意模块来调整残差。

文献[141]提出了一种基于变换的回归网络，利用Swin变换进行空间和光谱信息的特征提取模型。[142]的工作引入了一种基于转换器的方法，其中多光谱和全色特征被表述为关键字和查询，以实现跨模式的特征的联合学习。此外，本工作还使用了一个可逆的神经模块来进行特征的有效融合，以生成全息图像。Bandara等人。[133]提出了一种包括全色和高光谱图像独立特征提取、软注意机制和光谱-空间融合模块的框架。通过学习不同特征的跨特征空间依赖关系来提高全息图像的质量。

为了总结高光谱成像中变压器的回顾，我们在表7中对现有文献中的技术进行了全面的概述。

高光谱图像中Transformer的应用***

7. 合成孔径雷达图像中的Transformer

如前所述，合成孔径雷达图像是由电磁波信号构成的，通过传感器平台传输到地球表面。由于不受昼夜雾等环境条件的影响，合成孔径雷达具有独特的特性。在这里，我们回顾了最近的基于变压器的方法，用于SAR成像任务。

A.合成孔径雷达图像解译

分类 Classfication

准确地对SAR图像中的目标类别进行分类是一个具有挑战性的问题，具有许多现实世界的应用。最近，人们探索了用于SAR图像的自动解译和目标识别的转换器。[143]的工作探索了用于极化SAR(PolSAR)图像分类的视觉转换器。在该框架中，将图像块的像素值作为特征，利用自注意机制获取长距离依赖关系，然后使用多层感知器(MLP)和可学习类特征来集成特征。在该框架内使用了对比学习技术以减少冗余并执行分类任务。图12显示了该框架的概述，图13给出了监督分类方面的定性比较。

【综述】Transformers in Remote Sensing: A Survey_第18张图片

图12：用于监督极化合成孔径雷达图像分类的VIT-PolSAR框架概述[143]。该方法将合成孔径雷达图像块的像素值作为标志，利用自注意机制对较长距离依赖关系进行编码，然后进行MLP编码。该图来自[143]。

【综述】Transformers in Remote Sensing: A Survey_第19张图片

图13：在对ALOS2旧金山数据集上的整个地图进行监督分类方面的直观比较。这里，(A)、(B)、(C)、(D)、(E)、(F)、(G)和(H)分别示出了从Wishart、RBF-SVM、CV-CNN、3D-CNN、PSENet、SF-CNN和Vit-PolSAR获得的结果。该图来自[143]。

除了前面提到的纯基于变压器的方法之外，文献中也存在利用CNN和变压器的混合方法。[144]的工作提出了一种全局-局部网络结构(GLNS)框架，该框架结合了CNN和转换器的优点用于SAR图像分类。提出的GLNS采用了轻量级的CNN和一个高效的视觉转换器来捕捉局部和全局特征，这些特征随后被融合来执行分类任务。除了标准的全监督学习，还在有限的监督机制中探索了转换器，例如，小样本SAR图像分类。蔡等人。[145]介绍了一种基于空间变换网络对基于CNN的地物进行空间对齐的方法，称为ST-PN。

分割和检测 Segmentation and Detection

SAR图像中的检测和分割对于农作物识别、目标检测和地形测绘等不同的应用是至关重要的。在SAR图像中，由于斑点的出现，分割可能具有挑战性，斑点是一种乘性噪声，随着后向散射雷达幅度的增加而增加。在最近的基于变压器的方法中，[146]的工作引入了一个名为GCBANet的框架，用于合成孔径雷达舰船实例分割。在GCBANet框架内，使用全局上下文块来编码空间整体远程依赖关系。此外，还引入了一种边界感知盒子预测技术来预测船舶边界。夏等人。[147]介绍了一种名为CRTransSar的方法，该方法结合了CNN和转换器的优点，可以捕获用于SAR目标检测的局部和全局信息。建议的CRTransSar通过构建具有注意力和卷积块的主干来工作。文献[148]提出了一种地理空间变换框架，该框架包括图像分解、多尺度地理空间上下文关注和重构步骤，用于在SAR图像中检测飞机。文献[149]提出了一种用于SAR图像中飞机检测的特征关系增强框架。该框架采用融合金字塔结构，将不同层次和尺度的特征结合在一起。

此外，还采用了上下文注意力增强技术来提高复杂背景下的定位精度。除了舰船和飞机检测，[150]最近的工作引入了一种基于变压器的框架，用于在SAR图像中对油罐目标进行3D检测。在该框架中，将入射角作为先验标记输入到变压器，之后是利用散射中心来改进预测的特征描述运算符。

B. 其他

除了对合成孔径雷达图像的分类、检测和分割外，很少有工作是针对图像去噪等其他合成孔径雷达成像问题而进行的。

合成孔径雷达图像去斑化 SAR Image Despeckling

由于一种称为斑点的乘性噪声引起的图像退化，上述对合成孔径雷达成像的解释是具有挑战性的。近几年来，人们已经探索出了用于SAR图像去斑的变压器。[161]的工作介绍了一种基于变换的框架，该框架包括一个编码器，它学习不同SAR图像区域之间的全局依赖关系。利用合成斑点数据利用复合损耗函数以端到端的方式训练基于变压器的网络。

合成孔径雷达图像中的变化检测 Change Detection in SAR Images

合成孔径雷达图像会受到成像噪声的影响，这给检测高分辨率(HR)合成孔径雷达数据中的变化带来了挑战。最近，文献[163]提出了一种自监督的对比表示学习技术，其中分层表示是使用卷积增强的变换来构造的，以区分来自HRSAR图像的变化。当在本地窗口内执行自我注意计算时，引入了基于卷积的模块以实现跨窗口的交互。

合成孔径雷达图像配准 SAR Image Registration

变化检测等几个应用涉及对可能在不同成像条件下获取的多个合成孔径雷达图像进行联合分析和处理。因此，需要精确的SAR图像配准，其中对参考图像和感测图像进行配准。[165]最近的工作探索了用于大尺寸SAR密集匹配配准的变压器。在弱纹理条件下，采用混合细胞神经网络-变换进行图像配准。首先，通过下采样的原始SAR图像进行粗配准。然后，从先前的粗配准步骤中选择配准点的聚类中心。然后，使用CNN转换器模块执行图像对的配准。最后，对得到的点对子集进行积分，通过RANSAC实现最终的全局变换。

综上所述，我们对现有的合成孔径雷达图像Transformer技术在表8进行了全面的概述。

合成孔径雷达图像中Transformer的应用***

8 讨论和结论

在这项工作中，我们对遥感成像中的变压器进行了广泛的概述：超高分辨率(VHR)，高光谱和合成孔径雷达(SAR)。在这些不同的遥感图像中，我们进一步讨论了基于转换器的各种任务的方法，如分类、检测和分割。我们的调查涵盖了60多部基于变压器的遥感研究文献。我们观察到转换器在不同的遥感任务中获得良好的性能，这可能是由于它们捕获远程依赖的能力以及它们的表示灵活性。此外，几种标准变压器架构和主干的公开可用使探索它们在遥感成像问题中的适用性变得更容易。

开放的研究方向：如前所述，大多数现有的基于变压器的识别方法采用针对ImageNet数据集对主干进行了预培训。一个例外是在大规模遥感数据集上探索预培训视觉转换器的工作[7]。然而，在这两种情况下，预培训都是在监督下进行的。一个开放的方向是通过考虑大量的未标记的遥感成像数据，以自我监督的方式探索大规模的预训练。

我们的调查还显示，大多数现有的方法通常使用混合体系结构，其目标是结合卷积和自我关注的优点。然而，众所周知，变压器计算全局自我注意的计算成本较高。最近的几项工作探索了不同的改进变压器的设计包括减少计算开销[167]、高效混合CNN-变压器主干[168]以及用于图像和视频分类的统一架构[169]。此外，由于变压器使用了更多的训练数据，因此在遥感成像中需要构建更大规模的数据集。对于本工作中讨论的大多数问题，特别是在目标检测的情况下，通常使用重骨干来实现更好的检测精度。然而，这大大减慢了航空探测器的速度。一个有趣的开放方向是设计基于轻型变压器的主干来对遥感图像中的探测定向目标进行分类。另一个开放的研究方向是探索基于变换的模型对诸如SAR和UA V等异质图像源的适应性(例如，变化检测)。

在这次调查中，我们还观察到了几种现有的以即插即用方式利用变压器进行遥感的方法。这导致需要设计有效的特定于领域的体系结构组件和损耗公式来进一步提高性能。此外，对经过遥感基准预训练的视觉转换器模型的对抗性特征空间及其可转移性的研究也很有趣。

引用文献

共169篇，见

2209.01206.pdf (arxiv.org)

GitHub - VIROBO-15/Transformer-in-Remote-Sensing

你可能感兴趣的:(论文笔记,知识学习系列,人工智能,深度学习,视觉检测,transformer)

Java web%10 好学且牛逼的马 java 前端 AI编程
%10新路线Javawebai笔记阶段时长内容Web前端基础2天HTML、CSS、JS、Vue3、AjaxWeb后端基础4天Maven、HTTP协议、SpringIOC、DI、MySQL、JDBC、MybatisWeb后端实战6天Tlias案例（基于案例讲解web开发的核心知识）Web后端进阶2天SpringAOP、SpringBoot原理、自定义Starter、Maven高级前端web实战4天V
unity如何让一个物体拥有按钮功能 Lowjin_ unity unity 游戏引擎
在Unity中，要让一个物体（例如一个3D模型、UI元素或其他对象）变成一个按钮，你需要为它添加交互功能。这通常意味着让物体能够响应点击事件，像UI按钮那样触发某些行为。对于3D物体，可以通过射线检测（Raycast）来处理点击交互，而对于UI元素，则直接使用Unity的UIButton组件。这里提供几种常见的方式来让物体变成按钮：方法1：让一个3D物体（例如模型）变成按钮如果你有一个3D物体，并
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查\##HarmonyOSNext##ArkTs##教育本文适用于教育科普行业进行学习，有错误之处请指出我会修改。喂喂喂！应用卡成PPT了？点啥都没反应？别慌！这是你的应用无响应急救指南！系统检测到应用卡死后会生成appfreeze日志，本文手把手教你从日志里挖出元凶！先划重点！本文使用范围//仅适用于Stage模型！看日志前请确
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
Python开发AI智能体(三)———Langchain定义提示词模板【本人】 Agent智能体 python 人工智能 langchain 语言模型
前言上篇文章给大家介绍AI项目检测平台LangSmish以及开源框架Langchain的使用，并且带领大家编写了一个案例。这篇文章将介绍在Langchain框架中如何定义提示词模板一、什么是提示词模板？提示词模板（PromptTemplate）是大语言模型（LLM）应用开发中的核心概念，本质是预定义的提示结构框架。它通过将静态文本与动态变量结合，实现标准化、可复用的提示生成机制。它提示词可以是一个
一文教你学会使用 ts 泛型；ts 泛型常用知识点 GGhhccc javascript 开发语言前端 typescript
文章目录1.泛型是什么？为什么要用泛型？2.泛型如何使用泛型类泛型约束3.泛型部分实用工具类型ExcludeExtractOmitPick4.结语最近回头复习了一下ts泛型的知识，做一些笔记的总结分享~1.泛型是什么？为什么要用泛型？引用官网的例子，此时有一个需求：我们要定义一个函数，他会返回任何传入他的值。这个情况下，我们如果已知他的数据类型（假定是number），就可以写出以下代码：funct
信息系统项目管理师2025年考试关键知识点梳理-第11章项目成本管理 ℃-柠檬职场和发展其他高项项目管理
项目成本管理是为了项目在批准的预算内完成，对成本进行规划、估算、预算、融资、筹资、管理和控制的过程。项目成本管理重点关注完成项目活动所需资源的成本，但同时也考虑项目决策对项目产品、服务或成果的使用成本、维护成本和支持成本的影响。因此，项目成本管理还需使用其他过程和许多通用财务管理技术，如投资回报率分析、现金流贴现分析和投资回收期分析等。1、管理基础1.1重要性和意义项目管理主要受范围、时间、成本和
项目管理10大知识领域，49个管理过程关键知识点梳理 ℃-柠檬职场和发展其他
一、项目整合管理1、制定项目章程输入：商业文件（商业论证、效益管理计划）、协议工具技术：专家判断、头脑风暴、焦点小组、访谈输出：项目章程、假设日志2、制定项目管理计划输入：项目章程、其他工程输出工具技术：专家判断、头脑风暴、核对单、焦点小组、访谈输出：项目管理计划3、指导与管理项目工作输入：项目管理计划、项目文件、批准的变更请求工具技术：项目管理信息系统、会议输出：可交付成果、工作绩效数据、问题日
AEPR人像磨皮润肤美容插件的使用指南觉昧
本文还有配套的精品资源，点击获取简介：AEPR人像磨皮润肤美容插件是一款结合AdobeAfterEffects和Photoshop的专业图像处理工具，用于视频和图像后期制作。该插件简化了人像美容过程，提供美白、磨皮和润色功能，帮助用户获得理想的视觉美感。通过使用该插件，用户能够轻松改善肤色和皮肤质地，而高斯模糊、斑点修复和色彩平衡调整等技术则保证了皮肤质感的自然与细腻。为了实现最佳效果，用户需要遵
（转载）20个JavaScript重点知识点（11）this机制 lzhdim javascript 前端 vue.js 开发语言 ecmascript
this是JavaScript中最容易让人困惑的概念之一。它的指向取决于函数的调用方式而非定义位置，且在不同场景下表现不同。一、this的本质this是一个动态绑定的执行上下文对象，指向当前函数运行时的“所有者”。它的值在函数被调用时确定，而非定义时。理解this的关键在于分析函数是如何被调用的。二、绑定规则1.默认绑定(独立函数调用)当函数作为独立函数调用时(非方法、构造函数等)，非严格模式下t
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
机器视觉_图像算法（六）——形状矩(Hu) 智能之心 #机器视觉_图像算法形状矩 opencv
图像形状矩：一个从一幅数字图形中计算出来的矩集，通常描述了该图像形状的全局特征，并提供了大量的关于该图像不同类型的几何特性信息，比如大小、位置、方向及形状等。一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。由二阶矩和三阶矩可以导出一组共7个不变矩。而不变矩是图像的统计特性，满足平移、伸缩、旋转均不变的不变性，在图像识别领域得到了广泛的应用。一般由mom
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
上位机知识篇---Conda/pip install Atticus-Orion 上位机知识篇上位机操作篇深度学习篇 conda pip
在Python环境中，condainstall和pipinstall是两个常用的包安装命令，它们分别属于不同的包管理系统。下面从多个方面详细介绍它们的区别和使用场景：1.所属系统与适用范围特性condainstallpipinstall所属系统Anaconda/Miniconda生态系统Python标准包管理系统（PyPI）适用语言支持Python、R、Java等多种语言的包仅支持Python包依
爆改RAG检索力：三大Query变形术，助你玩转AI知识检索！许泽宇的技术分享大模型 AIGC 搜索引擎人工智能 RAG
你以为RAG（Retrieval-AugmentedGeneration）就是“检索+生成”那么简单？那你可太低估AI界的“内卷”了！今天，咱们就来聊聊如何用三大Query变形术，把RAG的检索力拉满，助你在AI知识海洋里捞到最肥的鱼！一、RAG的“灵魂拷问”：你真的会提问吗？在AI时代，信息检索的效率和质量，80%取决于你“怎么问”。RAG系统的本质，就是“你问得好，我答得妙”。但现实往往是——
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
Golang 结合 WebSocket 实现双向通信 Golang编程笔记 golang websocket 开发语言 ai
Golang结合WebSocket实现双向通信关键词：Golang、WebSocket、双向通信、实时通信、网络编程、Go语言、HTTP升级摘要：本文将深入探讨如何使用Golang实现WebSocket双向通信。我们将从WebSocket的基本概念讲起，逐步深入到Golang中的具体实现，包括连接建立、消息处理、并发控制等核心内容。通过本文，读者将掌握使用Golang构建实时双向通信系统的完整知识
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
创客匠人老蒋六力模型：创始人 IP 打造的底层逻辑与实践路径创小匠 tcp/ip 网络协议网络
创始人IP如何从0到1破局？创客匠人CEO老蒋提出的“六力模型”，为知识变现领域提供了系统化方法论。该模型将IP打造拆解为六个递进阶段，揭示了从“个人品牌”到“商业资产”的进化逻辑。一、定义力：构建IP的认知锚点IP的本质是“用户共识的塑造”。老蒋以神话故事为例，盘古开天辟地通过定义“宇宙起源”形成集体认知，这与现代创始人IP的“品类定义”逻辑一致。美特斯邦威周成建在直播中强调“国货转型”定位，正
创客匠人老蒋：创始人 IP 打造的五大核心命题与破局之道创小匠 tcp/ip 网络协议网络
在知识付费行业进入深水区的当下，创始人IP如何从“流量符号”进化为“商业引擎”？创客匠人CEO老蒋在“全球创始人IP领袖高峰论坛”中，围绕“IP、趋势、战略、创新、增长”五大关键词，揭示了IP打造的系统性方法论。一、认知破局：IP是商业战略而非营销手段老蒋以美特斯邦威周成建直播为例，指出创始人IP的本质是“企业战略的人格化表达”。数据显示，IP化创始人的企业估值平均比非IP化企业高30%-50%，
创客匠人联盟生态：重构家庭教育知识变现的底层逻辑创小匠重构人工智能大数据
在《家庭教育促进法》推动行业刚需化的背景下，单一个体IP的增长天花板日益明显。创客匠人提出的“联盟生态思维”，正推动家庭教育行业从“单打独斗”转向“矩阵作战”，其核心在于通过工具整合资源，将“同行竞争”转化为“生态共赢”。一、行业趋势：从个体IP到联盟矩阵的必然跃迁数据显示，2024年家庭教育新增服务超10万项，同质化竞争导致获客成本上涨40%。创客匠人联盟模型的破局点在于：当30位区域IP组成联
创客匠人视角下的知识变现革新：从付费到服务的底层逻辑重构创小匠重构
一、知识付费的本质：被误读的“信息”与被低估的“服务”当“知识付费已死”的论调甚嚣尘上时，创客匠人深耕行业11年的实践揭示了一个本质：知识本身是免费的，互联网时代信息唾手可得，但“让用户懂”的能力才是核心价值。正如牛顿三大定律从未收费，收费的是教师将知识转化为可理解体系的服务——这正是创客匠人所定义的“知识服务”内核。创始人IP打造的本质，正是将碎片化知识转化为体系化认知路径的能力，而知识变现的关
创客匠人：AI重构知识IP定位与变现效率新范式创小匠人工智能重构 tcp/ip
知识付费行业深度变革的当下，创始人IP打造与知识变现的效率瓶颈日益凸显。定位模糊、流量获取成本高、内容生产低效等问题，成为阻碍IP发展的核心痛点。而行业先行者通过AI技术的深度应用，正为知识IP构建全新的发展范式，其中尤以率先布局AI技术体系的机构表现突出。AI驱动定位革新：从“试错探索”到“精准锚定”传统IP定位往往依赖经验试错，耗时数周甚至数月仍难以明确方向。而借助AI定位智能体，知识创作者可
C++ 快速回顾（四）帅_shuai_ C++c++
C++快速回顾（四）前言一、纯虚函数二、final关键字1.作用到函数2.作用到类三、虚函数原理四、Lambda一些知识补充前言用于快速回顾之前遗漏或者补充C++知识一、纯虚函数纯虚函数主要是当接口，没有具体的实现要到派生类去实现。纯虚函数不能直接实例化，类似c#中的抽象函数classMyClassBase{public:virtualvoidInit()=0;virtualvoidDestroy
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明 zhxup606 C++c++开发语言
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明。根据搜索结果，C++人脸考勤系统通常使用OpenCV库进行人脸检测和识别，这需要一定的库配置和基础知识。以下是一个基于OpenCV的简单人脸考勤系统源码示例，适合初学者理解，代码实现基本功能：捕获摄像头画面、检测人脸、记录考勤信息，并保存到文件。C
Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框 zhxup606 C++qt ui 开发语言
涵盖Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框、多窗口开发、绘图、QGraphicsView绘图框架、文件处理、文件读写与事件、补充知识、INI配置文件、JSON文件操作、XML文件读写、和网络编程。每章将包含详细讲解、代码示例（demo），并确
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p