小郭同学要努力

【超分综述】

A comprehensive review on deep learning based remote sensing image super-resolution methods

(基于深度学习的遥感图像超分辨率方法综述)

卫星图像是地球科学领域各种应用的重要地理信息源。然而，由于光学和传感器技术的局限性以及传感器和设备更新的高成本，对地观测卫星的光谱和空间分辨率可能无法满足要求。因此，以从低分辨率（LR）遥感图像恢复高分辨率（HR）遥感图像为目标的遥感图像超分辨率（RSISR）技术引起了广泛关注，深度学习（DL）算法得到了快速发展。本研究旨在对基于DL的光学遥感图像单幅超分辨率（SISR）方法进行全面的综述。首先，我们介绍了SISR中使用的DL技术。其次，对RSISR算法进行了全面的总结，包括DL模型、常用遥感数据集、损失函数和性能评价指标。再次，我们提出了一个新的多传感器数据集，该数据集由来自不同卫星的各种景观的甚高分辨率卫星图像组成，并评估了一些最先进的超分辨率方法在该数据集上的性能。最后，展望了RSISR领域面临的挑战和未来的研究方向。

Introduction

图像超分辨率（SR）是计算机视觉领域的一个重要课题，在遥感、医学成像、视频监控、生物计量等领域有着广泛的应用前景。SR是通过增强低分辨率输入图像的空间和/或光谱质量来从低分辨率图像集生成高分辨率图像的广泛使用的技术。卫星图像是一个重要的地理信息来源，可用于环境监测、农作物类型识别、土地利用/覆盖制图、灾害管理、决策支持系统、天气预报、气候建模、地理目标探测和生物物理参数估计等不同应用，这些应用已被各种地球科学学科所使用。由于光学和传感器技术的限制以及高成本，地球观测卫星的空间和光谱分辨率一般达不到所希望的高水平；因此，开发基于软件的算法以改善卫星图像的空间和光谱质量具有至关重要的意义。单幅遥感影像超分辨率（SRSISR）为提高低分辨率卫星影像的空间和/或光谱分辨率，改善影像处理应用和去噪性能提供了有效的解决方案。因此，它已成为遥感领域最热门的研究课题之一。
随着深度学习（DL）技术在场景分类、目标检测、图像分割、图像超分辨率等计算机视觉领域的快速发展和显著进步，基于DL的遥感图像超分辨率（RSISR）方法近年来受到了众多研究者的关注并做出了巨大贡献。近来，与基于DL技术的SRSISR算法相关的出版物的数量显著增加。同时，通过使用DL方法，卫星图像的质量得到了显著改善。
在遥感领域，关于基于DL的SRSISR的综述论文数量有限。在本研究中，我们的目标是全面回顾基于DL的SRSISR，集中在DL模型、RS数据集、损失函数和性能评估度量。同时，给出了几种最新的遥感影像处理方法在高分辨率和中分辨率光学卫星影像上的应用和比较。本文主要研究光学遥感图像的单幅图像超分辨率。我们的贡献可概括为：
1）本文对基于DL的SRSISR算法进行了全面的总结。
2）我们创建了一个新的多传感器遥感数据集（MSRSD），其中包括Pleiades、Worldview-2（WV-2）、Worldview-3（WV-3）、Quickbird-2、GeoEye-1和DEIMOS等几个卫星获取的大多数公开可用的甚高分辨率（VHR）卫星图像。
3）我们评估了一些最先进的SR方法在新生成的MSRSD上的性能。
4）最后讨论了遥感图像超分辨率技术面临的挑战和未来的研究方向。

Deep learning in super-resolution

Problem definition

单幅遥感影像超分辨率（SRSISR）是指从低分辨率（LR）遥感影像中恢复出高分辨率（HR）遥感影像。HR和LR图像之间的退化模型Ψ可以数学地表示为：

其中I_LR和I_HR分别代表LR和HR RS图像。δ表示下采样操作的参数。RSISR是退化模型的逆过程，主要关注从给定的I_LR中恢复I_HR，可写作：

其中θ表示SR模型F的参数，I_SR表示超分辨率图像。
通常，学习过程是优化SR模型F的参数θ，以使生成的超分辨结果I_SR与HR图像I_HR相似。优化过程可描述为：

由于近年来基于监督学习的随机学习方法在基于DL的随机学习中占据主导地位，学者们倾向于设计基于监督学习的RSISR方法。然而，在真实的世界中，HR图像通常不可用。为了生成用于训练的HR-LR对，双三次插值方法是最广泛使用的下采样方法。基本上，在训练过程中，研究者通常将给定的图像作为HR图像，并采用尺度因子为s的双三次插值方法生成相应的LR图像，可以描述为：
然而，这太简单而不能匹配实际的退化模型。因此，一些研究者通过使用高斯核和噪声来对HR进行下采样，噪声定义为
k和n分别表示模糊核和噪声。因此，所生成的LR及其HR对用于在训练阶段中训练模型。

The state-of-the-art deep learning architecture for super-resolution（最先进的超分辨率深度学习架构）

基于DL的SR方法的典型架构如图1所示，其包括浅层特征提取、深层特征提取和重建阶段。

Deep CNN structure

一般而言，CNN结构通过将卷积层和激活层堆叠在一起来自动学习特征图。在开创性工作中，Dong等人提出了超分辨率卷积神经网络（SRCNN），其仅包含图像SR的三个卷积层，并且优于双三次插值方法。SRCNN也被应用于全色锐化和遥感SR任务中，并显示出比传统算法更出色的性能。Kim等人指出SRCNN架构太浅而不能学习图像的深层特征。Hara和Tanaka提出了一种包含20个卷积层的极深超分辨率图像超分辨率（VDSR）方法。通过学习输出和输入的残差，提出的残差学习加快了训练收敛速度。然而，SRCNN和VDSR算法由于在高维空间中进行运算，具有较高的复杂度和计算时间开销。针对这一问题，提出了一组直接在LR图像上训练模型的方法（后处理），而不是在上采样图像上训练模型。Shi等人提出了一种高效的亚像素卷积神经网络（ESPCN），通过提出高效的亚像素卷积层将LR特征图放大到最终输出，从而实现网络中的图像放大功能，并显著提高重建速度。Dong等人提出快速超分辨率（FSRCNN）也直接在LR图像上训练，并且其通过使用去卷积层对特征图进行上采样。由于后处理结构的显著优点，它已成为基于DL的随机共振方法的主流。
增加模型的深度是更好地从LR图像中提取层次特征信息，进而提高图像重建质量的有效解决方案。然而，模型训练的难度和模型的参数也随之增加。为了解决这些问题，Kim等人使用了深度递归卷积网络（DRCN），最多可递归16次。通过向DRCN添加残差体系结构，Tai等人提出深度递归残差网络（DRRN）致力于一个深（多达52卷积层）但简洁的网络。Ahn等人通过设计一种在残差网络上实现级联机制的体系结构，提出了一种用于图像SR的精确、轻量级深度网络–级联残差网络(CARN)。Mao等人提出了残差编码器-解码器网络（RED-Net），用于图像增强任务，如去噪、JPEG去块、图像去模糊、图像修复和SR。 Lai等人提出了一种拉普拉斯金字塔SR（LapSRN）用于高分辨率图像子带残差的渐进重建。Tong等人在非常深的网络中引入了密集跳跃连接（SRDenseNet），该网络有效地结合了低级和高级特征，以加快重建性能。Lim等人开发了一种增强型深度超分辨率网络（EDSR），通过消除传统残差网络中不必要的模块来提高性能。Yu等人提出了一种用于高效和准确图像超分辨率（WDSR）的宽激活方法，该方法在ReLU激活之前简单地扩展了功能，而不是使用各种快捷连接，从而显著改善了SISR。

Attention modules

目前大多数SR工作试图通过增加模型的深度来提高性能。然而，更深的层需要大量的计算和存储器资源。尽管基于CNN的方法已经被广泛应用于各种任务中并取得了优异的性能，但是CNN核对所有通道一视同仁，不能充分利用包含丰富高频信息的低分辨率图像。注意力机制是解决这些问题的机制之一，并且可以学习通道之间更深层次的相互依赖性。注意力引导算法在图像超分辨率等各种任务中的信息特征提取中起着至关重要的作用。许多研究者为提出各种基于注意力的方法来提取更丰富的信息特征做出了突出的贡献。
通道注意、空间注意和像素注意力是这些方法中的三个重要模块。Hu等提出的通道注意目的是学习一个1D（C × 1 × 1）矢量特征图。Woo等人提出的空间注意目标是学习一个2D（1 × H × W）的注意力特征图。Zhao等人提出的像素注意的目标是学习3D（C × H × W）特征图。像素注意力生成特征图的所有像素的关注度系数。Cheng等人提出了递归压缩和激励网络（Recursive Squeeze and Excitation Networks，SESR）用于图像SR，压缩和激励单元学习通道间的相互依赖关系，大大提高了性能。针对传统神经网络方法中包含在LR输入和特征中的丰富低频信息在通道间被同等对待的问题，Zhang等人提出了一种用于图像SR的极深残余通道注意力网络（very deep residual channel attention network，RCAN）。此外，Zhang等人提出了残差中残差（RIR）网络以使网络集中于学习高频信息。随后，Dai等人提出了一种深度二阶注意网络（SAN），通过利用二阶特征统计量而不是通道注意所利用的一阶特征统计量来实现更强大的特征表示和特征相关性学习。此外，Zhao等人通过提出一种能够生成3D注意图的像素注意机制，设计了一种轻量级的卷积神经网络，用于高效的图像超分辨率（即PAN）。最近，Niu等人通过设计LAM（Layer attention module，层注意力模块）和CSAM（Channel-spatial attention module，信道空间注意力模块）提出了一种用于图像超分辨率（HAN）的整体注意力网络，用于进一步学习不同层之间而非单个层之间的相关性。

Cascading networks

级联是改善SR算法性能的另一种解决方案。Zhang等人提出了一种新型级联CNN框架，以使用具有两个子网的单个训练模型实现多尺度图像SR任务。不同的子网络使用不同大小的卷积核来实现多尺度特征映射。Wei等人构建了级联密集网络，以充分利用所有卷积层的分层特征来实现精确的SISR方法。Lan等人提出了一种级联残差网络（CRN）和局部更宽残差块（LWRB）用于SISR。他们还提出了另一种增强型剩余网络（ERN），该网络采用了双重全局通路结构和多尺度块（MSB）。Ahn等人通过多阶段学习将渐进学习方案应用于深度卷积神经网络，导致输出图像分辨率逐渐增加。

GAN methods

随着深度学习的快速发展和取得的显著成就，Goodfellow and Pouget-Abadie提出生成式对抗网络（GAN）在各个领域和计算机视觉任务中出现后，迅速成为学术研究和工业应用的热点。Ledig等人提出了一种用于图像超分辨率的生成式对抗网络（SRGAN），其中采用深度残差网络和使用预训练VGG网络的高级特征图的感知损失来生成照片级真实感图像。但是，图像上仍然存在伪影。为了在视觉上进一步改善图像质量，Wang等人提出了增强型超分辨率生成式对抗网络（ESRGAN），方法是在生成器中加入残差密集块（RRDB），从基本块中移除批归一化，并使用相对论生成式对抗网络训练网络。ESRGAN比卷积神经网络获得了更好的视觉质量和更真实自然的纹理。
近年来，由于注意力机制在提取信道间的特征和深度相关性方面表现出了有效性，因此它也被应用于GANs。Zhang 等人将自我注意机制引入到GANs中，提出了一种自我注意生成对抗网络（Self-attention Generative Adversarial Networks，SAGAN），该网络可以对图像区域间的长程、多层次依赖性进行建模，并在每个位置生成精细的细节。

Remote sensing single image super-resolution (RSISR) (遥感单影像超分辨率（RSISR）)

RSISR侧重于从其给定LR图像恢复HR图像。遥感图像具有以下特点：（a）这些图像是从距地球表面几百公里的很远距离获得的；(b)图像中包含大量的小目标，分布多样，包括各种地表场景和不同大小的地物。此外，对象总是与其环境共享共同分布；©由于总是在变化的季节、变化的大气条件和不同的传感器观察几何条件下捕获图像，场景图像具有相当大的差异；(d)目前针对RSISR问题提出的方法主要可以分为两类：监督RSISR方法和非监督RSISR方法。

Supervised RSISR

目前的RSISR算法大多是基于监督学习的，即利用HR-LR对进行训练。在本小节中，我们将讨论基于CNN、基于GAN、基于注意力和基于反向投影的RSISR方法。RSISR的DL架构的发展如图2所示，从2020年开始，基于DL的方法学的种类不断增加。

CNN-based RSISR

由于DL在计算机任务和图像SR中的显著成就，一批研究人员开始了基于DL的RSISR的研究。
Leibel 等人于2016年提出的研究是第一批应用于SRSISR任务的基于CNN的工作之一。在本研究中，作者探索了Sentinel-2图像上的CNN方法，并表明通过使用特定数据集微调SRCNN，CNN方法可以成功地应用于Y通道（YCbCr颜色空间中的亮度分量）和多光谱（MS）遥感图像中的RS数据（Sentinel-2图像）。然而，他们只关注多光谱图像的第三波段，以进行性能观察。Tuna等人应用了SRCNN（Dong等人）和VDSR（Hara和Tanaka）模型，包括对VHR SPOT6和7以及Pleiades 1A和1B卫星采集的卫星图像进行IHS变换，比例因子为2、3和4。实验结果表明，VDSR方法在PAN和MS图像上的分割效果均优于SRCNN方法。2017年，Huang等人报告称，在Sentinel-2A上直接应用VDSR无法产生令人满意的结果。因此，他们提出了遥感深度残差学习（RS-DRL）网络，并证明在Sentinel-2A图像上优于VDSR（Hara和Tanaka）。然而，由于遥感图像的特征复杂性，提出和发展一种针对遥感图像的遥感图像增强模型是真实的必要的。Lei等人在设计了一个局部-全局组合网络（LGCNet），该网络包含一个具有多分支结构的局部-全局组合，通过连接来自不同卷积层的结果来学习RS图像的多级表示。这样的设计不仅可以学习对象的局部细节，包括边缘和轮廓，而且可以学习全局特征，包括环境类型。此外，Xu等人提出了一种深度存储器连接网络（DMCN），通过使用局部和全局存储器连接将图像细节与环境信息相结合，以生成高质量图像。为了减少存储量，作者提出了下采样和上采样单元来实现沙漏结构。在NWPU-RESISC 45、UC Merced数据集和Gaofen-1的2、3、4尺度测试图像上的实验结果表明，DMCN优于LGCNet、SRCNN和VDSR。
为了提高基于DL的模型的性能，一组学者提出了密集残差块。为了提高基于神经网络的网络性能，Jiang等人提出了一种新型深度蒸馏递归网络（DDRN），该网络包括一组超密残差块UDB、多尺度净化单元（MSPU）和RS图像蒸馏机制。所提出的MSPU模块可以补偿在信息传播过程中丢失的高频分量。DDRN在Jilin-1 video卫星影像和Kaggle开放数据集上表现出较好的性能。Deeba等人提出了超分辨率广域遥感残差网络（WRSR）。该算法随着残差网络宽度的增加和深度的减小，提高了训练损失性能和超分辨结果的质量，并进行了权值归一化。
最近，Ren等人提出了一种增强的残差卷积神经网络（ERCNN），该网络使用双亮度方案（DLS）来增强RSISR的特征流模块和区分不同特征图学习的能力。
Wang等人提出了一种反馈虚反射残差稠密网络（FGRDN）来减轻RSISR的计算负担并减少参数的数量。FGRDN采用反馈机制和Ghost模块，通过较低参数的高级细化得到较低层的特征，并在RDB的末端引入空间和通道注意模块（SCM），从特征中学习更多有用的信息。Chang等人提出了一种用于RSISR的双向卷积LSTM神经网络。该方法由基于稠密连接的递归推理模块和双向卷积LSTM（BiConvLSTM）层组成，双向卷积LSTM层用于理解每次递归的特征相关性，实现重构层补充信息的自适应选择。
大多数SR算法仅采用单个上尺度器来上采样LR特征，例如预处理方法（SRCNN）和后处理（使用亚像素卷积或去卷积层），这导致LR图像信息的丢失。为了强调这一问题，Huan等人通过融合层次特征并形成多尺度膨胀残差块（MSDRB），提出了一种新的金字塔型多尺度残差网络（PMSRN）。PMSRN提高了图像特征提取的能力，其参数仅为EDSR的43.33%。
Zhang等人为RSISR实现了一个渐进残差深度神经网络（PRDNN）。提出的渐进残差结构可以通过逐步学习不同层次、不同感受野的卫星图像特征图来提供更详细的特征。提出的PRDNN能产生更精确的边缘和纹理信息。
Shao等人提出了一种新型耦合稀疏自动编码器（CSAE），将稀疏学习和自动编码器结合起来用于RSISR。CSAE算法利用稀疏系数集作为先验知识，能够有效、准确地学习LR和HR遥感图像之间的映射关系。
为了增强网络的表示能力，进一步提取遥感图像中包含的特征，一些研究旨在提取不同尺度上的信息。
Fu等人通过对一组特征图使用不同的卷积核实现了基于卷积神经网络的超分辨率（SR）。他们在Jilin-1数据集上进行了端到端训练，发现结果优于FSRCNN。
Lu等还考虑了多尺度残差神经网络（MRNN），充分利用RS图像中物体的多尺度特征进行精确的SR重建。他们提出的方法通过提取大、中、小尺度图像特征进行多尺度信息表示，并融合多尺度信息，生成视觉上高质量的图像。Wang等人应用自适应多尺度特征融合网络（AMFFN）进行RSISR任务。该网络采用自适应多尺度特征提取（AMFE）模块和挤压激励及自适应选通机制，自适应地提取多尺度特征，并自适应地保留特征信息，提高了信息利用效率。多尺度特征映射方法是使用多尺度特征映射结构，该结构允许网络在单层卷积层中应用不同的核大小。他们提出了一种增强型深度卷积神经网络算法（EDCNN），以更好地学习每个卷积层中的信息，从而获得SR卫星图像。最近，Deeba等人提出了一种转移宽残差SRSISR深度神经网络模型（WRSR），该模型随着网络宽度的增加和残差深度的减小，大大降低了存储开销，提高了精度。以前的工作通常在原始域中处理图像；一些研究人员在多尺度频带中训练该模型。Wang等人开发了一种结合小波的基于神经网络的方法，以创建从空中平台获得的SR图像。作者在不同频带上训练多个模型，以恢复不同方向上的频率特征。该方法成功地捕获了高频局部变化和低频全局布局。此外，Ma等人提出了一种结合小波变换（WT）和递归Res-Net的方法来在频域中重建HR图像。同时，他们实现了递归块和残差学习，以简化深度网络的训练。此外，批量归一化层的去除增加了网络的灵活性并节省了内存使用。
通常，这些方法中的大多数都是以与自然图像SR方法相同的方式使用RGB图像（8位）进行训练的。然而，卫星图像的辐射分辨率通常为11位或12位，并包括多光谱波段，可以提供更丰富的无线电和光谱信息。因此，Wagner等人采用了一种通用的SRSISR方法-VDSR来处理单个Sentinel-2条带的不同空间分辨率。通过用其下采样的20 m图像训练Sentinel-2图像的四个10 m波段，该模型可以将图像从20 m超分辨到10 m。实验结果表明，该方法优于原始的VDSR算法。Müller 等人的工作也应用了卫星图像。通过应用SFIM全色锐化方法生成全色锐化后的HR图像，提出了一种利用全色图像对多光谱图像中所有波段进行超分辨的RSISR方法。
基于以上分析，如何充分利用多光谱图像中所包含的丰富信息，目前的探索还很有限，值得进一步深入研究。
RSISR任务中的另一个挑战是如何对真实的卫星图像进行超分辨率处理。Zhu等人提出了一种用于商业卫星影像产品的逼真训练数据生成模型，而不是使用具有固定内核的简单下采样模型来创建训练图像。此外，通过提出残差卷积神经网络和组合感知损失函数，证明了该方法能够提高真实的卫星图像的质量。

GAN-based RSISR

生成对抗网络（GAN）框架最近被考虑用于RSISR。一种基于GAN的方法，转移生成对抗网络TGAN，去除了批量标准化层，以减少计算负担并提高准确性（Ma等人）。该模型首先在DIV2K自然图像上训练，然后用遥感数据集进行微调。在（Jiang等人）提出了一种EEGAN架构，其中EEGAN的生成器由两个主要子网组成：超密集子网（UDSN）和边缘增强子网（EESN）。在Kaggle开源数据集、Jilin-1 video卫星影像和Digi talglobe上的实验表明，该方法的性能上级其他SR方法。Wang等人提出了一种超密集GAN（udGAN），作者将残差块的内部布局改造为二维矩阵拓扑。Gong等提出了一种用于SR任务的启发式GAN，通过设计启发块，使用自监督层次感知损失来保证性能的提高，并使用内部不一致性损失和裁剪策略来避免接缝线。最近，Chen等人通过应用2D拓扑和RRDB块，有效地改进了具有对角连接的EEGAN，以实现更好的信息转换和梯度优化。这些方法是在中分辨率卫星图像上进行的。然而，如何超分辨VHR图像（例如，50cm或30cm）以生成更高分辨率的图像仍然是实际和具有挑战性的工作。
Sustika等人通过在生成器网络中应用残差密集网络（RDN），作者提出了一种基于生成对抗网络（GAN）的方法，该方法在经典（客观）评价指标上提供了高性能沿着RSISR的高感知质量。Liu等人通过设计残差稠密块，提出了一种级联条件Wasserstein生成对抗网络（CCWGAN），用于获取HR RS图像。Guo等人提出了一种级联生成式对抗网络（CGAN），通过设计边缘增强模块来保留边缘细节并抑制噪声。Ma等人实现了一种基于稠密残差生成对抗网络（DRGAN）的SRSISR方法，该方法可以利用层次特征，并通过使用带梯度惩罚的Wasserstein GAN（WGANGP）稳定地训练模型，以提高遥感影像的分辨率。
除了提高发生器的性能外，鉴别器的设计对改进基于GAN的结果也至关重要。Lei等人实现了遥感图像的耦合鉴别GANs（CDGANs），这是一种基于GANs的超分辨率算法，通过引入双路径网络结构、随机门和耦合对抗损失来解决“鉴别模糊”问题。
尽管GANs在生成感知上更真实的图像方面取得了很好的成就，但基于注意力GANs的方法被证明在增强生成器的表示能力方面是有效的。因此，基于GAN的网络是RSISR研究的热点。Moustafa等人提出了一种用于卫星图像SR的SCSEGAN，方法是在每个残差块之后简单地堆叠空间和信道挤压激励（SCSE）块，并引入带梯度惩罚的Wasserstein距离（WGAN-GP）。Gao等人提出了一种基于GAN的结合残余通道注意力（CA）的遥感图像重构方法，以增强遥感图像的深度特征提取能力，产生更锐利的边缘。最近，Jia等人提出了一种由金字塔卷积残差稠密（PCRD）块、基于注意力的上采样（AUP）块和基于注意力的融合块组成的多注意力GAN（MA-GAN）框架，用于RSISR实现任意尺度的上采样。Xu等人提出TE-SAGAN将自注意机制（SAM）和权重归一化（WN）结合到GAN中，以去除伪像并增强纹理。此外，Li等人提出的基于局部注意和全局注意的生成性对抗网络（SRAGAN）可以学习结构分量和通道和空间维度上的长程相互依赖性。
虽然基于GAN的方法可以产生更真实的结果，但实验结果表明，原始图像不包括一些重建的纹理。因此，Huang and Jing等人提出了一种结合小波变换和生成式对抗网络的SR重构方法，用于RSISR重构。实验表明，在GAN中训练小波分解系数可以有效地改善重构图像的局部细节信息。
基于GAN的方法也已经应用于真实世界RSISR。Guo等人提出了一种新的稠密GAN（NDSRGAN）和一个真实的HR和LR航空影像（RHLAI）数据集，该数据集由航空飞行在同一地点不同高度拍摄的HR和LR影像组成。Zhang等人通过使用由模糊核和噪声生成的真实数据集来训练所提出的残差平衡注意力网络（RBAN）-UNet。

Attention-based RSISR

由于注意机制在图像随机共振任务中取得了显著的成功，许多研究者将注意机制应用到遥感领域，包括全色锐化（Wang and Sertel等人）和图像随机共振，并有效地提高了性能。Gu等人提出了一种用于RSISR的深度残差挤压和激励网(DRSEN），提出了一个残差挤压和激励模块（RSEB），其中包括局部特征融合（LFF）模块和挤压和激励（SE）模块，用于建模通道之间的相互依赖性并增强网络的表示能力。Dong等人提出了一种多感知注意网络（MPSR），该网络由增强残差网络（ERB）和残差通道注意群（RCAG）组成。MPSR在DIV2K上进行预训练，然后转移到表现出更好性能的RS图像上。Haut等人提出了一种新的遥感SR方法，该方法在基于残差的网络设计中集成了视觉注意机制。Zhang等人使用了与RCAN类似的体系结构，并证明显著改善了性能。最近，Wang等人将通道注意和空间注意应用于深度密集残差网络，以提高SISR解决方案的性能，同时关注VHR卫星图像。在WV-3（Data Fusion Contest 2019数据集）和Pleiades数据集上的实验结果表明了注意机制在提高算法性能方面的有效性。Peng等人提出了一种新的单幅图像随机共振算法–门控卷积神经网络预训练（PGCNN），该算法通过设计多个残差块来学习高频信息，残差块中包含一个额外的设计良好的门控卷积单元，该单元具有长跳跃连接。通过迁移学习，该方法可以产生更多的纹理和细节信息。然而，这些方法采用简单直接的方式，仅仅在残差块内部添加关注模块，不能表现出LR图像更深层次的特征。最近，Dong等提出了一种用于RSISR的二阶多尺度超分辨率网络（SMSR）。Zhang等人为RSISR开发了混合高阶注意网络（MHAN）。其中新的注意模块（R = 3时）比一级注意模块（通道注意）更有效。Li等提出了一种基于通道注意力的融合递归网络（CA-FRN），通过保留和融合LR和HR的层次局部信息来构建RSISR。Zhang等人使用多尺度注意力网络从遥感图像的不同场景中提取多层次特征。Huang等人通过开发包含局部多级融合模块的残差双关注块（RDAB）和使网络更加关注高频信息区域的双关注机制（DAM），提出了一种深度残差双关注网络（DRDAN），实现了遥感图像全局和局部信息的融合。Wang等人提出了一种非局部上下卷积注意网络（NLASR），该网络包括非局部特征增强模块（NLEB）、增强上采样通道注意模块（EUCA）和增强下采样空间注意模块（EDSA）。通道式和多尺度空间信息的集成导致从低到高分辨率空间的更精确映射。
为了用更少的参数来增强表示能力，Li等人提出了一种用于RSISR的并联残余通道注意力网络（PCRCAN），该并联残余通道注意力网络提出了具有基于组卷积的特征聚合模块的并联模块，并且使用残余通道注意力块作为基本特征映射单元。最近,陈等人提出了一个残余聚合和分裂注意力融合网络(RASAF)来生成高质量的RS图像。RASAF包含一块分割注意力融合实现跨渠道功能组交互对各种地表场景再保险结构和残余聚合机制生成更高质量的当地残余分支功能层次损失函数的多尺度图像信息的学习。此外，Huan等人设计了一种非对称多尺度超分辨率网(AMSSRN），引入残差多尺度块（RMSB）和残差多尺度膨胀块（RMSDB），并引入特征细化融合（FRF）模块进行全特征提取。Wang等人设计了一种由通道分离操作、注意模块和特征增强块（FEB）组成的轻量级格块（LLB），使网络能够有效地提取不同纹理丰富度。
由于有限的先知先觉的LR空间,而是RSISR与大规模的(例如×8)是一项具有挑战性的任务,仍然去探索。Dong等人设计dense-sampling机制和宽特征注意块(WAB)以结合宽激活和注意机制。他们的方法–密集采样超分辨率网络（DSSR）探索了遥感影像的大尺度SR重建。实验结果表明，该算法在较大的缩放因子×4和×8下仍具有较好的性能。Ma等人（2021）为RSISR实现了密集通道注意网络（DCAN），其中他们设计了密集通道注意机制（DCAM）来利用多级特征映射。

Back-projection based RSISR(基于反投影的RSISR)

反投影是用于提高基于DL的图像SR的性能的另一种方法。Haris等人提出了深度反投影网络（DBPN），其可以迭代地利用下采样和上采样层，并提供用于投影误差的基于阶段的误差反馈机制。**上采样和下采样阶段相互连接，**以定义不同类型的图像退化和高分辨率组件。Pan等人为RSISR开发了残差密集反投影网(RDBPN）。其中采用了全局和局部残差学习。然后采用降尺度单元代替降投影单元，实现了快速RDBPN（FRDBPN），提高了重建速度。此外，通过引入注意机制，Dong等人提出了RSISR的增强反向投影（EBPN），改进了DDBPN（Haris等人）用于通道式特征提取。

Unsupervised RSISR

尽管监督RSISR方法已经产生了成功的结果，但是它们遭受缺乏成对的HR和LR图像的困扰。传统的有监督算法不能满足数据采集过程复杂的真实的遥感图像生成应用的要求。因此，研究RSISR的非监督方法具有十分重要的意义。在过去的几年里，一些研究人员对无监督RSISR算法做出了实质性的贡献。
Sheikholeslami等人提出了一种有效的无监督随机共振（EUSR）DL模型。EUSR算法通过使用密集连接的卷积层和跳跃连接，提高了重构性能，减轻了计算负担。Choi和Kim提出了一种强调自然性的新退化模型和一种改进的SRResNet，以提高KOMPSAT-3的图像质量。Wang等人提出了一种方法，在无监督高时间RSISR之前将参考转换到潜在空间作为偏移图像。随后，Wang等人通过改进先前的工作，采用递归更新策略将参考变换到潜在空间作为增强图像先验，实现了一种无监督学习框架-增强图像先验（EIP），以在没有LR和HR图像对的情况下完成SR任务。
另一组研究人员受益于CycleGAN的想法。Wang等人提出了一种无监督CycleCNN模型，包括两个生成式CNN用于下采样，SR分别用于RSISR。最近，通过提出两循环模块。第一模块用于将LR图像映射到HR图像，即，SR，而第二模块将HR图像映射回LR图像，如下采样：Zhang等人提出了一种可以用不成对图像训练RSISR的Cycle-CNN。
此外，GAN还被应用于基于无监督学习的RSSR。Zhang等人采用了一种基于无监督生成对抗网络（GAN）的RSISR方法，该方法在训练过程中不需要HR RS图像。Haut等人实施了一种无监督模型，该模型主要通过各种卷积、下采样、批量归一化和激活层来学习LR和HR域之间的关系，以超分辨率LR RS数据。Zhang等人通过设计可见图像引导网络和域规则鉴别器，提出了一种无监督可见图像引导RSISR网络（UVRSR）。UVRSR算法能有效地保留HR图像的高频信息，避免域偏移。
通过以上分析，我们对SISR的问题有了一些发现：
(a)通常，基于GAN的方法可以生成感知上高质量的图像，但是具有低PSNR值。而基于神经网络的方法通常可以获得较高的PSNR值，但感知质量较低。
(b)通过应用注意力和反投影机制，我们可以提取更深层次的信息，提高性能和图像质量。
©随着近年来各种用途的光电卫星数量的不断增加，以及卫星图像应用的日益广泛;需要包括多传感器VHR卫星图像的公共基准数据集，以确保针对不同卫星图像、位置和景观特征提出的方法的通用性和可转移性。

Loss functions

损失函数的合理选择是数字图书馆应用中最关键的学习策略之一。在图像SR任务中，利用损失函数来评估超分辨结果I_SR与参考HR图像I_HR之间的差异，并优化SR模型。L2损失函数(也称为MSE损失函数)是广泛使用的研究处于初级阶段。后来发现了L2损失函数不能精确测量重建质量。因此,研究者提出不同的损失函数(包括Chabonnier损失、感知损失、对抗损失等等)来生成更准确地重建结果。在本节中,我们将仔细看看损失函数中使用老的任务。

Pixel-wise loss

L1（MAE）和L2（MSE）损失函数是最简单和最广泛使用的逐像素损失函数。给定超分辨结果ISR及其目标图像IHR，L1损失函数可以定义为：
L2损失函数可表示为：
目前，L1损失函数比L2损失函数更受欢迎，因为L1损失函数已被证明表现出改进的性能和更快的收敛。此外，存在L1损失函数的可微分变体，即Chabonnier损失函数，其是鲁棒的并且可以被写为：

由于对数据中离群值的敏感性较低，Huber损耗也用于SR任务，可定义为：
由于PSNR与逐像素差异高度相关，因此逐像素损失函数非常有效，尤其是在目标是进一步提高PSNR值时。然而，实验结果表明，具有高PSNR值的图像并不总是提供具有平滑纹理的感知上令人满意的结果。

Perceptual loss

感知损失（(Goodfellow and Pouget-Abadie等人、Johnson等人）旨在测量从预训练网络Ψ提取的特征之间的距离（例如，VGG（ref）），并且克服了逐像素损失函数的缺点，并且产生感觉上令人满意的超分辨结果。感知损失可定义为：
用感知损失训练的模型通常提供视觉上更精细的细节和纹理，但是与逐像素损失驱动的模型相比具有更低的PSNR。
另一种感知损失函数是LPIPS（Zhang等人），它是用基于人类感知相似性判断的数据集训练的，比VGG感知损失更符合人类感知偏好。LPIPS损耗定义为：

Adversarial loss

对抗性损失被广泛用于生成性对抗性网络的训练（Goodfellow和Pouget-Abadie）。GAN网络由发生器和鉴别器组成。对于基于GAN的RSISR，超分辨率模型作为生成器，以LR RS图像作为输入生成超分辨率结果，而鉴别器作为分类器，确定给定图像是生成的还是真实的。
具体地，在训练过程中，利用如下所述的基于交叉熵的对抗性损失来交替训练生成器和鉴别器：
虽然基于GAN的网络比基于CNN的方法能产生更真实的结果，但是它们很难训练。因此，Wasserstein GAN（Liu等人）、WGAN-GP（Ma等人）和相对论对抗损失（Relativistic Adversarial Loss），以降低训练难度，提高图像质量。
最近，Jolicoeur-Martineau提出了相对论GAN（RaGAN），其中鉴别器估计给定真实的数据比随机采样生成的数据更真实的概率。相对论性GAN的鉴频器损耗可以描述为

生成器的对抗损失定义为：
实验结果表明，具有RaGAN损失的模型提供了更精细的细节，同时具有更稳定的训练。然而，对抗的基于损失的方法倾向于产生令人愉快的视觉质量结果，但是具有较差的PSNR和SSIM。

Cycle consistency loss

CycleGAN（Zhu等人）是用于图像到图像转换任务的有用方法并且已经被应用于表现为循环-循环CNNs的RSISR任务（Wang等人）。对于基于循环CNN的方法，循环一致性损失由前向和后向循环一致性损失组成。在前向部分中，上采样模型对I_LR进行超解析以产生I_SR，并且退化模型将I_SR下采样回到I_LR′。在后向部分，退化模型对HR图像进行下采样得到I_HLR，上采样模型根据I_HLR生成I_HR′。循环一致性损失保持I_LR、I_HR与其生成结果I_LR′、I_HR′之间的一致性。

Datasets and evaluation metrics

Available remote sensing image datasets

在本节中，我们总结了一些文献中广泛使用的RSISR数据集。不同DL任务常用的RS数据集如表1所示；不同的研究人员使用这些数据集进行SR，因为没有广泛可用的公共数据集用于SR任务。
(1)AID（Aerial图像数据集）（Xia等人）。AID是一个大规模和多源航空图像数据集，包括从Google Earth Imagery收集的30种不同土地类别的10，000张图像，用于场景分类任务。
(2)DOTA（Xia等人）。DOTA是为目标检测任务生成的基于空中图像的大规模基准数据集。该数据集包含从Google Earth、GF-2和JL-1卫星收集的2806幅图像以及由CycloMedia B.V.提供的航空图像。
(3)UC Merced数据集（Yang和Newsam）。该数据集包括21个不同土地类别的图像。每个图像块的大小为256 × 256像素，每个类别有100幅图像，这些图像来自USGS国家地图集。
(3)WHU-RS19（Sheng等人）。WHU-RS19包含19个不同的土地等级。从GoogleEarth上获取了50个VHR图像块，每个块的大小为600 × 600像素。
(4)Kaggle开源数据集（用于卫星图像的Kaggle开源数据集）。该数据集包括在南加州上空收集的1000多张VHR航空照片。它包含350个用于训练的图像和1370个用于测试的图像。
(5)NWHU-RESISC45（Cheng等人）。该数据集由西北工业大学（NWPU）生成，作为遥感图像场景分类（RESISC）任务的公共基准。每类包含700幅图像，大小为256 × 256像素，用于45个不同的场景类。
(6)IEEE数据融合竞赛（DFC）2019（数据融合竞赛）。DFC（2019）数据集由WV-3卫星捕获的2783张多日期卫星图像（用于训练）和50张图像（用于测试）组成。样本图像块的大小为1024 × 1024像素。
(7)RSCNN（Zou等人）。该数据集共包含7类2800幅遥感图像。每类有400张图像，大小为400 × 400像素。此外，该数据集中的图像是在不同的大气条件和季节下采集的，并以不同的尺度进行采样;因此，RSCNN数据集相当具有挑战性。
(8)SpaceNet数据集（AWS）。SpaceNet是另一个大型卫星图像数据集，专门从VHR WV-3号卫星获取。

Multi-sensor remote sensing dataset (MSRSD)

我们的研究主要集中在VHR卫星图像而不是航空照片。为此，本文提出了一个新的多传感器遥感数据集（MSRSD），该数据集主要由Pleiades 1A/1B、GeoEye-1、QuickBird 2、WV-2、WV-3和DEIMOS卫星获取的VHR卫星影像组成，其中大部分是公开的。MSRSD的详细信息如表2所示。MSRSD包括来自七颗不同卫星、来自不同地理位置和各种地貌条件的卫星图像，以便于模型在全球范围内的转移和推广。它是一个多用途和丰富的数据集，主要包括VHR级空间分辨率。将图像制备为全色锐化的三条带。
训练时，我们裁剪的图像补丁的大小为128×128像素,我们只训练RGB通道模型。MSRSD的补丁总数是65947。我们使用62647个补丁进行训练了，3300个补丁进行验证。
此外，我们从DFC数据集中选择了50张大小为1024 × 1024像素的图像，从Pleiades图像中选择了30张大小为720 × 720像素的图像，作为测试数据集，用于独立评估所实现的模型和验证所实现方法的稳健性。

Evaluation metrics

(1)峰值信噪比（PSNR）：PSNR是最常用的图像质量评估度量，其通过在像素级计算图像之间的距离来测量图像质量。对于RSISR，假设我们已经生成了都具有N个像素的超分辨结果I_SR和目标图像I_HR，我们首先计算图像之间的均方误差（MSE）为

其中M是与图像的辐射分辨率和动态范围直接相关的最大可能像素值。较高的PSNR值表示较好的视觉质量。
(2)结构相似性指标（SSIM）：SSIM是另一种流行的客观评估指标，用于测量两幅图像之间的结构相似性。这是一个基于知觉模型和使用亮度,对比,和结构(Zhou等人)。鉴于超分图像I_SR和目标图像I_HR,SSIM计算:

由于图像可能分布不均匀，在实践中使用SSIM存在局限性。为此，采用平均结构相似度（MSSIM）和多尺度结构相似度（MS-SSIM）对SSIM进行评价，将图像划分为多个窗口，计算每个窗口的SSIM，最终得到MSSIM或MS-SSIM。SSIM值越高表示与HR图像的相似性越高。
(3)学习感知图像块相似性（LPIPS）：LPIPS是感知评估度量并且用于评估两个图像块之间的距离（Zhang等人）。较小的LPIPS值指示更大的相似性;而较高的LPIPS值指示变得不同。
(4)自然图像质量评价器（NIQE）：NIQE是一种盲图像质量评估指标，不需要参考真实图像。它将两个多元高斯模型拟合到图像并计算这两个模型之间的距离（Mittal等人）。在拟合多元高斯模型时，使用从原始场景统计模型推导出的质量感知特征。NIQE值越小表示视觉质量越好。
(5)感知指数（PI）：PI是在2018年PIRM感知图像超分辨率挑战中提出的（Blau等人）。PI结合了Ma等人的无参考图像质量测量（Ma等人和NIQE（Mittal等人）作为

(6)平均压差（AG）：AG测量图像的梯度幅度（Chen等人），定义为：
此外，还有一些其他评估指标用于定量评价RSISR结果，如ERGAS（合成的相对全球尺寸误差）（Liu等人），SAM（光谱角度测绘仪）（Yuhas等人）、Q指数（Zhou和Bovik）、QNR（无参考的质量）（Alparone等人）、VIF(Sheikh and Bovik）、FSIM（Zhang等人）。
在本文中，我们使用三个基于参考的度量-PSNR、SSIM、LPIPS和三个不基于参考的度量-NIQE、PI和AG作为评估度量来评估我们的SRSISR结果的质量。我们使用RGB通道计算所有指标。

Experimental results and discussions

在本节中，我们通过在我们提出的MSRSD数据集上实现最先进的CNN、GAN、Attention和基于反投影的SR方法进行了几个实验，以全面比较基于DL的RSSR方法。我们通过计算PSNR、SSIM、AG、NIQE、LPIPS和比例因子为×2、×4、×8的PI来评估我们的结果。

Experiment setting

略

你可能感兴趣的:(图像融合,遥感图像,计算机视觉,人工智能,深度学习)

RK3568与掌静脉模块：解锁安防新未来计算机学长瑞星微芯片 Android RK3568 Android
引言在当今数字化时代，随着人工智能和物联网技术的飞速发展，各类智能设备如雨后春笋般涌现，为我们的生活和工作带来了极大的便利。在这些智能设备的背后，高性能的处理器和先进的生物识别技术起着关键作用。RK3568处理器作为一款中高端的芯片，以其出色的性能和丰富的接口，在物联网、安防监控、智能家居等众多领域得到了广泛应用。而掌静脉模块作为一种高精度、高安全性的生物识别技术，正逐渐成为身份验证和安全控制领域
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet 系列网络发展与高效性分析（附代码）（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习卷积神经网络
【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet系列网络发展与高效性分析（附代码）（二）MobileNet系列网络发展与高效性分析（附代码）4.MobileNetV2（2
Docker中GPU的使用指南俞兆鹏云原生实践 docker 容器运维
在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。Docker作为流行的容器化平台，允许开发者将应用程序及其依赖打包成一个可移植的容器，在不同的环境中运行。当需要在Docker容器中利用GPU的计算能力时，我们需要进行一些特定的配置和设置。本文将详细介绍如何在Docker中使用GPU，从环境准备到实际应用，帮助你充分利
（视频演示）基于OpenCV的实时视频跟踪火焰识别软件V1.0源码及exe下载是刃小木啦~ opencv 人工智能计算机视觉
本文介绍了基于OpenCV的实时视频跟踪火焰识别软件，该软件通过先进的图像处理技术实现对实时视频中火焰的检测与跟踪，同时支持导入图片进行火焰识别。主要功能包括相机选择、实时跟踪和图片模式。软件适用于多种场合，用于保障人民生命财产安全。源码及exe文件可通过蓝奏云网盘下载。软件简介《基于OpenCV的实时视频跟踪火焰识别软件》是一款创新的计算机视觉应用软件，旨在通过先进的图像处理技术实现对实时视频中
具身智能行业 [shenhonglei] 具身觉醒：智能进化的未来之路人工智能机器人
具身智能行业综合分析资源下载-具身智能导图.xmind资源下载-具身智能导图.xmind一、行业概况定义与核心特征具身智能（EmbodiedAI）指通过物理实体（如机器人、自动驾驶设备等）与环境的动态交互，实现感知、认知和行动控制的智能系统。其核心特征是“知行合一”，强调通过实际交互提升智能水平，而非仅依赖数据训练。技术融合：结合人工智能（AI）、机器人技术、多模态大模型
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
大语言模型对程序员行业的影响及未来发展走势分析 Hello kele 人工智能 java 人工智能 AI编程
随着人工智能技术的快速发展，特别是大语言模型（如DeepSeek、OpenAI、Grok等）的出现，对程序员这个行业产生了深远的影响。在这篇文章中，我们将探讨这些变化，分析影响，并展望未来的发展趋势。一、当前影响1.自动化代码生成大语言模型的一个直接影响是代码自动化的能力。这些模型可以理解代码上下文，并生成功能性代码。例如，GitHubCopilot已经成为许多开发者的辅助工具，能够根据注释或部分
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
Python图片识别脚本：从零开始实现图像识别！ Python_trys python 开发语言编程 Python入门 Python基础 Python识别 Python学习
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】图像识别是计算机视觉领域的一个重要应用，Python凭借其丰富的库和工具，成为了实现图像识别的首选语言之一。本文将带你从零开始，使用Python编写一个简单的图片识别脚本。我们将使用OpenCV和TensorFlow来实现这个功能。1.环境准备在开始之前，我们需要安装一些必要的Python库。你可以使用pip来安装这些库：pipinsta
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement