春末的南方城市

GAN在图像超分辨领域的应用

本篇博客介绍了对抗生成网络GAN在图像超分辨领域的应用，包括(SRGAN, ESRGAN, BSRGAN, Real-ESRGAN),详细介绍了论文内容，方法，网络结构并对其做了相关总结。相关GAN原理的介绍大家可以查看我之前的几篇博客，链接如下：生成对抗网络-GANhttps://blog.csdn.net/xs1997/article/details/130277123?spm=1001.2014.3001.5501
条件生成对抗网络-CGANhttps://blog.csdn.net/xs1997/article/details/130278117?spm=1001.2014.3001.5501

GAN在图像转译领域的应用-CycleGAN&Pix2Pixhttps://blog.csdn.net/xs1997/article/details/130903541?spm=1001.2014.3001.5501OK, 接下来步入正题~

1.SRGAN(CVPR2017)

paper：https://arxiv.org/pdf/1609.04802.pdf

https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1609.04802

https://link.zhihu.com/?target=https%3A//github.com/zsdonghao/SRGAN

内容概述

Twitter在CVPR2017提出SRGAN，这是第一篇将GAN引入超分领域的论文，旨在提升画面的真实性。在这篇文章中，将生成对抗网络(Generative Adversarial Network, GAN)用在了解决超分辨率问题上。文章提到，训练网络时用均方差作为损失函数，虽然能够获得很高的峰值信噪比，但是恢复出来的图像通常会丢失高频细节，使人不能有好的视觉感受。SRGAN利用感知损失(perceptual loss)和对抗损失(adversarial loss)来提升恢复出的图片的真实感。感知损失是利用卷积神经网络提取出的特征，通过比较生成图片经过卷积神经网络后的特征和目标图片经过卷积神经网络后的特征的差别，使生成图片和目标图片在语义和风格上更相似。SRGAN的工作就是：生成器G通过低分辨率的图像生成高分辨率图像，由判别器D判断拿到的图像是由生成的还是真实图像。当生成器G能成功骗过判别器D的时候，就通过这个GAN完成超分辨率。

网络结构

超分辨率是一个病态问题，一个低清图像块可以对应多个高清图像块。而MSE得到的结果就像是这多个高清图像块（红色框框的图像块）的一个平均，这样所得图像很模糊，不符合真实高清图像（有高中低频信息）的分布，而GAN可以将其拉向真实高清图像的分布（黄色框框的图像块）

用均方误差优化SRResNet(SRGAN的生成网络部分)，能够得到具有很高的峰值信噪比的结果。在训练好的VGG模型的高层特征上计算感知损失来优化SRGAN，并结合SRGAN的判别网络，能够得到峰值信噪比虽然不是最高，但是具有逼真视觉效果的结果。SRGAN网络结构如下图所示。

生成网络(SRResNet)部分包含多个残差块，每一个block有Conv-BN-PReLU-Conv-BN-Sum的结构。跳跃连接有两个地方：1）在block内部有skip-connection; 2) 多个block也由skip-connection进行连接。生成器一共有16个blocks。每个残差块中包含两个3×3的卷积层，卷积层后接批规范化层(BN)和PReLU作为激活函数，两个2×亚像素卷积层(sub-pixel convolution layers)被用来增大特征尺寸。

判别网络包含8个卷积层，随着网络层数加深，特征个数不断增加，特征尺寸不断减小，选取激活函数为LeakyReLU，最终通过两个全连接层和最终的sigmoid激活函数得到预测为自然图像的概率。

小tip:BN层的引入可加速网络的训练，但是BN层测试时采用的是训练集数据均值和方差的统计量。当测试数据和训练数据分布不一致时，结果会产生artifacts(所以ESRGAN的时候作者去掉了BN层）

损失函数

使用感知损失perceptual loss来提升图像真实度，perceptual loss= content loss + adversarial loss。在像素层面计算损失容易使图像模糊，缺乏高频信息。而在特征层面进行损失计算比像素层面好。因为特征层面会各种结构化信息如边缘、形状等，当在特征层面约束生成图像和真实图像一致可以避免生成的图像模糊，提升视觉感知。

内容损失content loss便采用VGG19网络进行特征提取，在特征层面对生成图像和真实图像进行约束,vgg损失所计算的feature map越由高层网络得到，网络越生成更好的纹理细节。通过VGG19网络中第i个最大池化层之前的第j个卷积（激活之后）获得的特征映射，我们将VGG损失定义为重建图像的特征表示与高分辨率参考图像之间的欧氏距离。

对抗损失定义adversarial loss为：判别器在所有的样本上的概率判断

评价指标

评价指标不单纯使用PSNR(Peak Signal to Noise Ratio):峰值信噪比，因为PSNR主要受MSE影响。而MSE倾向生成模糊结果。所以当PSNR高时并不代表图像符合人的视觉感知，而是图像比较模糊。

平均主观意见分MOS分则是让用户看图像并从1-5进行打分，1为最差，5为最好，然后统计分值。该评价指标所得结果可以说明人的视觉感知。当MOS分高时表示图像符合人的视觉感知，否则不符合。

MOS结果中HR的MOS分最高，因为其本身就是高清图像；SRGAN其次，说明了SRGAN在提升图像真实度上是可信的。

2.ESRGAN(ECCV2018)

论文链接:https://arxiv.org/abs/1809.00219

论文源码链接:https://github.com/xinntao/ESRG

内容概述

Twitter提出将Gan（SRGAN）引入到超分辨率领域以提升恢复出图像的视觉感知，但是该框架生成细节的同时还伴随着artifacts, 前面已经介绍过，原因是在SRGAN中使用BN层来加速网络的训练，但是BN层测试时采用的是训练集数据均值和方差的统计量。当测试数据和训练数据分布不一致时，结果会产生artifacts。因此，如何进一步提升恢复图像的全局的视觉感知是一个需要研究的问题。

为了进一步提高视觉质量，论文深入研究了SRGAN的三个关键组成部分——网络结构、对抗损失和感知损失，并对它们进行改进，得出了增强型SRGAN (ESRGAN)。ESRGAN比SRGAN获得了更好的视觉质量，纹理更加逼真和自然，并在PIRM2018-SR挑战赛中获得了第一名。主要改进如下：

引入未经批归一化的残差密集块Residual-in-Residual Dense Block(RRDB)作为基本构建单元

借鉴了relativistic GAN的思想，让鉴别器预测相对真实度而不是绝对值。

提出了一种改进的感知损失，利用激活前的VGG特征来代替SRGAN中激活之后的VGG特征，为亮度一致性和纹理恢复提供更强的监督。

网络结构

左：移除了SRGAN残差块中的BN层。右：RRDB块用在我们的更深模型中，β是残差尺度参数。采用SRResNet的基本体系结构，大多数计算是在LR特征空间中完成的。

在不同的面向PSNR的任务中，已证实移除BN层可以提高性能并降低计算复杂度。BN层在训练中使用一批数据的均值和方差对特征进行归一化，并在测试中使用整个训练集估计的均值和方差。当训练集和测试集的统计差别很大时，BN层趋向于引入令人不快的伪影并限制泛化能力。

在GAN架构下训练且网络较深时，BN层更可能带来伪影。这些伪影有时会在迭代中间和不同的设置下出现，违背了训练过程中对于稳定性能的需求。因此，为了进一步改进SRGAN复原的图像质量，ESRGAN对生成器G的架构进行了两个修改：

1）移除所有的BN层；

2）用提出的残差套残差密集块(RRDB)替换原始的基本块，它结合了多层残差网络和密集连接。

除了改进生成器架构之外，还在相对GAN 的基础上增强了判断器。不同于SRGAN中的标注判别器D，D估算输入图像x是真实自然的概率，相对判别器尝试预测真实图像xr比假图像xf相对更真实的概率，如下图所示为标准判别器和相对判别器的差异。

损失函数

通过在激活之前而不是在SRGAN中实践的激活之后限制特征来开发更有效的感知损失Lpercep，使用激活层之前的特征有两个缺点：

（1）激活特征非常稀疏，尤其是在非常深的网络之后，稀疏的激活提供了弱监督，导致性能较差

（2）与真实图像相比，使用激活之后的特征也会导致重建亮度不一致

图像“狒狒”激活之前和激活之后代表性的特征映射。随着网络加深，大多数激活之后的特征变得不活跃而激活之前的特征包含更多的信息

方法总结

ESRGAN模型比以前的SR方法始终取得更好的感知质量。就感知指数而言，该方法在PIRM-SR挑战赛中获得了第一名。论文构建了一种包含一些没有BN层的RDDB块的新颖架构。此外，采用了包括残差缩放和较小初始化的有用技术，以促进提出的深度模型的训练。还介绍了使用相对GAN作为判别器，其学习判断一张图像是否比另一张更真实，引导生成器恢复更详细的纹理。此外，通过使用激活之前的特征增强了感知损失，它提供了更强的监督，从而恢复了更精确的亮度和真实纹理。

3.BSRGAN(ICCV2021)

Paper: https://arxiv.org/abs/2103.14006

Code: https://github.com/cszn/BSRGAN

内容概述

针对有现有退化模型存在的问题，提出并设计了一种复杂但实用的新型退化方案,包含对模糊、下采样以及噪声退化的随机置换(也就是说每种退化对应多种类型，且顺序会进行随机调整)。具体来说，模糊退化通过两个卷积(各向同性与各向异性高斯模糊)进行模拟；下采样从最近邻、双线性以及双三次插值中随机挑选；噪声则通过不同噪声水平的高斯噪声、不同压缩质量的JPEG压缩、逆转ISP生成的传感器噪声等。

基于所设计的新型退化方案，对RRDBNet进行模型训练，无论是合成数据还是真实场景数据，所得模型均取得了SOTA性能&绝佳的视觉感知质量

主要贡献包含以下几点：

提出了一种针对SISR的实用退化模型，它考虑并设计了更复杂的退化空间；

基于上述所设计的退化模型合成的训练数据训练了盲SISR，所得模型在不同类型真实退化数据上取得了非常好的效果；

首个针对广义盲超分采用手工方式设计退化模型的方案；

突出了精确的退化模型对于DNN-SR实用的重要性。

现有方法

现有的图像超分多用bicubic或blur-down方式制作训练数据；稍微复杂点的则采用模糊、下采样、噪声组合的方式。噪声往往假设为加性高斯白噪声，它往往难以匹配真实图像的噪声分布；事实上，噪声往往源于传感器噪声和JPEG压缩噪声，而这两种噪声通常具有信号依赖性、非均匀性。无论模糊退化精确与否，如果噪声不能有效匹配均会导致严重的超分性能下降。因此，现有的退化模型面对真实图像退化是仍有很大的改善空间。

除了人工模拟退化外，盲图像超分方案有几个研究方向：

先对LR图像估计退化参数，然后采用非盲方案生成HR图像。非盲方案对退化误差非常敏感，生成的结果过度锐利、平滑；

同时进行模糊核与HR图像估计，没有考虑噪声，模糊核估计不准确，影响HR重建质量。

采用监督方式采集LR/HR数据对，比如RealSR、DRealSR。成对训练数据的收集成本非常高，同时所学习得到的模型会受限于LR域图像。

基于非成对训练数据，采用类似CycleGAN的思路进行模型的训练，然后对Source与Target两个域图像同时进行退化制作训练数据。尽管这类方法精确的退化模糊核估计非常关键，如果模糊核估计不准确会导致模型性能变得比较差。

网络结构

BSRGAN从四个角度(模糊、下采样、噪声以及随机置换策略)来设计退化模型，在退化模型中设计了一种随机置换策略。具体来说，对退化序列进行顺序随机置换，随机置换可以大幅扩展退化空间

上图是退化模型的示意图。对于HR图像，可通过调整不同的退化操作、参数生成不同的LR图像。

训练细节

BSRGAN目的是在未知退化前提下，解决更广义的盲图像超分。选择了ESRGAN作为基线模型，并做了几点改动:

训练数据方面采用DIV2K、Flickr2K、WED以及源自FFHQ的2000人脸图像；

采用了更大的图像块72*72；

损失方面采用了L1、VGG感知、PatchGAN三个损失的组合，组合系数1，1，0.1。

优化器为Adam，batch=48，固定学习率。整个训练大约花费10天(亚马逊云，4个V100)

4.Real-ESRGAN(ICCV2021)

论文链接：Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data

论文源码链接：GitHub - xinntao/Real-ESRGAN: Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration.

内容概述

SR算法通过数据学习低清图像到高清图像的映射，通过映射可以将低清图像恢复为高清图像。由于高清图像到低清图像的退化是复杂且多样的，所以SR算法在真实场景中受限，往往在一批数据上训练的模型在另外一批数据上表现就不佳，也就是泛化性不佳。那怎样得到一个可用于真实场景中的泛化性强的模型是SR现在的一个问题。

盲超分任务介绍

单图像超分辨率 (SISR) 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。SISR 任务需要一张高分辨率的 HR 图和一张低分辨率的 LR 图。

超分模型的目的是根据后者生成前者，而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为：低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的，这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。但在实际应用中，这种退化作用十分复杂，不但表达式未知，而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时，这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务。

真实世界场景的复杂退化核通常是不同退化过程的复杂的组合，比如：相机的成像系统、图像编辑过程和互联网传输等等多个过程的退化作用的结合。

SR算法根据所得LR图像的退化过程分为两类：

算法类型	获得LR图像的退化方式	问题
显式建模	对HR进行退化，例如模糊、下采样、噪声和JPEG压缩	真实数据退化更加复杂和多样，简单的退化组合难cover真实数据，造成训练的模型泛化性不佳
隐式建模	使用GAN学习LR图像的数据分布（例如cyclegan)	使用gan所得数据也会让生成的数据趋于训练集的分布，当训练集的分布单一时所得LR也单一，造成训练的模型泛化性不佳

模型架构

Real-ESRGAN Generator

采用了与 ESRGAN 相同的生成器，即一个具有若干 Residual-in-Residual Dense Blocks (RRDB) 的深度网络。由于 ESRGAN 是一个较重的网络，作者首先通过 Pixel-Unshuffle 操作 (Pixel-Shuffle 的反操作，Pixel-Shuffle可理解为通过压缩图像通道而对图像尺寸进行放大来减少空间分辨率，并扩大 channel 数)。以降低图像分辨率为前提，对图像通道数进行扩充，然后将处理后的图像输入网络进行超分辨重建。因此，大部分计算是在较小的分辨率空间中执行的，这可以减少 GPU 内存和计算资源的消耗。

Real-ESRGAN Discriminator

由于 Real-ESRGAN 旨在解决比 ESRGAN 大得多的退化空间，ESRGAN 中的 Discriminator 的原始设计就已经不再适用了。Real-ESRGAN 中的 Discriminator 对于复杂的训练输出需要更大的鉴别能力。而且之前的 ESRGAN 的 Discriminator 更多的集中在图像的整体角度判别真伪，而使用 U-Net Discriminator 可以在像素角度，对单个生成的像素进行真假判断，这能够在保证生成图像整体真实的情况下，注重生成图像细节。U-Net 结构和复杂的退化也增加了训练的不稳定性。通过加入 Spectral Normalization Regularization，可以缓和由于复杂数据集合复杂网络带来的训练不稳定问题。

训练过程

首先，作者用 L1 Loss 训练一个 PSNR 导向的模型。得到的模型命名为 Real-ESRNet。
再通过 Real-ESRNet 的网络参数进行网络初始化，并用 L1 Loss，Perceptual Loss 和 GAN Loss 的组合来训练最终的网络 Real-ESRGAN。

训练集使用 DIV2K，Flickr2K，OutdoorSceneTraining。训练的 HR Patch size 是256，batch size 是48。Real-ESRNet 是从 ESRGAN Fine-tune 而来的，可实现更快的收敛。训练 Real-ESRNet 1000K iterations，训练 Real-ESRGAN 400K iterations。L1 Loss，Perceptual Loss 和 GAN Loss 的权重分别是 1.0，1.0，0.1。

实验结果

作者使用几个不同的测试数据集 (都是 real-world images)，包括 RealSR，DRealSR，OST300，DPED，ADE20K 和一些来自互联网的图像。如下图所示是不同方法的生成图片的质量可视化。Real-ESRGAN 在去除伪像和恢复纹理细节方面都优于以前的方法。Real-ESRGAN+ (用锐化的地面事实训练) 可以进一步提高视觉锐度。

方法总结

真实世界场景的复杂退化核通常是不同退化过程的复杂的组合，比如：1 相机的成像系统、2 图像编辑过程和3 互联网传输等等多个过程的退化作用的结合。例如，当我们用手机拍照时，照片可能会有一些退化，如相机导致的模糊、传感器的噪声、锐化伪像和 JPEG 压缩。然后我们做一些编辑并上传到一个社交媒体应用程序，这引入了进一步的压缩和没办法预测的噪音。当图像在互联网上被多次共享时，上述过程就会变得更加复杂。以上三个过程的复合作用导致的 Real-world 场景的复杂退化是没办法用一个简单的退化模型来准确表达或建模的。

Real-ESRGAN 引入高阶退化模型来更准确地模拟真实世界场景的复杂退化作用，为了合成更实际的退化，采用 sinc filters 来模拟常见的振铃和过冲伪像。此外，Real-ESRGAN 引入了 U-Net 形式的 Discriminator 在像素角度，对单个生成的像素进行真假判断，这能够在保证生成图像整体真实的情况下，注重生成图像细节。实验结果表明用合成数据训练的 Real-ESRGAN 能够增强细节，同时消除大多数真实世界图像中令人不愉快的伪像。

OK，这是我目前我整理的关于GAN在图像超分辨领域应用的几篇非常经典的论文，GAN的相关应用领域还有很多，也可以做很多有意思好玩的事情，欢迎大家一起交流学习~

从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

GAN在图像超分辨领域的应用

1.SRGAN(CVPR2017)

内容概述

网络结构

损失函数

评价指标

2.ESRGAN(ECCV2018)

内容概述

网络结构

损失函数

方法总结

3.BSRGAN(ICCV2021)

内容概述

现有方法

网络结构

训练细节

4.Real-ESRGAN(ICCV2021)

内容概述

盲超分任务介绍

模型架构

训练过程

实验结果

方法总结

你可能感兴趣的:(论文阅读,深度学习,生成对抗网络,人工智能,神经网络)