AI生成未来

图像复原的天花板在哪里？SUPIR：开创性结合文本引导先验和模型规模扩大

SUPIR（Scaling-UP Image Restoration），这是一种开创性的图像复原方法，利用生成先验和模型扩大规模的力量。通过利用多模态技术和先进的生成先验，SUPIR在智能和逼真的图像复原方面取得了重大进展。作为SUPIR中的关键催化剂，模型的扩大规模显著增强了其能力，并展示了图像复原的新潜力。我们收集了包含2000万高分辨率、高质量图像的数据集用于模型训练，每个图像都附带有描述性文本注释。SUPIR具有通过文本提示引导图像复原的能力，扩展了其应用范围和潜力。此外，本文引入了负质量提示来进一步提高感知质量。此外还开发了一种基于恢复的采样方法，以抑制生成式恢复中遇到的保真度问题。实验证明了SUPIR在恢复效果上的卓越表现，以及通过文本提示操控恢复的新颖能力。

介绍

随着图像复原（IR）的发展，人们对IR结果的感知效果和智能性有了显著提升的期望。基于生成先验的IR方法利用强大的预训练生成模型引入高质量的生成和先验知识到IR中，在这些方面取得了显著的进展。持续增强生成先验的能力是实现更智能IR结果的关键，而模型扩大规模是一个重要且有效的方法。许多任务通过扩大规模已经取得了惊人的改进，例如SAM和大语言模型。这进一步激发了构建大规模、智能的IR模型的努力，该模型能够生成超高质量的图像。然而，由于工程约束，如计算资源、模型架构、训练数据以及生成模型和IR的协同作用，扩大IR模型的规模具有挑战性。

本文引入了SUPIR（Scaling-UP IR），这是有史以来最大的IR方法，旨在探索在视觉效果和智能方面的更大潜力。具体而言，SUPIR采用了StableDiffusion-XL（SDXL）作为强大的生成先验，其包含26亿参数。为了有效应用这个模型，本文设计并训练了一个包含超过6亿参数的适配器。此外，作者收集了超过2000万高质量、高分辨率的图像，充分发挥了模型扩大规模所带来的潜力。每个图像都附有详细的描述性文本，使得可以通过文本提示来控制恢复过程。还利用一个包含130亿参数的多模态语言模型，提供图像内容提示，极大地提高了方法的准确性和智能性。所提出的SUPIR模型在各种IR任务中表现出色，实现了最佳的视觉质量，特别是在复杂和具有挑战性的现实场景中。此外，该模型通过文本提示提供了对恢复过程的灵活控制，极大地拓宽了IR的可能性。下图1展示了模型的效果，展示了其卓越的性能。

本文的工作远不仅仅是简单的扩大规模。在追求模型规模增加的同时，面临着一系列复杂的挑战。首先，在应用SDXL进行IR时，现有的适配器设计要么过于简单无法满足IR的复杂需求，要么太大无法与SDXL一起训练。为了解决这个问题，修剪了ControlNet并设计了一个称为ZeroSFT的新连接器，以与预训练的SDXL一起高效实现IR任务，同时降低计算成本。为了增强模型准确解释低质量图像内容的能力，对图像编码器进行微调，提高其对图像降解变化的鲁棒性。这些措施使得模型的扩大规模变得可行和有效，并极大地提高了其稳定性。其次，收集了2000万张高质量、高分辨率的图像，附有详细的文本注释，为模型的训练提供了坚实的基础。采用了一种直观的策略，将质量较差的、负样本纳入训练中。通过这种方式，可以使用负质量提示来进一步提高视觉效果。结果显示，与仅使用高质量正样本相比，这种策略显著提高了图像质量。最后，强大的生成先验是一把双刃剑。不受控制的生成可能降低恢复的保真度，使得IR不再忠实于输入图像。为了缓解这个低保真度问题，提出了一种新颖的恢复引导采样方法。所有这些策略，再加上高效的工程实现，是使SUPIR扩大规模的关键，推动先进IR的边界。这种全面的方法，从模型架构到数据收集，将SUPIR置于图像复原技术的前沿，为未来的进步设定了新的基准。

方法

下图2展示了所提出的SUPIR方法的概览。将从三个方面介绍此方法：介绍本文的网络设计和训练方法；介绍训练数据的收集和文本模态的引入；介绍图像复原的扩散采样方法。

模型扩大规模

生成先验。在大规模生成模型的选择方面并没有太多选择。唯一可考虑的是Imagen、IF和SDXL。为什么选择SDXL？Imagen和IF优先考虑文本到图像的生成，并依赖于分层方法。它们首先生成小分辨率图像，然后分层上采样。SDXL直接生成高分辨率图像，没有分层设计，更符合我们的目标，因为它有效地利用其参数来提高图像质量而不是进行文本解释。此外，SDXL采用了一种基本-精炼策略。在基础模型中，生成多样但质量较低的图像。随后，精炼模型提高这些图像的感知质量。与基础模型相比，精炼模型使用质量更高但多样性较差的训练图像。考虑到我们使用大量高质量图像数据集进行训练的策略，SDXL的两阶段设计对我们的需求来说变得多余。选择基础模型，它有更多的参数，是生成先验的理想骨干。

降级鲁棒编码器。在SDXL中，扩散生成过程是在潜在空间中进行的。图像首先通过预训练的编码器映射到潜在空间。为了有效利用预训练的SDXL，低质量(LQ)图像也应映射到相同的潜在空间。然而，由于原始编码器未在低质量图像上进行训练，使用它进行编码会影响模型对低质量图像内容的判断，然后将伪影误认为图像内容。为此，微调编码器使其对降级具有鲁棒性，通过最小化：，其中是要微调的降级鲁棒编码器，D是固定的解码器，是真值。

大规模适配器设计。考虑到SDXL模型是我们选择的先验，需要一个适配器，可以引导它根据提供的低质输入来恢复图像。适配器需要识别LQ图像中的内容，并在像素级别精细控制生成。LoRA、T2I适配器和ControlNet是现有的扩散模型适应方法，但它们都不符合我们的要求：LoRA限制了生成，但在LQ图像控制方面存在问题；T2I缺乏有效的LQ图像内容识别能力；而ControlNet的直接复制对SDXL模型规模来说是具有挑战性的。为解决这个问题，我们设计了一个具有两个关键特性的新适配器，如下图3(a)所示。

首先，保留ControlNet的高级设计，但采用网络裁剪来直接修剪可训练副本内的一些块，实现了一种可行的工程实现。SDXL的编码器模块内的每个块主要由几个Vision Transformer（ViT）块组成。确定了两个关键因素对ControlNet有效性的贡献：大型网络容量和可训练副本的高效初始化。值得注意的是，即使在可训练副本的块部分修剪的情况下，适配器仍保留这些关键特性。因此，简单地从每个编码器块中修剪一半的ViT块，如前面图3(b)所示。其次，重新设计连接器，将适配器连接到SDXL。虽然SDXL的生成能力提供了出色的视觉效果，但也使像素级的精确控制变得困难。ControlNet采用零卷积进行生成引导，但仅依赖残差对IR所需的控制来说是不足够的。为了放大LQ引导的影响，引入了一个ZeroSFT模块，如图3(c)所示。基于零卷积构建的ZeroSFT包括一个额外的空间特征传递（SFT）操作和组归一化。

数据规模的提升

图像收集。模型的扩展需要相应扩展的训练数据。但是目前尚无大规模高质量的图像数据集可用于图像复原。尽管DIV2K和LSDIR提供了高质量的图像，但数量有限。像ImageNet（IN）、LAION-5B和SA-1B这样的更大数据集包含更多图像，但其图像质量不符合我们的高标准。为此，收集了一个新的大规模高分辨率图像数据集，其中包括2000万张1024×1024的高质量、纹理丰富且内容清晰的图像。图3显示了收集的数据集和现有数据集的规模比较。还从FFHQ-raw数据集中包含了额外的7万张不对齐的高分辨率人脸图像，以提高模型的人脸恢复性能。下图5(a)中显示了我们的数据相对于其他知名数据集的规模大小。

多模态语言引导。扩散模型以根据文本提示生成图像而闻名。我们认为文本提示也可以在图像复原中发挥重要作用，原因如下：

理解图像内容对图像复原至关重要。现有框架通常忽视或隐式处理这种理解。通过引入文本提示，明确地传达了对图像内容的理解，从而促进有针对性地恢复丢失的信息。
在严重降级的情况下，即使最好的图像复原模型也可能难以完全恢复丢失的信息。在这种情况下，文本提示可以作为一种控制机制，根据用户的喜好有针对性地完成缺失的信息。
还可以通过文本描述所需的图像质量，从而进一步提高输出的感知质量。有关一些示例，请参见图1(b)。

为此，我们进行了两个主要修改。首先，修改了整体框架，将LLaVA多模态大语言模型纳入pipeline，如图2所示。LLaVA以降级鲁棒处理的低质图像为输入，并明确了图像中的内容，以文本描述的形式输出。然后使用这些描述作为提示来引导恢复。这个过程在测试期间可以自动完成，无需手动干预。其次，遵循PixART 的方法，还为所有训练图像收集了文本注释，以加强文本控制在模型训练期间的作用。这两个变化赋予了SUPIR理解图像内容并根据文本提示恢复图像的能力。

负质量样本和提示。无分类器引导（CFG）通过使用负提示来指定模型的不希望的内容，提供了另一种控制方式。我们可以使用这个功能来指定模型不要生成低质量的图像。具体来说，在扩散的每个步骤中，将使用正提示pos和负提示neg进行两次预测，并将这两个结果的融合作为最终输出：

在这里，H(·)表示带有适配器的扩散模型，是时间步骤t的噪声方差，是一个超参数。在我们的框架中，pos可以是具有图像质量积极词汇的图像描述，而neg是具有负面词汇的图像描述，例如“油画，卡通，模糊，脏，凌乱，低质量，变形，低分辨率，过度平滑”。对于CFG技术，准确预测正和负对于其很关键。然而，在我们的训练数据中缺少负面质量的样本和提示可能导致SUPIR在理解负面提示方面失败。因此，在采样过程中使用负面质量的提示可能会引入伪影，参见下图4的示例。为解决这个问题，使用SDXL生成了与负面质量提示相对应的10万张图像。以反直觉的方式将这些低质量图像添加到训练数据中，以确保SUPIR模型能够学习负面质量的概念。

强大的生成先验是一把双刃剑，因为过多的生成能力反过来会影响恢复图像的保真度。这突显了图像复原任务和生成任务之间的根本区别。需要一种方法来限制生成，以确保图像复原忠实于低质量（LQ）图像。修改了EDM采样方法，提出了一种以恢复为导向的采样方法来解决这个问题。我们希望在每个扩散步骤中有选择地引导预测结果接近LQ图像。具体的算法如Algorithm 1所示，其中T是总步数，是T步的噪声方差，c是附加的文本提示条件。是五个超参数，但只有与恢复引导有关，其他参数与原始的EDM方法相比保持不变。为了更好地理解，图5(b)中显示了一个简单的图表。在预测输出和LQ潜在之间执行加权插值，作为恢复引导输出。由于图像的低频信息主要是在扩散预测的早期阶段生成的（此时t和相对较大，权重也较大），因此预测结果更接近以增强保真度。在扩散预测的后期阶段，主要生成高频细节。此时不应有太多的约束，以确保可以充分生成细节和纹理。此时，t和相对较小，权重k也较小。因此，预测结果不会受到很大的影响。通过这种方法，可以在扩散采样过程中控制生成，以确保保真度。

实验

模型训练和采样设置

在训练过程中，整体训练数据包括2000万张高质量图像，带有文本描述，7万张人脸图像以及10万个负质量样本和相应的负提示。为了使用更大的批量大小，在训练过程中将它们裁剪成512×512的patch。我们使用合成降级模型进行模型训练，遵循Real-ESRGAN的设置，唯一的区别是我们将生成的低质量（LQ）图像调整大小为512×512进行训练。使用AdamW优化器，学习率为0.00001。训练过程历时10天，使用64个Nvidia A6000 GPU，并使用256的批量大小。在测试过程中，超参数设置为T=100，=7.5，=4。方法能够处理尺寸为1024×1024的图像。将输入图像的短边调整为1024，并在测试时裁剪出1024×1024的子图像，然后在恢复后将其调整回原始大小。除非另有说明，否则不会手动提供提示-处理将完全自动进行。

与现有方法的比较

我们的方法能够处理各种降级，并与具有相同能力的最先进方法进行比较，包括BSRGAN、Real-ESRGAN、StableSR、DiffBIR和PASD。其中一些受限于生成512×512大小的图像。在比较中，我们裁剪测试图像以满足此要求，并将我们的结果降采样以便进行公平比较。

合成数据。为了为测试合成LQ图像，遵循以前的工作[45, 97]，在几种代表性的降级上展示我们的效果，包括单一降级和复杂混合降级。具体细节可以在表1中找到。选择了以下指标进行量化比较：全参考指标PSNR、SSIM、LPIPS和非参考指标ManIQA、ClipIQA、MUSIQ。可以看到，我们的方法在所有非参考指标上都取得了最佳结果，这反映了我们结果的卓越图像质量。同时，也注意到我们的方法在全参考指标上的劣势。我们进行了一个简单的实验，突显了这些全参考指标的局限性，见图7。可以看到我们的结果在视觉效果上更好，但在这些指标上并没有优势。这种现象在许多研究中也被注意到[6, 26, 28]。我们认为随着IR质量的提高，有必要重新考虑现有指标的参考值，并提出更有效的方法来评估先进的IR方法。我们还在图6中展示了一些定性比较结果。即使在严重降级的情况下，我们的方法始终产生高度合理且高质量的图像，忠实地表现了LQ图像的内容。

真实图像修复。还在真实世界的低质量（LQ）图像上测试了我们的方法。从RealSR、DRealSR、Real47以及在线来源中总共收集了60张真实世界的LQ图像，包含了各种内容，包括动物、植物、人脸、建筑和风景。在下图10中展示了定性结果，定量结果显示在下表2a中。

这些结果表明，我们的方法生成的图像在感知质量上表现最佳。还进行了一个用户研究，比较了我们的方法在真实世界LQ图像上的效果，共有20名参与者。对于每组比较图像，我们要求参与者选择这些测试方法中感知质量最高的修复结果。结果显示在图8中，表明我们的方法在感知质量上明显优于最先进的方法。

通过在大量图像-文本对的数据集上进行训练，并利用扩散模型的特性，我们的方法可以根据人类提示有选择性地进行图像修复。前面图1(b)展示了一些示例。在第一种情况下，没有提示的情况下，自行车的修复是具有挑战性的，但在接收到提示后，模型可以准确地重建它。在第二种情况下，可以通过提示调整帽子的材质纹理。在第三种情况下，即使是高级语义提示也可以操控面部属性。除了提示图像内容，还可以通过负面质量提示来提示模型生成更高质量的图像。下图11(a)展示了两个示例。

可以看出，负面提示在提高输出图像的整体质量方面非常有效。还观察到，在我们的方法中，提示并不总是有效的。当提供的提示与LQ图像不符合时，提示会变得无效，参见上面图11(b)。对于一个IR方法而言，保持对提供的LQ图像的忠实是合理的。这反映了与文本到图像生成模型的显著区别，并强调了我们方法的鲁棒性。

消融研究

连接器。 将提出的ZeroSFT连接器与零卷积进行比较。定量结果显示在表2c中。与ZeroSFT相比，零卷积在非参考度量上表现相当，但在全参考性能上要低得多。在图9中，发现非参考指标的下降是由生成低保真内容引起的。因此，对于IR任务，ZeroSFT确保了保真度而不丧失感知效果。

训练数据扩展。在两个较小的IR数据集DIV2K和LSDIR上训练了我们的大型模型。定性结果显示在下图12中，清楚地展示了在大规模高质量数据上进行训练的重要性和必要性。

负质量样本和提示。前面表2b显示了在不同设置下的一些定量结果。在这里，使用描述图像质量的积极词语作为“正面提示”，并使用负面质量词语以及前面描述的CFG方法作为负面提示。可以看出，单独使用积极提示或负面提示可以提高图像的感知质量。同时使用它们可以产生最佳感知结果。如果在训练中没有包含负样本，这两个提示将无法提高感知质量。前面图4和图11(a)展示了使用负面提示带来的图像质量改善。

修复引导抽样方法。所提出的修复引导抽样方法主要由超参数控制。越大，每个步骤对生成的更正越少。越小，将迫使更多的生成内容更接近LQ图像。请参考下图13进行定性比较。

当 = 0.5时，图像因其输出受到LQ图像的限制而模糊，并且无法生成纹理和细节。当 = 6时，在生成过程中几乎没有指导。模型生成了很多在LQ图像中不存在的纹理，特别是在平坦区域。下图8(a)说明了根据变量的定量恢复结果。如图8(a)所示，将从6减小到4不会导致视觉质量显著下降，而保真性能得到改善。

随着修复引导的不断加强，尽管PSNR不断提高，图像逐渐变得模糊，失去了细节，如前面图13所示。因此，选择 = 4作为默认参数，因为它在有效增强保真度的同时并不显著影响图像质量。

结论

本文提出了SUPIR作为一种开创性的图像复原方法，通过模型扩展、数据集丰富和先进的设计特性，拓展了图像复原的视野，提高了感知质量并控制了文本提示。

效果展示

参考文献

[1] Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

文献链接：https://arxiv.org/pdf/2401.13627

项目链接：https://supir.xpixel.group/

更多精彩内容，请关注公众号：AI生成未来

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那