繁华落尽，寻一世真情

AIGC原理：扩散模型diffusion综述一：面向视觉计算的扩散模型研究进展

论文地址：State of the Art on Diffusion Models for Visual Computing
贴一幅SGM（Score-based Generative Model）的原因是宋飏博士将他2019年提出的SMLD模型和2020年Jonathan Ho提出的DDPM采用SDE进行一统这两大极为相似的生成式模型。殊途同归，基于概率的扩散模型DDPM和基于分数的扩散模型SMLD都是通过利用Unet训练一个通过不同时间步控制的不同噪声图片的噪声预测器、分数预测器，最终通过DDPM的采样公式或者退火的郎之万动力学采样公式进行生成图片。

摘要

由于生成式AI的出现，计算机视觉领域正在迅速发展，它为图像、视频和3D场景的生成、编辑和重建解锁了前所未有的能力。在这些领域中，扩散模型diffusion是首选的生成式AI架构。仅在去年，关于基于扩散的工具和应用的文献就呈指数级增长，每天计算机图形学、计算机视觉和AI社区都有新的作品出现在arXiv上。这一领域的迅速发展使它很难跟上最近的所有发展。这份最新报告(STAR)的目标是介绍扩散模型的基本数学概念、流行的稳定扩散模型的实现细节和设计选择，以及概述这些生成式AI工具的重要方面，包括个性化、条件调节、反演等。对快速增长的基于扩散的生成和编辑进行了全面的概述，按生成媒体的类型进行分类，包括2D图像、视频、3D物体、运动和4D场景。讨论了可用的数据集、指标、公开挑战和社会影响。这为研究人员、艺术家和从业人员等探索这个领域提供了一个直观的起点。

1. 简介

几十年来，计算机图形学和3D计算机视觉界一直在努力开发准确的物理模型，以计算机生成的图像或从照片中推断场景的物理属性。该方法包括渲染，仿真，几何处理和摄影测量，构成了多个行业的基石，包括视觉效果，游戏，图像和视频处理，计算机辅助设计，虚拟和增强现实，数据可视化，机器人，自动驾驶汽车，遥感等。
生成性(AI)的出现标志着计算机视觉的范式转变。生成式AI工具可以生成和编辑逼真和风格化的像、视频或3D对象，只有文本提示或高级用户指导作为输入。这些工具使计算机视觉中的许多费力的过程自动化，这些过程以前是由具有专业领域知识的专家生成的，现在可以更广泛地使用它们。
生成式AI以前所未有的能力被计算机视觉领域解锁为基础模型，如稳定扩散 [RBL∗22], Imagen [SCS∗22], Midjourney[Mid23]，或DALL-E 2 [Ope23a]和DALL-E 3 [Ope23b]。通过对数亿到数十亿的文本-图像对进行训练，这些模型“看到了一切”，并且估计有数十亿个可学习参数。在经过大量高端图形处理单元(gpu)的训练后，这些模型构成了上述生成式AI工具的基础。通常用于图像、视频和3D对象生成。基于卷积神经网络(CNN)的扩散模型是典型，这些模型以多模态方式与基与transformer的架构的文本编码器相结合，如CLIP [RKH∗21]。
虽然许多2D图像生成基础模型的成功和训练来自资金雄厚的行业参与者，使用了大量的资源，但学术界仍然有空间以主要方式为图形和视觉工具的开发做出贡献。例如，不清楚如何将现有的图像基础模型扩展到其他更高维的领域，如视频和3D场景生成。这在很大程度上是由于缺乏某些类
型的训练数据。例如，网络包含数十亿张2D图像，但高质量和多样化的3D物体或场景的实例要少得多。此外，如何缩放2D图像生成架构以处理更高维度，如视频、3D场景或4D多视图一致场景生成所需要的。当前一个主要的限制，由于网络的规模和迭代性质，扩散模型在推理时相当缓慢，即使网络上存在大量(未标记)视频数据，当前的网络架构往往效率太低，无法在合理的时间或合理的计算资源上进行训练。
尽管仍然存在的挑战，但最近的发展在过去一年中刺激了计算机视觉学者们,使得扩散模型的爆炸式增长(见图1中的代表性示例)。这份最新报告(STAR)的目标是介绍扩散模型的基本原理，结构化地概述许多最近关于扩散模型在视觉计算中的应用的工作，并概述公开的挑战。

STAR的结构如下:
1.简介
2.概述了范围，并向感兴趣的读者介绍了这里没有涉及的密切相关主题的调查;
3.概述了二维扩散的数学基础;
4.讨论了从2D图像向视频、3D和更高维扩散模型转移的挑战;
5.概述了基于扩散的视频合成和编辑的方法;
6.总结了最近的3D对象和场景生成方法;
7.包括对多视图一致视频的4D时空扩散的讨论，人体运动和场景生成(例如，使用参数化人体模型);
8.包括对现有训练数据的简要讨论;
9.用于各种生成内容的评论指标;
10.概述了公开挑战;
11.讨论社会影响和伦理问题;
12.STAR结尾。

2. STAR的范围

本文重点介绍了扩散模型在计算机视觉中应用的最新进展。讨论了扩散模型在生成和编辑图像、视频、3D物体或场景以及多视图一致的4D动态场景中的作用。我们首先建立扩散模型的数学基础。这包括应用于2D图像的一般扩散过程的简要介绍。深入研究了这些技术如何实现高维信号的生成建模，对视频、3D和4D数据的扩散模型的主要方法进行了全面的概述。本报告旨在强调利用扩散模型解决图像域以外数据问题的技术。考虑到这一点，我们不会涵盖只适用于2D数据的每一种方法。本文也没有讨论利用扩散模型以外的生成的工作。
其他生成方法，如GANs，与扩散模型密切相关。但是，我们认为它们超出了本报告的范围。我们建议读者参考 [GSW∗21]以获得关于GANs的深入讨论， [BTLLW21,LZW∗23, SPX∗22]以获得其他生成方法的更广泛的回顾，或使用不同的生成模型架构进行多模态图像合成和编辑[ZYW∗23]。最近，基础模型已经变得类似于在互联网规模的数据图像 [RBL∗22]上训练的扩散模型。虽然本报告讨论了利用此类模型的方法，但请参阅 [BHA∗21]以了解自然语言处理、计算机视觉和其他领域中基础模型的介绍和概述。最后但并非最不重要的是，文本到图像(T2I)生成的爆炸性进展导致了大型语言模型(LLM)和扩散模型之间的内在联系;有兴趣的读者可以参考 [ZZL∗23]获取关于LLM的全面调查。
本报告涵盖了发表在《主要计算机视觉、机器学习和计算机图形会议论文集》上的论文，以及在arXiv上发布的预印本(2021- 2023)。本报告的作者根据其与本调查范围的相关性选择了论文，因为我们的目的是对视觉计算背景下扩散模型的快速进展提供一个全面的概述。然而，尽管本报告是特定领域中最先进的方法的列表，但我们不声称完整，并强烈建议读者参考引用的作品以进行深入的讨论和细节。

3. 扩散模型的基础

在本节中，我们简要概述扩散模型的基本原理。介绍了数学基础，以流行的稳定扩散模型为例，讨论了实际实现，然后概述了条件和指导的重要概念，然后讨论了与反演、图像编辑和定制相关的概念。本节涵盖了大量的参考资料，所以我们侧重于给读者一个清晰和高层次的概述，介绍二维图像背景下基于扩散的生成和编辑的最重要的概念。

3.1. 数学基础

假设我们有一个训练样本数据集，其中数据中的每个示例都独立于基础数据分布Pdata(x),我们希望用一个模型拟合到Pdata(x)，以便通过从该分布中采样来合成新的图像。
去噪扩散模型推理一般流程是依次将随机噪声样本去噪为数据分布中的样本。考虑一系列的噪声水平σmax >… > σ0 = 0和相应的噪声图像分布p(x,σ)定义为向数据中添加具有方差σ^2的高斯噪声分布。对于足够大的σmax，噪声几乎完全掩盖了数据，p(x,σmax)实际上与高斯噪声无法区分。因此，我们可以对初始噪声图像xT ∼ N (0,σ2max)进行采样，并依次对其进行去噪，以便在每一步中xi ∼ p(x,σi)。这个采样链的端点x0根据数据分布。
然而，与其通过离散的噪声水平集合来考虑去噪，不如将噪声水平视为一个连续的、时间依赖的函数σ(t)(一个常见的选择是σ(t) = t)。噪声图像样本x可以在噪声水平下连续移动，遵循一个轨迹——或者在时间上向前移动，逐渐添加噪声，或者在时间上向后移动，逐渐去除噪声(见图2 (B))。

Song等人 [SSDK∗20]引入了一种随机微分方程(SDE)框架来对这些轨迹进行建模。常微分方程为我们提供了解决初值问题——给定初始状态和描述函数的微分方程，我们可以在不同的时间求解该函数。举个例子，给定一个物体的初始位置和已知的速度，我们可以求解出物体在未来任何时候的位置。正如图2 (A)所描述的，以非常相同的方式，对图像进行噪声处理可以被认为是从图像域选择一个初始图像x0，并在时间上向前求解微分方程;图像去噪可以认为是选择一个初始噪声图像xT ∼ N (0,σ^2max)并在时间上向后求解微分方程。

随着时间的推移，带有噪声的图像的逐渐损坏是一个扩散过程，可以由Itô建模随机微分方程(SDE;Eq. 1) [Itô50,Itô51]，其中f(·,t) : Rd → Rd是一个向量值函数，称为漂移系数，g(·) :R → R是一个标量值函数，称为扩散系数，w是标准的维纳过程:
dx = f(x,t)dt +g(t)dw. 实现扩散模型需要选择f和g, [SSDK∗20]已经探索了几个具体的选择。f(x,t) = 0和 $\sqrt{2\sigma (t)\frac{d\sigma (t))}{dt}}$ 的选择产生一个SDE，描述通过添加方差的高斯噪声σ^2(t)来对图像进行噪声处理。这个SDE被称为方差爆炸SDE(等式2)，之所以这样叫是因为方差随着t的增加而不断增加。对图像进行噪声处理可以被认为是选择一个初始干净的图像并及时解决Eq. 2

在Eq. 4中，∇x log p(x;σ(t))被称为分数函数，它是一个指向较高数据似然区域的向量场。为了解决Eq. 4，我们需要用神经网络预测得分函数。值得注意的是，对于最小化L2去噪误差Ey∼pdataEn∼N(0,σ2I)∥D(y+n;σ)−y∥22的去噪函数D，可以很容易地从模型输出中获得分数函数∇x log p(x;σ(t)) =(D(x;σ) − x)/σ2。这意味着通过简单地训练一个去噪图像的模型，我们可以提取评分函数的预测,这被称为去噪分数匹配。上述关系是由 [Vin11]导出的。请注意，通常使用参数φ或θ对神经网络进行参数化，作为噪声预测网络ϵφ，而不是作为去噪器Dθ;但是，每个都可以很容易地从另一个中恢复，如ϵφ(x;σ) = x−Dθ(x;σ)。
为了对图像进行采样，我们只需要从一些初始xT ∼N (0,σ^2maxI)开始，我们可以及时向后解决Eq. 4，以到达来自Pdata(x)的样本。然而，就像常微分方程(ODE)的情况一样，只有一小部分有闭合形式的解。幸运的是，作为替代方案，我们可以从数值上近似SDE的解。

欧拉-丸山法(Alg。1)是一个近似SDEs数值解的算法。它是欧拉方法的简单扩展，欧拉方法是最基本的数值ODE求解器，也是许多人都熟悉的技术。与欧拉方法类似，欧拉-丸山方法通过与轨迹相切的小步来近似轨迹。步长越小，近似精度越高。许多常见扩散模型 [SSDK∗20, SME20, ND21]的采样技术可以看作是欧拉-丸山模型的改进。
通过数值SDE求解器的视角来进行扩散模型的图像合成，可以让我们对不同采样方案有直观的认识，并对某些工作如何提高生成图像的计算效率有一些了解。从经验上观察到，用扩散模型生成高质量图像需要多次(通常数百次)迭代;迭代次数越少，样本质量越差。用数值微分方程求解器的语言来说，很少迭代的低质量结果是截断误差的结果——我们使我们的时间步长越小∆t，我们的数值逼近越准确。出于同样的原因，高阶微分方程求解器 [KAAL22, DVK22]可以减少我们数值逼近中的误差，使我们能够以更高的精度采样，或以更少的网络评估实现相同的质量。
对于任何扩散过程，都存在一个相应的确定性过程，可以用ODE描述，该过程可以恢复相同的边缘概率密度P(x,σ)。Song等人 [SSDK∗20]定义了一个描述确定性过程的ODE，并将其命名为概率流ODE(等式5，图2 b):

这种概率流ODE使确定性图像合成成为可能——而不是采样随机噪声并模拟逆时SDE来合成图像，我们可以替代采样随机噪声并解决反向确定性概率流ODE;这样做可以恢复相同的图像分布。与随机采样不同的是，最终图像由初始噪声图像xt和每次迭代时注入的噪声决定(对应于等式4中的dw术语)，确定性地创建的图像仅由初始噪声定义。
但我们也可以做相反的事情:我们可以绘制任意图像并遵循正向概率流ODE将图像编码为噪声，而不是采样噪声并生成图像。事实上，概率流ODE定义了图像和(噪声)潜之间的双射映射。在ODE求解器中有足够的精度，可以通过正向前求解概率流ODE将图像编码为潜空间，得到一个潜空间xT，并及时向后求解概率流ODE以恢复原始图像。此外，人们可以通过操纵相应的潜空间来编辑图像。例如，潜空间中的插值可能会在图像空间中产生引人注目的插值，缩放潜空间可以影响生成图像的温度 [SSDK∗20]。最近的一些图像编辑工作是建立在图像与潜变量之间确定性映射的前提下，并依靠前向概率流ODE将真实图像映射到扩散模型的潜空间 [HMT∗22,MHA∗23,SSME22]。
确定性采样的另一个优点是，与相应的SDE相比，数值求解器的迭代次数较少[SSDK∗20, SME20]也可以足够准确地求解概率流ODE;因此，确定性采样可以用比随机采样更少的网
络评估来产生高质量的图像，从而加速推理。
尽管有这些优点，但在多次(通常是数百到数千次)去噪迭代时，随机采样仍然经常优于确定性采样，并且图像质量至关重要。直观地说，随机性可以被看作是一种纠正力，它修复了在采样早期所犯的错误。因此，当随机采样器与许多去噪迭代相结合时，通常会根据指标产生最佳评价的图像。
Karras等人。 [KAAL22]通过将逆 SDE分解为概率流ODE(确定性地在噪声水平之间移动样本)和朗之万动力学扩散SDE(通过添加和删除少量噪声，在固定的噪声水平上随机地“搅动”样本)的来说明这一点。在这里，朗之万动力学扩散SDE，即随机性分量，将样本推向边缘分布p(x,σ)，纠正可能在纯确定性环境中遗留下来的误差。在实践中，确定性抽样和随机抽样都有各自的优缺点，最有效的随机性水平取决于任务。

3.2. 使用稳定扩散模型的潜在扩散

与通过单次前向传递生成图像的生成模型(如变分自编码器(VAE)或生成对抗网络(GANs))不同，扩散模型需要递归的前向传递。这种特性在训练过程中施加了更高的计算负担，因为模型必须学习跨多个噪声尺度的去噪。此外，多阶段去噪过程的迭代性延长了推理时间，使扩散模型在计算上比它们的生成模型更低效 [KAAL22]。
由于内存需求过大，使用扩散模型生成高分辨率图像在消费级GPU上通常是不可行的。即使在高端GPU上，对批量大小的限制也会延长训练过程，这对于很大一部分研究界来说是不切实际的。
为了解决这些挑战，Rombach等人 [RBL∗22]引入了在压缩隐空间中训练潜在的扩散模型，而不是直接在图像像素上运行。该方法保留了感知上相关的细节，同时显著降低了计算成本。使用编码器-解码器结构获得压缩图像的隐空间。在各种技术中，VQ-GAN [ERO21]由于其令人印象深刻的压缩能力和保持感知质量，已成为最常见的选择。这些潜在扩散模型(LDMs)由两个阶段的过程组成:用于图像重建的初始自编码器和对潜在空间进行扩散去噪模型，在减少计算需求的情况下实现卓越的性能(见图3)。额外添加潜在扩散模型在音频领域的文生音频模型Tango.

Rombach等人提出的架构[RBL∗22]建立在U-Net框架[RFB15, HJA20,JMPTdCM20]上。它在U-Net的不同阶段注入了注意力机制 [VSP∗17]，特别是self-attention和cross-attention。
在自注意力块中，从中间U-Net输出派生的特征被投影到查询Q、键K和值V。该块的输出如下:

在这里，注意力机制通过d维Q和V投影矩阵之间的上下文信息

交叉注意力块的运作方式类似，通过注入条件信号(如文本提示)来实现受控生成(见3.3节)。
Retrieval-augmentation Mechanism (RDM). 为了进一步优化计算效率，Blattmann等人[BRO∗22]引入了一种检索增强机制(RDM)，在生成过程中从外部数据库中获取相关的图像块。这些补丁是根据预训练自编码器的潜编码选择的，并进行简单的增强。由于检索到的图像块的细节不再需要保存在模型参数中，这种机制导致了更精简的去噪模型，从而加速了训练和推理，尽管代价是增加了计算复杂性和对训练良好的自动编码器的依赖性。

3.3. 调节和指导

Conditioning. 生成模型最重要的属性是通过用户定义的条件控制生成的能力。这些条件包括文本 [RAY∗16]、语义地图[PLWZ19]、草图 [VACO23]、条件的多模态组合 [ZYW∗
23]和其他图像到图像的翻译任务 [IZZE18, SCC∗22]。形式上，我们不是从无条件分布中采样数据p(x)，而是从条件分布中采样p(x|c)给出一些条件信号c。
为了适应各种调节模式，一套灵活的调节机制已被开发用于扩散模型。这些方法中最简单的是连接 [SCC∗22]，其中条件直接与中间去噪目标连接，并通过分数估计器作为输入。在模型架构的不同阶段，连接可以与扩散模型输入一起执行。它也适用于几乎所有条件反射模式。最值得注意的是，连接 [SCC∗22]处理各种图像到图像的转换任务，如使用连接调节进行修复，着色，取消裁剪和图像恢复。
另一种有效的方法是通过Cross-attention注入调节信号。Rombach等人 [RBL∗22]修改了U-Net架构 [RFB15]，用于交叉注意力机制的调节控制。为了控制图像合成，条件信号c(例如指导文本提示)首先由特定于领域的编码器τ预处理到中间投影T(\c)。然后，通过Cross-attention [VSP∗17]，通过Eq.7，将投影的条件信号注入到去噪U-Net的中间层中

其中WQ,WK,WV是可学习的投影矩阵，ϕ(zt)表示去噪UNet的中间结果;详情见图3。直观地说，Q是中间U-Net层激活的投影，而K和V是通过给定条件的投影得到。
在推理过程中，可以应用其他技术以不同的模态对网络进行条件设置，包括草图 [VACO23]和空间布局 [ZA23,MWX∗23]。其中，以流行的ControlNet ZA23为例的适配器方法，通过将新的模块层嵌入到现有网络架构中，提供了一种有效而灵活的路径，可以在不改变预训练扩散模型的情况下添加新的条件模态。提出了一个backbone，通过添加辅助网络模块来学习大型预训练扩散模型的不同控制手段。新网络模块通过从预训练网络中复制编码层来初始化，并通过“零卷积”连接到原始模型，这是一种将层参数初始化为零的机制，确保在微调过程中没有学习到有害的噪声。辅助网络在给定的一组条件输出对上进行微调，而原始网络层保持不变，如图4所示。

ControlNet [ZA23]通过复制网络块并通过零卷积连接它们来修改现有的网络架构。辅助模块进行些调节c，允许模型学习额外的控制手段。
Guidance. 虽然调节提供了对采样分布的一定程度的控制，但在微调模型中调节信号的强度方面存在不足。引导作为一种替代方法出现，通常应用于训练后，以更精确地控制扩散轨迹。
Dhariwal等人[DN21]观察到辅助分类器可以引导无条件生成模型。这种称为分类器指导的技术，通过合并预训练分类器模型po(c|x)的对数似然梯度(该模型从给定图像x估计c)来改变原始扩散分数。利用贝叶斯定理，p(x|c)的分数估计器如下:

其中w是控制引导强度的可调参数。尽管具有多功能性，但分类器指导也有局限性，例如需要抗噪辅助分类器，以及由于xt中的无关信息而导致梯度定义不明确的风险。
为了规避分类器指导的局限性，Ho和Salimans引入了无分类器指导[HS22]。这种方法直接改变了训练方案，利用单个神经网络来表示无条件模型和条件模型。这些模型是联合训练的，无条件模型由空牌c= 0参数化。然后，可以使用前面介绍的模型进行如下采样指导量表w:

控制条件信号的强度导致多样性和样本质量之间的权衡[HS22]。随着指导尺度w的增加，结果样本的多样性降低，以换取更高的样本质量。然而，人们经常观察到，使用无分类器指导训练的模型往往会在很低或很高的指导尺度下生成低质量的样本。例如，当仅使用无条件分数估计器(w = −1)进行采样时，稳定扩散 [RBL∗22]生成灰度图像，并在较高的指导值(w > 10)下输出具有饱和伪影的图像。

3.4. 编辑、倒置和定制

预训练扩散模型本质上提供了一个富有表现力的生成先验，可以利用它让普通用户在没有任何像素级制作技能经验的情况下执行各种图像处理任务。许多最近的工作研究了使用文本到图像扩散模型进行编辑，以及生成个性化图像，也称为定制。本节调查了这两类的主要工作，以及一个关键的技术组件，反转，它经常被用作编辑的基石。
**Editing.**由于其固有的渐进式和基于注意力的架构，扩散模型为细粒度图像编辑提供了一个独特的平台，通过便于调整各种网络阶段和组件来操纵空间布局和视觉美学。该领域的研究轨迹旨在增强编辑可控性和灵活性，同时确保直观的用户界面。一个常见的用例涉及在保留图像空间配置的同时改变图像的视觉属性。在这种情况下，SDEdit [MHS∗21]提出了一种直接的方法，该方法将校准的噪声水平引入到图像中，产生部分噪声图像，然后用新的条件信号作为指导进行反向扩散过程。 [KKY22]进一步扩展了这种基本方法，通过直接修改文本提示来操纵全局特征，而通过在扩散过程中合并辅助掩
码来完成本地化编辑 [ALF22, NDR∗21]。类似地，一个额外的引导信号(即，任何梯度函数，就像分类器在分类器指导中一样)可以用来修改采样轨迹以执行操纵性编辑，如改变对象外观或重新安排场景中的内容 [EJP∗23]。另一种编辑策略涉及约束来自不同生成过程的特定特征图。例如，Prompt-toPrompt [HMT∗22]采用固定的交叉注意力层来选择性地修改与特定文本线索相对应的图像区域。即插即用 [TGBD23]探索了空间特征和自注意力映射的注入，以保持图像的整体结构完整性。[CWQ∗23]主张利用自注意力机制来实现一致的、非刚性的图像编辑，而不需要手动调整。此外，文本提示本身是编辑质量的关键决定因素。image [KZL∗23]通过对文本嵌入的优化与模型微调来细化文本提示，从而实现多样化的、空间非刚性的图像编辑。Delta去噪分数 [HACO23]巧妙地将文本到图像(T2I)扩散模型的生成先验作为优化框架中的损失项，以指导基于文本指令的图像转换。InstructPix2Pix
[BHE23]通过在生成的与编辑指令对齐的图像对数据集上微调T2I模型，将用户的文本输入从描述性的目标图像注释简化为更直观的编辑指令，该数据集是使用提示到提示和大型语言模型的组合创建的。 [PKSZ∗23]通过引入一种从样本图像对中发现编辑方向的自动机制，完全避免了对文本提示的需要。
根据GAN文献中的类似工作 [PTL∗23]。
许多基于扩散的方法旨在执行稀疏用户注释对应关系驱动的编辑，其中对象的外观和身份被保留，只改变其布局或方向 [MWS∗23,SXP∗23]。
Inversion. 许多通过生成模型编辑现有(即真实)图像的方法通常涉及“反转”任务，该任务识别特定的输入潜代码或潜序列，当将其输入模型时，将重现给定的图像。反转允许在潜空间中进行操作，这使得可以使用模型已经学习的生成先验。在扩散的背景下，DDIM反演 [SME20]是一种基本的技术，它向给定的图像添加小的噪声增量以近似相应的输入噪声。当使用带有该噪声的DDIM运行反向扩散时，原始图像将被重现。在文本到图像扩散的情况下，当提供特定的文本-图像配对时，DDIM反演方法往往会积累小误差，特别是在无分类器指导下 [HS22]。空文本反转 [MHA∗23]通过优化每个时间步的输入空文本嵌入来补偿时间步长漂移。敕书 [WGN23]利用两个耦合的噪声矢量实现了精确的DDIM反演。 [WDlT22]展示了一种DDPM-反演方法，在DDPM采样框架内恢复噪声向量以进行准确的图像重建。
除了图像到噪声的反演，在文本到图像模型的背景下，“文本反演” [GAA∗22]提供了一个将图像转换为token嵌入的框架。最初的工作提出使用优化将出现在几个图像中的概念转换为单个token。后续工作还演示了使用编码器将单个图像反转为token [GAA∗23b]，或将概念转换为每个层token的序列，以改进概念的重建 [VCCOA23]。
Customization. 最近的工作广泛探索了T2I扩散模型的定制，即自适应预训练扩散模型，为特定的人或物体生成更好的输出。开创性工作DreamBooth [RLJ∗22]通过优化网络权重来实现这一点，以通过唯一的令牌来表示一组图像中显示的主题。一系列后续工作专注于微调网络的特定部分。CustomDiffusion[KZZ∗23]仅修改交叉注意力层，SVDiff [HLZ∗23]细化权重的奇异值，LoRA [HSW∗
21]目标优化权重残差的低秩近似[HSW∗21], StyleDrop [SRL∗23]采用适配器调优 [HGJ∗19]对选
定的一组适配器权重进行微调以进行样式定制。除了文本到图像生成之外，类似的技术也被应用于其他问题陈述，例如图像修复或修复 [TRC∗23]。
另一个研究方向是加速定制过程。 [GAA∗23a]和[WZJ∗23]采用编码器来确定初始文本嵌入，随后对其进行微调，以提高主题保真度。 [RLJ∗23]直接预测针对特定主题定制的低秩网络残差。SuTI [CHL∗23]最初使用DreamBooth制作的图像及其重新上下文化的对应对象构建了一个全面的配对数据集，并使用它来训练一个可以以前馈方式执行个性化图像生成的网络。InstantBooth [SXLJ23]和Taming Encoder [JZC∗23]为扩散模型引入了条件分支，允许使用最小的图像集甚至只有一个图像集进行条件调节，促进各种风格的个性化输出的生成。Break-A-Scene [AAF∗23]自定义模型以支持单个图像中描述的几个主题，而FastComposer [XYF∗23]利用图像编码器将特定主题的嵌入项目用于多主题生成。

4. 超越图像的挑战

扩散模型在图像处理领域获得了极大的关注和成功，这是由于各种因素的共同作用，使其特别适合于这个领域。其有效性的主要原因之一在于为图像处理，特别是去噪领域量身定制的网络架构的成熟。2D图像域的扩散模型利用了这些进展，将定义良好的构建块，如卷积层、注意力机制和UNet结构作为其骨干。transformer的进展[VSP∗17]和大型语言模型 [DCLT18]通过实现自然语言提示的近似可控性，进一步增强了这些模型，由图像与文本描述的配对促进 [RKH∗21]。
此外，无处不在的手机和社会规范使2D图像的捕获、存储和共享变得民主化，导致免费提供的图像几乎无限。总而言之，到2010年底，2D扩散模型成功的所有必要因素都已到位:一个定义良好的数学框架，灵活的函数逼近器，能够学习富有表现力的图像变换，以及丰富的训练数据供应。
尽管2D图像合成得益于技术进步和可用数据的幸运巧合，但对于更高维的信号来说情况并非如此。合成更高维内容(如视频和3D内容)的任务大大比2D图像合成困难，受本节进一步描述的许多其他问题的限制。
Models. 处理高维数据的网络结构仍然是一个开放的问题。与可以使用离散像素值有效表示和处理的图像不同，高维数据通常需要更复杂的表示。处理长程信息流的需求加剧了这种复杂性，这对理解视频中的时间动态或3D结构中的空间关系至关重要。到目前为止，对于一种可以作为这些领域中扩散模型的可靠和可扩展主干的网络架构还没有达成共识。与处理高维数据相关的计算和内存成本进一步使问题复杂化，使找到一个高效且具有表现力的解决方案具有挑战性。
Data. 数据的可用性和质量是另一个重大挑战。对于三维结构，创建单个三维模型的过程涉及多个步骤，包括扫描、处理和重建，每个步骤都需要专门的专业知识和资源。这使得数据采集过程既耗时又昂贵。在视频的情况下，尽管原始数据可能很丰富，但注释这些数据，特别是捕捉运动和时间依赖
性，远非微不足道。高质量标注数据的缺乏阻碍了高维域鲁棒和可泛化扩散模型的训练。

5. 视频生成与编辑

尽管图像扩散模型取得了巨大进展，T2I生成也取得了显著突破，但由于两个主要挑战，将这一进展扩展到视频领域仍处于初期阶段.
首先，由于动态世界的复杂性和多样性，从视频中学习需要的数据比图像多几个数量级。虽然在线视频非常丰富，但策划高质量的视频数据集仍然是一项艰巨的任务，通常涉及大量的工程工作，并需要专用的自动策划工具。
另一个重大挑战来自原始视频数据的高维性(例如，具有30fps的两分钟视频比单帧包含3600 ×多像素)。这使得将二维架构扩展到时域非常具有挑战性，并且计算成本很高。接下来讨论在视频生成的扩散模型的背景下如何解决这些挑战。

5.1. 无条件和有文字条件的视频扩散

已有大量研究工作。Ho等人 [HSG∗22]引入了第一个视频扩散模型(VDM)，将2D U-Net骨干扩展到时域。这是通过分解空间和时间模块实现的，使更有效的计算以及对单个图像、视频和文本的联合训练成为可能。这种方法已经被Imagen Video [HCS∗22]扩展，这是一个具有110亿参数的级联文本到视频(T2V)模型，包括一个低时空分辨率基础模型，然后是多个级联超分辨率模型，提高了空间分辨率和有效帧率。Imagen Video使用大量高质量视频语料库和相应的字幕以及大量文本-图像数据集从头开始训练。
为了将学习到的图像先验用于视频生成，Make-A-Video[SPH∗22]在预训练的T2I模型上构建了他们的框架，通过在现有的T2I中添加时空卷积和注意力层将其扩展到视频模型，其次是空间和时间超分辨率模型。这种方法的一个关键特性是每个组件都可以单独训练:T2I模型在图像-文本对上进行预训练，而整个T2V在大规模的未标记视频语料库上进行微调，从而绕过了对视频-字幕配对训练数据的需求。膨胀和微调用于视频生成的T2I模型的有效性也在基于自回归transformer的模型中得到了证明(例如， [HDZ∗22])。

这两个组件——使用可分解/可分离的时空模块(图5)和建立在预训练的文本到图像模型之上——也被用于将图像潜在扩散模型(LDM)，例如，稳定扩散 [RBL∗22]扩展到视频，即在低维空间(例如 [BRL∗23,LCW∗23,ZWY∗22,WYC∗23])中学习视频分布。同样，与普通视频潜模型(例如， [HYZ∗22,YSKS23])相比，利用预训练的图像模型可以有效地进行训练(使用较少的数据)，同时利用T2I ldm学习到的丰富的2D先验。这种方法的另一个优点是能够将学习到的运动模块迁移到由同样的基础，T2I。例如，插入T2I模型的个性化调整版本，从而以特定风格合成视频或描述特定对象 [BRL∗
23,GYR∗23]。
如图5所示，分解的时空模块在时间上通过一维卷积扩展了卷积块，也将自注意力块扩展到模型动力学。将自注意力“膨胀”到多个帧(参见3节)的一种常见方法，即扩展或跨帧注意力，将自注意力扩展到视频的所有帧或子集

其中Qi,Ki,Vi是帧i = {1…I}的查询、键和值。这种膨胀机制在本节讨论的许多方法中很普遍。虽然它促进了时间一致性，但它不能保证时间一致性。
其他视频生成方法包括MCVD [VJMP22]，它通过在先前生成的帧上调节新帧，在3D潜空间中自回归生成视频;VideoFusion [LCZ∗23]，将噪声视频潜分解为所有帧共享的(静态)基噪声和每帧噪声(动态)残差的总和; 生成图像动力学 [LTSH23]，它不是直接预测视频内容，而是学习为图像中的像素生成运动轨迹，这样图像可以动画为具有振荡运动的任意长度的视频。

未完待续…

你可能感兴趣的:(AIGC)

LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
重构未来开发范式：如何引领 AIGS 时代的技术革命小爱想睡懒觉重构
一、AIGS革命：AI重塑企业软件系统的三大趋势行业灵魂拷问：当所有企业系统都需要实时调用大模型能力时，您的开发框架能否支撑百万级并发？在数据安全成为刚需的时代，如何实现AI功能的合规化、私有化部署？JBoltAI的未来宣言：技术演进路径：从AIGC到AIGS的跃迁图谱技术代际核心特征JBoltAI实践成果行业价值AIGC1.0单点内容生成支持文本/代码/图像生成，提供智能客服对话模板效率提升30
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大模型的“Tomcat”：一文读懂AI推理引擎（Inference Engine) 人工智能
本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网1推理引擎是啥？从熟悉的“服务器”说起，想象你用Java写好了一个业务应用，如订单处理服务，打成一个JAR或WAR包。这包能直接
推动视觉AI边界，智象未来HiDream荣登全球技术先锋榜单雷焰财经人工智能 AIGC 计算机视觉
近日，世界经济论坛“全球技术先锋”荣誉榜单正式揭晓，智象未来HiDream凭借尖端技术成就入选。智象未来HiDream成立于2023年3月，是一家专注于多模态AIGC技术应用的公司，由加拿大工程院外籍院士IEEE/IAPR/CAAIFellow梅涛博士创立。回顾过往，众多知名企业，如Airbnb、Google、Twitter和Spotify等，都曾获得世界经济论坛的“全球技术先锋”称号。然而，今年
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
AIGC领域中Copilot的创作效率对比研究 AI大模型应用工坊 AI大模型开发实战 AIGC copilot ai
AIGC领域中Copilot的创作效率对比研究关键词：AIGC、Copilot、创作效率、对比研究、代码创作摘要：本文章聚焦于AIGC领域中Copilot的创作效率对比研究。随着人工智能技术在创作领域的广泛应用，Copilot作为一款具有代表性的创作辅助工具备受关注。文章首先介绍了研究的背景、目的、预期读者等信息，接着阐述了Copilot及相关创作效率的核心概念与联系。通过详细讲解核心算法原理、数
【AIGC-ChatGPT提示词】心灵笔记：打造温暖治愈的职场年终回顾系统 AI小欧同学 AIGC chatgpt 笔记
感谢信任，专栏出现0-1的历史突破❤️❤️好了，开始今天的内容今天继续回馈大家，最近都是可以在自媒体上使用的提示词。提示词在最下方引言在每年岁末时分，我们都期待着对过去一年进行总结与回顾。然而，传统的工作总结往往过于注重数据和绩效，容易忽视个人的情感体验和内心成长。"心灵笔记"系统正是为了解决这一痛点而设计，它致力于将冰冷的职场经历转化为温暖治愈的内心独白，帮助人们以更有温度的方式记录自己的职业生
AIGC-controlnet代码详细解读以及训练一个自己的controlnet
huggingface社区diffusers官方代码：stable_diffusion/controlnetcontrolnet.ipynb原始代码的解读可以看看这个博主的：万字长文解读StableDiffusion的核心插件—ControlNet小部分讲解引用controlnet代码讲解解读的是diffusersv0.16.0对应的controlnet代码里面也有对应的注释哈！controlne
2025大模型入门必读：Prompt指令技巧精讲，看这一篇就够了！大模型研究院 prompt 人工智能学习方法机器学习大数据大模型产品经理
一、提示词的基本概念在人工智能生成内容（AIGC）迅速发展的今天，如何有效地与AI大模型沟通，让它们产出我们真正需要的内容，已经成为一项重要技能。而这项技能的核心，就是本文要深入探讨的"提示词工程"（PromptEngineering）。1.1什么是提示词提示词（Prompt）是用户输入给AI大模型的指令，是人类与AI之间沟通的桥梁。一个好的提示词能够明确地传达我们的意图，引导AI生成符合我们期望
如何获取和使用 DeepSeek-Prover-V2？ AI生存日记 Open AI大模型开发语言人工智能开源 API
‌一、获取途径‌‌开源平台下载‌‌HuggingFace‌：模型已开源至HuggingFace平台，支持直接下载完整模型权重及配置文件。‌PPIO派欧云‌：提供一站式AIGC云服务，平台已上线DeepSeek-Prover-V2-671B模型，支持在线部署与调用。‌算力适配版本选择‌提供双版本适配：‌7B参数模型‌：适合本地部署或低算力场景，支持Lean4子目标验证。‌671B稀疏MoE模型‌：需
【面试系列】云计算工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试云计算职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什么是云计算？2.
别再裸写 parseFrom() 了！这才是 MQTT + Protobuf 消费的正确姿势！人工智能
本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网0前言很多刚接触这个技术栈的同学，可能会觉得有点绕。MQTT负责传输，Protobuf负责定义数据结构，听起来是天作之合，但具体
生成式人工智能（AIGC）赋能的农业职业培训解决方案武汉唯众智创人工智能 AIGC 生成式人工智能农业
前言随着全球第四次工业革命的蓬勃兴起，人工智能技术已成为推动社会发展的重要驱动力。在此背景下，生成式人工智能（GenerativeAI）作为AI领域的一项革命性技术，凭借其出色的内容生成和深度学习能力，正逐步重塑教育行业的未来格局。尤其在农业职业培训领域，生成式AI的应用前景尤为广阔，其不仅能显著提升培训效率，还能为农业从业者带来更加个性化和灵活的学习体验。农业职业培训作为提升学生技能、加速农业现
[特殊字符] AIGC工具深度实战：GPT与通义灵码如何彻底重构企业开发流程 Lucas55555555 AIGC gpt 重构
第一模块：理念颠覆——为什么AIGC不是“玩具”而是“效能倍增器”？▍企业开发的核心痛点图谱（2025版）研发效能瓶颈：需求膨胀与交付时限矛盾持续尖锐，传统敏捷方法论已触天花板知识断层加剧：新技术栈（如Rust、WebAssembly）兴起，传统培训模式跟不上迭代速度质量保障困境：人工测试覆盖率和AI大模型类产品的黑盒特性形成根本冲突人力成本高企：一线城市资深Java/Python工程师年薪突破7
30天转行AI产品经理：从基础到实战的全方位指南 SD入门学习人工智能产品经理 stable diffusion AI作画 chatgpt midjourney
我先后在百度和字节有9年产品经理工作经验，最近很多小伙伴想要看AIGC产品经理的工作机会，我帮大家梳理了一份30天转行到AIGC领域公司产品岗的计划。第1-7天学习AIGC领域的基础知识Day1-2：除了了解AI和AI产品经理的工作内容，还可以通过阅读相关行业报告、参加线上研讨会或加入专业社群来拓宽知识面。Day3-4：在学习算法原理时，可以结合一些在线实验平台进行动手实践，加深理解。Day5：对
测试工程师实战：用 LangChain+deepseek构建多轮对话测试辅助聊天机器人 Python测试之道测试工程师学langchain langchain 机器人
随着AIGC技术的飞速发展，越来越多的测试工程师希望借助大模型提升日常测试效率，例如辅助设计用例、答疑解惑、自动化生成测试建议等。LangChain作为主流LLM应用开发框架，为多轮对话智能助手的研发提供了极大便利。本文不仅带你上手LangChain构建多轮对话测试机器人，还通过两个实际问答案例，深入展示其在测试用例设计场景下的实用价值和专业性。一、构建多轮对话测试机器人1.环境与依赖推荐使用Ju
AIGC技术实战：使用Python实现文本生成模型 AI大模型应用工坊 AI大模型开发实战 AIGC python 开发语言 ai
AIGC技术实战：使用Python实现文本生成模型关键词：AIGC、文本生成模型、Transformer、GPT、Python、预训练模型、自然语言处理摘要：本文以AIGC（人工智能生成内容）中的文本生成技术为核心，系统讲解从基础概念到实战落地的全流程。通过剖析Transformer与GPT模型的核心原理，结合Python代码实现，展示如何从数据预处理、模型构建到文本生成的完整过程。文章涵盖数学模
深入解读Qwen3技术报告（三）：深入剖析Qwen3模型架构小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理架构人工智能深度学习语言模型自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展3.深入剖析Qwen3模型架构大型语言模型的架构设计直接决定了其
【保姆级教程】大模型小白专用的，最全最细致学习路线图，一篇文章助你从入门到精通！速藏！ AI大模型-大飞人工智能产品经理 transformer AIGC Agent 大模型大模型教程
2025年马上过年，AIGC最近的面试机会依然非常多，陆陆续续收到很多学生的报喜，薪资10K–>19K；13K–>20K；20K–>32K；总包从45W–>60W，57W–>110W等等，所以转行要趁早呀❤️在这里分享一套2个月上岸AIGC产品经理的思路，普通人可以直接抄！一：多看行业资讯网站或者公众号转行AIGC必看的网站/公主号：新智元：AI深度文章；机器之心：行业资讯、ai干货、新产品；量子
【AIGC半月报】AIGC大模型启元：2024.06（上） LeeZhao@ AIGC AIGC 人工智能 AI Agent
AIGC大模型启元：2024.06（上）(1)ChatTTS（语音合成项目）(2)Mamba-2（大模型新架构Mamba升级）(3)GLM-49B（智谱开源LLM）(4)Seed-TTS（字节语音合成）(5)QWen2（阿里大模型）(6)VideoReTalking（数字人对口型）(7)StableDiffusion3Medium（文生图更新）(8)DreamMachine（LumaAI文生视频）
三十年河东，三十年河西
你需要拼命学习你需要补不足，补短板最怕自己能力不足，还在自我安慰重新出发了，后端->大模型微调->AIGC顶峰相见了，以后没得摸了
AIGC虚拟人物VS传统3D建模：技术对比与优劣势分析 AI原生应用开发 AI 原生应用开发 AIGC 3d ai
AIGC虚拟人物VS传统3D建模：技术对比与优劣势分析关键词：AIGC虚拟人物、传统3D建模、生成对抗网络、三维重建、数字孪生、自动化生成、手工建模摘要：本文从技术原理、实现流程、应用场景等维度，深入对比AIGC（人工智能生成内容）虚拟人物与传统3D建模技术。通过剖析核心算法、数学模型和工程实践案例，揭示两者在生产效率、成本控制、艺术表现力等方面的差异。结合具体代码实现和行业应用场景，分析各自的优
从语言行为到调用协议：智能体通信的五种底层格式观熵 Agentic AI架构实战全流程人工智能智能体
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
人工智能系列深度报告：AIGC行业综述篇-开启AI新篇章杜桥宾Tony
人工智能系列深度报告：AIGC行业综述篇-开启AI新篇章【下载地址】人工智能系列深度报告AIGC行业综述篇-开启AI新篇章人工智能系列深度报告：AIGC行业综述篇-开启AI新篇章项目地址:https://gitcode.com/Open-source-documentation-tutorial/eb30b资源文件介绍本仓库提供了一份名为“人工智能系列深度报告：AIGC行业综述篇-开启AI新篇章.
【狂飙AGI】第6课：前沿技术-文生图（系列2） LeeZhao@ 狂飙AGI系列 agi 自然语言处理人工智能 AIGC embedding
目录（一）美学理论（8）错时空美学（9）无厘头美学（10）迷融汇美学（11）大撕裂美学（12）乱混沌美学（13）寂幻流美学（14）越极限美学（二）AIGC作品展（三）AI自动化工作流（一）美学理论（8）错时空美学（9）无厘头美学（10）迷融汇美学（11）大撕裂美学（12）乱混沌美学（13）寂幻流美学（14）越极限美学（二）AIGC作品展（三）AI自动化工作流参考资料：【狂飙AGI】第5课：前沿技术
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。