机器学习社区

用通俗易懂的方式讲解：十分钟读懂 Stable Diffusion 运行原理

AIGC 热潮正猛烈地席卷开来，可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度，特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性，也在逐渐改变一部分行业的生产模式。惊艳其出色表现，也不禁好奇其背后技术。

之前写过一篇实战类的文章一文教会你学会 AI 绘画利器 Stable Diffusion

本文整理了一些学习过程中记录的技术内容，主要包括 Stable Diffusion 技术运行机制，希望帮助大家知其所以然。

喜欢记得收藏、关注、点赞，想进行技术交流，也可以加入我们

文章目录

- - 用通俗易懂的方式讲解系列
  - 技术交流
  - 一背景介绍
  - 二原理简介
  - 三模块分析
  - - 1 Unet 网络
    - 2 采样器迭代
    - 3 CLIP 模型
  - 四本文小结
  - 参考链接

用通俗易懂的方式讲解系列

用通俗易懂的方式讲解：不用再找了，这是大模型最全的面试题库
用通俗易懂的方式讲解：这是我见过的最适合大模型小白的 PyTorch 中文课程
用通俗易懂的方式讲解：一文讲透最热的大模型开发框架 LangChain
用通俗易懂的方式讲解：基于 LangChain + ChatGLM搭建知识本地库
用通俗易懂的方式讲解：基于大模型的知识问答系统全面总结
用通俗易懂的方式讲解：ChatGLM3 基础模型多轮对话微调）
用通俗易懂的方式讲解：最火的大模型训练框架 DeepSpeed 详解来了
用通俗易懂的方式讲解：这应该是最全的大模型训练与微调关键技术梳理
用通俗易懂的方式讲解：Stable Diffusion 微调及推理优化实践指南
用通俗易懂的方式讲解：大模型训练过程概述
用通俗易懂的方式讲解：专补大模型短板的RAG
用通俗易懂的方式讲解：大模型LLM Agent在 Text2SQL 应用上的实践
用通俗易懂的方式讲解：大模型 LLM RAG在 Text2SQL 上的应用实践

技术交流

技术要学会分享、交流，不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群，大模型学习资料、数据代码、技术交流提升，均可加知识星球交流群获取，群友已超过2000人，添加时切记的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2060，备注：技术交流

一背景介绍

AI 绘画作为 AIGC（人工智能创作内容）的一个应用方向，它绝对是 2022 年以来 AI 领域最热门的话题之一。AI 绘画凭借着其独特创意和便捷创作工具迅速走红，广受关注。举两个简单例子，左边是利用 controlnet 新魔法把一张四个闺蜜在沙滩边上的普通合影照改成唯美动漫风，右边是 midjourney v5 最新版本解锁的逆天神技，只需输入文字“旧厂街风格，带着浓浓 90 年代氛围感”即可由 AI 一键生成超逼真图片！

图1 两个stable diffusion例子

Stable Diffusion，是一个 2022 年发布的文本到图像潜在扩散模型，由 CompVis、Stability AI 和 LAION 的研究人员创建的。要提到的是，Stable Diffusion 技术提出者 StabilityAI 公司在 2022 年 10 月完成了 1.01 亿美元的融资，估值目前已经超过 10 亿美元。本文会在第二部分着重介绍 Stable Diffusion 的技术思路，第三部分深入分析各个重要模块的运行机制，最后总结下 AI 绘画。

二原理简介

Stable Diffusion 技术，作为 Diffusion 改进版本，通过引入隐向量空间来解决 Diffusion 速度瓶颈，除了可专门用于文生图任务，还可以用于图生图、特定角色刻画，甚至是超分或者上色任务。作为一篇基础原理介绍，这里着重解析最常用的“文生图（text to image）”为主线，介绍 stable diffusion 计算思路以及分析各个重要的组成模块。

下图是一个基本的文生图流程，把中间的 Stable Diffusion 结构看成一个黑盒，那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”，利用这项技术，输出了最右边符合输入要求的生成图片，图中产生了蓝天白云和一望无际的广阔海滩。

图2 Stable Diffusion组成

Stable Diffusion 的核心思想是，由于每张图片满足一定规律分布，利用文本中包含的这些分布信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统，里面包含了多个模型子模块，接下来把黑盒进行一步步拆解。stable diffusion 最直接的问题是，如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了文本编码器 text encoder（蓝色模块），可以把文字转换成计算机能理解的某种数学表示，它的输入是文字串，输出是一系列具有输入文字信息的语义向量。有了这个语义向量，就可以作为后续图片生成器 image generator（粉黄组合框）的一个控制输入，这也是 stable diffusion 技术的核心模块。图片生成器，可以分成两个子模块（粉色模块+黄色模块）来介绍。下面介绍下 stable diffusion 运行时用的主要模块：

(1) 文本编码器（蓝色模块），功能是把文字转换成计算机能理解的某种数学表示，在第三部分会介绍文本编码器是怎么训练和如何理解文字，暂时只需要了解文本编码器用的是 CLIP 模型，它的输入是文字串，输出是一系列包含文字信息的语义向量。

(2) 图片信息生成器（粉色模块），是 stable diffusion 和 diffusion 模型的区别所在，也是性能提升的关键，有两点区别：

① 图片信息生成器的输入输出均为低维图片向量（不是原始图片），对应上图里的粉色 4_4 方格。同时文本编码器的语义向量作为图片信息生成器的控制条件，把图片信息生成器输出的低维图片向量进一步输入到后续的图片解码器（黄色）生成图片。（注：原始图片的分辨率为 512_512，有RGB 三通道，可以理解有 RGB 三个元素组成，分别对应红绿蓝；低维图片向量会降低到 64*64 维度）

② Diffusion 模型一般都是直接生成图片，不会有中间生成低维向量的过程，需要更大计算量，在计算速度和资源利用上都比不过 stable diffusion；

那低维空间向量是如何生成的？是在图片信息生成器里由一个 Unet 网络和一个采样器算法共同完成，在 Unet 网络中一步步执行生成过程，采样器算法控制图片生成速度，下面会在第三部分详细介绍这两个模块。Stable Diffusion 采样推理时，生成迭代大约要重复 30~50 次，低维空间变量在迭代过程中从纯噪声不断变成包含丰富语义信息的向量，图片信息生成器里的循环标志也代表着多次迭代过程。

(3) 图片解码器（黄色模块），输入为图片信息生成器的低维空间向量（粉色 4*4 方格），通过升维放大可得到一张完整图片。由于输入到图片信息生成器时做了降维，因此需要增加升维模块。这个模块只在最后阶段进行一次推理，也是获得一张生成图片的最终步骤。

那扩散过程发生了什么？

扩散过程发生在图片信息生成器中，把初始纯噪声隐变量输入到 Unet 网络后结合语义控制向量，重复 30~50 次来不断去除纯噪声隐变量中的噪声，并持续向隐向量中注入语义信息，就可以得到一个具有丰富语义信息的隐空间向量（右下图深粉方格）。采样器负责统筹整个去噪过程，按照设计模式在去噪不同阶段中动态调整 Unet 去噪强度。
更直观看一下，如图 3 所示，通过把初始纯噪声向量和最终去噪后的隐向量都输到后面的图片解码器，观察输出图片区别。从下图可以看出，纯噪声向量由于本身没有任何有效信息，解码出来的图片也是纯噪声；而迭代 50 次去噪后的隐向量已经耦合了语义信息，解码出来也是一张包含语义信息的有效图片。

图3 可视化输出图片变化

到这里，我们大致介绍了 Stable Diffusion 是什么以及各个模块思路，并且简单介绍了 stable diffusion 的扩散过程。第三部分我们继续分析各个重要组成模块的运行机制，更深入理解 Stable Diffusion 工作原理。

三模块分析

第二部分以零基础角度介绍了 Stable Diffusion 技术思路，这部分会更细致地介绍下 Stable Diffusion 文生图技术，训练阶段和采样阶段的总体框架如图 4 所示，可以划分成 3 个大模块：PART1-CLIP 模型，PART2-Unet 训练，PART3-采样器迭代。

图4 Stable Diffusion文生图框架

训练阶段， 包含了图里 PART1 CLIP 模型和 PART2 Unet 训练，分成三步：

1、用 AutoEncoderKL 自编码器把输入图片从像素空间映射到隐向量空间，把 RGB 图片转换到隐式向量表达。其中，在训练 Unet 时自编码器参数已经训练好和固定的，自编码器把输入图片张量进行降维得到隐向量。

2、用 FrozenCLIPEmbedder 文本编码器来编码输入提示词 Prompt，生成向量表示 context，这里需要规定文本最大编码长度和向量嵌入大小。

3、对输入图像的隐式向量施加不同强度噪声，再把加噪后隐向量输入到 UNetModel 来输出预估噪声，和真实噪声信息标签作比较来计算 KL 散度 loss，并通过反向传播算法更新 UNetModel 模型参数；引入文本向量 context 后，UNetModel 在训练时把其作为 condition，利用注意力机制来更好地引导图像往文本向量方向生成；

采样阶段，包含了图里 PART1 CLIP 模型和 PART3 采样器迭代，分成三步：

1、用 FrozenCLIPEmbedder 文本编码器把输入提示词 Prompt 进行编码，生成维度为[B, K, E]的向量表示 context，与训练阶段的第 2 步一致；

2、利用随机种子随机产出固定维度的噪声隐空间向量，利用训练好的 UNetModel 模型，结合不同采样器（如 DDPM/DDIM/PLMS）迭代 T 次不断去除噪声，得到具有文本信息的隐向量表征；

3、用 AutoEncoderKL 自编码器把上面得到的图像隐向量进行解码，得到被映射到像素空间的生成图像。

上面对 stable diffusion 总体架构进行了介绍，那接下来进一步分析介绍下每个重要组成模块，分别是 Unet 网络、采样器和 CLIP 模型三个主要模块。

1 Unet 网络

Stable Diffusion 里采用的 UNetModel 模型，采用 Encoder-Decoder 结构来预估噪声，网络结构如图 5：

图5 Unet网络结构示意图

模型输入包括 3 个部分，(1) 图像表示，用隐空间向量输入的维度为[B, Z, H/8, W/8]；(2) timesteps 值，维度为[B, ]；(3) 文本向量表示 context，维度为[B, K, E]。其中[B, Z, H, W]分别表示[batch_size 图片数，C 隐空间通道数，height 长度，weight 宽度]，K 和 E 分别表示文本最大编码长度 max length 和向量嵌入大小。

模型使用 DownSample 和 UpSample 进行样本的下上采样，在采样模块之间还有黑色虚线框的 ResBlock 和 SpatialTransformer，分别接收 timesteps 信息和提示词信息（这里只画出一次作为参考）。ResBlock 模块的输入有 ① 来自上一个模块的输入和 ②timesteps 对应的嵌入向量 timestep_emb（维度为[B, 4*M]，M 为可配置参数）；SpatialTransformer 模块的输入有 ① 来自上一个模块的输入和 ② 提示词 Prompt 文本的嵌入表示 context，以 context 为注意力机制里的 condition，学习提示词 Prompt 和图像的匹配程度。最后，UNetModel 不改变输入和输出大小，隐空间向量的输入输出维度均为[B, Z, H/8, W/8]。

ResBlock 网络

ResBlock 网络，有两个输入分别是 ① 来自上一个模块的输入和 ②timesteps 对应的嵌入向量 timestep_emb（维度为[B, 4*M]，M 为可配置参数），网络结构图如下所示。

timestep_embedding 的生成方式，用的是“Attention is All you Need”论文的 Transformer 方法，通过 sin 和 cos 函数再经过两个 Linear 进行变换。

图6 ResBlock模块和Timestep生成流程

SpatialTransformer 结构

SpatialTransformer 这里，包含模块比较多，有两个输入分别是 ① 来自上一个模块的输入和 ② 提示词 Prompt 文本的嵌入表示 context 作为 condition，两者使用 cross attention 进行建模。其中，SpatialTransformer 里面的注意力模块 CrossAttention 结构，把图像向量作为 Query，文本表示 context 作为 Key&Value，利用 Cross Attention 模块来学习图像和文本对应内容的相关性。

注意力模块的作用是，当输入提示词来生成图片时，比如输入 “一匹马在吃草”，由于模型已经能捕捉图文相关性以及文本中的重点信息，当看到 “马”时，注意力机制会重点突出图像“马”的生成；当看到“草”时，注意力机制会重点突出图像 “草” 的生成，进而实现和文本匹配的图片生成。

图7 SpatialTransformer结构示意图

Unet 如何训练？

Stable Diffusion 里面 Unet 的学习目标是什么？简单来说就是去噪。那在为去噪任务设计训练集时，就可以通过向普通照片添加噪声来得到训练样本。具体来说，对于下面这张照片，用 random 函数生成从强到弱的多个强度噪声，比如图 8 里 0~3 有 4 个强度的噪声。训练时把噪声强度和加噪后图片输入到 Unet，计算预测噪声图和真正噪声图之间的误差损失，通过反向传播更新 unet 参数。

图8 去噪训练样本说明

训练好 Unet 后，如图 9 所示，从加噪图片中推断出噪声后，就可以用加噪图减掉噪声来恢复原图；重复这个过程，第一步预测噪声图后再减去噪声图，用更新后的加噪图进行第二步去噪，最终就能得到一张很清晰的生成图片。由于使用了高斯分布的 KL 散度损失，Unet 生成图片实际上是接近训练集分布的，和训练集有着相同像素规律。也就是说，使用真实场景的写实训练集去训练模型，它的结果就会具有写实风格，尽量符合真实世界规律。

图9 Unet网络采样阶段迭代

2 采样器迭代

这部分介绍下采样阶段中扩散模型如何多次迭代去除噪声，进而得到生成图片的潜在空间表示。提到采样器，要从最基础的采样器 DDPM（Denoising Diffusion Probabilistic Models）进行介绍[4]。DDPM 推导有点复杂，这里就用朴素一点的大白话结合几个关键公式来理清推导思路。

1 扩散模型的思路是，训练时先在图片上不断加噪来破坏图片，推理时对加噪后的图片去噪来恢复出原始图片。训练过程的 T 次迭代中，可推导出一个重要特性：任意时刻的 Xt 可以由 X0 和 β 表示，任意时刻的 X0 也可以由 Xt 和噪声 z 求得。

其中，第一行里 a 和 β 可以描述噪声强度；第二行，X0 为初始的干净图片，增加噪声 z 后生成加噪图片 Xt，后个公式由前个公式变换而来，表示加噪图片减去一定强度噪声，得到图片 X0。

2 问题变成，如何求逆向阶段的分布，即给定了一张加噪后图片，如何才能求得前一时刻没有被破坏得那么严重的略清晰图片。经过论文里的一顿推导，又得出两个重要结论：

① 逆向过程也服从高斯分布；② 在知道原始清晰图片时，能通过贝叶斯公式把逆向过程转换成前向过程，进而算出逆向过程分布。在公式上体现如下：

其中，第一行指的是给定 X0 情况下，逆向过程也服从高斯分布，并且利用贝叶斯公式把逆向过程转换成前向过程，前向过程是不断加噪的过程，可以被计算；第二行指的是，Xt 和 X0 由于可以相互转换，从公式上看，均值也可以从 Xt 减去不同噪声得到。

3 算出逆向过程分布后，就可以训练一个模型尽量拟合这个分布，而且模型预估结果也应该服从高斯分布：

其中，求均值公式里只包含 Xt 和噪声，由于 Xt 在训练时已知，那只需要得到模型输出的预估噪声，该值可由模型用 Xt 和 t 预估得到。

4 把逆向过程分布（也就是 Label 值）和模型的预估分布做比较，由于 ①KL 散度可以用来描述两个分布之间的差异和 ② 多元高斯分布的 KL 散度有闭式解，经过一番推导发现损失函数变成计算两个高斯分布的 KL 散度。

其中，q 分布是逆向过程分布，p 是模型预估分布，训练损失是求两个高斯分布的 KL 散度，即两个分布之间的差距。

5 DDPM 训练过程和采样过程的伪代码如下图所示。由于 DDPM 的高质量生成依赖于较大的 T（一般为 1000 以上），导致 Diffusion 前向过程特别缓慢，因此后续进一步有了 DDIM、PLMS 和 Euler A 等一些优化版采样器。

其中，训练阶段实际上是求真实噪声和模型预估噪声的 MSE 误差，再对 Loss 求导反向传播来训练模型；采样阶段，求得均值和方差后，采用重参数技巧来生成样本。

总结下，扩散模型采样阶段是对加噪后图片去噪来恢复出原始图片，基于 ① 任意时刻的图片均可以由原始图片和噪声表示；② 逆向过程的图片参数符合高斯分布，优化目标转化为计算逆向分布和预估分布的 KL 散度差异，并在采样阶段使用重参数技巧来生成图片。

3 CLIP 模型

在前面有提到，提示词 Prompt 文本利用文本模型转换成嵌入表示 context，作为 Unet 网络的 condition 条件。那问题来了，语义信息和图片信息属于两种模态，怎么用 attention 耦合到一起呢？这里介绍下用于提取语义信息的 CLIP 模型。

语义信息的好坏直接影响到了最终生成图片的多样性和可控性，那像 CLIP 这样的语言模型是如何训练出来的？是如何结合文本串和计算机视觉的呢？首先，要有一个具有文本串和计算机视觉配对的数据集。CLIP 模型所使用的训练集达到了 4 亿张，通过从网络上爬取图片及相应的标签或者注释。

图9 CLIP模型训练用到的图片和标签示例

CLIP 模型结构包含一个图片 encoder 和一个文字 encoder，类似于推荐场景常用到的经典双塔模型。

训练时，从训练集随机取出一些样本（图片和标签配对的话就是正样本，不匹配的话就是负样本），CLIP 模型的训练目标是预测图文是否匹配；
取出文字和图片后，用图片 encoder 和文字 encoder 分别转换成两个 embedding 向量，称作图片 embedding 和文字 embedding；
用余弦相似度来比较两个 embedding 向量相似性，并根据标签和预测结果的匹配程度计算损失函数，用来反向更新两个 encoder 参数。
在 CLIP 模型完成训练后，输入配对的图片和文字，这两个 encoder 就可以输出相似的 embedding 向量，输入不匹配的图片和文字，两个 encoder 输出向量的余弦相似度就会接近于 0。

推理时，输入文字可以通过一个 text encoder 转换成 text embedding，也可以把图片用 image encoder 转换成 image embedding，两者就可以相互作用。在生成图片的采样阶段，把文字输入利用 text encoder 转换成嵌入表示 text embedding，作为 Unet 网络的 condition 条件。

图10 CLIP模型结构示意图

四本文小结

AI 绘画各种应用不断涌现，目前有关 Stable Diffusion 的文章主要偏向应用介绍，对于 Stable Diffusion 技术逻辑的介绍还是比较少。这篇文章主要介绍了 Stable Diffusion 技术结构和各个重要组成模块的基本原理，希望能够让大家了解 Stable Diffusion 是如何运行的，才能更好地控制 AI 绘画生成。AI 绘画虽然还面临一些技术挑战，但随着技术不断迭代和发展，相信 AI 能够在更多领域发挥出惊喜生产力。

（本文参考了 stable diffusion 官方仓库以及一些解读 Blog，结合个人在其他 ML 领域经验的一些解读。如有不合理的地方，欢迎在评论区指出。）

参考链接

1 GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

2 The Illustrated Stable Diffusion:The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

3 由浅入深了解 Diffusion Model

4 Denoising Diffusion Probabilistic Models

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
android判断深色模式的方法东东旭huster android java 开发语言
android10以后的版本才完全支持深色模式，测试下面两种方法判断系统是否深色模式都是有效的。publicstaticbooleanisDarkMode1(){if(Build.VERSION.SDK_INT
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Windows平台下Android Studio搭建Flutter开发环境的正确姿势（202506）
Flutter作为Google推出的跨平台移动应用开发框架，近年来获得了广泛关注。它允许开发者使用单一代码库构建iOS和Android应用，大大提高了开发效率。本文将带你一步步在Windows系统上搭建完整的Flutter开发环境。第一步：下载并安装FlutterSDK首先，我们需要获取FlutterSDK：访问Flutter官方中文文档的安装页面：https://docs.flutter.cn/
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1