Zing22

【AIGC】Stable Diffusion原理快速上手，模型结构、关键组件、训练预测方式

【AIGC】Stable Diffusion的建模思想、训练预测方式快速

在这篇博客中，将会用机器学习入门级描述，来介绍Stable Diffusion的关键原理。目前，网络上的使用教程非常多，本篇中不会介绍如何部署、使用或者微调SD模型。也会尽量精简语言，无公式推导，旨在理解思想。让有机器学习基础的朋友，可以快速了解SD模型的重要部分。如有理解错误，请不吝指正。

大纲

关键概念
模型结构及关键组件
训练和预测方式

关键概念

名词解释

Stable Diffusion

之所以叫Stable，是因为金主公司叫StabilityAI。

其基础模型是Latent Diffusion Model（LDM），也是本文主要介绍的部分。

模型任务

text-2-img：输入文本描述、输出图像
img-2-img：输入图片及其他文本描述，输出图像

总的来说，不论是输入是文字还是图片，都可以称为是“condition”，用于指引图像生成的“方向”。因此，SD模型的任务，可以统称为是cond-2-img任务。

模型结构与关键组件

模型结构

LDM论文结构图，初看时会有点懵，但稍微理解后还是非常清晰准确的。先初步介绍几个大的模块。建议把这张图截图固定在屏幕上，再继续浏览下面的内容。

整体输入输出

上图中最左侧的 $x$ 和 $\widetilde{x}$ 是模型的输入与输出，形如 $[W, H, C]$ 的三维张量，代表一张图像的宽、高和通道数。

需要注意，这里的输入 $x$ ，并不是模型img-2-img中的输入图像，而是模型训练时的原始图像输入。img-2-img的输入图像，是上图中最右侧的Conditioning模块中的images。

像素空间与隐空间

所谓空间，可以理解为数据的表示形式，通常有着不同的坐标轴。

像素空间（Pixel Space），上图左侧，红框部分。通常是人眼可以识别的图像内容。
隐空间（Latent Space），上图中央，绿框部分。通常是人眼无法识别的内容，但包含的信息量与像素空间相近。

像素空间到隐空间

输入的图像 $x$ ，经过Encoder（图中蓝色的 $\mathcal{E}$ ），转换为另一种shape的张量 $z$ ，即称为隐空间。

从压缩角度理解：图像经过转换后，产生的新张量是人眼无法识别的。但其包含的信息量相差不大，数据尺寸却大幅缩小，因此可以看做是一种图像数据压缩方式。

隐空间到像素空间

经过模型处理后的隐向量输出 $z$ （特指绿框左下角的 $z$ ），经过Decoder（图中蓝色的 $\mathcal{D}$ ），转换回像素空间。

隐空间Diffusion操作

对应图中绿色Latent Space框的上半部分，包括以下三步：

图像经过Encoder压缩后，得到隐向量表示 $z=\mathcal{E}(x)$ 隐向量
从1~1000的均匀分布中，随机采样一个整数 $T$ ，称为扩散步数
对向量 $z$ 加 $T$ 次高斯噪声，满足分布 $\beta_t)$ ，得到 $z_T$ 向量

在这个操作中，有一些有趣的特性：

噪声收敛

加噪声次数足够多时，理论上会得到一组符合高斯分布的噪声。利用这个特性，在预测阶段我们就不需要执行Diffusion操作，只需要采样一组高斯分布的噪声，即代表了 $z_T$ 。

高斯噪声可加性

当我们需要得到任意时刻的 $z_T$ 时，可以直接从 $z_0$ 以及一系列 $\beta_t$ 计算得到，只需要采样一次噪声。这部分的具体公式推导，可以参考由浅入深了解Diffusion Model - 知乎 (zhihu.com)。

隐空间Denoising操作

对应图中绿色框的下半部分，包括以下步骤：

输入 $z_t,t,cond$ 给U-Net结构，预测出一个噪声 $\epsilon_{\theta}(z_t,t,cond)$ ，shape与 $z_t$ 一致
使 $z_{t-1} = z_t - \epsilon_{\theta}(z_t,t,cond)$ ，重复上一步骤，直至获得 $z_0$ 隐向量
使用Decoder得到输出图像， $\widetilde{x} = \mathcal{D}(z_0)$

条件Conditioning

对应图中最右边灰白色框，输入类型包括text、images等。在Conditioning模块中，会执行以下步骤：

这些“附加信息”会通过对应的编码器 $\tau_\theta$ ，转换成向量表示
转换后的向量，会输入给U-Net，作为其中Attention模块的K、V输入，辅助噪声的预测

在这个模块中，有几个有趣的问题：

为什么需要Conditioning

由于“噪声收敛”特性，当噪声加得比较多时， $z_T$ 已经趋近于一个“纯噪声”了，但训练过程需要比对输入图像 $x$ 和输出图像 $\widetilde{x}$ 的相似度。如何从一个“纯噪声”，还原回与输入图像相似的图像，就必须要给模型提供额外的信息指引，这就是Conditioning的作用。

关键组件

VAE（Variational Auto Encoders）

在LDM中，如何将原始图片“压缩”转换至隐空间，经过处理再转换回来，即使用VAE的Encoder和Decoder。这个模块是预训练好的，在LDM训练时固定住参数。

原理

原始张量输入，经过非常简单的网络结构，转换成较小的张量
在Latent张量上，加一点点噪声扰动
用对称的简单网络结构，还原回原始大小
对比输入前后的张量是否相似

特点

网络计算复杂度比较低
Encoder和Decoder可以分开使用
无监督训练，不需要标注输入的label
有了噪声扰动之后，Latent Space的距离具有实际物理含义，可以实现例如“（满杯水+空杯子）/ 2 = 半杯水”的操作

CLIP

文本信息如何转换成张量，靠的是CLIP模块。这个模块是预训练好的，在LDM训练时固定住参数。

训练方式

图像以及它的描述文本，经过各自的Encoder转换为向量表示，希望转换后的向量距离相近。经过训练后，文本描述可以映射到向量空间的一个点，其代表的物理含义与原始图像相近。

假设无预训练

开个脑洞，假如没有这个模块，直接将文本token化后，去Embedding Table中查表作为文本张量，理论上也是可以训练的，只不过收敛速度会慢很多。

因此，这里使用一个预训练text-2-embedding模块，主要目的是加速训练。CLIP的训练数据集，也选择了和LDM的数据集的同一个（LAION-5B的子集），语义更一致。

模型标识解释

我们经常会看到类似“ViT-L/14”的模型名，表示一种CLIP的结构。具体的，ViT表示Vision Transformer，L表示Large（此外还有Base、Huge），14表示训练时把图像划分成14*14个子图序列输入给Transformer。

U-Net

作为LDM的核心组件，U-Net是模型训练过程中，唯一需要参数更新的部分。在这个结构中，输入是带有噪声的隐向量 $z_t$ 、当前的时间戳 $t$ ，文本等Conditioning的张量表示 $E$ ，输出是 $z_t$ 中的噪声预测。

模型任务

U-Net的任务，就是从 $z_t$ 中预测出噪声部分 $\epsilon_t$ ，从而得到降低噪声后的 $z_{t-1}=z_t - \epsilon_t$ ，直到获得 $z_0$ 。下图是一个可视化示意图，实际上，我们去噪的 $z_t$ 是隐向量空间的数据，人眼无法识别。

模型结构

U-Net大致上可以分为三块：降采样层、中间层、上采样层。之所以叫U-Net，是因为它的模型结构类似字母U。

降采样层

时间戳 $t$ 转换为向量形式。用的是“Attention is All you Need”论文的Transformer方法，通过sin和cos函数再经过两个Linear进行变换
初始化输入 $X = conv(concat(z_t, E))$ ，其中 $co n v$ 是卷积， $E$ 是Conditioning
重复以下步骤（a~c）多次，将输入尺寸降至目标尺寸（如上图的 $4\times4$ ）
1. 重复以下两步多次，训练多个ResBlock和SpatialTransformer层，输入值 $X$ 的尺寸不变
  1. 输入上一层的输出 $X$ 和时间戳向量，给ResBlock
  2. ResBlock的输出，与 $E$ 一起输入给SpatialTransformer，在这里考虑到text等信息
2. 重复多次3~4步，
3. 通过卷积或Avg-Pooling进行降采样，缩小 $X$ 的尺寸

中间层

很简单，ResBlock + SpatialTransformer + ResBlock，输入 $X$ 尺寸不变。

上采样层

大部分步骤与降采样层一致，只有以下两点不同

输入 $X$ 需要拼上对应降采样层的输出，称为skip connection，对应U-Net结构图中横向的箭头
把降采样步骤，换成使用卷积或插值（interpolate）方式来上采样，使得 $X$ 的尺寸增大

输出

上采样层的输出，会经过normalization + SiLU + conv，得到U-Net的最终输出，即噪声的预测值，尺寸保持与输入 $z_t$ 一致。

训练方式

模型更新方式

LDM模型需要训练的部分，只有U-Net的参数。训练的方式，可以简单总结为：

输入一张图片 $x$ ，以及它的文本描述等Conditioning，一个随机的整数 $T$ 步
经过Encoder压缩、Diffusion加噪声，得到 $z_T$ 隐向量
结合Conditioning，使用U-Net，进行 $T$ 次去噪，得到预测值 $z_0$ 向量
使用Decoder还原回 $\widetilde{x}$ ，计算 $x$ 与 $\widetilde{x}$ 之间的差距（KL散度），得到模型更新的loss

模型预测方式

随机一个高斯噪声，作为 $z_T$ 向量
输入text等Conditioning，使用U-Net进行指定次数 $T$ 的去噪操作
使用Decoder还原回 $\widetilde{x}$ ，得到图像输出

训练、预测过程，在论文中的伪代码为下图所示。

展望

下一篇文章，将会讨论以下几个更深入的内容：

ControlNet、LoRA等插件的实现
各种Conditioning Context是如何转换为张量的
训练的数据集情况

参考

The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)

【原创】万字长文讲解Stable Diffusion的AI绘画基本技术原理 - 知乎 (zhihu.com)

Diffusion Models：生成扩散模型 (yinglinzheng.netlify.app)

由浅入深了解Diffusion Model - 知乎 (zhihu.com)

How does Stable Diffusion work? - Stable Diffusion Art (stable-diffusion-art.com)

[2006.11239] Denoising Diffusion Probabilistic Models (arxiv.org)

CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models (github.com)

你可能感兴趣的:(machine,learning,AIGC,stable,diffusion,深度学习)

AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
CentOS7非root用户离线安装Docker及常见问题总结、加docker各类操作系统桌面程序下载地址飞火流星02027 云计算 K8S Linux docker离线安装 docker离线安装包下载 docker安装云原生 k8s docker docker桌面程序下载地址
环境说明1、安装用户有sudo权限2、本文讲docker组件安装，不是桌面程序安装3、本文讲离线安装，不是在线安装下载1、下载离线安装包，并上传到$HOME/basic-tool目录下载地址：Indexoflinux/static/stable/x86_64/我下的这个：https://download.docker.com/linux/static/stable/x86_64/docker-20
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
InceptionV1实现猴痘病识别案例小叮当爱咖啡计算机视觉人工智能神经网络深度学习
本文为为365天深度学习训练营内部文章原作者：K同学啊InceptionModule是InceptionV1的核心组成单元，提出了卷积层的并行结构，实现了在同一层就可以提取不同的特征为了改善计算量大的问题，使用了1*1的卷积核实现降维操作，以此来减小网络的参数量与计算量1*1卷积核的作用：降低输入特征图的通道数，减小网络的参数量与计算量最后InceptionModule基本由1*1卷积，3*3卷积
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
WGAN - 瓦萨斯坦生成对抗网络池央生成对抗网络人工智能神经网络
1.背景与问题生成对抗网络（GenerativeAdversarialNetworks,GANs）是由IanGoodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分：生成器（Generator）和判别器（Discriminator），两者通过对抗训练的方式，彼此不断改进，生成器的目标是生成尽可能“真实”的数据，而判别器的目标是区分生成的数据和真实数据。虽然传统GAN在多个领域
【大模型】AutoDL部署AI绘图大模型Stable Diffusion使用详解小码农叔叔 AI大模型实战与应用 AutoDL部署AI绘图大模型 AI绘图大模型 AutoDL部署SD AI绘图大模型SD使用详解 SD使用详解 SD部署
目录一、前言二、AI绘图大模型概述2.1AI绘图大模型介绍2.2AI绘图大模型特点2.3AI绘图大模型优势三、主流的AI绘图大模型介绍3.1Midjourney3.1.1Midjourney介绍3.1.2Midjourney功能特点3.1.3Midjourney使用场景3.2StableDiffusion3.2.1StableDiffusion介绍3.2.2StableDiffusion特点3.2
python广告点击率预测_常见计算广告点击率预估算法总结 weixin_39850143 python广告点击率预测
欢迎大家前往腾讯云技术社区，获取更多腾讯海量技术实践干货哦~作者：导语：本文讨论了CTR预估模型，包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作。前言谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到
WARNING: overwriting environment variables set in the machine overwriting variable [‘PATH‘] cuber膜拜 python virtualenv
问题conda在激活环境时出现如下警告:WARNING:overwritingenvironmentvariablessetinthemachineoverwritingvariable['PATH']解决激活当前环境:condaactivatemyenv取消设置环境变量:condaenvconfigvarsunsetPATH重写激活环境查看是否修改成功:condadeactivatecondaa
InternLM: LMDeploy 量化部署进阶实践 dilvx 机器学习
LMDeploy部署模型模型部署是将训练好的深度学习模型在特定环境中运行。欢迎使用LMDeploy，支持市面上主流的格式和算法。大模型缓存推理本章的前半部分主要讲量化，包括KV-Cache量化、权重量化、激活值量化。量化主要是为了节省存储空间，用int4,int8来重新表示fp16，将模型的显存占用控制在200G可接受的范围下。值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
NCNN推理呆呆珝推理框架 c++人工智能
1.前言ncnn是一个高性能的神经网络前向计算框架，专门针对移动设备和嵌入式设备设计。它由腾讯优图实验室开发，旨在提供高效的神经网络推理能力，特别是在资源受限的环境中，如智能手机和嵌入式系统。ncnn被广泛应用于移动端和嵌入式设备上的各种深度学习应用，包括但不限于：图像分类/目标检测/语义分割/人脸识别/图像生成与处理2.NCNN的CMakeLists.txt编写ncnn的头文件，链接文件，静态链
stable diffusion webui电商基础模型 Kun Li 多模态大语言模型 stable diffusion
电商生成模型的产生主要有两个路子，1.训练微调；2.模型融合。下面这些是借鉴，帮助思考如何构建电商模型。电商必备的10款StablediffusionWebUI模型-知乎一、WFProduct电商场景这是一个专门为电商摄影场景训练的lora模型，可以生成各种极具设计感的场景图，效果逼真，无论是电商、海报、产品渲染还是空间布置上都能用得到，可以解决产品摄影空间布景困难、创意度不…https://zh
stable diffusion 模型和lora融合 Kun Li 图像视频生成大模型 stable diffusion
炜哥的AI学习笔记——SuperMerger插件学习-哔哩哔哩接下来学习的插件名字叫做SuperMerger，它的作用正如其名，可以融合大模型或者LoRA，一般来说会结合之前的插件LoRABlockWeight使用，在调整完成LoRA模型的权重后使用改插件进行重新打包。除了LoRA，Checkpoint也可以通过这个插件进行融合合并。实际上，目前市面上存在大量的Checkpoint模型都是经由合并
基于深度学习的鸟类识别系统详解（UI界面 + YOLOv10 + 数据集） 2025年数学建模美赛深度学习 ui YOLO 人工智能 python 计算机视觉
引言鸟类识别是计算机视觉领域中一个独具挑战性的任务，尤其是在复杂的自然环境中，识别不同种类的鸟类需要非常强大的模型和丰富的数据集。随着深度学习技术的发展，基于YOLO（YouOnlyLookOnce）系列模型的目标检测系统展现了卓越的性能，特别是在速度和精度上的平衡方面。本博客将详细讲解如何利用YOLOv10模型来构建一个基于深度学习的鸟类识别系统。该系统会结合自定义鸟类数据集，设计一个简洁直观的
Django学习笔记 mengmwng Django django 学习笔记
学习视频来源：最新Python的web开发全家桶代码仓库：https://gitee.com/m_engmeng/django-learning1.创建项目Django中项目会有一些默认的文件和文件夹1.1在终端打开终端进入某个目录(项目放在哪里)输入命令——创建项目(最后一个参数是项目名)django-adminstartprojectmysite继续输入——创建app（最后一个参数是app所处
How can I fix my Flask server‘s 405 error that includes OpenAi api? 营赢盈英 AI ai python javascript flask openai api
题意：解决包含OpenAIAPI的Flask服务器中出现的405错误（MethodNotAllowed，即方法不允许）问题背景：I'mtryingtoaddanAPItomywebpageandhaveneverusedanyFlaskserverbefore,IhaveneverusedJavascripttoosothisisacompletelybrandnewlearningexperie
入门Stable-Diffusion-WebUI全过程沙漠蓝色披头 Ai大模型 stable diffusion
这里用的软件叫“stable-diffusion-webui”，严格意义上来说是一个基于StableDiffusion的开源项目。这个项目非常强大，把原本很难安装配置的开源项目做成了一个简单易操作的网页，后来又引入了插件系统，可以玩出很多花样。最重要的是这一切都免费且开源。安装stable-diffusion-webui需要事先做一些准备工作。一台带中高端显卡的电脑电脑可以流畅的访问github安
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他