胖胖大海

扩散模型 DDPM 核心代码梳理

参考内容：

大白话AI | 图像生成模型DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型
AIGC 基础，从VAE到DDPM 原理、代码详解
全网最简单的扩散模型DDPM教程
The Annotated Diffusion Model
LaTeX公式编辑器
pytorch-beginner

强烈推荐：

pytorch-beginner代码仓库，里面包含了AE、VAE的pytorch代码实现
AIGC 基础，从VAE到DDPM 原理、代码详解知乎文章，其中包含了详细完整的公式推导，并且用tensorflow框架实现了AE、VAE、Conditional VAE、DDPM、Conditional DDPM的简化版代码实现

备注： 具体公式的推导请查看参考链接，本文只记录核心步骤的几个核心公式。

什么是扩散模型？

与Normalizing Flows、GAN或VAEs等生成模型一样，它们都将噪声从一些简单分布转换为数据样本。这也是使用神经网络学习从纯噪声开始逐渐去噪进行内容生成的过程。扩散模型主要包括以下两个过程：

前向加噪： 前向加噪过程是一个固定的、预定义的过程，通过逐步的往一张真实图像上添加高斯噪声，最终得到一个完全的高斯噪声图像
反向去噪： 反向去噪过程通过训练学习一个神经网络模型，模型的输入是一张带有噪声的图像，模型的输出是预测得到的噪声，逐步减去预测的噪声，最终得到一张真实的图像

加噪、去噪、训练、推理阶段相关的数学公式

前向加噪

在前向加噪过程中，逐步的往真实图片上添加高斯噪声，每一步添加高斯噪声的公式表示如下：
$\begin{equation}x_{t} = \sqrt{1-\beta_{t}}x_{t-1} + \sqrt{\beta_{t}}\epsilon_{t}\end{equation}$
其中， $\beta_{1} < \beta_{2} < \dots < \beta_{T} < 1$ ， $\epsilon \sim N(0,1)$ ， $\beta_{t}$ 的取值可以想神经网络的学习率衰减那样，使用线性的、余弦变化的。由于正态分布的均值和方差具有可加性，从[1, T]时刻逐步添加噪声的过程可以通过一步得到：
$\begin{equation}x_{t} = \sqrt{\bar{\alpha_{t}}}x_{0} + \sqrt{1 - \bar{\alpha_{t}}}\epsilon\end{equation}$
其中， $\alpha_{t} = 1 - \beta_{t}$ ， $\bar{\alpha_{t}} = \alpha_{t}\alpha_{t-1}\dots\alpha_{1}$ 。

模型训练

在模型训练阶段，对于一个真实的图像数据，随机生成[1, T]之前的整数，表示往真实图片数据中添加噪声的次数，然后将添加噪声后的图片输入到神经网络模型中，预测添加的噪声，基于神经网络预测的噪声和真实添加的噪声，计算损失：
$\begin{equation}Loss = ||\epsilon -\epsilon_{\theta}(\sqrt{\bar{\alpha_{t}}}x_{0} + \sqrt{1 - \bar{\alpha_{t}}}*\epsilon, t)||^{2}\end{equation}$
其中， $\epsilon$ 表示在前向加噪过程中，使用公式（2）往真实图片中添加的随机噪声， $\epsilon_{\theta}$ 表示一个神经网络模型，输入一个带有噪声的图像，以及对应添加噪声的时间步数，输出预测的噪声， $x_{0}$ 表示原始的真实图像， $t$ 表示时间步数。

反向去噪

在反向去噪过程中，使用神经网络预测输出一个和输入图像一样大小的噪声数据，从输入图像中减去噪声数据，实现去噪。
$\begin{equation}x_{t-1} = \frac{1}{\sqrt{\alpha_{t}}}(x_{t} - \frac{\beta_{t}}{\sqrt{\bar{\beta_{t}}}}*\epsilon _{\theta }(x_{t},t)) + \delta_{t}*z\end{equation}$
其中， $\epsilon _{\theta}$ 是一个神经网络模型， $\epsilon _{\theta }(x_{t},t)$ 是神经网络模型预测输出的噪声， $\bar{\beta_{t}} = 1 - \bar{\alpha_{t}}$ 。

模型推理

在模型推理阶段，也就是模型训练完之后进行图像的生成阶段，设置好迭代生成的时间步数 $t$ ，通过一个随机噪声 $x_{t}$ ，不断执行下面的步骤，直到公式（5）中的 $t = 1$ ，实现图像的生成：
$\begin{equation}x_{t-1} = \frac{1}{\sqrt{\alpha_{t}}}(x_{t} - \frac{\beta_{t}}{\sqrt{\bar{\beta_{t}}}}*\epsilon _{\theta }(x_{t},t)) + \delta_{t}*z\end{equation}$
$\begin{equation}x_{t} = x_{t-1}\end{equation}$
$\begin{equation}t = t-1\end{equation}$

当公式（5）中的 $t = 1$ 时，也就是最后一轮去噪，不加 $\delta_{t}*z$ ，最后得到的 $x_{0}$ 就是生成的图像内容。

UNet网络结构

UNet神经网络在特定的时间步 $t$ 接收噪声图像并返回预测的噪声。预测的噪声是一个与输入图像具有相同的大小/分辨率的张量。从技术上讲，网络输入和输出相同形状的张量。在DDPM中采用UNet架构的神经网络，UNet网络中主要包括以下部分：

下采样：使用卷积 + 池化的方式实现图像分辨率的下采样
上采样：使用转置卷积或者线性插值的方式，提升特征图的分辨率
Short-cut连接：将下采样和上采样得到的分辨率相同额特征图在通道维度上进行融合，有利于捕捉细粒度的图像特征
注意力机制：使用注意力机制计算特征图上每个位置之间的注意力关系
time-embedding：由于DDPM是逐步生成图像的，所以需要一个特征能够标记当前执行到哪个时间步了

DDPM核心代码解释

基础代码：构造 $\alpha,\beta,\bar{\alpha},\bar{\beta}$ 等参数

使用不同的策略构建 $\beta$ 序列

def linear_beta_schedule(timesteps):
    """
        在0.0001到0.02之间，均匀采样timesteps个数值，构造成beta序列
    """
    beta_start = 0.0001
    beta_end = 0.02
    return torch.linspace(beta_start, beta_end, timesteps)

def cosine_beta_schedule(timesteps, s=0.008):
    """
    cosine schedule as proposed in https://arxiv.org/abs/2102.09672
    """
    steps = timesteps + 1
    x = torch.linspace(0, timesteps, steps)
    alphas_cumprod = torch.cos(((x / timesteps) + s) / (1 + s) * torch.pi * 0.5) ** 2
    alphas_cumprod = alphas_cumprod / alphas_cumprod[0]
    betas = 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1])
    return torch.clip(betas, 0.0001, 0.9999)

def quadratic_beta_schedule(timesteps):
    beta_start = 0.0001
    beta_end = 0.02
    return torch.linspace(beta_start**0.5, beta_end**0.5, timesteps) ** 2

def sigmoid_beta_schedule(timesteps):
    beta_start = 0.0001
    beta_end = 0.02
    betas = torch.linspace(-6, 6, timesteps)
    return torch.sigmoid(betas) * (beta_end - beta_start) + beta_start

根据生成的 $\beta$ 序列，生成 $\alpha,\bar{\alpha},\bar{\beta}$ 等， $\alpha,\beta,\bar{\alpha},\bar{\beta}$ 等参数的序列长度对于最大的迭代步长timesteps

timesteps = 300

# define beta schedule
betas = linear_beta_schedule(timesteps=timesteps)

# define alphas 
alphas = 1. - betas
alphas_cumprod = torch.cumprod(alphas, axis=0)
alphas_cumprod_prev = F.pad(alphas_cumprod[:-1], (1, 0), value=1.0)
sqrt_recip_alphas = torch.sqrt(1.0 / alphas)

# calculations for diffusion q(x_t | x_{t-1}) and others
sqrt_alphas_cumprod = torch.sqrt(alphas_cumprod)
sqrt_one_minus_alphas_cumprod = torch.sqrt(1. - alphas_cumprod)

# calculations for posterior q(x_{t-1} | x_t, x_0)
posterior_variance = betas * (1. - alphas_cumprod_prev) / (1. - alphas_cumprod)

备注：
- betas对应 $\beta$
- alphas对应 $\alpha = 1 - \beta$
- alphas_cumprod对应 $\bar{\alpha}$
- sqrt_recip_alphas对应 $\frac{1}{\sqrt{\alpha}}$
- sqrt_alphas_cumprod对应 $\frac{1}{\sqrt{\bar{\alpha}}}$
- sqrt_one_minus_alphas_cumprod对应 $\sqrt{1 - \bar{\alpha}}$

在训练阶段对于batch中的每个样本，加噪的迭代次数是从[0, T]中进行随机采样的，所以训练阶段每个样本的加噪次数 $\in [0, T]$ 是不同的，使用gather函数获取到每个样本的t对应的 $\alpha,\beta,\bar{\alpha},\bar{\beta}$ 等参数，对应的代码如下：

def extract(a, t, x_shape):
    batch_size = t.shape[0]
    out = a.gather(-1, t.cpu())
    return out.reshape(batch_size, *((1,) * (len(x_shape) - 1))).to(t.device)

前向加噪：根据上一步计算得到的 $\alpha,\beta,\bar{\alpha},\bar{\beta}$ 等参数，将一张真实图像 $x_{0}$ 使用公式（2）进行多次加噪，得到加噪后的图像，对应代码如下：

def q_sample(x_start, t, noise=None):
    if noise is None:
        noise = torch.randn_like(x_start)

    # x_start就是前面讲的最原始图像 x_0，根据 t 获取到对应的alpha,beta等参数
    sqrt_alphas_cumprod_t = extract(sqrt_alphas_cumprod, t, x_start.shape)
    sqrt_one_minus_alphas_cumprod_t = extract(
        sqrt_one_minus_alphas_cumprod, t, x_start.shape
    )
    # 使用公式（2）对图像进行前向加噪
    return sqrt_alphas_cumprod_t * x_start + sqrt_one_minus_alphas_cumprod_t * noise

UNet模型：将加噪后的样本以及每个样本对应的加噪次数 t 输入到UNet网络模型中，UNet模型预测输出加入的噪声，将UNet的输出结果与加入到图像中的噪声使用公式（3）计算损失，训练UNet网络模型。

def p_losses(denoise_model, x_start, t, noise=None, loss_type="l1"):
    if noise is None:
        noise = torch.randn_like(x_start)
    # x_start就是前面讲的最原始图像 x_0，这一步就是往 x_0 中加入t次的噪声
    x_noisy = q_sample(x_start=x_start, t=t, noise=noise)
    # 将加入噪声的图像以及对应的时间步数 t 输入到UNet模型
    predicted_noise = denoise_model(x_noisy, t)

    # 将UNet预测的结果与加入的噪声计算损失
    if loss_type == 'l1':
        loss = F.l1_loss(noise, predicted_noise)
    elif loss_type == 'l2':
        loss = F.mse_loss(noise, predicted_noise)
    elif loss_type == "huber":
        loss = F.smooth_l1_loss(noise, predicted_noise)
    else:
        raise NotImplementedError()

    return loss

模型推理：当训练完UNet之后，在模型推理也就是图像生成阶段执行反向去噪过程。首先生成一张纯噪声的图像，初始时间步设置为timesteps，将噪声图像和时间步数值 t 输入到UNet模型中，预测得到输出结果，然后使用公式（4）计算得到经过去噪之后 t-1时间步的输出，如此迭代，直到 t=0为止。

def p_sample(model, x, t, t_index):
    betas_t = extract(betas, t, x.shape)
    sqrt_one_minus_alphas_cumprod_t = extract(
        sqrt_one_minus_alphas_cumprod, t, x.shape
    )
    sqrt_recip_alphas_t = extract(sqrt_recip_alphas, t, x.shape)
    
    # Equation 11 in the paper
    # Use our model (noise predictor) to predict the mean
    model_mean = sqrt_recip_alphas_t * (
        x - betas_t * model(x, t) / sqrt_one_minus_alphas_cumprod_t
    )

    if t_index == 0:
        return model_mean
    else:
        posterior_variance_t = extract(posterior_variance, t, x.shape)
        noise = torch.randn_like(x)
        # Algorithm 2 line 4:
        return model_mean + torch.sqrt(posterior_variance_t) * noise 

# Algorithm 2 (including returning all images)

def p_sample_loop(model, shape):
    device = next(model.parameters()).device

    b = shape[0]
    # start from pure noise (for each example in the batch)
    img = torch.randn(shape, device=device)
    imgs = []

    for i in tqdm(reversed(range(0, timesteps)), desc='sampling loop time step', total=timesteps):
        img = p_sample(model, img, torch.full((b,), i, device=device, dtype=torch.long), i)
        imgs.append(img.cpu().numpy())
    return imgs


def sample(model, image_size, batch_size=16, channels=3):
    return p_sample_loop(model, shape=(batch_size, channels, image_size, image_size))

注意事项：

torch.randn生成符合标准正态分布的数据，torch.rand生成符合0-1之间均匀分布的数据
UNet有利于细粒度的图像生成

DDPM简化版完整代码

下面的代码主要来自于AIGC 基础，从VAE到DDPM 原理、代码详解中的第五节，在原文中作者详细推理了DDPM的各个公式，并用tensorflow实现了简化版的DDPM代码，基于此版本的代码使用pytorch框架进行了重写：

import torch
from torch import nn
from torch.nn import functional as F
# import tensorflow as tf
import numpy as np
from einops import reduce
from torchvision.io import read_image
from torchvision import transforms
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader
from torch import optim
import os
from torchvision.utils import save_image
from torch.nn import DataParallel
from einops import rearrange
from transformers import get_cosine_schedule_with_warmup
from functools import partial

os.environ["CUDA_VISIBLE_DEVICES"] = "3"


class ConvResidualLayer(nn.Module):
    """
    UNet网络中的残差模块
    """
    def __init__(self, filter_num, is_encoder=False, is_decoder=False, is_shortcut=False):
        super(ConvResidualLayer, self).__init__()
        in_channels = filter_num
        out_channels = filter_num

        # UNet的Encoder下采样阶段
        if is_encoder:
            if filter_num == 128:
                self.conv1 = nn.Conv2d(filter_num, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num
            else:
                self.conv1 = nn.Conv2d(filter_num // 2, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num

        # UNet的Decoder的上采样阶段
        if is_decoder:
            if filter_num == 128:
                self.conv1 = nn.Conv2d(filter_num * 2, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num
            else:
                self.conv1 = nn.Conv2d(filter_num * 2, filter_num // 2, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num // 2)
                in_channels = filter_num // 2
                out_channels = filter_num // 2

        if is_shortcut:
            self.conv1 = nn.Conv2d(filter_num, filter_num, kernel_size=1)
            self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
            in_channels = filter_num
            out_channels = filter_num

        self.act1 = nn.SiLU()
        self.conv2 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.gn2 = nn.GroupNorm(num_groups=8, num_channels=out_channels)
        self.act2 = nn.SiLU()

    def forward(self, inputs):
        residual = self.conv1(inputs)
        x = self.gn1(residual)
        x = self.act1(x)
        x = self.conv2(x)
        x = self.gn2(x)
        x = self.act2(x)
        # print("x.shape: {}, residual.shape: {}".format(x.shape, residual.shape))
        out = x + residual
        return out / 1.44


class SimpleDDPMModel(nn.Module):
    def __init__(self, max_time_step=100, device=None):
        super(SimpleDDPMModel, self).__init__()
        self.max_time_step = max_time_step
        self.device = device

        betas = np.linspace(1e-4, 0.02, self.max_time_step, dtype=np.float64)
        alphas = 1.0 - betas
        alphas_bar = np.cumprod(alphas, axis=0)
        betas_bar = 1.0 - alphas_bar
        alphas_bar_prev = F.pad(torch.from_numpy(alphas_bar[:-1]), (1, 0), value=1.0).detach().cpu().numpy()
        self.betas, self.alphas, self.alphas_bar, self.betas_bar, self.alphas_bar_prev = tuple(
            map(
                lambda x: torch.tensor(x, dtype=torch.float32, device=self.device, requires_grad=False),
                [betas, alphas, alphas_bar, betas_bar, alphas_bar_prev]
            )
        )
        # filter_nums = [64, 128, 256]
        filter_nums = [128, 256, 512]
        self.encoders = [
            nn.Sequential(
                ConvResidualLayer(filter_num, is_encoder=True),
                nn.MaxPool2d(2)
            ).to(self.device)
            for filter_num in filter_nums]
        self.mid_conv = ConvResidualLayer(filter_nums[-1], is_shortcut=True).to(self.device)
        self.decoders = [
            nn.Sequential(
                nn.Upsample(scale_factor=2),
                ConvResidualLayer(filter_num, is_decoder=True),
                # ConvResidualLayer(filter_num)
            ).to(self.device)
            for filter_num in reversed(filter_nums)]
        self.first_conv = nn.Conv2d(1, filter_nums[0], kernel_size=3, padding=1).to(self.device)
        self.final_conv = nn.Sequential(
            ConvResidualLayer(filter_nums[0] * 2, is_shortcut=True),
            nn.Conv2d(filter_nums[0] * 2, 1, kernel_size=3, padding=1),
        ).to(self.device)
        self.img_size = 32
        self.time_embeddings = [nn.Embedding(self.max_time_step, max(filter_nums[0], filter_num // 2)).to(self.device) for filter_num in filter_nums]

    def q_noisy_sample(self, x_0, t, noisy):
        """
        图像加噪
        :param x_0:
        :param t:
        :param noisy:
        :return:
        """
        alpha_bar, beta_bar = self.extract([self.alphas_bar, self.betas_bar], t)
        sqrt_alpha_bar, sqrt_beta_bar = torch.sqrt(alpha_bar), torch.sqrt(beta_bar)
        return sqrt_alpha_bar * x_0 + sqrt_beta_bar * noisy

    def extract(self, sources, t):
        """
        提取不同时间步对应的alpha、beta等参数
        :param sources:
        :param t:
        :return:
        """
        bs = t.shape[0]
        targets = [torch.gather(source, index=t[:, 0], dim=0) for i, source in enumerate(sources)]
        return tuple(map(lambda x: torch.reshape(x, [bs, 1, 1, 1]), targets))

    def p_real_sample(self, x_t, t, pred_noisy):
        """
        从x_t经过一步去噪得到x_t-1
        :param x_t:
        :param t:
        :param pred_noisy:
        :return:
        """
        alpha, beta, alpha_bar, beta_bar, alpha_bar_prev = self.extract([
            self.alphas, self.betas, self.alphas_bar, self.betas_bar, self.alphas_bar_prev], t)
        noisy = torch.randn_like(x_t)
        # noisy_weight = torch.sqrt(beta)
        noisy_weight = beta * (1. - alpha_bar_prev) / (1. - alpha_bar)
        bs = x_t.shape[0]
        noisy_mask = torch.reshape(
            1 - (t == 0).float(), [bs, 1, 1, 1]
        )
        noisy_weight *= noisy_mask
        x_t_1 = (x_t - beta * pred_noisy / torch.sqrt(beta_bar)) / torch.sqrt(alpha) + noisy * noisy_weight
        return x_t_1

    def encoder(self, noisy_img, t, labels=None, training=False, mask_ratio=1.0):
        """
        UNet的Encoder下采样
        :param noisy_img:
        :param t:
        :param labels:
        :param training:
        :param mask_ratio:
        :return:
        """
        xs = []
        for idx, conv in enumerate(self.encoders):
            # print(conv)
            time_embedding = self.time_embeddings[idx](t)
            # print("idx: {}, time_emd.shape: {}, t: {}".format(idx, time_embedding.shape, t))
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            # print("idx: {}, noisy.shape: {}, time_emd.shape: {}".format(idx, noisy_img.shape, time_embedding.shape))
            noisy_img += time_embedding

            noisy_img = conv(noisy_img)
            xs.append(noisy_img)
        return xs

    def decoder(self, noisy_img, xs, t):
        """
        UNet的Decoder上采样
        :param noisy_img:
        :param xs:
        :param t:
        :return:
        """
        xs.reverse()
        for idx, conv in enumerate(self.decoders):
            # print("xs: {}, noisy: {}".format(xs[idx].shape, noisy_img.shape))
            # 上采样的过程中包含UNet之前的横向连接
            noisy_img = conv(torch.concat([xs[idx], noisy_img], dim=1))

            time_embedding = self.time_embeddings[len(self.decoders) - idx - 1](t)
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            noisy_img += time_embedding
        return noisy_img

    def pred_noisy(self, data, training=False, labels=None, mask_ratio=1.0):
        """
        预测噪声
        :param data:
        :param training:
        :param labels:
        :param mask_ratio:
        :return:
        """
        img = data["img_data"]
        bs = img.shape[0]
        noisy = torch.randn_like(img, device=self.device)
        t = data.get("t", None)
        if t is None:
            t = torch.randint(0, self.max_time_step, (bs, 1), device=self.device).long()
            noisy_img = self.q_noisy_sample(img, t, noisy)
        else:
            noisy_img = img
        noisy_img = self.first_conv(noisy_img)
        r = noisy_img.clone()
        xs = self.encoder(noisy_img, t.to(self.device), labels=labels, training=training, mask_ratio=mask_ratio)
        # print("xs length: {}, xs.shape: {}".format(len(xs), xs[-1].shape))
        x = self.mid_conv(xs[-1])
        x = self.decoder(x, xs, t.to(self.device))
        x = torch.concat([x, r], dim=1)
        pred_noisy = self.final_conv(x)

        return noisy, pred_noisy

    def forward(self, data):
        noisy, pred_noisy = self.pred_noisy(data, training=True, labels=data["labels"], mask_ratio=0.15)
        return noisy, pred_noisy

    def generate(self, bs=128, labels=None):
        """
        从随机噪声经过逐步去噪生成图像
        :param bs:
        :param labels:
        :return:
        """
        img_list = []
        x_t = torch.randn([bs, 1, self.img_size, self.img_size], device=self.device)
        for i in reversed(range(0, self.max_time_step)):
            t = torch.reshape(torch.tensor(i, device=self.device).repeat(bs), [bs, 1])
            # print("t shape: {}".format(t.shape))
            _, pred_noisy = self.pred_noisy({"img_data": x_t, "t": t}, labels=labels, training=False)
            x_t = self.p_real_sample(x_t, t, pred_noisy)
            img_list.append(x_t)
        return x_t, img_list


def to_img(x):
    x = x.clamp(0, 255)
    x = x.view(x.size(0), 1, 32, 32)
    # print(x.shape, x.dtype)
    return x


if __name__ == '__main__':
    device = torch.device("cuda:0")
    model = SimpleDDPMModel(device=device, max_time_step=300)
    model.to(device)

    num_epochs = 100
    batch_size = 256
    learning_rate = 1e-3
    image_size = 32

    img_transform = transforms.Compose([
        transforms.Resize(image_size),                # [0, 255]
        transforms.ToTensor(),                      # [0, 1]
        transforms.Lambda(lambda t: (t * 2) - 1)    # [-1, 1]
    ])
    reverse_transform = transforms.Compose([
        # transforms.Lambda(lambda t: t.clamp(-1, 1)),
        transforms.Lambda(lambda t: (t + 1) / 2),
        transforms.Lambda(lambda t: t * 255),
    ])

    dataset = MNIST('../../datasets', transform=img_transform, download=True)
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

    optimizer = optim.Adam(model.parameters(), lr=learning_rate)
    # loss_function = nn.MSELoss(reduction="mean")
    loss_function = nn.SmoothL1Loss(reduction="mean")
    lr_scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=50,
                                                   num_training_steps=len(dataloader) * num_epochs)

    for epoch in range(num_epochs):
        model.train()
        train_loss = 0
        for batch_idx, data in enumerate(dataloader):
            img, labels = data
            if torch.cuda.is_available():
                img = img.cuda()
                labels = labels.cuda()
            data = {"img_data": img, "labels": labels}
            optimizer.zero_grad()
            noisy, pred_noisy = model(data)
            loss = loss_function(noisy, pred_noisy)
            loss.backward()
            train_loss += loss.item()
            optimizer.step()
            if batch_idx % 100 == 0:
                print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}, LR: {}'.format(
                    epoch,
                    batch_idx * len(img),
                    len(dataloader.dataset), 100. * batch_idx / len(dataloader),
                    loss.item() / len(img), optimizer.param_groups[0]["lr"]))
            lr_scheduler.step()

        print('====> Epoch: {} Average loss: {:.4f}'.format(
            epoch, train_loss / len(dataloader.dataset)))

        if epoch % 1 == 0:
            with torch.no_grad():
                model.eval()
                gen_img, denoise_img = model.generate(4)

                denoise_img = torch.concat(denoise_img, dim=0)
                gen_img = (gen_img + 1) * 0.5
                denoise_img = (denoise_img + 1) * 0.5
                denoise_img = rearrange(denoise_img, "(t b) c h w -> (b t) c h w", b=4)

                save_image(gen_img, './ddpm_img/image_gen_{}.png'.format(epoch))
                save_image(denoise_img, './ddpm_img/image_denoise_{}.png'.format(epoch), nrow=30)

    torch.save(model.state_dict(), 'ddpm.pth')

上述简易代码在MNIST数据集上训练，生成的图像效果如下：

Conditional DDPM带有条件的图像生成

在DDPM的基础上，为了能够生成类别可控的图像，在训练阶段，在UNet的下采样和上采样过程中，添加能够表示当前样本所属类别的特征，使得模型能够学习到当输入对应的特征时就生成对应类别的图像。在上述DDPM代码的基础上主要添加了以下步骤：

像添加time_embedding一样，为每个类别生成一个可学习的embedding添加到网络模型中，因为UNet网络是层级结构的，每一层及的特征大小不一样，所以结合UNet的结构，分别在每一层级都添加可学习的表示每个类别的embedding。

self.conditional_embeddings = [nn.Embedding(10, max(filter_nums[0], filter_num // 2)).to(self.device) for filter_num in filter_nums]

在UNet的Encoder阶段的每个层级上，添加表示训练图像所属类别的特征。

    def encoder(self, noisy_img, t, labels=None, training=False, mask=0.0):
        xs = []
        for idx, conv in enumerate(self.encoders):
            # print(conv)
            time_embedding = self.time_embeddings[idx](t)
            # print("idx: {}, time_emd.shape: {}, t: {}".format(idx, time_embedding.shape, t))
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            # print("idx: {}, noisy.shape: {}, time_emd.shape: {}".format(idx, noisy_img.shape, time_embedding.shape))
            noisy_img += time_embedding

            conditional_embedding = self.conditional_embeddings[idx](labels)
            conditional_embedding = torch.reshape(conditional_embedding, [-1, conditional_embedding.shape[-1], 1, 1])
            if training:
                # 参照BERT随机掩码的方式，这里选择随机添加类别特征
                if mask < 0.15:
                    conditional_embedding = torch.zeros_like(conditional_embedding)
            noisy_img += conditional_embedding

            noisy_img = conv(noisy_img)
            xs.append(noisy_img)
        return xs

在UNet的Decoder阶段的每个层级上，添加表示训练图像所属类别的特征。

    def decoder(self, noisy_img, xs, t, labels=None, training=False, mask=0.0):
        xs.reverse()
        for idx, conv in enumerate(self.decoders):
            # print("xs: {}, noisy: {}".format(xs[idx].shape, noisy_img.shape))
            noisy_img = conv(torch.concat([xs[idx], noisy_img], dim=1))

            time_embedding = self.time_embeddings[len(self.decoders) - idx - 1](t)
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            noisy_img += time_embedding

            conditional_embedding = self.conditional_embeddings[len(self.decoders) - idx - 1](labels)
            conditional_embedding = torch.reshape(conditional_embedding, [-1, conditional_embedding.shape[-1], 1, 1])
            if training:
                if mask < 0.15:
                    conditional_embedding = torch.zeros_like(conditional_embedding)
            noisy_img += conditional_embedding

        return noisy_img

完整的Conditional DDPM的代码如下：

import torch
from torch import nn
from torch.nn import functional as F
import numpy as np
from einops import reduce
from torchvision.io import read_image
from torchvision import transforms
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader
from torch import optim
import os
from torchvision.utils import save_image
from torch.nn import DataParallel
from einops import rearrange
from transformers import get_cosine_schedule_with_warmup
from functools import partial

os.environ["CUDA_VISIBLE_DEVICES"] = "3"


class ConvResidualLayer(nn.Module):
    def __init__(self, filter_num, is_encoder=False, is_decoder=False, is_shortcut=False):
        super(ConvResidualLayer, self).__init__()
        in_channels = filter_num
        out_channels = filter_num

        if is_encoder:
            if filter_num == 128:
                self.conv1 = nn.Conv2d(filter_num, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num
            else:
                self.conv1 = nn.Conv2d(filter_num // 2, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num

        if is_decoder:
            if filter_num == 128:
                self.conv1 = nn.Conv2d(filter_num * 2, filter_num, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
                in_channels = filter_num
                out_channels = filter_num
            else:
                self.conv1 = nn.Conv2d(filter_num * 2, filter_num // 2, kernel_size=1)
                self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num // 2)
                in_channels = filter_num // 2
                out_channels = filter_num // 2

        if is_shortcut:
            self.conv1 = nn.Conv2d(filter_num, filter_num, kernel_size=1)
            self.gn1 = nn.GroupNorm(num_groups=8, num_channels=filter_num)
            in_channels = filter_num
            out_channels = filter_num

        self.act1 = nn.SiLU()
        self.conv2 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.gn2 = nn.GroupNorm(num_groups=8, num_channels=out_channels)
        self.act2 = nn.SiLU()

    def forward(self, inputs):
        residual = self.conv1(inputs)
        x = self.gn1(residual)
        x = self.act1(x)
        x = self.conv2(x)
        x = self.gn2(x)
        x = self.act2(x)
        # print("x.shape: {}, residual.shape: {}".format(x.shape, residual.shape))
        out = x + residual
        return out / 1.44


class SimpleDDPMModel(nn.Module):
    def __init__(self, max_time_step=100, device=None):
        super(SimpleDDPMModel, self).__init__()
        self.max_time_step = max_time_step
        self.device = device

        betas = np.linspace(1e-4, 0.02, self.max_time_step, dtype=np.float64)
        alphas = 1.0 - betas
        alphas_bar = np.cumprod(alphas, axis=0)
        betas_bar = 1.0 - alphas_bar
        alphas_bar_prev = F.pad(torch.from_numpy(alphas_bar[:-1]), (1, 0), value=1.0).detach().cpu().numpy()
        self.betas, self.alphas, self.alphas_bar, self.betas_bar, self.alphas_bar_prev = tuple(
            map(
                lambda x: torch.tensor(x, dtype=torch.float32, device=self.device, requires_grad=False),
                [betas, alphas, alphas_bar, betas_bar, alphas_bar_prev]
            )
        )
        # filter_nums = [64, 128, 256]
        filter_nums = [128, 256, 512]
        self.encoders = [
            nn.Sequential(
                ConvResidualLayer(filter_num, is_encoder=True),
                nn.MaxPool2d(2)
            ).to(self.device)
            for filter_num in filter_nums]
        self.mid_conv = ConvResidualLayer(filter_nums[-1], is_shortcut=True).to(self.device)
        self.decoders = [
            nn.Sequential(
                nn.Upsample(scale_factor=2),
                ConvResidualLayer(filter_num, is_decoder=True),
            ).to(self.device)
            for filter_num in reversed(filter_nums)]
        self.first_conv = nn.Conv2d(1, filter_nums[0], kernel_size=3, padding=1).to(self.device)
        self.final_conv = nn.Sequential(
            ConvResidualLayer(filter_nums[0] * 2, is_shortcut=True),
            nn.Conv2d(filter_nums[0] * 2, 1, kernel_size=3, padding=1),
        ).to(self.device)
        self.img_size = 32
        self.time_embeddings = [nn.Embedding(self.max_time_step, max(filter_nums[0], filter_num // 2)).to(self.device) for filter_num in filter_nums]
        self.conditional_embeddings = [nn.Embedding(10, max(filter_nums[0], filter_num // 2)).to(self.device) for filter_num in filter_nums]

    # 公式64，图像加噪声
    def q_noisy_sample(self, x_0, t, noisy):
        alpha_bar, beta_bar = self.extract([self.alphas_bar, self.betas_bar], t)
        sqrt_alpha_bar, sqrt_beta_bar = torch.sqrt(alpha_bar), torch.sqrt(beta_bar)
        return sqrt_alpha_bar * x_0 + sqrt_beta_bar * noisy

    def extract(self, sources, t):
        bs = t.shape[0]
        targets = [torch.gather(source, index=t[:, 0], dim=0) for i, source in enumerate(sources)]
        return tuple(map(lambda x: torch.reshape(x, [bs, 1, 1, 1]), targets))

    # 公式131, 计算Loss
    def p_real_sample(self, x_t, t, pred_noisy):
        alpha, beta, alpha_bar, beta_bar, alpha_bar_prev = self.extract([
            self.alphas, self.betas, self.alphas_bar, self.betas_bar, self.alphas_bar_prev], t)
        noisy = torch.randn_like(x_t)
        # noisy_weight = torch.sqrt(beta)
        noisy_weight = beta * (1. - alpha_bar_prev) / (1. - alpha_bar)
        bs = x_t.shape[0]
        noisy_mask = torch.reshape(
            1 - (t == 0).float(), [bs, 1, 1, 1]
        )
        noisy_weight *= noisy_mask
        x_t_1 = (x_t - beta * pred_noisy / torch.sqrt(beta_bar)) / torch.sqrt(alpha) + noisy * noisy_weight
        return x_t_1

    # unet 下采样
    def encoder(self, noisy_img, t, labels=None, training=False, mask=0.0):
        xs = []
        for idx, conv in enumerate(self.encoders):
            # print(conv)
            time_embedding = self.time_embeddings[idx](t)
            # print("idx: {}, time_emd.shape: {}, t: {}".format(idx, time_embedding.shape, t))
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            # print("idx: {}, noisy.shape: {}, time_emd.shape: {}".format(idx, noisy_img.shape, time_embedding.shape))
            noisy_img += time_embedding

            conditional_embedding = self.conditional_embeddings[idx](labels)
            conditional_embedding = torch.reshape(conditional_embedding, [-1, conditional_embedding.shape[-1], 1, 1])
            if training:
                if mask < 0.15:
                    conditional_embedding = torch.zeros_like(conditional_embedding)
            noisy_img += conditional_embedding

            noisy_img = conv(noisy_img)
            xs.append(noisy_img)
        return xs

    # unet 上采样
    def decoder(self, noisy_img, xs, t, labels=None, training=False, mask=0.0):
        xs.reverse()
        for idx, conv in enumerate(self.decoders):
            # print("xs: {}, noisy: {}".format(xs[idx].shape, noisy_img.shape))
            noisy_img = conv(torch.concat([xs[idx], noisy_img], dim=1))

            time_embedding = self.time_embeddings[len(self.decoders) - idx - 1](t)
            time_embedding = torch.reshape(time_embedding, [-1, time_embedding.shape[-1], 1, 1])
            noisy_img += time_embedding

            conditional_embedding = self.conditional_embeddings[len(self.decoders) - idx - 1](labels)
            conditional_embedding = torch.reshape(conditional_embedding, [-1, conditional_embedding.shape[-1], 1, 1])
            if training:
                if mask < 0.15:
                    conditional_embedding = torch.zeros_like(conditional_embedding)
            noisy_img += conditional_embedding

        return noisy_img

    # 预测噪声
    def pred_noisy(self, data, training=False, labels=None):
        img = data["img_data"]
        bs = img.shape[0]
        noisy = torch.randn_like(img, device=self.device)
        t = data.get("t", None)
        if t is None:
            t = torch.randint(0, self.max_time_step, (bs, 1), device=self.device).long()
            noisy_img = self.q_noisy_sample(img, t, noisy)
        else:
            noisy_img = img
        noisy_img = self.first_conv(noisy_img)
        r = noisy_img.clone()
        mask = torch.rand((1,)).item()
        xs = self.encoder(noisy_img, t.to(self.device), labels=labels, training=training, mask=mask)
        # print("xs length: {}, xs.shape: {}".format(len(xs), xs[-1].shape))
        x = self.mid_conv(xs[-1])
        x = self.decoder(x, xs, t.to(self.device), labels=labels, training=training, mask=mask)
        x = torch.concat([x, r], dim=1)
        pred_noisy = self.final_conv(x)

        return noisy, pred_noisy

    def forward(self, data):
        noisy, pred_noisy = self.pred_noisy(data, training=True, labels=data["labels"])
        return noisy, pred_noisy

    # 从随机噪声生成图像
    def generate(self, bs=128, labels=None):
        img_list = []
        x_t = torch.randn([bs, 1, self.img_size, self.img_size], device=self.device)
        for i in reversed(range(0, self.max_time_step)):
            t = torch.reshape(torch.tensor(i, device=self.device).repeat(bs), [bs, 1])
            # print("t shape: {}".format(t.shape))
            _, pred_noisy = self.pred_noisy({"img_data": x_t, "t": t}, labels=labels, training=False)
            x_t = self.p_real_sample(x_t, t, pred_noisy)
            img_list.append(x_t)
        return x_t, img_list


def to_img(x):
    x = x.clamp(0, 255)
    x = x.view(x.size(0), 1, 32, 32)
    # print(x.shape, x.dtype)
    return x


if __name__ == '__main__':
    from matplotlib import pyplot as plt

    device = torch.device("cuda:0")
    model = SimpleDDPMModel(device=device, max_time_step=300)
    model.to(device)

    num_epochs = 100
    batch_size = 256
    learning_rate = 1e-3
    image_size = 32

    img_transform = transforms.Compose([
        transforms.Resize(image_size),                # [0, 255]
        transforms.ToTensor(),                      # [0, 1]
        transforms.Lambda(lambda t: (t * 2) - 1)    # [-1, 1]
    ])
    reverse_transform = transforms.Compose([
        # transforms.Lambda(lambda t: t.clamp(-1, 1)),
        transforms.Lambda(lambda t: (t + 1) / 2),
        transforms.Lambda(lambda t: t * 255),
    ])

    dataset = MNIST('../../datasets', transform=img_transform, download=True)
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

    optimizer = optim.Adam(model.parameters(), lr=learning_rate)
    # loss_function = nn.MSELoss(reduction="mean")
    loss_function = nn.SmoothL1Loss(reduction="mean")
    lr_scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=50,
                                                   num_training_steps=len(dataloader) * num_epochs)

    for epoch in range(num_epochs):
        model.train()
        train_loss = 0
        for batch_idx, data in enumerate(dataloader):
            img, labels = data
            if torch.cuda.is_available():
                img = img.cuda()
                labels = labels.cuda()
            data = {"img_data": img, "labels": labels}
            optimizer.zero_grad()
            noisy, pred_noisy = model(data)
            loss = loss_function(noisy, pred_noisy)
            loss.backward()
            train_loss += loss.item()
            optimizer.step()
            if batch_idx % 100 == 0:
                print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}, LR: {}'.format(
                    epoch,
                    batch_idx * len(img),
                    len(dataloader.dataset), 100. * batch_idx / len(dataloader),
                    loss.item() / len(img), optimizer.param_groups[0]["lr"]))
            lr_scheduler.step()

        print('====> Epoch: {} Average loss: {:.4f}'.format(
            epoch, train_loss / len(dataloader.dataset)))

        if epoch % 1 == 0:
            with torch.no_grad():
                labels = []
                for i in range(10):
                    labels.append(i)
                labels = torch.tensor(labels, device=device)
                model.eval()
                gen_img, denoise_img = model.generate(bs=10, labels=labels)

                denoise_img = torch.concat(denoise_img, dim=0)
                gen_img = (gen_img + 1) * 0.5
                denoise_img = (denoise_img + 1) * 0.5
                denoise_img = rearrange(denoise_img, "(t b) c h w -> (b t) c h w", b=10)

                save_image(gen_img, './conditional_ddpm_img/image_gen_{}.png'.format(epoch))
                save_image(denoise_img[::5, ...], './conditional_ddpm_img/image_denoise_{}.png'.format(epoch), nrow=30)

    torch.save(model.state_dict(), 'conditional_ddpm.pth')

上述简易代码在MNIST数据集上训练，分别生成从0到9的的图像，效果如下：

你可能感兴趣的:(图像生成,数据增强,扩散模型,DDPM)

Step-by-Step Diffusion&Flow Model Notes 克斯维尔的明天_ 机器学习人工智能深度学习算法
Step-by-StepNotesFundamentalsofDiffusion生成模型的目标与扩散模型的基本思想生成模型的目标生成模型的目的是给定一组来自某个未知分布p∗(x)p^{*}(x)p∗(x)的独立同分布(i.i.d.)样本，构建一个采样器，能够近似地从相同的分布中生成新的样本。例如，假设我们有一组狗的图像训练集，这些图像来自某个潜在分布pdogp_{\text{dog}}pdog，我
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
大模型算法工程师面试宝典：精选面试题及参考答案全解析，助你备战AI算法工程师岗位！大模型入门学习人工智能产品经理大数据机器学习程序员大模型大模型学习
大模型应该算是目前当之无愧的最有影响力的AI技术。它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等，正成为未来商业环境的重要组成部分。截至目前大模型已超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关面试也是越来越卷。我今天给大家分享一篇大模型的面试题总结，内容较长，喜欢记得收藏、关注、点赞。ii.为什么会出现LLMs复读机问题？出现LLMs复读机问题可能
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
LLM---大语言模型技术研究报告
摘要大语言模型（LLMs）已从技术突破走向产业规模化落地。2025年，全球LLMs进入“模型即服务”（MaaS）时代，参数量级突破万亿级，多模态能力、智能体协作、专业化细分成为主流趋势。中国大模型领域在DeepSeek、通义千问、讯飞星火等头部模型推动下，实现技术突破与场景创新。本报告基于截至2025年7月的最新数据，系统梳理LLMs的技术演进、应用场景、挑战与未来方向。一、大语言模型的演进与突破
解释LLM怎么预测下一个词语的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型 python 深度学习人工智能机器学习
解释LLM怎么预测下一个词语的通过上文词的向量进行映射在Transformer架构的大语言模型（如GPT系列、BERT等）中，词语会先被转化为词向量。在预测下一个词时，模型会基于之前所有词的向量表示（并非仅仅上一个词，但上一个词的向量是重要信息来源之一）进行计算。以GPT-2为例，在生成文本时，它会将输入文本中每个词对应的词向量依次输入到模型的多层Transformer编码器-解码器结构中。每一层
大语言模型：是逐字生成还是一次多词？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 算法 prompt 人工智能自然语言处理均值算法
大语言模型（LLM）既可以按顺序逐个生成单词（token），也能实现一次生成多个token核心差异源于解码策略与模型架构设计一、常规“逐个生成”模式（基础逻辑）多数入门级演示或简单文本生成中，LLM会默认按“生成一个token→拼接回输入→再生成下一个”的流程，本质是自回归（Auto-Regressive）机制的基础应用。比如用小语言模型续写“今天天气____”：模型先基于“今天天气”预测第一个t
Spring AI 实战：第二章、Spring AI提示词之玩转AI占卜的艺术 liaokailin Spring AI 实战人工智能 spring java
目录（如果文章对您有一丢丢输入，请点赞、收藏、转发吧~）源码开篇、大模型时代：我们正站在浪潮之巅第一章、SpringAI入门之DeepSeek调用第二章、SpringAI提示词之玩转AI占卜的艺术第三章、SpringAI结构化输出之告别杂乱无章第四章、SpringAI多模态之看图说话
Midjourney提示词(Prompt)编写秘籍：让AI画出你想要的作品 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 midjourney prompt 人工智能 ai
Midjourney提示词(Prompt)编写秘籍：让AI画出你想要的作品关键词：Midjourney、提示词(Prompt)、AI绘画、关键词权重、图像生成摘要：想让AI画出你脑海中完美的画面？关键就藏在“提示词(Prompt)”里！本文将用“给小学生讲故事”的方式，从基础到进阶，拆解Midjourney提示词的编写逻辑。你将学会如何用“主体+风格+细节”的黄金公式，像给画家写“绘画说明书”一样
Redis 单线程的“天花板”与集群的必要性未来并未来 redis 数据库缓存
虽然Redis以其单线程模型（主要是处理请求的核心逻辑）带来了极高的性能和简洁性，但这并不意味着它没有瓶颈。CPU瓶颈：当业务逻辑复杂，或者Redis执行大量计算密集型操作（比如使用Lua脚本进行复杂处理）时，单个CPU核心可能成为性能瓶颈。内存瓶颈：单个Redis实例能使用的内存是有限的。当数据量巨大，单个实例无法容纳所有数据时，就需要分片存储。网络I/O瓶颈：虽然Redis使用I/O多路复用技
微软：LLM训练数据组织框架DELT 大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：DataEfficacyforLanguageModelTraining来源：arXiv,2506.21545摘要数据是语言模型（LM）训练的基础。最近的研究一直致力于数据效率，其目的是通过选择训练数据的最小或最优子集来最大限度地提高性能。数据过滤、采样和选择等技术在这一领域起着至关重要的作用。为了补充这一点，我们定义了数据效能，它侧重于通过优化训练数据的组织来最大限度地提高性能，目前尚未得
JVM调优实战 Day 7：JVM线程分析与死锁排查在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day7】JVM线程分析与死锁排查文章标签jvm调优,线程分析,死锁排查,JVM监控,Java性能优化,JVM参数配置文章简述在Java应用的高并发场景中，线程管理与死锁问题往往是性能瓶颈的根源。本文作为“JVM调优实战”系列的第7天，深入解析JVM线程模型、死锁机制及其诊断方法。文章从线程的基本概念出发，结合实际案例，详细讲解如何使用JVM内置工具进行线程状态分析和死锁检测，并提
提示词工程推荐阅读论文司南锤 LLM prompt 人工智能自然语言处理
论文目录提示工程少样本提示思维链提示自洽性生成知识提示自动提示工程多模态提示提示技巧对抗提示提示工程PromptEngineeringforText-BasedGenerativeModels论文链接:https://arxiv.org/abs/2107.13586简介:本文概述了提示工程，并讨论了它在各种基于文本的生成模型中的应用。少样本提示Few-shotLearningwithRetriev
思维树(Tree of Thoughts): 超越链式思维的AI推理新范式司南锤 LLM 人工智能
引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。从最初的直接问答，到链式思维(ChainofThoughts,CoT)的出现，再到如今的思维树(TreeofThoughts,TOT)，AI的推理方式正在变得越来越接近人类的思维过程。思维树作为一种全新的推理框架，不仅继承了链式思维的优势，更通过树状结构的探索和回溯机制，实现了更加复杂和深入的推理过程。本文将深入探讨TO
路由器工作在OSI模型的哪一层？
路由器主要工作在OSI模型的第三层，即网络层。网络层的主要功能是将数据包从源地址路由到目标地址，路由器通过检查数据包中的目标IP地址，并根据路由表确定最佳路径来实现这一功能。路由器的主要功能：a、路由决策：路由器通过分析目标IP地址，决定数据包的转发路径。b、跨网络通信：负责不同网络之间的数据传输。c、网络互联：连接多个网络，实现广域网或局域网之间的通信。d、路由表维护：通过直连路由、静态路由和动
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
52-【JavaScript-Day 52】告别“野路子”代码：ESLint、Prettier与Web安全入门吴师兄大模型 javascript 开发语言 ecmascript java 人工智能大模型 ESLint
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Java的SpringAI+Deepseek大模型实战-会话记忆【三】梦幻通灵大数据 AI 软件工程
文章目录背景项目环境实现步骤第一步、定义会话存储方式方式一、定义记忆存储ChatMemory方式二、注入记忆存储ChatMemory第二步、配置会话记忆方式一、老版本实现方式二、新版本实现第三步、添加会话ID异常处理1、InMemoryChatMemory无法解析背景前两期搭建起大模型对话的框架，如何进行会话记忆项目环境SpringAi版本：1.0.0实现步骤第一步、定义会话存储方式在配置类Com
云原生环境下部署大语言模型服务：以 DeepSeek 为例的实战教程一ge科研小菜菜人工智能 Python 编程语言语言模型人工智能自然语言处理
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、引言随着DeepSeek、Qwen、ChatGLM等大语言模型（LLM）的开放与普及，企业将其私有化部署并服务化的需求愈发迫切。然而，从HuggingFace下载模型，到提供一个结构化、稳定、可调用的API，并不是一个简单过程。它涉及：模型推理框架（如vLLM）的集成；WebAPI封装（FastAPI等）；容器化部署与资源调度；可扩展性设计与
圈子系统公众号app小程序系统源码公众号+圈子小程序：如何用“内容+社交”打造用户闭环生态？前端
圈子系统：构建"交流→共鸣→成长"的进阶生态一、系统设计理念演进1.0基础交流层话题发布/回复功能基础点赞评论互动简单分类标签系统2.0情感共鸣层情绪标签识别（AI分析内容情感倾向）共鸣指数算法（根据互动深度计算）志同道合推荐系统3.0成长体系层多维能力评估模型个性化成长路径成就勋章系统二、核心技术实现方案1.共鸣引擎#共鸣度计算算法示例defcalculate_resonance(topic):
AtomNet：在极端MCU约束下基于算子设计微型模型神一样的老师论文阅读分享单片机 struts 嵌入式硬件
英文标题：AtomNet:DesigningTinyModelsfromOperatorsUnderExtremeMCUConstraints中文标题：AtomNet：在极端MCU约束下基于算子设计微型模型作者信息ZhiweiDong1,3,MingzhuShen3,ShihaoBai3,XiuyingWei3,JinyangGuo2,RuihaoGong2,3,Song-LuChen1,Xian
用Firecrawl轻松获取网站数据，提升AI应用的效率！人工智能我来了人工智能 AI 人工智能
Firecrawl：助力AI应用的强大工具！在数字化信息爆炸的时代，如何高效地从海量网页中提取有用数据变得尤其重要。Firecrawl的问世，为我们揭开了一种便捷的方法来应对这一挑战。它不仅能够将整个网站的数据转化为适用于大语言模型（LLM）的markdown或结构化数据，还能通过单一的API实现数据抓取、爬取和提取。从此，清晰、整洁的数据触手可及。什么是Firecrawl？Firecrawl是一
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
SpringBoot高并发上传下载解决方案 hdsoft_huge spring boot java 后端
这里写目录标题一、引言二、高并发上传下载面临的挑战2.1传统上传下载方式的瓶颈2.2高并发场景下的性能指标要求三、SpringBoot高并发上传下载的架构设计3.1整体架构设计3.2关键组件设计3.2.1负载均衡层3.2.2API网关层3.2.3应用服务层3.2.4存储层3.2.5缓存层3.2.6消息队列四、SpringBoot高并发上传下载的关键技术实现4.1异步非阻塞编程模型4.1.1@Asy
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
打造 AI 产品的前端架构：响应式、流式、智能交互三合一
关键点AI产品前端挑战：AI产品前端需要处理流式响应、上下文管理、多模型切换和复杂的用户交互，同时保证高性能和响应式体验。流式响应：通过Server-SentEvents（SSE）或WebSocket实现实时数据流，提升用户感知的响应速度。多模型切换：支持动态切换AI模型（如GPT-4、Grok），并优化上下文缓存和token预估。会话持久化：通过本地存储或后端数据库保存用户会话，支持编辑和恢复功
深入探索 Vanna：让数据库交互更智能从零开始学习人工智能数据库交互
深入探索Vanna：让数据库交互更智能在数字化时代，与数据库进行高效交互是许多开发者、数据分析师和企业面临的挑战。传统的SQL查询编写不仅需要对数据库结构有深入的了解，还需要花费大量的时间和精力来调试和优化。Vanna，一个基于Python的开源工具，通过结合检索增强（RetrievalAugmentation）和大型语言模型（LLM），为这一问题提供了一个创新的解决方案。本文将深入探讨Vanna
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要