通街市密人有

Scalable Diffusion Models with Transformers

论文地址：
https://arxiv.org/pdf/2212.09748.pdf

项目地址：
https://github.com/facebookresearch/DiT

论文主页：
https://www.wpeebles.com/DiT

摘要

我们探索了一类新的基于Transformer结构的扩散模型。我们训练图像的潜在扩散模型，用一个对潜在补丁操作的Transformer取代常用的U-Net骨干网。我们通过Gflops测量的前向传递复杂性来分析扩散Transformer(dit)的可伸缩性。我们发现，具有较高gflop的dit(通过增加Transformer深度/宽度或增加输入令牌数量)始终具有较低的FID。除了具有良好的可扩展性属性外，我们最大的DiT-XL/2模型在类条件ImageNet 512×512和256×256基准上优于所有先前的扩散模型，在后者上实现了2.27的最先进的FID

1. 介绍

在Transformer的推动下，机器学习正在经历复兴。在过去的五年中，用于自然语言处理[8,39]、视觉[10]和其他几个领域的神经架构在很大程度上已经被Transformer[57]所包含。许多图像级生成模型仍然不受这一趋势的影响，尽管Transformer在自回归模型中得到了广泛的应用[3,6,40,44]，但它们在其他生成建模框架中应用较少。例如，扩散模型一直处于图像级生成模型最新进展的前沿[9,43];然而，它们都采用卷积U-Net架构作为骨干网的事实上选择。

Ho等人的开创性工作[19]首次为扩散模型引入了U-Net骨干网。设计选择继承自pixelcnn++[49,55]，一个自回归生成模型，有一些架构上的变化。该模型是卷积的，主要由ResNet[15]块组成。与标准U-Net[46]相比，附加的空间自注意块是Transformer中的基本组件，以较低的分辨率散布。Dhariwal和Nichol[9]消除了U-Net的几种架构选择，例如使用自适应归一化层[37]为卷积层注入条件信息和通道计数。然而，Ho等人的U-Net的高级设计在很大程度上保持完整。

通过这项工作，我们的目标是揭开扩散模型中建筑选择的意义，并为未来的生成建模研究提供经验基线。我们表明，U-Net电感偏差对扩散模型的性能不是至关重要的，并且它们可以很容易地用标准设计(如Transformer)取代。因此，扩散模型很好地准备从架构统一的最近趋势中获益。通过继承其他领域的最佳实践和培训方法，以及保留可伸缩性、健壮性和效率等有利属性。标准化的体系结构也将为跨领域研究开辟新的可能性。

本文讨论了一类新的基于Transformer的扩散模型。我们称之为扩散Transformer，简称dit。dit坚持视觉Transformer(ViTs)[10]的最佳实践，它已被证明比传统的卷积网络(例如ResNet[15])更有效地扩展视觉识别。

更具体地说，我们研究了Transformer的标度行为与网络复杂度和样本质量的关系。我们表明，通过在潜伏扩散模型(ldm)[45]框架下构建和对标DiT设计空间，其中扩散模型在V AE的潜伏空间内训练，我们可以成功地用Transformer取代U-Net骨干。我们进一步表明dit是扩散模型的可扩展架构:网络复杂性(由Gflops测量)与样本质量(由FID测量)之间存在很强的相关性。通过简单地扩展DiT并训练具有高容量主干(118.6 Gflops)的LDM，我们能够在256 × 256类条件ImageNet生成基准上实现2.27 FID的最先进结果。

2. 相关工作

Transformer。Transformer[57]已经取代了跨语言、视觉[10]、强化学习[5,23]和元学习[36]的特定领域架构。它们在增加模型大小、训练语言域[24]的计算和数据时表现出了显著的缩放特性，如通用自回归模型[17]和ViTs[60]。除了语言，Transformer已经被训练为自回归预测像素[6,7,35]。它们还在离散码本[56]上进行了训练，作为自回归模型[11,44]和掩模生成模型[4,14];前者在20B参数[59]下表现出优异的缩放性能。最后，在DDPMs中探索了Transformer对非空间数据的综合;例如，在DALL·E 2中生成CLIP图像嵌入[38,43]。本文研究了Transformer作为图像扩散模型主干时的标度特性。

去噪扩散概率模型(DDPM)。扩散[19,51]和基于分数的生成模型[22,53]作为图像的生成模型特别成功[32,43,45,47]，在许多情况下优于以前最先进的生成对抗网络(GANs)[12]。过去两年DDPM的改进主要是由改进的采样技术驱动的[19,25,52]，最显著的是无分类引导[21]，重新定义扩散模型以预测噪声而不是像素[19]，并使用级联DDPM管道，其中低分辨率基础扩散模型与上采样器并行训练[9,20]。对于上面列出的所有扩散模型，卷积U-Nets[46]实际上是骨干架构的选择。

体系结构的复杂性。在图像生成文献中评估体系结构复杂性时，使用参数计数是相当常见的实践。一般来说，参数计数不能很好地代表图像模型的复杂性，因为它们不能说明图像分辨率等显著影响性能的因素[41,42]。相反，本文中的大部分模型复杂性分析都是通过理论Gflops的透镜进行的。这使我们与架构设计文献保持一致，在这些文献中，gflop被广泛用于衡量复杂性。在实践中，黄金复杂度度量仍然存在争议，因为它经常依赖于特定的应用场景。Nichol和Dhariwal改进扩散模型的开创性工作[9,33]与我们最相关，在那里，他们分析了U-Net架构类的可伸缩性和Gflop属性。在本文中，我们主要关注transformer类。

3. Diffusion Transformers

3.1. Preliminaries

扩散公式。在介绍我们的体系结构之前，我们简要回顾了理解扩散模型(DDPM)所需的一些基本概念[19,51]。高斯扩散模型假设一个前向噪声处理过程，逐步将噪声应用于真实数据 $x_0:{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)=N\left(\mathbf{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right)}$

其中常量 $\bar{\alpha}_{t}$ 是超参数。通过应用重新参数化技巧，我们可以对 ${\mathrm{x}_{t}=\sqrt{\bar{\alpha}_{t}} \mathrm{x}_{0}+\sqrt{1-\overline{\alpha_{l}}} \epsilon}$ ，其中${\epsilon}{\in} {\mathcal{N}(0,I)} $。

扩散模型被训练来学习反转正向过程破坏的反向过程： $p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \mu_{\theta}\left(\mathbf{x}_{t}, t\right), \Sigma_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$ ，其中神经网络用于预测 $p_θ$ 的统计量。用 $x_0$ 的对数似然的变分下界[27]来训练逆向过程模型，可简化为： $\mathcal{L}(\theta)=-p(x_0|x_1)+\sum_t \mathrm{D_KL}\left(q^*\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \boldsymbol{\eta}\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)$ 。排除了与训练无关的附加术语。由于 $q^ *$ 和 $p_θ$ 都是高斯分布， $D_{KL}$ 可以用两个分布的均值和协方差来计算。通过重新参数化 $\mu_{\theta}$ 作为噪声预测网络 ${\epsilon}_{\theta}$ ，可以使用预测噪声 ${\epsilon}_{\theta}(x_t)$ 与地面真理采样高斯噪声 ${\epsilon}_t$ 之间的简单均方误差来训练模型： $L_{\text {simple }}=E_{t, x_{0}, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(x_{t}, t\right)\right\|^{2}\right]$ 。但是，为了用学习到的反向过程协方差 $\Sigma_{\theta}$ 训练扩散模型，需要优化完整的 $D_{KL}$ 项。我们遵循Nichol和Dhariwal的方法[33]:用 $L_{simple}$ 训练 ${\epsilon}_{\theta}$ ，用完整的 $L$ 训练 $\Sigma_{\theta}$ 。一旦训练 $p_θ$ ，就可以通过初始化 $x_{t_{max}}∼N(0,I)$ 和通过重新参数化技巧采样 $x_{t−1}∼p_θ(x_{t−1}|x_t)$ 来对新图像进行采样。

Classifier-free指导。条件扩散模型将额外的信息作为输入，例如类标签c。在这种情况下，相反的过程变成 $p_θ(x_{t−1}|x_t, c)$ ，其中 ${\epsilon}_{\theta}$ 和 $\Sigma_{\theta}$ 以 $c$ 为条件。在这种设置下，可以使用无分类器引导来鼓励抽样过程找到x，使 $l o g p (c ∣ x)$ 高[21]。根据贝叶斯规则， $\log p(c \mid x) \propto \log p(x \mid c)-\log p(x)$ ，因此 $\nabla_\sigma \log p(c \mid x) \propto \nabla_\sigma \log p(x \mid c)-\nabla_\tau \log p(x)$ 。通过将扩散模型的输出解释为得分函数，DDPM抽样程序可以通过以下方法指导 $x$ 到 $p (x ∣ c)$ 高的样本： $\mid c)$ by: $\hat{\epsilon}_\theta\left(x_t, c\right)=\epsilon_\theta\left(x_t, \emptyset\right)+s$ . $\nabla_x \log p(x \mid c) \propto \epsilon_\theta\left(x_t, \emptyset\right)+s \cdot\left(\epsilon_\theta\left(x_t, c\right)-\epsilon_\theta\left(x_t, \emptyset\right)\right)$ ，其中s > 1为指导尺度(注意s = 1恢复标准抽样)。对c =∅的扩散模型的评估是在训练时随机剔除c，代之以一个习得的“null”嵌入∅。众所周知，与通用抽样技术相比，无分类器指导可以产生显著改善的样本[21,32,43]，而且我们的DiT模型也具有这一趋势。

潜在扩散模型。在高分辨率像素空间中直接训练扩散模型在计算上是非常困难的。潜扩散模型(ldm)[45]用两阶段方法解决这个问题:(1)学习一个自编码器，用学习的编码器E将图像压缩成更小的空间表示;(2)训练一个表示 $z = E (x)$ 的扩散模型，而不是图像x (E被冻结)的扩散模型。然后，可以通过从扩散模型中采样表示z来生成新的图像，然后使用学习的解码器 $x = D (z)$ 将其解码为图像。如图2所示，LDM在使用像素空间扩散模型(如ADM)的一小部分gflop的情况下实现了良好的性能。由于我们关心计算效率，这使它们成为架构探索的一个吸引人的起点。在本文中，我们将dit应用于潜在空间，尽管它们也可以应用于像素空间而无需修改。这使得我们的图像生成管道成为一种基于混合的方法；我们使用现成的卷积vav和基于Transformer的DDPM。

3.2. Diffusion Transformer Design Space

我们介绍了扩散Transformer(DiTs)，一种用于扩散模型的新架构。我们的目标是尽可能忠实于标准Transformer架构，以保留其缩放特性。由于我们的重点是训练图像的DDPM(特别是图像的空间表示)，DiT基于视觉转换器(ViT)架构，该架构操作补丁[10]的序列。DiT保留了ViT的许多最佳实践。图3显示了完整DiT体系结构的概述。在本节中，我们将描述DiT的正向传递，以及DiT类的设计空间的组件。

Patchify。DiT的输入是一个空间表示z(对于256 × 256 × 3图像，z的形状为32 × 32 × 4)。DiT的第一层是“patchify”，它通过将每个patch线性嵌入到输入中，将空间输入转换为一个T标记序列，每个标记的维度为d。在patchify之后，我们将标准的基于ViT频率的位置嵌入(sin -cos版本)应用于所有输入令牌。

patchify创建的令牌T的数量由补丁大小超参数p决定。如图4所示，将p减半将使T翻四倍，因此至少使总Transformergflop翻四倍。尽管它对Gflops有重大影响，但请注意，更改p对下游参数计数没有重大影响。

我们将p = 2,4,8添加到DiT设计空间。

DiT块设计。在patchify之后，输入令牌由一系列Transformer块处理。除了有噪声的图像输入外，扩散模型有时还处理附加的条件信息，如噪声时间步长t、类标签c、自然语言等。我们探索了四种不同的Transformer块，它们以不同的方式处理条件输入。该设计对标准ViT块设计进行了微小但重要的修改。各块的设计如图3所示。

-情境条件反射。我们简单地将t和c的向量嵌入作为输入序列中的两个附加标记，将它们与图像标记区别对待。这类似于ViT中的cls令牌，它允许我们无需修改就使用标准ViT块。在最后一个块之后，我们从序列中删除条件令牌。这种方法为模型引入了可以忽略不计的新Gflops。

-交叉注意模块。我们将t和c的嵌入连接到一个长度为2的序列中，与图像标记序列分开。Transformer块经过修改，在多头自注意块之后增加了一个多头交叉注意层，类似于Vaswani等人的原始设计[57]，也类似于LDM用于类标签的条件调节。交叉注意为模型增加了最多的gflop，大约15%的开销。

-Adaptive layer norm (adaLN)块。在GANs中广泛使用自适应归一化层[37][2,26]和使用UNet主干[9]的扩散模型之后，我们探索用自适应层范数(adaLN)取代Transformer块中的标准层范数层。我们不是直接学习量维尺度和移位参数γ和β，而是从t和c的嵌入向量的和中回归它们。在我们探索的三个块设计中，adaLN添加的Gflops最少，因此计算效率最高。它也是唯一限制将相同函数应用于所有令牌的调节机制。

-adaln -零块。先前关于ResNets的工作已经发现，将每个剩余块初始化为恒等函数是有益的。例如，Goyal等人发现，在每个块中对最后一批范数尺度因子γ进行零初始化可以加速监督学习设置[13]下的大规模训练。扩散U-Net模型使用类似的初始化策略，在任何剩余连接之前对每个块中的最终卷积层进行零初始化。我们将探索adaLN DiT块的修改，它具有相同的功能。除了回归γ和β，我们还回归在DiT块内任何剩余连接之前立即应用的维度缩放参数α。我们初始化MLP以输出所有α的零向量；这将整个DiT块初始化为恒等函数。与vanilla adaLN块一样，adaLNZero为模型添加了可以忽略不计的gflop。

我们在DiT设计空间中包括上下文内、交叉注意、自适应层规范和adaLN-Zero块。

模型的尺寸。我们应用了N个DiT块序列，每个块的隐藏维度大小为d。在ViT之后，我们使用标准Transformer配置，共同缩放N, d和注意头[10,60]。具体来说，我们使用四种配置:DiT-S, DiT-B, DiT-L和DiT-XL。它们涵盖了广泛的模型大小和触发器分配，从0.3到118.6 gflop，允许我们衡量缩放性能。表1给出了配置的详细信息。我们将B、S、L和XL配置添加到DiT设计空间。

Transformer解码器。在最后一个DiT块之后，我们需要将我们的图像标记序列解码为输出噪声预测和输出对角线协方差预测。这两个输出的形状都等于原始的空间输入。我们使用标准的线性解码器来做到这一点;我们应用最后一层范数(如果使用adaLN则自适应)，并将每个令牌线性解码为p×p×2C张量，其中C是DiT空间输入中的通道数。最后，我们将解码后的标记重新排列到原始的空间布局中，得到预测的噪声和协方差。我们探索的完整DiT设计空间是补丁大小、Transformer块架构和模型大小。

4. 实验设置

我们探索了DiT设计空间，并研究了模型类的缩放属性。我们的模型是根据它们的配置和潜在补丁大小p命名的;例如，DiT-XL/2指的是XLarge配置，p = 2。

训练。我们在ImageNet数据集[28]上训练256 × 256和512 × 512图像分辨率的类条件潜在DiT模型，这是一个高度竞争的生成建模基准。我们用零初始化最后的线性层，否则使用ViT的标准权重初始化技术。我们用AdamW[27,30]训练所有模型。我们使用1 × 10−4的恒定学习速率，没有权重衰减，批处理大小为256。我们使用的唯一数据增强是水平翻转。与之前对vit的许多工作不同[54,58]，我们没有发现学习率热身或正则化对训练dit达到高性能是必要的。即使没有这些技术，训练在所有模型配置中都是高度稳定的，我们没有观察到训练Transformer时常见的任何损失峰值。根据生成建模文献中的常见做法，我们在训练中保持DiT权重的指数移动平均(EMA)，衰减为0.9999。所有报告的结果均使用EMA模型。我们在所有DiT模型大小和补丁大小上使用相同的训练超参数。我们的训练超参数几乎完全从adm中保留下来。我们没有调整学习率、衰减/热身计划、Adam β1/β2或权重衰减。

扩散。我们使用来自稳定扩散[45]的现成的预训练变分自编码器(VAE)模型[27]。给定形状为256 × 256 × 3, z = E(x)形状为32 × 32 × 4的RGB图像x, VAE编码器的下采样因子为8。在本节的所有实验中，我们的扩散模型都在这个z空间中运行。在从我们的扩散模型中采样一个新的潜伏后，我们使用VAE解码器x = D(z)将其解码为像素。我们保留ADM[9]的扩散超参数：具体来说，我们使用 $t_{max} = 1000$ 线性方差表，范围为1×10⁻⁴到2 ×10⁻²,ADM的协方差参数化 $\Sigma_{\theta}$ 和他们嵌入输入时间步和标签的方法。

评价指标。我们用Fréchet初始距离(FID)[18]来衡量缩放性能，这是评估图像生成模型的标准度量。在与之前的工作进行比较时，我们遵循惯例，并使用250 DDPM采样步骤报告FID-50K。众所周知，FID对小的实现细节[34]非常敏感;为了保证比较的准确性，本文报告的所有值都是通过导出样本和使用ADM的TensorFlow评估套件[9]得到的。除非另有说明，本节中报告的FID编号不使用无分类器指导。我们还报告盗梦评分[48]，sFID[31]和精度/召回[29]作为次要指标。

计算。我们在JAX[1]中实现所有模型，并使用TPU-v3 pod进行训练。DiT-XL/2是我们最密集的计算模型，在全球批处理大小为256的TPU v3-256 pod上以大约5.7次/秒的速度训练。

5. 实验结果

DiT块设计。我们训练了四个最高的Gflop DiT-XL/2模型，每个模型都使用了不同的块设计——情境(119.4 Gflops)、交叉注意(137.6 Gflops)、自适应层范数(adaLN, 118.6 Gflops)或adaLN- 0 (118.6 Gflops)。我们在整个训练过程中测量FID。图5显示了结果。adaLN-Zero块产生的FID比交叉注意和上下文条件反射都要低，但计算效率最高。在400K训练迭代中，使用adaLN-Zero模型实现的FID几乎是上下文模型的一半，这表明调节机制严重影响模型质量。初始化也很重要——adalnzero将每个DiT块初始化为恒等函数，显著优于普通adaLN。F或其余的纸张，所有模型将使用adaLN-Zero DiT块。

缩放模型大小和补丁大小。我们训练了12个DiT模型，覆盖了模型配置(S, B, L, XL)和补丁大小(8,4,2)。注意，DiT-L和DiT-XL在相对gflop方面比其他配置明显更接近。图2(左)给出了每个模型的Gflops和它们在400K训练迭代时的FID的概述。在所有情况下，我们发现增加模型大小和减少补丁大小产生显著改善的扩散模型。图6(上)展示了FID如何随着模型大小的增加和补丁大小保持不变而变化。在所有四种配置中，通过使Transformer更深更宽，FID在所有训练阶段都得到了显著的改进。类似地，图6(下)显示了当补丁大小减小且模型大小保持不变时的FID。我们再次观察到在整个训练过程中，通过简单地扩大DiT处理的令牌数量，保持参数大约固定，FID有了很大的提高。

DiT gflop是提高性能的关键。图6的结果表明，参数计数在决定DiT模型的质量方面最终并不重要。当模型尺寸保持不变，patch尺寸减小时，Transformer的总参数实际上是不变的，只有Gflops增加。这些结果表明，缩放模型Gflops实际上是提高性能的关键。为了进一步研究这一点，我们将FID-50K在400K训练步骤中与模型Gflops绘制在图8中。结果表明，具有不同大小和令牌的DiT模型在其总Gflops相似(例如DiT- s /2和DiT- b /4)时最终获得相似的FID值。事实上，我们发现模型Gflops和FID-50K之间存在很强的负相关，这表明额外的模型计算是改进DiT模型的关键因素。在图12(附录)中，我们发现这一趋势也适用于其他指标，如Inception Score。

较大的DiT模型计算效率更高。在图9中，我们将FID绘制为所有DiT模型的总训练计算的函数。我们估计训练计算为模型Gflops·批大小·训练步骤·3，其中因子3大致近似于向后传递的计算量是向前传递的两倍。我们发现，即使训练时间较长，与训练步骤较少的大型DiT模型相比，小型DiT模型最终也会变得计算效率低下。类似地，我们发现除了补丁大小之外相同的模型即使在控制训练Gflops时也具有不同的性能配置文件。例如，XL/4在大约1010 Gflops后的性能优于XL/2。

可视化扩展。我们在图7中可视化缩放对样本质量的影响。在400K训练步骤中，我们使用相同的起始噪声xtmax、采样噪声和类标签从我们的12个DiT模型中采样一张图像。这让我们可以直观地解释缩放如何影响DiT样本质量。事实上，缩放模型大小和令牌数量在视觉质量上都有显著的改善。

5.1. State-of-the-Art Diffusion Models

256×256 ImageNet。在我们的缩放分析之后，我们继续训练我们最高的Gflop模型DiT-XL/2，用于7M步长。我们在图1中展示了该模型的样本，并将其与最先进的类条件生成模型进行了比较。我们在表2中报告结果。当使用无分类器制导时，DiT-XL/2优于所有先前的扩散模型，将先前由LDM实现的最佳FID-50K从3.60降低到2.27。图2(右)显示DiT-XL/2 (118.6 Gflops)相对于LDM-4 (103.6 Gflops)等潜在空间U-Net模型的计算效率更高，并且比ADM (1120 Gflops)或ADM- u (742 Gflops)等像素空间U-Net模型的效率更高。我们的方法实现了所有先前生成模型中最低的FID，包括先前最先进的StyleGANXL[50]。最后，我们还观察到，与LDM-4和LDM-8相比，DiT-XL/2在所有测试的无分类器引导量表上获得了更高的召回值。当只训练2.35M步长(类似于ADM)时，XL/2仍然优于所有先前的扩散模型，其FID为2.55。

512×512 ImageNet。我们在ImageNet上以512 × 512分辨率训练一个新的DiT-XL/2模型，用于3M迭代，其超参数与256 × 256模型相同。在补丁大小为2的情况下，这个XL/2模型在对64 × 64 × 4输入潜在值(524.6 Gflops)进行补丁后，总共处理1024个令牌。表3显示了与最先进方法的比较。XL/2在此分辨率下再次优于所有先前的扩散模型，将ADM的最佳FID从3.85提高到3.04。即使增加了令牌数量，XL/2仍然保持计算效率。例如，ADM使用1983个gflop, ADM- u使用2813个gflop;XL/2使用524.6 gflop。我们在图1和附录中展示了来自高分辨率XL/2模型的样本。

5.2. Model Compute vs. Sampling Compute

与大多数生成模型不同，扩散模型的独特之处在于，它们可以在生成图像时通过增加采样步骤的数量来训练后使用额外的计算。考虑到模型Gflops在样本质量中的重要性，在本节中，我们将研究较小的模型计算dit是否可以通过使用更多的抽样计算来优于较大的dit。我们在400K训练步骤后计算所有12个DiT模型的FID，每张图像使用[16,32,64,128,256,1000]采样步骤。主要结果如图10所示。考虑使用1000个采样步骤的DiT-L/2与使用128个采样步骤的DiT-XL/2。在这种情况下，L/2使用80.7 tflop对每张图像进行采样;XL/2使用5倍少的计算量- 15.2 tflop -对每张图像进行采样。尽管如此，XL/2具有更好的FID-10K (23.7 vs 25.9)。一般来说，抽样计算不能弥补模型计算的不足。

6. 结论

我们介绍了扩散Transformer(DiTs)，这是一种简单的基于Transformer的扩散模型骨干，优于先前的U-Net模型，并继承了Transformer模型类的优秀缩放特性。鉴于本文中有希望的扩展结果，未来的工作应该继续将dit扩展到更大的模型和令牌数量。DiT还可以作为文本-图像模型(如DALL·e2和稳定扩散模型)的主干进行探索。

A. 其他实施细节

我们在表4中包含了关于所有DiT模型的信息，包括256 × 256和512 × 512模型。我们包括Gflop计数，参数，训练细节，fid等。我们还在表6中包括了来自ADM和LDM的DDPM U-Net模型的Gflop计数。DiT模型细节。为了嵌入输入时间步长，我们使用256维频率嵌入[9]，然后使用两层MLP，其维度等于Transformer的隐藏大小和SiLU激活。每个adaLN层将时间步长和类嵌入的和馈送到一个SiLU非线性层和一个线性层，输出神经元等于Transformer的隐藏大小的4× (adaLN)或6× (adaLN- 0)。我们在核心Transformer[16]中使用了GELU非线性(近似于tanh)。

B. VAE解码器消融

我们在实验中使用了现成的、预先训练好的V AEs。V AE模型(ft-MSE和ft-EMA)是原始LDM“f8”模型的微调版本(只有解码器权重进行了微调)。在第5节中，我们使用ft-MSE解码器来监控缩放分析的指标，我们使用ft-EMA解码器来处理表2和表3中报告的最终指标。在本节中，我们去掉了三种不同的V AE解码器的选择;LDM使用的原始译码器和Stable Diffusion使用的两个微调译码器。因为编码器在模型中是相同的，解码器可以在不重新训练扩散模型的情况下被替换。表5显示了结果;当使用LDM解码器时，XL/2优于所有先前的扩散模型。

C. 模型样本

我们展示了来自两个DiT-XL/2模型的样本，分别在512 × 512和256 × 256分辨率下训练3M和7M步长。图1和11显示了从两个模型中选取的样本。图13到32显示了两个模型在一系列分类器自由引导尺度和输入类别标签(使用250 DDPM采样步骤和ft-EMA VAE解码器生成)上的非策展样本。与之前使用指导的工作一样，我们观察到更大的尺度增加了视觉保真度，减少了样本多样性。

256 × 256分辨率下训练3M和7M步长。图1和11显示了从两个模型中选取的样本。图13到32显示了两个模型在一系列分类器自由引导尺度和输入类别标签(使用250 DDPM采样步骤和ft-EMA VAE解码器生成)上的非策展样本。与之前使用指导的工作一样，我们观察到更大的尺度增加了视觉保真度，减少了样本多样性。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
Spring WebFlux 响应式编程原理与实战指南
SpringWebFlux响应式编程原理与实战指南一、技术背景与应用场景随着微服务与高并发的迅速发展，传统的阻塞式编程模型在处理大量并发请求时容易导致线程资源耗尽、响应延迟增高。SpringWebFlux基于ReactiveStreams规范，通过非阻塞、背压机制，实现高吞吐、低延迟的Web服务。典型应用场景包括：实时数据推送：WebSocket或Server-SentEvents场景。高并发AP
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
游戏开发日记 future1412 学习数据结构 c#
如何用数据表来储存，位置坐标（XYZ）：决定了对象在世界中的摆放资源ID/图片URL：决定了使用什么模型或贴图事件ID/特效：是否触发某些事件（例如点击、交互）逻辑索引（GridIndex）：用于程序检索和映射用途这在策略类、模拟类、RPG游戏中非常常见，例如建筑布局、怪物摆放、地图资源点等。这个表格决定的是玩家事件，使用了的图片名称URL，格子的出入口设置，格子的类型，是否为检察点，场景id，副
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
django - admin后台管理-2-自定义模型类米兔-miny django -达内 django 分布式 python
注册自定义模型类若要自己定义的模型类也能在/admin后台管理界中显示和管理，需要将自己的类注册到后台管理界面注册步骤：在应用app中的admin.py中导入注册要管理的模型models类，如：from.modelsimportBook调用admin.site.register方法进行注册，如：admin.site.register(自定义模型类)#file:bookstore/admin.pyf
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

Scalable Diffusion Models with Transformers

Scalable Diffusion Models with Transformers

摘要

1. 介绍

2. 相关工作

3. Diffusion Transformers

3.1. Preliminaries

3.2. Diffusion Transformer Design Space

4. 实验设置

5. 实验结果

5.1. State-of-the-Art Diffusion Models

5.2. Model Compute vs. Sampling Compute

6. 结论

A. 其他实施细节

B. VAE解码器消融

C. 模型样本

你可能感兴趣的:(扩散模型,Transformer,深度学习,计算机视觉)