zzfive

Improved Techniques for Training Score-Based Generative Models论文阅读

论文链接：Improved Techniques for Training Score-Based Generative Models

文章目录

摘要
引言
背景
- 郎之万动力学
- 基于分数的生成模型
选择噪声尺度
- 初始的噪声尺度
- 其它噪声等级
- 结合噪音信息
配置退火朗之万动力学
EMA改善稳定性
组合所有技巧
- 定量结果
- 消融研究
- 更高分辨率
结论
更广泛的影响

摘要

基于分数的生成模型可以生成与GANs相当的高质量图像样本，而不需要对抗性优化。然而，现有的训练过程仅限于低分辨率的图像(通常低于32 × 32)，并且在某些设置下可能不稳定。本文提供了一种新的理论分析，从高维空间中基于分数的模型中学习和采样，解释现有的失败模式，并激励跨数据集推广的新解决方案。为了增强稳定性，本文建议保持模型权重的指数移动平均。通过这些改进，可以将基于分数的生成模型扩展到各种图像数据集，分辨率从64 × 64到256 × 256不等。本文基于分数的模型可以在各种图像数据集上生成与同类最佳GANs相媲美的高保真样本，包括CelebA、FFHQ和几个LSUN类别。

引言

基于分数的生成模型通过分数表征概率分布——一个指向数据可能性增长最快的方向的向量场。值得注意的是，这些分数函数可以从数据中学习，而不需要对抗性优化，并且可以生成在CIFAR-10等简单数据集上与GAN相媲美的真实图像样本。

尽管取得了成功，但由于几个限制因素，现有的基于分数的生成模型仅适用于低分辨率图像(32 × 32)。首先，通过去噪分数匹配学习分数函数。直观地说，这意味着一个神经网络(称为分数网络)被训练来去噪被高斯噪声模糊的图像。“基于分数的生成模型论文”中的一个关键见解是使用多个噪声尺度扰动数据，以便分数网络捕获粗粒度和细粒度的图像特征。然而，如何选择这些噪声尺度是一个悬而未决的问题。“基于分数的生成模型论文”中的推荐设置适用于32 × 32的图像，但当分辨率变高时表现不佳。其次，运行Langevin动力学生成样本。该方法从白噪声开始，使用分数网络逐步将其降噪成图像。然而，当用于高维和一个必然不完善的(学习的)分数网络时，这个过程可能会失败或需要非常长的时间才能收敛。

本文提出了一套将基于分数的生成模型扩展到高分辨率图像的技术。基于对简化混合模型的新的理论分析，提供了一种从训练数据分析计算有效高斯噪声尺度集的方法。此外，提出了一种有效的体系结构，用单个神经网络在大(可能是无限)个噪声尺度上摊销分数估计任务。基于对底层朗之万动力学采样过程收敛特性的简化分析，还导出了一种技术，以近似优化其性能作为噪声尺度的函数。将这些技术与模型参数的指数移动平均(EMA)相结合，能够显著提高样本质量，并成功地将分辨率从64 × 64缩放到256 × 256的图像，这在以前对于基于分数的生成模型来说是不可能的。如图1所示，样本清晰多样。

图1 基于数据集生成的样本，分辨率逐渐降低；从左至右：FFHQ 256 × 256、LSUN 卧室128 × 128、LSUN 塔楼128 × 128、LSUN 教堂及户外 96 × 96、CelebA 64 × 64

背景

郎之万动力学

对于任意连续可微的概率密度 $p (x)$ ，称 $_x \log p(x)$ 为其分数函数。在许多情况下，分数函数比原始概率密度函数更容易建模和估计。例如，对于非标准化密度，它不依赖于分区函数。一旦分数函数已知，就可以利用朗之万动力学从相应的分布中进行采样。给定步长 $α > 0$ ，迭代总次数 $T$ ，以及来自任何先验分布 $π (x)$ 的初始样本 $x_0$ ，朗之万动力学迭代地计算以下内容：
$x_t \leftarrow x_{t-1}+\alpha\nabla_x \log p(x_{t-1})+\sqrt{2\alpha}z_t,\quad 1\leq t \leq T\tag{1}$
其中 $z_t \sim N(0,1)$ 。当 $\alpha$ 足够小， $T$ 足够大时，在一定的规律性条件下， $x_T$ 的分布将接近 $p (x)$ 。假设有一个用 $θ$ 参数化的神经网络 $s_θ(x)$ (称为分数网络)，并且它已经被训练成： $s_θ(x)≈∇_x \log p(x)$ 。可以通过将公式1中的 $_x \log p(x_{t−1})$ 替换为 $s_θ(x_{t−1})$ 来近似从 $p (x)$ 生成样本。注意，公式1可以解释为对数密度 $\log p(x)$ 上的噪声梯度上升。

基于分数的生成模型

可以从数据中估计分数函数，并使用朗之万动力学生成新的样本，这个想法被命名为基于分数的生成建模。由于在没有训练数据的区域估计分数函数不准确，因此当采样轨迹遇到这些区域时，朗之万动力学可能无法正确收敛。作为补救措施，“基于分数的生成模型论文”提出用不同强度的高斯噪声扰动数据，联合估计所有噪声扰动数据分布的分数函数。在推理过程中，通过从每个噪声扰动分布顺序采样和朗之万动力学来组合来自所有噪声尺度的信息。

更具体地说，假设有一个潜在的数据分布 $p_{data}(x)$ ，并考虑满足 $\sigma_1>\sigma_2>\cdot\cdot\cdot>\sigma_L$ 的一系列噪声尺度 $\lbraceσ_i\rbrace^L_{ i=1}$ 。设 $p_{\sigma}(\tilde{x}|x)=N(\tilde{x}|x,\sigma^2I)$ ，并将相应的扰动数据分布表示为 $p_{\sigma}(\tilde{x}) \triangleq \int p_{\sigma}(\tilde{x}|x)p_{data}(x)dx$ 。“基于分数的生成模型论文”提出通过训练具有以下损失的联合神经网络 $s_θ(x,σ)$ (称为噪声条件分数网络)来估计每个 $p_{σ_i} (x)$ 的分数函数：
$\frac{1}{2L}\sum^L_{i=1}E_{p_{data}(x)}E_{p_{\sigma_i(\tilde{x}|x)}}[||\sigma_is_{\theta}(\tilde{x},\sigma_i)+\frac{\tilde{x}−x}{\sigma_i}||^2_2], \tag{2}$
其中可以使用经验平均值有效地估计所有期望。假设有足够的数据和模型容量，当训练到最优时(记为 $s_{θ^*}(x, σ)$ )，噪声条件分数网络(NCSN)几乎在任何地方都满足 $i:s_{θ^*}(x, σ_i) = ∇_x \log p_{σ_i}(x)$ 。

训练NCSN后，通过退火朗之万动力学生成样本，这是一种结合所有噪声尺度信息的方法。在算法1中提供了伪代码，该方法相当于在第 $i$ 步噪声尺度的特殊步长调度方案 $\alpha_i=\epsilon\,\sigma_i^2/\sigma_L^2$ 下，使用朗之万动力学依次从 $p_{σ_1}(x)、p_{σ_2}(x)，···，p_{σ_L}(x)$ 中采样。来自每个噪声尺度的样本用于初始化下一个噪声尺度的朗之万动力学，直到达到最小的一个，在那里它为NCSN提供最终的样本。

在NCSN第一次公开发布之后，Adversarial score matching and improved sampling for image generation注意到，在“基于分数的生成模型论文”中原始退火朗之万动力学之后增加一个额外的去噪步骤，通常可以显著提高FID分数，而不影响样本的视觉外观。这个去噪步骤不是直接返回 $x_T$ ，而是返回 $x_T + σ^2_Ts_θ(x_T,σ_T)$ (参见算法1)，它本质上是使用Tweedie公式从 $x_T$ 中去除不需要的噪声 $N(0,σ^2_TI)$ 。因此，本文在论文主体中对结果进行了更新，加入了这一去噪技巧，但在附录中保留了一些没有这一去噪步骤的原始结果，以供参考。

算法1

有许多设计选择对NCSNs的成功训练和推理至关重要，包括：(i)噪声尺度 $\lbrace σ_i \rbrace^L_{i=1}$ 的集合，(ii) $s_θ(x,σ)$ 合并 $σ$ 信息的方式，(iii)步长参数 $ε$ 和(iv)算法1中每个噪声尺度 $T$ 的采样步数。下文提供了理论上激励的方法来配置它们，而不需要手动调优，这将显著提高NCSNs在高分辨率图像上的性能。

选择噪声尺度

噪声尺度是NCSNs成功的关键。用单一噪声训练的分数网络永远无法对大图像产生令人信服的样本。直观地看，高噪声有利于分数函数的估计，但也会导致样本的损坏；而较低的噪声可以提供干净的样本，但使分数函数更难估计。因此，应该把不同的噪音尺度结合起来，以达到两全其美的效果。

当像素值范围为[0,1]时，NCSN上的原始工作建议选择 $\brace σ_i \rbrace^L_{i=1}$ 作为等比级数序列，其中 $L = 10， σ_1 =1， σ_L = 0.01$ 。最小噪声尺度 $σ_L = 0.01 \ll 1$ 是合理的，因为从噪声尺度下降的扰动分布中采样，希望在最后添加低噪声。然而，一些重要的问题仍然没有得到解答，这些问题对NCSNs在高分辨率图像上的成功至关重要：(1) $σ_1 = 1$ 合适吗?如果不是，应该如何调整不同数据集的 $σ_1$ ?；(ii)等比级数是一个好的选择吗?；(iii) L = 10是否适用于不同的数据集?如果不是，多少个噪声尺度是理想的?

下面从简单数学模型的理论分析出发，对上述问题进行解答。本文分析对于在实践中配置基于分数的生成建模是有效的，如后续实验结果所证实的那样。

初始的噪声尺度

退火朗之万动力学算法(算法1)是在大噪声条件下生成变化丰富的粗样本，收敛到小噪声条件下变化少的细样本的迭代细化过程。初始噪声尺度 $σ_1$ 在很大程度上控制了最终样本的多样性。为了提高样本的多样性，可以选择 $σ_1$ 尽可能大。然而，过大的 $σ_1$ 将需要更多的噪声尺度，并使退火朗之万动力学计算更加昂贵。下面将给出一个分析来指导 $σ_1$ 的选择，并提供一种技术来达到正确的平衡。

真实世界的数据分布很复杂，很难分析，所以用经验分布来近似它们。假设有一个数据集 $\lbrace x^{(1)}， x^{(2)}，···，x^{(N)} \rbrace$ ，是从 $p_{data}(x)$ 中采样的独立同分布数据。假设 $N$ 足够大，有 $p_{data}(x) \approx \hat{p}_{data}(x) \triangleq \frac{1}{N}\sum^N_{i=1}\delta(x=x^{(i)})$ ，其中 $\delta(\cdot)$ 表示一个点质量分布。当使用 $N(0,\sigma_1^2I)$ 扰动时，经验分布变成 $\hat{p}_{\sigma_1}(x) \triangleq \frac{1}{N}\sum^N_{i=1}p^{(i)}(x)$ ，其中 $p^{(i)}(x) \triangleq N(x|x^{(i)},\sigma^2_1I)$ 。为了在不考虑初始化的情况下生成不同的样本，自然期望朗之万动力学可以在从任何其他分量 $p^{(j)}(x)$ 初始化时探索任何分量 $p^{(i)}(x)$ ，其中 $\neq j$ 。朗之万动力学的性能由分数函数 $_x \log p_{σ_1}(x)$ (见式(1))所决定。

命题1：设 $\hat{p}_{\sigma_1}(x) \triangleq \frac{1}{N}\sum^N_{i=1}p^{(i)}(x)$ ，其中 $p^{(i)}(x) \triangleq N(x|x^{(i)},\sigma^2_1I)$ 。当 $r^{(i)}(x) \triangleq \frac{p^{(i)}(x)}{\sum^N_{k=1}p^{(k)}(x)}$ ，分数函数 $\nabla_x \log \hat{p}_{\sigma_1}(x)=\sum^N_{i=1}r^{(i)}(x) \nabla_x \log p^{(i)}(x)$ 。此外，
$E_{p^{(i)}(x)}[r^{(i)}(x)] \leq \frac{1}{2} \exp(-\frac{||x^{(i)}-x^{(j)}||^2_2}{8\sigma^2_1}).\tag{3}$

为了让朗之万动力学在 $\neq j$ 的情况下容易地从 $p_{(i)}(x)$ 过渡到 $p_{(j)}(x)$ ， $E_{p^{(i)}(x)}[r^{(j)}(x)]$ 必须相对较大，否则在初始化 $\sim p^{(i)}(x)$ 时， $∇_x \log \hat{p}_{σ_1}(x) = ∑^N_{k=1} r^{(k)}(x) ∇_x \log p^{(k)}(x)$ 将忽略 $p^{(j)}(x)$ (平均)分量，在这种情况下朗之万动力学将表现得好像 $p^{(j)}(x)$ 不存在一样。公式3的边界指出如果与 $x^{(i)}−x^{(j)}||_2$ 相比， $σ_1$ 较小，则 $E_{p^{(i)}(x)}[r^{(j)}(x)]$ 会以指数快速衰减。因此， $σ_1$ 有必要在数值上与数据的最大成对距离相比较，以促进朗之万动力学的转换，从而提高样本多样性。本文建议：

技巧1：(初始噪声尺度)。选择 $σ_1$ 与所有训练数据对之间的最大欧几里得距离一样大。

以CIFAR-10为例，所有训练图像之间成对距离的中值约为18，因此“基于分数的生成模型论文”中的 $σ_1=1$ 意味着 $E[r(x)] < 10^{−17}$ ，并且根据本文分析不太可能生成多样化的样本。为了测试根据技巧1选择 $σ_1$ (即 $σ_1 = 50$ )是否比使用 $σ_1=1$ 提供更多样化的样本，运行退火朗之万动力学从具有10000个分量的高斯混合分布中采样，其中每个分量都集中在一个CIFAR-10测试图像上。所有初始样本都是从 $0,1]^{32×32×3}$ 上的均匀分布中抽取的。这个设置允许避免由NCSN训练引入的混杂因素，因为训练使用了ground truth的分数函数。如图2所示，图2c(使用技术1)中的样本表现出与ground truth图像(图2a)相当的多样性，并且比图2b( $σ_1=1$ )的多样性更好。在数量上，图2c中样本的平均配对距离为18.65，与数据(17.78)相当，但远高于图2b(10.12)。

图2 运行退火朗之万动力学从CIFAR-10测试集中以图像为中心的高斯混合样本

其它噪声等级

在设置 $\sigma_L$ 和 $\sigma_1$ 后，需要选择噪声尺度的数量 $L$ ，并指定 $\lbrace \sigma_i \rbrace^L_{i=1}$ 。对于基于分数的生成模型的成功来说，确保 $p_{σ_i}(x)$ 在 $p_{σ_{i−1}}(x)$ 的高密度区域中所有 $1 < i \leq L$ 生成足够数量的训练数据至关重要。直观地说，当用来自 $p_{σ_{i−1}}(x)$ 的样本初始化朗之万动力学时，需要可靠的 $p_{σ_i}(x)$ 梯度信号。

然而，在 $\lbrace \sigma_i \rbrace^L_{i=1}$ 上进行广泛的网格搜索可能会非常昂贵。为了给寻找好的噪声尺度提供一些理论指导，考虑一个简单的情况，即数据集只包含一个数据点，或等价地， $1≤i≤L: p_{σ_i}(x) = N (x|0,σ_i^2I)$ 。第一步是更好地理解 $p_{σ_i}(x)$ 的分布，特别是当 $x$ 具有高维时。可以将超球坐标下的 $σ_i(x)$ 分解为 $p(\phi)p_{σ_i}(r)$ ，其中 $\phi$ 分别表示 $x$ 的径向坐标和角坐标。因为 $σ_i(x)$ 是一个各向同性的高斯分布，所以角分量 $p(\phi)$ 在所有噪声尺度上是均匀的和共享的。对于 $p_{σ_i}(r)$ ，有如下公式：

命题2：设 $\in R^D\sim N(0, \sigma^2I),\quad r = ||x||_2$ ，有
$p(r)=\frac{1}{2^{D/2-1}\Gamma(D/2)}\frac{r^{D-1}}{\sigma^D} \exp(-\frac{r^2}{2\sigma^2})，\quad r-\sqrt{D}\sigma \overset{d}{\to} N(0, \sigma^2/2) , \quad when \, D \to \infty.$

在实践中，图像数据的维数可以从几千到几百万不等，并且通常大到足以保证 $N(r|\sqrt{D}σ， σ^2/2)$ 的误差可以忽略不计。因此取 $p_{\sigma_i}(r)=N(r|m_i,s^2_i)$ 来简化分析，其中 $m_i \triangleq \sqrt{D}\sigma, \, s^2_i \triangleq \sigma^2/2$ 。

回想一下，目标是确保来自 $p_{σ_i}(x)$ 的样本将覆盖 $p_{σ_{i-1}}(x)$ 的高密度区域。因为 $p(\phi)$ 在所有噪声尺度上是共享的，所以 $p_{σ_i}(x)$ 已经覆盖了 $p_{σ_{i-1}}(x)$ 的角分量。因此，需要 $p_{σ_i}(x)$ 和 $p_{σ_{i-1}}(x)$ 的径向分量有很大的重叠。由于 $p_{σ_{i-1}}(r)$ 在 $\rm{I}_{i-1} \triangleq [m_{i-1}-3s_{i-1}, m_{i-1}+3s_{i-1}]$ 有高密度(“三西格玛经验法则”)，一种自然的选择是固定 $p_{σ_i}(r∈\rm{I}_{i−1})= Φ(\sqrt{2D}(\gamma_i−1)+ 3γ_i)−Φ(\sqrt{2D}(γ_i−1)−3γ_i) = C$ ，对于所有 $1 < i \leq L$ 都有一个中等大常数 $C > 0$ ，其中 $γ_i \triangleq σ_{i−1}/{σ_i}$ 和 $Φ (\cdot)$ 是标准高斯函数的CDF。这个选择立即意味着 $γ_2 = γ_3 =··γ_L$ ，因此 $\lbrace \sigma_i \rbrace^L_{i=1}$ 是一个几何级数序列。

理想情况下，应该选择尽可能多的噪声尺度，使 $C \approx 1$ 。然而，有太多的噪声尺度将使采样成本非常高，因为需要对每个噪声尺度依次运行朗之万动力学。另一方面，“基于分数的生成模型论文”原始设置中的 $L = 10$ (对于32 × 32张图像)可能太小， $C = 0$ 达到数值精度。为了达到平衡，本文建议 $C \approx 0.5$ ，此在本文的实验中表现良好。总之,

技巧2：(其它噪声尺度)。选取 $\lbrace \sigma_i \rbrace^L_{i=1}$ 为公比是 $γ$ 的几何级数序列(等比序列)，使 $Φ(\sqrt{2D}(\gamma−1)+ 3γ)−Φ(\sqrt{2D}(γ−1)−3γ)≈0.5$ 。

结合噪音信息

对于高分辨率图像，需要一个大的 $σ_1$ 和大量的噪声尺度，如技巧1和2。回想一下，NCSN是一个单一的平摊网络，它采用噪声尺度并给出相应的分数。在“基于分数的生成模型论文”中，作者在归一化层中使用一组单独的标度和偏置参数去合并来自每个噪声标度的信息。然而，它的内存消耗是随着 $L$ 线性增长的，当NCSN没有归一化层时，它就不适用了。

本文提出了一个更容易实现和更广泛适用的有效替代方案。对于前文分析的 $p_σ(x) = N (x|0,σ^2I)$ ，观察到 $E[||∇_x \log p_σ(x)||_2] ≈ \sqrt{D}/σ$ 。此外，正如“基于分数的生成模型论文”中经验指出的，对于在真实数据上训练的NCSN有 $s_θ(x,σ)||_2 ∝ 1/σ$ 。由于分数函数的范数与 $σ$ 成反比缩放，可以通过将无条件分数网络 $s_θ(x)$ 的输出缩放为 $1/ σ$ 来合并噪声信息。这促使出以下建议:

技巧3：(噪声条件)。用 $s_θ(x,σ) = s_θ(x)/σ$ 参数化NCSN，其中 $s_θ(x)$ 是一个无条件分数网络。

深度网络通常很难自动学习这种缩放，因为 $σ_1$ 和 $σ_L$ 可能相差好几个数量级。这种简单的选择更容易实现，并且可以轻松处理大量的噪声尺度(甚至是连续的)。如图3所示(具体设置见附录B)，与“基于分数的生成模型论文”中的原始噪声调理方法相比，它获得了相似的训练损失，生成的样本质量更好(见附录C.4)。

图3 两种噪声调理方法的训练损失曲线

配置退火朗之万动力学

为了从具有退火朗之万动力学的NCSN中采样，需要在算法1中指定每个噪声尺度下的采样步数 $T$ 和步长参数 $\epsilon$ 。“基于分数的生成模型论文”的作者建议 $\epsilon = 2 × 10^{−5},\,T = 100$ 。对于不同的噪声尺度，应该如何改变 $\epsilon$ 和 $T$ 仍然不清楚。

为了获得一些理论见解，回顾前文中的设置，其中数据集有一个点(即， $p_{σ_i}(x) = N(x|0,σ^2_i)$ )。退火的朗之万动力学通过用从 $p_{σ_{i-1}}(x)$ 获得的样本初始化 $p_{σ_i}(x)$ 的朗之万动力学，将两个相邻的噪声尺度 $σ_{i−1} > σ_i$ 连接起来。当将朗之万动力学应用于 $p_{σ_i}(x)$ 时，有 $x_{t+1} ← x_t + α∇_x \log p_{σ_i}(x_t) + \sqrt{2α}z_t$ ，其中 $x_0 ∼ p_{σ_{i−1}}(x)$ 和 $z_t ∼ N(0,I)$ 。 $x_T$ 的分布可以以封闭形式计算：

命题3：设 $\gamma=\frac{\sigma_{i-1}}{\sigma_i}$ 。对于算法1中的 $\alpha = \epsilon \cdot \frac{\sigma^2_i}{\sigma^2_L}$ ，有 $x_T \sim N(0, s^2_TI)$ ，其中
$\frac{s^2_T}{\sigma^2_i}=(1-\frac{\epsilon}{\sigma^2_L})^{2T}(\gamma^2-\frac{2\epsilon}{\sigma^2_L-\sigma^2_L(1-\frac{\epsilon}{\sigma_L^2})^2})+\frac{2\epsilon}{\sigma^2_L-\sigma^2_L(1-\frac{\epsilon}{\sigma_L^2})^2}.\tag{4}$

当 $\lbrace σ_i \rbrace^L_{i=1}$ 是技巧2所倡导的等比级数时，立即看到 $s^2_T/σ^2_i$ 在所有 $1 < i ≤ T 1 中是相同的，因为共享 γ γ 。此外， s T 2 / σ i 2 s^2_T/σ^2_i 的值与维度 D D 没有明显的相关性。为了更好地混合退火后的朗之万动力学，希望 s T 2 / σ i 2 s^2_T/σ^2_i 在所有噪声尺度上都接近1，这可以通过寻找 ϵ \epsilon 和 T T 使公式4和1之间的差最小化来实现。不幸的是，这通常会导致不必要的大 T T ，使得大 L L 的采样非常昂贵。作为一种替代方案，建议首先根据合理的计算预算(通常 T × L T × L 是几千)选择 T T ，然后通过使公式4尽可能接近1来寻找 ϵ \epsilon 。总而言之:$

技巧4：(选择 $\epsilon$ 和 $T$ )。选择计算预算允许的最大 $T$ ，然后选择使公式4尽可能接近1的 $\epsilon$ 。

本文遵循这个指导来生成本文中的所有样本，除了那些来自原始NCSN的样本，其中采用与“基于分数的生成模型论文”中相同的设置。当使用技巧4和公式4进行查找时，建议执行网格搜索 $\epsilon$ ，而不是使用基于梯度的优化方法。

EMA改善稳定性

与GANs不同，基于分数的生成模型有一个统一的目标(公式2)，不需要对抗性训练。然而，尽管NCSNs的损失函数通常在训练过程中稳步下降，但观察到生成的图像样本有时表现出不稳定的视觉质量，特别是对于较大分辨率的图像。通过在CIFAR-10 32 × 32和CelebA 64 × 64数据集上按照“基于分数的生成模型论文”的设置训练NCSNs经验地证明这一事实，也表明了其他图像数据集上的典型行为。本文公布了在1000个样本上计算的每进行5000次迭代的FID分数。图4中的结果是经过去噪步骤计算得到的，但是没有去噪步骤的结果是相似的(见附录C.1中的图8)。如图4和图8所示，在训练过程中，原始NCSN的FID分数经常出现显著波动。此外，来自原始NCSN的样本有时会表现出特征伪影：来自同一检查点的图像样本具有强烈的同一公共颜色漂移的趋势。此外，在整个训练过程中，样本会转向不同的颜色。在附录C.3中提供了更多的示例来说明这个情况。

图4 训练过程中的FID和颜色伪影；原始NCSN的FID曲线比使用EMA的NCSN后FID曲线波动剧烈；原始NCSN生成的样本通常具有明显的颜色偏移

这个问题可以很容易地通过==指数移动平均(EMA)==固定。具体来说，设 $θ_i$ 表示第 $i$ 次训练迭代后NCSN的参数， $θ^′$ 是参数的独立副本。在每个优化步骤之后，用 $\theta^{'} \leftarrow m\theta^{'}+(1-m)\theta_i$ 更新 $\theta^{'}$ ，其中 $m$ 是动量参数，通常 $m = 0.999$ 。在生成样本时，使用 $s_{θ^{'}}(x,σ)$ 而不是 $s_{θ_i}(x,σ)$ 。如图 4 所示，EMA可以有效地稳定FID，去除伪影（附录 C.3 中的更多样本），并在大多数情况下提供更好的FID分数。根据经验，观察到EMA的有效性在大量不同的图像数据集中很常见。因此，建议以下经验法则：

技巧5：(EMA)。训练时进行EMA，模型使用EMA后的参数进行采样。

组合所有技巧

采用技巧1-5，构建了可以在大量不同数据集上轻松工作的NCNS，包括以前基于分数的生成建模无法实现的高分辨率图像。本文的修正模型被命名为NCSNv2。关于实验细节和更多结果的完整描述，请参见附录B和C。

定量结果

考虑CIFAR-10 32×32和CelebA 64×64，其中NCSN和NCSNv2都产生了合理的样本。在1000个样本上每5000次训练中计算FID(越低越好)，并给出图5(去噪)和图9(不去噪，见附录C.1)中的结果。如图5和图9所示，观察到NCSNv2(应用了所有技术)的FID分数平均而言优于NCSN，并且在训练过程中的方差要小得多。在“基于分数的生成模型论文”之后，本文选择在训练期间遇到的FID最小的检查点(在1000个样本上)，并在其中的更多样本上计算完整的FID和Inception分数。从表1的结果可以看出，NCSNv2 (不去噪/去噪)能够显著提高NCSN在CIFAR-10和CelebA上的FID分数，而在CIFAR-10上略微降低Inception分数。然而，注意到Inception和FID分数存在已知问题，应谨慎解释，因为它们可能与预期的视觉质量不相关。特别是，它们可以对轻微的噪声扰动敏感，如表1中去噪和不去噪的分数差异所示。为了验证NCSNv2生成的图像确实比NCSN更好，在附录C.4中提供了额外的非精选样本进行视觉比较。

图5 使用不同技巧的FID分数；“NCSN”的下标是有效技巧的ID；“NCSNv2”使用了所有技巧
表1 Inception和FID分数
消融研究

进行消融研究，以隔离不同技术的贡献。将所有技术分为三组：(i)技巧5，(ii)技巧1、2、4和(iii)技巧3，不同的组可以同时应用。技巧1、2和4被分组在一起，因为技巧1和2共同决定了噪声尺度的集合，并且从使用这些噪声尺度训练的NCSNs中采样，需要技巧4来正确配置退火朗之万动力学。测试了从NCSNv2中依次去除组(iii)， (ii)， (i)的性能，并在图5中报告了去噪采样的结果，在图9(附录C.1)中报告了不去噪采样的结果。所有的技巧组都比普通NCSN有所改进。尽管在逐步去除(iii)、(ii)和(i)时，FID分数并没有严格地增加，但注意到FID可能并不总是与样本质量很好地相关。事实上，通过目测，确实观察到了样品质量的下降(见附录C.4)，并结合所有技术得到了最好的样品。

更高分辨率

原始的NCSN只能成功地生成低分辨率的图像。事实上，“基于分数的生成模型论文”只在MNIST 28 × 28和CelebA/CIFAR-10 32 × 32上进行了测试。对于略大的图像，如CelebA 64 × 64, NCSN可以生成全局结构一致的图像，但具有较强的颜色伪影，很容易被注意到(见图4，并将图10a与图10b进行比较)。对于分辨率超过96 × 96的图像，NCSN将完全无法生成结构或颜色正确的样本(如图7所示)。这里所示的所有样本都是在没有去噪步骤的情况下生成的，但由于 $σ_L$ 非常小，在视觉上与去噪步骤的样本难以区分。

通过结合技巧1-5，NCSNv2可以处理更高分辨率的图像。请注意，本文直接计算了训练NCSNs的噪声尺度，并计算了退火朗之万动力学采样的步长，而无需手动超参数调优。网络架构在数据集之间是相同的，除了对于分辨率更高的数据集，本文使用更多的层和更多的过滤器来确保接受域和模型容量足够大(详见附录B.1)。在图6和图1中，展示了NCSNv2能够生成分辨率从96 × 96到256 × 256的高保真图像样本。为了表明这种高样本质量不是数据集记忆的结果，提供了用于训练/测试的损失曲线，以及附录C.5中样本的最近邻居。此外，NCSNv2可以在两个给定样本之间产生平滑的插值，如图6所示(详见附录B.2)，表明了学习可泛化图像表示的能力。

图6 从上到下每两行为同一个数据集生成样本：FFHQ 256x256、 LSUN bedroom 128x128、 LSUN tower 128x128、LSUN church_outdoor 96x96；在每组图像中，第一行显示来自NCSNv2的非策展样本，第二行显示使用NCSNv2的最左和最右样本之间的插值结果；可以放大查看更多细节
图7 LSUN church_outdoor (a)、(b)和LSUN bedroom (c)、(d)上的NCSN vs. NCSNv2样本
结论

在理论分析和实证观察的激励下，本文提出了一套改进基于分数的生成模型的技术。提出的技术显著改善了训练和采样过程，导致更好的样本质量，并能够以高分辨率生成高保真图像。尽管提出的技术不需要手动调优就能很好地工作，但相信通过微调各种超参数可以进一步提高性能。未来的研究方向包括对基于分数的生成模型样本质量的理论理解，以及高斯扰动的替代噪声分布。

更广泛的影响

本文工作代表了向更强大的生成模型又迈进了一步。虽然关注的是图像，但类似的技术很可能也适用于其他数据形式，如语音或行为数据(在模仿学习的背景下)。与之前提出的其他生成模型(如GANs和WaveNets)一样，分数模型也有很多应用。在许多其他应用中，它们可以用于自动合成新数据，检测异常和对抗的例子，还可以提高半监督学习和强化学习等关键任务的结果。反过来，这些技术可以对社会产生积极和消极的影响，这取决于应用。特别是，在图像数据集上训练的模型可以用来合成人类难以与真实图像区分的新图像。来自生成模型的合成图像已经被用于恶意欺骗人类。这些技术也有积极的用途，例如在艺术和作为辅助工程设计的工具。还注意到，本文的模型是在有偏见的数据集上训练的(例如，CelebA不是性别平衡的)，除了由所谓的模型归纳偏见引起的其他分布之外，学习的分布很可能继承了它们。

深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
从文档海洋到智能问答：用大模型和RAG打造下一代企业知识库的实战之路电脑能手人工智能算法语言模型深度学习 python
从文档海洋到智能问答：用大模型和RAG打造下一代企业知识库的实战之路摘要：在信息爆炸的今天，企业内部文档（如SOP、技术手册、FAQ）数量激增，传统的关键词搜索常常让我们在“文档海洋”中迷失。本文将分享一次从0到1的实战探索，讲述如何利用大语言模型（LLM）和检索增强生成（RAG）技术，将静态、孤立的知识库，重塑为一个能“思考”和“对话”的智能问答系统。我们将从理念澄清、技术选型、代码实战到未来展
GraphRAG革命性突破！美国Cedars-Sinai医疗中心揭秘：知识增强大模型如何重塑阿尔茨海默病基因研究与治疗？ DeepSeek-大模型系统教程人工智能大模型 chatgpt 语言模型 ai 大模型学习大模型教程
摘要：随着阿尔茨海默病患者人数不断攀升，Cedars-Sinai医学中心通过知识图谱和AI技术，打造了AlzKB阿尔茨海默病知识库，用以推动新型病因和药物的发现。本文详解这些前沿工具如何结合，赋能专业人士实现高效科研转化，为认知障碍领域带来突破正文据估计，690万65岁及以上的美国人患有阿尔茨海默病。如果没有重大的医学突破，预计到2060年，美国这一数字将上升到1380万，到2050年全球将上升到
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
《ONNX推理部署全解析：从基础到进阶的实用指南》空云风语人工智能深度学习神经网络人工智能深度学习神经网络 YOLO ONNX
ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
spring stomp+rabbitmq实现点对点消息推送 huhuhu1234565asdf spring java rabbitmq websocket
当前的项目需要用到消息推送这个功能，领导拍板说用stomp+rabbitmq。但是我百度了一下，没找到特别好的博客，特此写篇博客记录下，希望对初学stomp的人一点帮助。学习stomp之前，先来扯扯tcp和http。我们知道，tcp是全双工的，也就是说建立tcp的双方是可以互相主动通信的。http呢，是一个应用层协议，使用tcp作为传输层，但是http的模型是request/response，也就
yolo11官方ONNXRuntime部署推理的脚本测试，包括检测模型和分割模型的部署推理 Revao YOLO python
一、检测模型1.脚本路径：D:/ultralytics-main/examples/YOLOv8-ONNXRuntime/main.py2.使用案例下载好onnx模型保存至D:/ultralytics-main/models目录下，没有该目录则新建打开终端，进入虚拟环境以yolov8n.onnx模型为例，输入以下指令即可pythonD:/ultralytics-main/examples/YOLO
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
提示技术系列（六）——链式提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
第2期汽车模型数字工程沙龙，世冠科技分享汽车控制系统开发国产应用世冠科技科技汽车仿真系统工业软件软件工程
2025年6月30日，“汽车模型数字工程学术沙龙线上交流会”第2期完播，本期沙龙聚焦汽车领域研发前沿技术，深入探讨了车辆控制系统数字化工程的核心技术。在会上，世冠科技系统仿真应用专家以“基于模型的控制系统开发”为主题展开分享。世冠科技汽车电控系统开发领域的整体解决方案，是基于国产化工具链GCKontrol-GCAir的汽车控制系统模型驱动开发实践。该实践涵盖从单元模型建立、代码生成（C代码及Ver
【CVPR2024】计算机视觉|即插即用|DFAM:marine！不懂DFAM，别说你会做水下动物分割！
论文地址：http://arxiv.org/pdf/2404.04996v1代码地址：https://github.com/Drchip61/Dual_SAM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要本研究提出了一种新颖的特征学习框架，名为**Dual-SAM，用于高性能的海洋动物分割
规则书在自动驾驶中的作用初学大模型自动驾驶
我们应该知道自动驾驶的重要性，它对车辆的控制牵扯到车内人员安全，车外的人的安全（车外哪里的人都不安全，有人会问车能上树？现在车真能上树，车能进屋，哎车真能进屋）所以责任重大，而大模型不具备边界清晰的控制，所以我们必须用规则库来做最后的底线。规则库在plc中还在应用，来实现精准控制机器生产产品，使合格率很高，正因为有清晰的边界，致使机器操作精准，虽然自动辅助驾驶用大模型可以更接近人类的操作，但大模型
YOLOv5Lite模型量化与TFLite转换全流程指南神经网络15044 仿真模型深度学习神经网络 YOLO 神经网络人工智能深度学习网络机器学习
YOLOv5Lite模型量化与TFLite转换全流程指南1.引言在边缘计算和移动设备上部署目标检测模型时，模型大小和推理速度是关键考量因素。YOLOv5Lite作为YOLO系列的轻量级变种，专为资源受限环境设计。然而，要进一步优化模型性能，量化(Quantization)和转换为TFLite格式是必不可少的步骤。本文将详细介绍从训练好的YOLOv5Lite模型到量化TFLite模型的完整转换流程，
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
【嵌入式ARM汇编基础】-ELF文件格式内部结构详解（四）视觉与物联智能嵌入式Linux与边缘智能 arm开发汇编嵌入式硬件物联网 RK3588
ELF文件格式内部结构详解（四）文章目录ELF文件格式内部结构详解（四）15、ELF程序初始化和终止部分15.1初始化和终止顺序16、线程局部存储16.1本地执行TLS访问模型16.2Initial-ExecTLS访问模型16.3通用动态TLS访问模型16.4本地动态TLS访问模型15、ELF程序初始化和终止部分一旦程序加载到内存中，其依赖关系得到满足，并且已正确重定位并链接到其共享库依赖项，加载
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
Python训练营-Day41 m0_72314023 python 深度学习神经网络
#原始模型（2层卷积）classOriginalCNN(nn.Module):def__init__(self):super().__init__()self.conv1=nn.Conv2d(1,16,3)self.conv2=nn.Conv2d(16,32,3)self.fc=nn.Linear(32*5*5,10)defforward(self,x):x=torch.relu(self.con
大模型黄金时代！IT人转行指南：有人薪资翻倍，35+仍吃香_转行大模型！
高薪背后，是百万人才缺口与IT人前所未有的转型机遇当传统IT岗位增长放缓，一个全新领域正以惊人的速度重塑技术人才格局：大模型算法岗平均月薪突破6.8万元，AI产品经理岗月薪近5万元，自动驾驶等AI岗位扩招幅度高达60%36。与此同时，人社部数据显示我国人工智能领域人才缺口超过500万，供需比例达1：106。曾经焦虑“35岁危机”的程序员们发现，那些深耕大模型领域的同行不仅未被淘汰，反而成为企业竞相
大模型卷出新高度|暴雨AI服务器M8878助解算力之困 BAOYUCompany 人工智能服务器运维
当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。AI热度和话题持续火
遗传算法：原理、实现与应用的全面解析 2后啥样算法
摘要本文深入探讨遗传算法这一模拟自然进化过程的计算模型，详细阐述其核心原理、关键步骤、实现方式及在多领域的应用。通过分析遗传算法与传统优化算法的差异，结合实际案例展示其在解决复杂优化问题上的优势，并探讨算法的改进策略与未来发展趋势，旨在为相关领域研究和实践提供全面理论支撑与实践指导，助力解决复杂优化难题，推动技术创新与发展。一、引言在现代科学与工程领域，诸多问题可归结为优化问题，如资源分配、路径规
三体融合实战：Django+讯飞星火+Colossal-AI的企业级AI系统架构 IT莫染 Function Module AI大模型工具及插件 django 人工智能系统架构讯飞星火 Colossal-AI WebSocket
目录技术栈关键词：Django5.0讯飞星火4.0UltraColossal-AI1.2WebSocket联邦学习⚡核心架构设计️一、Django深度集成讯飞星火API（免费版）1.获取API凭证2.流式通信改造（解决高并发阻塞）3.Django视图层集成⚡二、Colossal-AI加速多模型适配策略1.私有模型微调方案2.多模型路由逻辑三、私有化部署安全加固方案1.三重安全防护体系2.请求签名防
破解风电运维“百模大战”困局，机械版ChatGPT诞生？我不是哆啦A梦故障诊断机器学习信号处理人工智能运维 chatgpt 算法 python
面对风机87%的非计划停机，30多个专用模型为何束手无策？一套通用大模型如何实现轴承、齿轮、转子“一站式”健康管理？一、行业痛点：风机运维深陷“碎片化泥潭”1.187%停机故障由多部件引发齿轮断裂、轴承磨损、电机短路……风电故障如同“并发症”，而传统模型却是“专科医生”——仅能诊断单一部件。1.2华电电科院的运维困局华电电科院为206个风场、超1万台机组开发30多个专用模型，却因设备型号、工况差异
ABP VNext + RediSearch：微服务级全文检索 Kookoos Abp vNext .net 微服务全文检索架构 ABP vNext Redis
ABPVNext+RediSearch：微服务级全文检索目录ABPVNext+RediSearch：微服务级全文检索一、背景与动机️二、环境与依赖2.1DockerCompose启动RedisStack2.2Kubernetes部署（示例Manifest）2.3ABPVNext&NuGet包️三、架构与流程图️四、索引模型与依赖注入4.1模型定义4.2服务注册️五、IndexService&Sea
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
大模型中的temperature、topk、topn、repetition_penalty等参数原理 seetimee 大模型技术细节大模型
核心就在于采样策略，一图胜千言：上图中语言模型(languagemodel)的预测输出其实是字典中所有词的概率分布，而通常会选择生成其中概率最大的那个词。不过图中出现了一个采样策略(samplingstrategy)，这意味着有时候我们可能并不想总是生成概率最大的那个词。设想一个人的行为如果总是严格遵守规律缺乏变化，容易让人觉得乏味；同样一个语言模型若总是按概率最大的生成词，那么就容易变成XX讲话
强制访问控制，安全模型，基于角色的访问控制模型 Lmar 安全
3、强制访问控制自主访问权限为用户提供了很大的灵活性，从而导致系统安全的薄弱。强制访问控制事先规定了某一个客体对哪些客体允许进行什么样的访问安全策略：（根据安全需求指定相应的安全策略）为了描述系统的安全需求而指定的对用户行为进行约束的一套严谨的规则。规定了系统中哪些访问是被允许的，用计算机能表达的方式表达出来，用于指导建立相应的强制访问控制机制。a)军事安全策略安全需求是信息的保密性多级安全1.信
信息安全工程师（34）访问控制模型
前言访问控制模型是实现访问控制的基础，不同的访问控制模型提供了不同的访问控制策略和机制，以适应不同的安全需求。一、自主访问控制模型（DAC）定义：指资源的所有者有权决定谁可以访问其资源以及访问的方式。资源的所有者可以根据需要自由地修改访问控制列表（ACL），从而控制其他用户对该资源的访问。优点：灵活性高，资源所有者可以根据具体情况随时调整访问权限。缺点：由于权限管理的灵活性，容易导致权限滥用和安全
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Improved Techniques for Training Score-Based Generative Models论文阅读

文章目录

摘要

引言

背景

郎之万动力学

基于分数的生成模型

选择噪声尺度

初始的噪声尺度

其它噪声等级

结合噪音信息

配置退火朗之万动力学

EMA改善稳定性

组合所有技巧

定量结果

消融研究

更高分辨率

结论

更广泛的影响

你可能感兴趣的:(生成模型,扩散模型,论文阅读,论文阅读,深度学习,计算机视觉)