EDPJ

（2023|AAAI，MS-VQGAN，分层扩散，PyU-Net，粗到细调制）Frido：用于复杂场景图像合成的特征金字塔扩散

Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 基础

3. 方法

3.1 学习多尺度感知潜在

3.2 特征金字塔潜在扩散模型

4. 实验

4.1 数据集和评估

4.2 条件复杂场景生成

4.3 模型分析

5. 相关工作

6. 结论

附录

E. 附加讨论

E.1 限制和未来方向

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

Frido 是一种特征金字塔扩散模型，用于图像合成，尤其适用于复杂场景。它通过多尺度的从粗到细的去噪过程来生成图像，可以很好地描述图像的全局结构和对象细节。该模型将输入图像分解为依赖于尺度的矢量量化特征，然后进行从粗到细的调制以生成图像输出。在多尺度表示学习阶段，还可以利用额外的输入条件，如文本、场景图或图像布局。因此，Frido 也适用于有条件的或跨模态的图像合成。作者进行了广泛的实验，涵盖了各种无条件和有条件的图像生成任务，包括从文本到图像的合成、从布局到图像、从场景图到图像以及从标签到图像。具体来说，在五个基准任务上，即在 COCO 和 OpenImages 上的布局到图像、在 COCO 和 Visual Genome 上的场景图到图像，以及在 COCO 上的标签到图像，Frido 实现了最先进的 FID 分数。

代码地址：https://github.com/davidhalladay/Frido

1. 简介

在计算机视觉研究中，生成逼真的照片是一项关键任务。在这个任务中，设计一个生成模型，该模型能够学习给定一组图像的潜在数据分布，并能够从所学分布中合成新样本。为实现这一目标，提出了一系列方法，包括 VAEs（Kingma和Welling 2014; Van Den Oord，Vinyals等，2017），GANs（Goodfellow等，2014; Radford，Metz和Chintala，2015），基于流的方法（Dinh，Krueger和Bengio，2014; Kingma和Dhariwal，2018），以及流行的扩散模型（DMs）（Sohl-Dickstein等，2015; Ho，Jain和Abbeel，2020）。随着这些工作的贡献，生成图像的质量得到了快速提高。此外，这一任务本身也从无条件的以目标为中心的图像合成发展到了复杂场景图像生成，有时是基于多模态条件（例如文本、布局、标签和场景图）。

最近，扩散模型（Ho、Jain和Abbeel 2020; Nichol和Dhariwal 2021; Ho等人 2022; Rombach等人 2022; Ramesh等人 2022）展示了在高质量图像合成方面具有卓越能力，并在多个任务上胜过其他生成方法，包括但不限于无条件图像生成、文本到图像生成和图像超分辨率。尽管有了令人鼓舞的进展，但扩散模型可能在目标图像更加复杂且条件输入高度抽象的情况下表现不佳。在这些任务中，对象和部分的组合以及高级语义关系占主导地位，这些在早期以目标为中心的基准测试中较少见，可能对更高质量的生成至关重要。

特别是，我们指出现有 DM 工作中存在两个主要挑战。首先，大多数现有的 DM 处理单一尺度/分辨率下的特征图或图像像素，这可能无法捕捉现实世界复杂场景中的图像语义或组合。以图 1 的第一行为例，可以看到，虽然 LDM（Rombach等人 2022）基于文本条件生成了包含 “人” 的图像，但 “骑摩托车” 和 “背景中的山” 等语义结构没有得到充分表现。其次，通常需要大量的计算资源来训练和测试 DM，因为需要进行迭代去噪过程，特别是用于生成高分辨率输出。这不仅限制了可访问性，还导致大量的碳排放。因此，一种能够利用粗略/高层次合成输出引入多尺度视觉信息的计算效率高的扩散模型将是可取的。

为了解决这些限制，我们提出了 Frido（Feature Pyramid Diffusion model），一种用于生成复杂场景图像的特征金字塔扩散模型。Frido 是一种新颖的多尺度粗到细扩散和去噪框架，允许合成具有增强全局结构保真度和逼真物体细节的图像。具体来说，我们引入了一种新颖的特征金字塔 U-Net（PyU-Net）和粗到细的调制设计，使我们的模型能够以自上而下的方式去噪来自多个空间尺度的视觉特征。这些多尺度特征由我们的 MS-VQGAN 生成，这是一种新设计的 VQGAN 的多尺度变种，它将图像编码成多尺度视觉特征（离散潜在编码）。如图 1 所示，随着特征逐渐去噪，图像以从全局结构到细粒细节的粗到细的方式重建（由我们的 MS-VQGAN 解码器解码）。另一方面，最近的一种竞争性扩散模型（Rombach等人 2022）在空间尺度上均匀重建图像。

Frido 是一个通用的扩散框架，可以从多种多样的多模态输入合成图像，包括文本、盒式布局、场景图和标签。此外，我们的模型引入了最少的额外参数，同时允许我们加速传统 DM 的明显缓慢的推理。进行了大量实验来展示新设计的有效性。

我们的贡献总结如下：(i) 我们提出了 Frido，一种新颖的扩散模型，用于从多模态输入生成逼真的图像，具有扩散模型范式中尚未充分探索的粗到细的先验。 (ii) 从实证角度看，我们取得了 5 个新的最先进的成果，包括 COCO 和 OpenImages 上的布局到图像、COCO 和 Visual Genome上的场景图到图像以及 COCO 上的标签到图像，所有这些都是具有高度抽象条件的复杂场景。 (iii) 在实践中，Frido 的推理速度很快，通过与已经很快的扩散模型 LDM 进行了并排比较来展示。

2. 基础

已经提出了多种生成逼真照片的方法，包括 VAEs、GANs 和 Invertible-Flows，并在以目标为中心的图像方面取得了令人印象深刻的结果。然而，VAEs 存在模糊的输出。GANs 训练困难，缺乏多样性。基于流的模型由于不完美的逆变换而遭受形状扭曲。我们的工作属于扩散模型（DMs）的范式，已经被证明在所有深度生成方法中，最能合成高质量的图像。为了完整起见，我们总结了 DMs 的基本原理以及最近的改进，即潜在扩散模型（LDMs）（Rombach等人 2022）。

3. 方法

尽管现有的 DM（扩散模型）可以为单个对象生成具有出色质量的高分辨率图像，但它们大多只处理单一分辨率的特征图或图像像素。因为它们平等地对待高低级别的视觉概念，这使得这些 DM 模型难以描述相应的图像语义或构成。这可能限制了它们用于合成复杂场景图像的能力。

为了增强 DM 的全局结构建模，我们提出通过特征金字塔以粗到细的方式对潜在特征进行建模。首先，我们引入了多尺度矢量量化模型（Multi-Scale Vector Quantization model，MS-VQGAN），它将图像编码为多个空间层次的潜在编码。接下来，我们提出了特征金字塔扩散模型（Frido），将扩散和降噪扩展到多尺度、粗到细的方式。为了实现这一目标，我们设计了一种新的特征金字塔U-Net（PyU-Net），配备了特殊的调制机制，允许进行粗到细的学习。在本节中，我们将详细介绍每个组件。

3.1 学习多尺度感知潜在

在以粗到细的方式对图像进行建模之前，我们首先将图像编码成具有多个空间分辨率的潜在编码。借鉴于 VQGAN（Esser, Rombach, and Ommer 2021），我们训练了一个多尺度自编码器，命名为 MSVQGAN，它包括特征金字塔编码器 E 和解码器 D。如图 3a 所示，给定图像 x_0，编码器 E首先生成一组 N 个尺度的潜在特征图集合

这里，N 表示特征图的数量（阶段数），c 表示特征的通道大小，s 表示最大特征图的大小。在这个设计中，我们鼓励 z^1 保留更低级别的视觉细节，而 z^N 代表更高级别的形状和结构。其次，在量化和融合之后，我们将这些特征上采样到相同的形状，将它们连接起来，然后将它们馈送到解码器 D 来重建图像 D(Z) = ~x_0。这个自编码器模块的目标函数是 x0 和 ~x0 之间的 L2 损失的加权和，以及 VQGAN 中的其他感知损失（补丁鉴别损失和感知重建损失）。

需要强调的是，通过这种设计，MS-VQGAN 不仅可以将输入图像编码成具有不同语义级别的多尺度编码，还可以保留更多的结构和细节，如后面模型去除的部分将在第 4.3 节中分析。

3.2 特征金字塔潜在扩散模型

在训练完成 MS-VQGAN 后，我们可以使用它将图像编码成多层次的特征图 Z。接下来，我们引入特征金字塔扩散模型（Frido）来建模底层特征分布，然后从噪声生成图像。与其他 DM 不同， Frido 包含两个部分：扩散过程和去噪过程。

Frido 的扩散过程。与在 T 步骤中同时在所有 N 个特征尺度 Z = {z^1, ..., z^N} 上添加噪声不同，我们按顺序进行扩散过程，从低级（z^1）到高级（z^N），每个级别进行 T 个扩散步骤（总共 N * T 个时间步），请参见图 3b 的上半部分。与经典的扩散过程（以无偏差的方式破坏像素成噪声）不同，我们观察到 Frido 的扩散过程从破坏对象的细节开始，然后是对象的形状，最后是整个图像的结构。这使 Frido 能够捕获不同语义级别的信息。请参见图 1 以获取定性示例。

Frido 的去噪过程。在去噪阶段，训练了一系列神经功能估算器 ε_(θ, t, n)，其中 t = 1, 2, ..., T 且 n = N, N - 1, ..., 1。为了进行逐层去噪，我们引入了一种新颖的特征金字塔 U-Net（PyU-Net）作为神经逼近器。PyU-Net 可以按顺序从高级 z^N 到低级 z^1 去噪多尺度特征，实现从粗到细的生成。需要强调的是，与 LDM 不同，我们的 PyU-Net 更适合于粗到细的扩散，具有以下两个新特性：（1）共享的 U-Net，具有轻量的级别特定层，将不同级别的特征投影到共享空间，以便可以在所有级别重复使用较重的（heavier） U-Net，减少可训练参数，（2）粗到细的调制，以已经生成的高级特征为条件调制低级特征的去噪。

特征金字塔 U-Net（PyU-Net）。PyU-Net 是用于学习粗到细的去噪过程的模型。以 N = 2（Z = {(z^1)_0，(z^2)_0}）为例，PyU-Net 接受四个输入：（1）阶段 s 和时间步 t 的嵌入，（2）高级特征条件 (z^2)_0，（3）目标特征图 (z^1)_t，以及（4）其他跨模态条件 c。通过共同观察这些输入，PyU-Net 预测应用于目标特征 (z^1)_t 上的噪声 ε，如图 3b 所示。

与为每个级别 n 使用单独的 U-Net 不同，我们选择使用单个共享的 U-Net 以减少参数数量。首先，输入去噪目标 (z^1)_t 由级别特定的层 (Φ^1)_e 投影到共享空间，以便应用共享的 U-Net。最后，另一个级别特定的投影 (Φ^1)_d 将 U-Net 的输出解码为添加到 (z^1)_t 上的噪声 ε，其目标与等式（3）类似。

我们注意到 PyU-Net 不仅减少了可训练参数的数量，而且与普通的逐级 U-Net 相比，还改善了结果。关于分析，请参考实验部分。另外，为了提高训练效率，我们采用了类似于序列到序列语言模型（Brown等人，2020）的 “教师强制” 技巧，即在去噪低级特征图时使用了真实的特征条件。

Frido 按顺序从高级到低级特征图生成潜在编码。例如，在生成 (z^1)_t（低级）时，模型会以 (z^2)_0（高级）为条件。因此，我们引入了如图 4 所示的粗到细的调制。

我们的粗到细的调制（coarse-to-fine modulation，CFM）旨在将 2D 高级特征以及 1D 阶段和时间嵌入引入残差块，使 Frido 具有高级特征以及阶段-时间感知。因此，在我们提出的 CFM 中，有两种类型的调制依次应用于归一化特征，其中插入了额外的卷积（conv）和 SiLU 层（Elfwing，Uchibe和Doya 2018）。

具体来说，给定高级别的真实特征 (z^2)_0，我们通过 M(z20) = z

进行噪声增强。其中， ε ~ N(0, I)，λ 是一个超参数。然后，假设 CFM 的输入是 f_i，在第一次调制中，我们使用两个卷积操作，分别使用来自高级特征 f_z 的 2D 缩放和平移参数来调制归一化特征 norm(f_i)，生成中间表示 h，如下所示：

在第二次调制中，为了赋予 U-Net 阶段-时间意识，我们进一步用 1D 阶段+时间嵌入来调制 h，并生成输出 f_o，类似于等式 6。需要注意的是，我们使用线性层来转换 s + t，还在 AdaIN（Huang 和 Belongie 2017）之后添加了卷积和 SiLU。

总结一下，需要强调的是，我们的 PyU-Net 框架使 DM 具备了以粗到细方式学习的能力，与传统的分层学习策略（Razavi、Van den Oord 和 Vinyals 2019）相比，参数适度增加。Frido 继承了三种生成范式，即 VAE、GAN 和 DM，并进一步嵌入了粗到细的先验。此外，扩散首先在低分辨率地图上运行，从而在推理过程中实现了加速。接下来，我们将展示在与强大、快速 DM 相似的计算预算下可以实现最先进的结果。

总结一下，需要强调的是，我们的 PyU-Net 框架使 DM 具备了以粗到细方式学习的能力，与传统的分层学习策略（Razavi、Van den Oord 和 Vinyals 2019）相比，参数适度增加。Frido 继承了三种生成范式，即 VAE、GAN 和 DM，并进一步嵌入了粗到细的先验。此外，扩散首先在低分辨率图上运行，从而在推理过程中实现了加速。接下来，我们将展示在与强大、快速 DM 相似的计算预算下可以实现最先进的结果。

4. 实验

在这一部分，我们通过文本到图像生成、场景图到图像生成和标签到图像生成任务的角度，经验性地证明了 Frido 生成了高质量的复杂场景图像，这些图像也与多模态条件一致。此外，为了强调在图像中全局捕捉多个对象的能力，我们进行了布局到图像生成任务的实验。最后，我们进行了广泛的分析来验证设计选择。我们展示了 Frido 在 5 种设置下实现了多个任务的最先进的 FID 分数，并提高了推理速度。

注释。Frido 可以在不同的特征分辨率和级别下进行训练。为简单和可读性起见，一个潜在特征图，其中每个特征对应于 n x n 的原始图像像素，被表示为 fn。例如，一个用于生成 256 x 256 图像的 Frido，使用 32 x 32 的高级和 64 x 64 的低级潜在编码，表示为 Frido-f8f4。对于 LDM 基线，LDM-n 对 n x n 像素进行编码。

4.1 数据集和评估

我们考虑的主要任务是在 COCO 上进行文本到图像生成（T2I），在 COCO-stuff 和 Visual Genome 上进行场景图到图像生成（SG2I），在 COCO-stuff 上进行标签到图像生成（Label2I），以及在 COCO-stuff 和 OpenImages 上进行布局到图像生成（Layout2I）。用于评估图像合成任务的标准度量包括 Fréchet Inception 距离（FID）和 Inception score（IS）。此外，我们还考虑了其他特定任务的指标，如 CLIP 分数、精度和召回、SceneFID、YOLO 分数、PSNR 和 SSIM，视情况而定。在适用时，请参阅补充材料以获取详细设置。为了完整起见，我们还进行了用户偏好研究，并进行了无条件图像生成（UIG）的实验，包括 LSUN-bed、CelebA-HQ 和 Lanscape。由于页面限制，请参阅补充材料以获取更多结果。

4.2 条件复杂场景生成

文本条件图像生成。我们首先在 COCO 上进行标准的文本到图像（T2I）生成实验，结果如表 1 所示。我们考虑在 COCO train2014 分割上的标准训练设置。与最近在大规模图像文本对上预训练的 T2I 模型不同，我们的目标是从多样的条件中生成图像。在这种情况下，FID 用于测量图像质量，CLIP-Score 用于评估图像和文本的一致性。为了完整起见，也报告了 IS，尽管众所周知，FID 与人类判断的相关性强于 IS。除了标准的扩散推断，我们还报告了不使用分类器的引导的变种。如表 1 所示，对于两种推断类型，Frido 在 FID 上明显比先前的最佳模型 LDM 少 2，在 CLIP-Score 上多 1，实现了 FID（15.38 比 11.24）和 CLIP-Score（0.6607 比 0.7046）的最新得分。在不同的设置中，LAFITE（Zhou等，2022）合并了预训练的 CLIP（Radford等，2021），其中包含了来自 Web 规模数据对的丰富文本图像知识。作为将 CLIP 知识与 Frido 相结合的初始步骤，我们报告了仅在测试时使用 CLIP 排名技巧（Ding 等，2021）（10 次推断）的结果。我们可以看到，CLIPr 进一步显著提高了所有指标，实现了与 LAFITE 相当的 FID 和 CLIP-Score。将 CLIP 用于训练的方法与 LAFITE 类似，留给未来的研究。

从场景图生成图像。为了进一步验证所宣称的语义关系捕捉，我们在 COCO-stuff 和 VG 数据集上运行 SG2I，并结果如表 2 所示。显然，Frido 在 FID 和 IS 方面均优于所有先前的方法，包括 sg2im（Johnson、Gupta和Li 2018）、WSGC（Herzig等2020）和 LDMs，实现了新的最新成就。此外，为了定量地衡量图像与其 SG 条件的语义正确性，我们将 SG 转换为标题，方法是连接关系三元组（即主谓宾），并报告生成的图像-标题对的 CLIP 分数。我们的模型在 COCO 上超过以前的工作 2%，在 VG 上超过 0.2%。这从经验上验证了使用特征金字塔和自上而下的生成策略，Frido 改进了复杂关系的建模。

标签到图像生成。标签到图像生成根据图像级标签生成场景图像。与 T2I 或 SG2I 不同，T2I 或 SG2I 的场景结构由文本条件指定，而此任务要求模型自由组合对象并生成连贯的图像。除了 FID 和 IS，还报告了目标级质量和多样性测量的精度和召回率。我们在 COCO-stuff 上进行了 Label2I的实验。如表 3 所示，我们的模型在 FID 和精度以及召回率方面均优于以前的方法，包括 LayoutVAE（Jyothi等2019）和 LDMs，而不仅在常见的 3-8 标签设置下。这表明，Frido 实现了更好的图像质量和多对象图像数据流形建模。我们进一步挑战 Frido，使用更困难的 2-30 标签设置，仍然建立了 SOTA FID。

布局到图像生成。我们的 Layout2I 结果展示了可以合成多个对象的形状和细节。具体来说，我们在两种不同的设置下将我们的 Frido 与以前的方法进行了比较。首先，我们遵循 LDM，并在COCO stuff 分割挑战分割和 OpenImage 数据集上进行实验。结果如表 4 所示。人们可以发现，Frido 在 FID 方面表现优于以前的方法，包括 LostGAN-v2（Sun和Wu 2019）、OC-GAN（Sylvain等2021）、SPADE（Park等2019）、VQGAN+T（结合Esser，Rombach和Ommer 2021和Brown等人2020）和 LDM，至少提高了 2，实现了 COCO 和 OpenImages 的最新最高水平。此外，我们获得了最佳的 YOLO 分数和 sceneFID，表明了最逼真的实例级对象。其次，我们遵循 TwFA（Yang等2022）并在标准的 COCO stuff 和 Visual Genome 数据集上进行实验。更多详细信息请参阅补充材料。

4.3 模型分析

模型消融。为验证 Frido 的关键创新设计，我们在两个任务上进行了消融研究：在 COCO上进行文本到图像（T2I）和在 Visual Genome 上进行场景图到图像（SG2I）。图 5 展示了 Frido 中每个部署组件的贡献。在消融和超参数调整中，我们进行了 250,000 次迭代的训练，以进行更多的实验。具有最佳开发分数的模型进一步进行训练，以获得第 4.2 节中的最终测试分数。我们通过进行 Bootstrap 检验（Koehn 2004）报告均值和相应的 95％置信区间；采样大小等于测试集大小；重新采样 100 次。对于基线，我们使用了两个 LDM，并执行了简单的顺序学习策略。具体来说，第一个 LDM 学习高级特征映射的分布（LDM-16）；第二个 LDM 用于建模 f8 的低级特征（LDM-8）。在此基线模型中，我们将 LDM-8 的输出特征映射和去噪目标特征级连输入 LDM-8 进行去噪。为了验证 PyU-Net 的共享 U-Net 设计，我们首先将此模块应用于没有 CFM 的基线。共享 U-Net 将模型参数从 1.18B（基线）减少到 590M（基线+PyU-Net）。最后，添加了粗到细的调制，参数数量仅略微增加（总共为 697M），并进一步提高了所有指标的性能。我们可以看到，每个组件都显着提高了生成结果；具有 PyU-Net 和 CFM 的模型在所有指标上均显着优于 LDM。

计算成本分析。在这里，我们分析了我们模型的推断成本。在图 6 中，我们比较了 Frido 和 LDM 在速度和质量权衡上的表现。在这个图中，我们使用不同的推断时间步长 T 进行推断每个模型，然后绘制 FID 分数和每个图像的推断成本。请注意，这些实验是在验证数据集上进行的，批处理大小为 32，使用 1 个 V100 GPU。结果表明，在类似的推断预算下，Frido 相对于 LDM 实现了不错的性能提升，从而证实了我们模型的高效性。有关 FLOP、参数数量和推断时间的其他比较，请参阅补充材料。需要注意的是，通过在潜在空间中操作，LDM 在 DM 模型类别中属于更快速的模型之一。Frido 通过将部分去噪负载放在低分辨率处进一步降低了成本。

总结。经验研究表明，Frido 在复杂场景图像合成方面明显优于基线 LDM，甚至在 5 个设置中取得了最佳成绩。我们的建模创新，包括 PyU-Net 和粗到细的调制，在统计上是有效的。最重要的是，Frido 更加高效，正如在与 LDM 的对比中所看到的，它减轻了扩散模型的推断成本，这是众所周知的。

5. 相关工作

更多的图像合成生成模型。在过去的十年里，图像合成领域取得了巨大的进展。除了前面讨论的作品外，GAN（生成对抗网络）家族（Liao等人，2022；Xu等人，2018；Karras，Laine和Aila，2019；Brock，Donahue和Simonyan，2019；Gafni等人，2022；Zhang等人，2021；Hinz，Heinrich和Wermter，2020；Karras等人，2021）、VAE（变分自动编码器）（Sohn，Lee和Yan，2015）、自回归模型（Razavi，Van den Oord和Vinyals，2019；Chang等人，2022；Yu等人，2022）、基于流的方法（Dinh，Sohl-Dickstein和Bengio，2017）、以及基于扩散的模型（Saharia等人，2022；Gu等人，2022）都为塑造这个领域做出了重大贡献。Frido 是 VAE 和 DM 家族的混合体，结合了两者的优点，以在复杂场景上获得出色的图像质量，并显着提高了 DM 的推断效率。最近，大规模的文本到图像生成预训练模型（Ramesh等人，2022）引起了广泛关注，并取得了卓越的结果。Frido 与这些模型是正交的，因为我们研究了粗到细的合成和多模态输入，不仅限于文本。

两阶段生成模型。最近，提出了许多两阶段生成模型（Van Oord，Kalchbrenner和Kavukcuoglu，2016；Jahn，Rombach和Ommer，2021；Pandey等，2022），用来解决单阶段模型的缺点。代表性的 VQ-VAE（Van Den Oord，Vinyals等，2017）首先将图像编码为具有较低空间分辨率的离散潜空间，然后使用自回归网络来对这种空间进行建模。第一步被称为向量量化（VQ），它减少了输入信息以允许自动编码器学习。此外，VQ 通过将图像转换为离散标记，无缝地将图像与其他模态（如语言（Ding等，2021；Chen等，2020）和音频（Yan等，2021））相连接。在第二阶段，采用了自回归（例如PixelCNN（Van den Oord等，2016），VQGAN）或扩散模型（LDM，VQ-Diffusion（Tang等，2022））来对编码的潜空间进行建模。Frido 通过提出 MS-VQGAN 和 PyU-Net 来贡献于这两个阶段。

粗到细的图像生成方法。与一步生成完整分辨率图像不同，粗到细的生成方法通过多个步骤合成图像，从像素空间中的低到高分辨率（Gregor等，2015；Mansimov等，2016）或从潜在空间中的高级到低级信息（Razavi，Van den Oord和Vinyals，2019；Child等，2019）。这使得模型更好地捕捉不同级别的信息，并已被证明可以实现更高的质量。例如，AttnGAN（Xu等，2018）和StackGAN（Zhang等，2017，2018）首先在低分辨率（例如，完整尺寸的1/8）上生成图像，然后迭代地扩大生成的图像，直到达到最终分辨率。与上述方法不同，我们为每个尺度共享了核心网络。因此，与单尺度模型相比，开销最小化。

6. 结论

我们提出了 Frido，这是一种新的图像生成模型，为扩散模型家族中未充分探索的粗到细的先验提供了支持。通过大量实验证明，关键设计，如多尺度码本、单一共享的 U-Net 和特殊的调制机制，是有效的。从经验的角度来看，我们将这个模型应用到各种不同的跨模态图像合成任务中，实现了 5 个新的最新成果。从实际的角度来看，Frido 还减轻了扩散方法已知的慢推理问题。

附录

E. 附加讨论

E.1 限制和未来方向

我们观察到，每个尺度上由 MS-VQGAN 编码的特征的分布没有被正则化，导致不同尺度上的特征的均值和标准差变化很大。这可能会对扩散模型的学习产生负面影响。具体而言，在扩散过程中，嘈杂的数据是通过将输入特征与标准正态变化进行插值而创建的，这要求输入特征的分布最好是均值为 0，标准差为 1。因此，非正则化的输入特征可能不会像预期的那样在扩散过程中被破坏成噪音，从而损害了降噪过程的学习。在这篇论文中，我们通过独立地缩放每个尺度的特征，并使用相应特征的标准差的倒数来减轻这个问题。然而，我们认为需要一个正则化目标来限制这种量化过程中编码的潜在分布，以供扩散模型使用。

另一个未来的潜在方向是探索 “特征中编码的高级或低级知识对于粗到细扩散模型的学习会有什么好处？” 在 Frido 中，我们设计了一个多尺度的 VQGAN，配备了特征金字塔融合模块，使我们能够将输入图像编码成具有多个尺度的特征，并隐式提取高级和低级信息。为了探索上述问题，我们可以通过向 MS-VQGAN 添加一个目标函数来引导在高级或低级特征上提取的信息。具体来说，可以施加一个重建损失，该损失是输入图像的低分辨率与仅由高级特征解码的重建图像之间的损失，以引导多尺度量化的过程。我们将这些方向留待未来的研究。

S. 总结

S.1 主要贡献

现有的 DM（扩散模型）只处理单一分辨率的特征图或图像像素，限制了合成复杂场景的能力。本文提出通过特征金字塔扩散模型 Frido（Feature Pyramid Diffusion model），以粗到细的方式对潜在特征进行建模。

首先，使用多尺度矢量量化模型（Multi-Scale Vector Quantization model，MS-VQGAN）将图像编码为多个空间层次的潜在编码。
然后，使用特征金字塔扩散模型（Frido），将扩散和降噪扩展到多尺度、粗到细的方式。

S.2 架构和方法

学习多尺度感知潜在。如图 3a 所示，

首先，训练一个多尺度自编码器 MSVQGAN，来把输入图像编码为一组 N 个尺度的潜在特征图集合，不同的尺度分别保留低级视觉细节以及高级形状和结构。
在量化和融合之后，将这些特征上采样到相同的形状后连接起来，然后馈送到解码器来重建图像。

特征金字塔扩散模型（Frido）。与在 T 步骤中同时在所有 N 个特征尺度上添加噪声不同，按顺序进行扩散过程，从低级到高级，每个级别进行 T 个扩散步骤（总共 N * T 个时间步），参见图 3b 的上半部分。以两个特征尺度（低级（下），高级（上））为例，

1) 扩散阶段：

在低级特征处理阶段，固定高级特征（上），对低级特征（下）进行 T 个扩散步；
在高级特征处理阶段，固定低级特征（下），对高级特征（上）进行 T 个扩散步；

2) 去噪阶段：

在高级特征处理阶段，固定低级特征（下），对高级特征（上）进行 T 个去噪步；
在低级特征处理阶段，固定高级特征（上），对低级特征（下）进行 T 个去噪步；

特征金字塔 U-Net（PyU-Net）。通过将不同级别的特征投影到共享空间，可以在所有级别复用 U-Net，减少可训练参数；粗到细的调制，以已经生成的高级特征为条件调制低级特征的去噪。

PyU-Net 有四个输入：阶段 s 和时间步 t 的嵌入、高级（粗糙）特征条件 (z^2)_0、目标特征图 (z^1)_t 以及其他跨模态条件（文本、布局、场景图等） c。
首先，输入去噪目标 (z^1)_t 由级别特定的层 (Φ^1)_e 投影到共享空间，以便应用共享的 U-Net。最后，另一个级别特定的投影 (Φ^1)_d 将 U-Net 的输出解码为添加到 (z^1)_t 上的噪声 ε。

粗到细调制。详细框架如图 4 所示。M 表示噪声增强。

使用两个卷积操作获取来自高级特征的 2D 缩放和平移参数，来调制归一化特征，生成中间表示。
为了赋予 U-Net 阶段-时间意识，用 1D 阶段+时间嵌入来调制中间表示。

你可能感兴趣的:(论文笔记,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f