EDPJ

（2022|ECCV，文本图像视频，3D 邻域注意，3D 稀疏注意）NÜWA：神经视觉世界创建的视觉合成预训练

NÜWA: Visual Synthesis Pre-training for Neural visUalWorld creAtion

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

2.1. 视觉自回归模型

2.2. 视觉稀疏自注意

3. 方法

3.1. 3D 数据表示

3.2. 3D Nearby Self-Attention

3.3. 3D 编码器-译码器

3.4. 训练目标

4. 实验

4.1. 实现细节

4.2. 与 SOTA 的对比

4.3. 消融研究

5. 结论

附录

A. 3D 稀疏注意力对比

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

这篇论文介绍了一个名为 NÜWA 的统一多模态预训练模型，该模型可以用于各种视觉合成任务，包括生成新的或操纵现有的视觉数据（如图像和视频）。为了同时处理语言、图像和视频，作者设计了一个 3D transformer 编码器-解码器框架，该框架不仅可以处理视频作为 3D 数据，还可以适应文本和图像作为 1D 和 2D 数据。此外，还提出了一种 3D Nearby Attention（3DNA）机制，以考虑视觉数据的性质并减少计算复杂性。研究人员在 8 个下游任务上对 NUWA 进行了评估。与几个强基线模型相比，NUWA 在文本到图像生成、文本到视频生成、视频预测等任务上取得了最先进的结果。此外，它还展现出在文本引导的图像和视频操作任务上惊人的零样本能力。项目位于 https://github.com/microsoft/NUWA。

1. 简介

如今，网络变得比以往任何时候都更加注重视觉，因为图像和视频已经成为新的信息载体，并在许多实际应用中得到使用。在这个背景下，视觉合成成为越来越受欢迎的研究主题，旨在构建能够为各种视觉场景生成新的或操纵现有视觉数据（即图像和视频）的模型。

自回归模型在视觉合成任务中发挥着重要作用，因为与生成对抗网络（GANs）相比，它们具有显式的密度建模和稳定的训练优势。较早的视觉自回归模型，如 PixelCNN、PixelRNN、Image Transformer、iGPT 和 Video Transformer，以 “逐像素” 方式执行视觉合成。然而，由于它们在高维视觉数据上的高计算成本，这些方法只能用于低分辨率图像或视频，难以扩展。

最近，随着 VQ-VAE 作为一种离散的视觉标记方法的出现，可以将高效和大规模的预训练应用于图像（例如 DALL-E 和 CogView）和视频（例如 GODIVA）的视觉合成任务。尽管取得了巨大的成功，但这些解决方案仍然存在限制，它们将图像和视频分开处理，专注于生成其中之一。这限制了模型从图像和视频数据中受益的能力。

在本文中，我们提出 NUWA，这是一个统一的多模态预训练模型，旨在支持图像和视频的视觉合成任务，并进行了 8 个下游视觉合成实验，如图 1 所示。这项工作的主要贡献有三个方面：

我们提出 NUWA，这是一个通用的 3D transformer 编码器-解码器框架，同时针对不同的视觉合成任务涵盖了语言、图像和视频。它由一个自适应编码器和一个被 8 个视觉合成任务共享的解码器组成，编码器可以接受文本或视觉草图作为输入。
我们在框架中提出了 3D Nearby Attention（3DNA）机制，以考虑空间和时间轴的局部特性。3DNA 不仅减少了计算复杂性，还提高了生成结果的视觉质量。
与多个强基线方法相比，NUWA 在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外，NUWA 展现出令人惊讶的零样本学习能力，不仅可以进行文本引导的图像处理，还可以进行文本引导的视频处理。

2. 相关工作

2.1. 视觉自回归模型

本文提出的方法沿着基于自回归模型的视觉合成研究方向发展。早期的视觉自回归模型 [5、28、39、41、44] 以 “逐像素” 的方式执行视觉合成。然而，由于在对高维数据进行建模时的高计算成本，这些方法只能应用于低分辨率图像或视频，很难进行扩展。

最近，基于 VQ-VAE 的 [40] 视觉自回归模型被提出用于视觉合成任务。通过将图像转换为离散的视觉标记，这种方法可以进行高效且大规模的文本到图像生成的预训练（例如 DALL-E [33] 和 CogView [9]），文本到视频生成（例如 GODIVA [45]），以及视频预测（例如 LVT [31] 和VideoGPT [48]），生成的图像或视频具有更高的分辨率。然而，这些模型中没有一个同时使用图像和视频进行训练。但直觉告诉我们，这些任务可以从两种类型的视觉数据中受益。

与这些工作相比，NUWA 是一个统一的自回归视觉合成模型，它通过覆盖图像和视频的视觉数据进行了预训练，并支持各种下游任务。我们还在第 4.3 节验证了不同预训练任务的有效性。此外，NUWA 在视觉标记化方面使用的是 VQ-GAN [11]，而不是 VQ-VAE，根据我们的实验，这可以带来更好的生成质量。

2.2. 视觉稀疏自注意

如何处理自注意力引入的二次复杂性问题是另一个挑战，特别是对于高分辨率图像合成或视频合成等任务。

与 NLP 类似，已经探索了稀疏注意机制来缓解视觉合成中的这一问题。[31, 44] 将视觉数据分成不同部分（或块），然后为合成任务执行按块稀疏注意。然而，这种方法单独处理不同的块，并没有建模它们之间的关系。[15,33,45] 提出在视觉合成任务中使用轴向稀疏注意，沿着视觉数据表示（representation）的轴进行稀疏注意。这种机制使训练非常高效，对于像 DALL-E [33]、CogView [9] 和 GODIVA [45] 这样的大规模预训练模型非常友好。然而，由于自注意力中使用的上下文有限，生成的视觉内容的质量可能会受到损害。[6, 28, 32] 提出在视觉合成任务中使用局部稀疏注意，允许模型看到更多的上下文。但这些工作仅适用于图像。

与这些工作相比，NUWA提出了一种 3D 近距离注意机制，将局部稀疏注意扩展到图像和视频。我们还在第 4.3 节中验证了局部稀疏注意对于视觉生成的优越性。

3. 方法

3.1. 3D 数据表示

为了涵盖所有文本、图像和视频或它们的草图，我们将它们都视为标记，并定义一个统一的 3D 表示符号 X ∈ R^(h*w*s*d)，其中 h 和 w 分别表示空间轴上的标记数量（高度和宽度），s 表示时间轴上的标记数量，d 是每个标记的维度。接下来，我们介绍如何为不同的模态获得这个统一的表示。

文本自然是离散的，按照 Transformer [42] 的方法，我们使用小写字节对编码（byte pair encoding，BPE）对其进行标记化，并将其嵌入到 R^(1*1*s*d) 中。我们使用占位符 1，因为文本没有空间维度。

图像自然是连续像素。给定一个原始图像 I ∈ R^(H*W*C)，其中 H 表示高度，W 表示宽度，C 表示通道数，VQ-VAE [40] 训练一个可学习的码本来建立原始连续像素和离散标记之间的桥梁，如等式（1）和（2）所示：

这里，E 是一个编码器，将图像 I 编码为 h * w 的网格特征，即 E(I) ∈ R^(h * w * d_B)，B ∈ R^(N * d_B) 是一个可学习的码本，包含 N 个视觉标记，其中每个 E(I) 的网格被搜索以找到最接近的标记。搜索得到的结果 z ∈ {0, 1, ..., N-1}^(h * w) 通过 B 进行嵌入，然后通过解码器 G 重构成^I。VQ-VAE 的训练损失可以写成等式 (3)：

其中，

严格约束了 I 和 ^I 之间的像素精确匹配，这限制了模型的泛化能力。最近，VQ-GAN [11] 通过添加感知损失和 GAN 损失来增强 VQ-VAE 的训练，从而缓解 I 和 ^I 之间的精确约束，侧重于高级语义匹配，如等式 (4) 和 (5) 所示：

在训练 VQ-GAN 后，B[z] ∈ R^(h*w*1*d) 最终用作图像的表示。我们使用占位符1，因为图像没有时间维度。

视频可以被视为图像的时间扩展，而像 VideoGPT [48] 和 VideoGen [51] 这样的最近研究将 VQ-VAE 编码器的卷积从 2D 扩展到 3D，并训练了视频特定的表示。然而，这种方法无法为图像和视频共享一个通用的码书。在这篇论文中，我们展示了简单地使用 2D VQ-GAN 来对视频的每一帧进行编码，可以生成时间连贯的视频，同时受益于图像和视频数据。生成的表示被表示为R^(h*w*s*d)，其中 s 表示帧数。

对于图像素描，我们将它们视为带有特殊通道的图像。每个值表示像素类别的图像分割矩阵R^(H*W) 可以以一种 one-hot 的方式 R^(H*W*C) 表示，其中 C 是分割类别的数量。通过训练额外的图像素描的 VQ-GAN，我们最终获得了嵌入的图像表示 R^(h*w*1*d)。类似地，对于视频素描，表示为 R^(h*w*s*d)。

3.2. 3D Nearby Self-Attention

在这一部分，我们基于前面的 3D 数据表示，定义了一个统一的 3D Nearby Self-Attention (3DNA) 模块，支持自注意力和交叉注意力。我们首先在公式 (6) 中给出了 3DNA 的定义，并在公式 (7) 到 (11) 中介绍了详细的实现细节：

其中，X 和 C 是在第 3.1 节中介绍的 3D 表示。如果 C = X，3DNA 表示对目标 X 的自注意力，如果 C ≠ X，则 3DNA 是在给定 C 的条件下对目标 X 的交叉注意力。W 表示可学习的权重。

我们从 X 下的坐标 (i, j, k) 开始介绍 3DNA。通过线性投影，C 下的相应坐标 (i', j', k') 为

然后，宽度、高度和时间范围为 e^w、 e^h、 e^s ∈ R^+ 的 (i', j', k') 周围的局部邻域如公式 (7) 所示：

其中，N 是条件 C 的子张量，包含 (i, j, k) 需要关注的相应邻域信息。

位置 (i, j, k) 的具有三个可学习的权重

的输出张量如公式 (8) 到 (11) 所示：

其中，位置（i, j, k）查询并收集条件 C 中的相应邻域信息。这也处理了 C = X 的情况，(i, j, k）仅需查询自身邻域的位置。3NDA 不仅降低了全局注意力的复杂度

而且表现出更出色的性能，我们将在第 4.3 节中进行讨论。

3.3. 3D 编码器-译码器

在这一部分，我们介绍基于 3DNA 构建的 3D 编码器-解码器。为了在 C ∈ R^(h' * w' * s' * d^in) 的条件下生成目标 Y ∈ R(h * w * s * d^out)，Y 和 C 的位置编码分别由三个不同的考虑了高度、宽度和时间轴的可学习词汇表更新，如等式 (12)、(13) 所示：

然后，条件 C 被馈送到一个具有 L个 3DNA 层堆叠的编码器中，以建模自注意力交互，第 l 个层如等式 (14) 所示：

同样，解码器也是由 L 个 3DNA 层堆叠而成的。解码器计算生成结果的自注意力和生成结果与条件之间的交叉注意力。第 l 层在等式 (15) 中表示。

其中

是在训练阶段学习的特殊标记。

3.4. 训练目标

我们在三个任务上训练我们的模型，分别是文本到图像（T2I），视频预测（V2V）和文本到视频（T2V）。三个任务的训练目标是交叉熵，分别表示为等式（16）中的三个部分，

对于 T2I 和 T2V 任务，C^text 表示文本条件。对于 V2V 任务，因为没有文本输入，我们使用一个特殊词 “None” 的固定 3D 表示 c。 θ 表示模型参数。

4. 实验

根据第 3.4 节，我们首先在三个数据集上预训练 NUWA：

Conceptual Captions [22] 用于文本到图像（T2I）生成，包括 290 万个文本-图像对；
Moments in Time [26] 用于视频预测（V2V），包括 72.7 万个视频；
VATEX 数据集 [43] 用于文本到视频（T2V）生成，包括 24.1 万个文本-视频对。

接下来，我们首先在第 4.1 节介绍实现细节，然后在第 4.2 节与最先进的模型进行比较，最后在第 4.3 节进行消融研究，研究不同部分的影响。

4.1. 实现细节

在第 3.1 节中，我们设置文本、图像和视频的 3D 表示大小如下。对于文本，3D 表示的大小为 1*1*77*1280。对于图像，3D表示的大小为 21*21*1*1280。对于视频，3D 表示的大小为 21*21*10*1280，我们从帧速率为 2.5 fps 的视频中采样 10 帧。尽管默认的视觉分辨率是 336*336，但为了与现有模型进行公平比较，我们预训练了不同分辨率的模型。对于用于图像和视频的 VQ-GAN 模型，等式（1）中网格特征 E(I) 的大小为 441*256，码本 B 的大小为 12,288。

在第 3.2 节，不同的模态使用不同的稀疏程度。对于文本，我们设置 (e^w, e^h, e^s) = (1, 1, 1)，其中 1 表示始终在注意力中使用完整的文本。对于图像和图像草图，(e^w, e^h, e^s) = (3, 3, 1)。对于视频和视频草图，(e^w, e^h, e^s) = (3, 3, 3)。

我们在 64 个 A100 GPU上进行了两周的预训练，将等式（14）中的层 L 设置为 24，使用学习率为 1e-3 的 Adam [17] 优化器，批量大小为 128，warm-up 占总共 50M 步的 5%。最终的预训练模型总共有 870M 个参数。

4.2. 与 SOTA 的对比

文本到图像（T2I）微调：我们在 MSCOCO [22] 数据集上对 NUWA 进行了定量比较，如表 1 所示，并在图 3 中进行了定性比较。与 DALL-E [33] 一样，我们使用模糊 FID 分数（FID-k）和Inception 分数（IS）[35] 来定量评估图像的质量和多样性，与 GODIVA [45] 一样，我们使用CLIPSIM 度量，它结合了 CLIP [29] 模型来计算输入文本和生成图像之间的语义相似度。为了公平比较，所有模型都使用 256*256 的分辨率。我们为每个文本生成 60 张图像，并通过 CLIP [29] 选择最佳图像。在表 1 中，NUWA 的 FID-0 得分为 12.9，CLIPSIM 为 0.3429，明显优于 CogView [9]。尽管 XMC-GAN [50] 报告了显著的 FID 分数为 9.3，但我们发现与 XMC-GAN 论文中完全相同的样本相比，NUWA 生成的图像更加逼真（请参见图 3）。特别是在最后一个示例中，男孩的脸很清晰，气球也正确生成。

文本到视频（T2V）微调：我们在 Kinetics [16] 数据集上对 NUWA 进行了定量比较，如表 2 所示，并在图 4 中进行了定性比较。与 TFGAN [2] 一样，我们使用 FID-img 和 FID-vid 指标来评估视觉质量，使用生成的视频标签的准确性来评估语义一致性。如表 2 所示，NUWA 在上述所有指标上表现最佳。在图 4 中，我们还展示了生成未见文本的强大零样本能力，例如 “在游泳池打高尔夫” 或 “在海上奔跑”。

视频预测（V2V）微调：我们在 BAIR Robot Pushing [10] 数据集上对 NUWA 进行了定量比较，如表 3 所示。Cond.表示给定的帧数用于预测未来的帧。为了公平比较，所有模型都使用 64×64 的分辨率。尽管只给出一帧作为条件（Cond.），NUWA 仍然将 FVD [38] 得分从 94±2 显著提高到86.9，推动了当前的最佳性能。

草图到图像（S2I）微调：我们在 MSCOCO stuff [22] 数据集上对 NUWA 进行了定性比较，如图 5 所示。NUWA 生成了多样性极高的逼真巴士图像，与 Taming-Transformers [11] 和 SPADE [27] 相比。甚至巴士窗户的反射都非常清晰可见。

图像补全（I2I）零样本评估：我们在零样本环境下对 NUWA 进行了定性比较，如图 6 所示。给出塔的上半部分，与 Taming Transformers [11] 相比，NUWA 展现了对塔的下半部分的更丰富想象力，包括建筑物、湖泊、花朵、草地、树木、山脉等。

文本引导的图像操作（TI2I）零样本评估：我们在零样本环境下对 NUWA 进行了定性比较，如图 7所示。与 Paint By Word [3] 相比，NUWA 展现出强大的操作能力，能够生成高质量与文本一致的结果，同时不改变图像的其他部分。例如，在第三行，NUWA 生成的蓝色消防车更加逼真，而背后的建筑物没有发生变化。这要归功于在各种视觉任务上进行的多任务预训练所学到的真实世界的视觉模式。另一个优势是 NUWA 的推理速度，实际上只需 50 秒即可生成一幅图像，而 Paint By Words 在推理期间需要额外的训练，需要大约 300 秒才能收敛。

草图到视频（S2V）微调和文本引导视频操作（TV2V）零样本评估：据我们所知，开放领域的 S2V 和 TV2V 是本文首次提出的任务。由于没有比较对象，我们将它们安排在第 4.3 节的消融研究中。

在附录中提供了更详细的比较、样本，包括人工评估。

4.3. 消融研究

上面的表 4 显示了不同 VQ-VAE（VQ-GAN）设置的有效性。我们在 ImageNet [34] 和OpenImages [19] 上进行了实验。R 表示原始分辨率，D 表示离散标记的数量。压缩率表示为 Fx，其中 x 是 √R 除以 √D 的商。在表 4 的前两行中，VQ-GAN 在 Fr´echet Inception Distance（FID）[14] 和结构相似性矩阵（SSIM）分数方面明显优于 VQ-VAE。比较第 2 行和第 3 行，我们发现离散标记的数量是导致更高视觉质量的关键因素，而不是压缩率。尽管第 2 行和第 4 行具有相同的压缩率 F16，它们的 FID 分数分别为 6.04 和 4.79。因此，重要的不仅仅是我们将原始图像压缩多少，还有多少个离散标记用于表示图像。这符合认知逻辑，仅使用一个标记来表示人脸太模糊了。实际上，我们发现，通常情况下，使用 16^2 个离散标记会导致性能不佳，尤其是对于人脸，而使用 32^2 个令牌表现最佳。然而，更多的离散标记意味着更多的计算，特别是对于视频。最后，我们在预训练中使用了一个折衷版本：21^2个标记。通过在 Open Images 数据集上进行训练，我们进一步将 21^2 版本的 FID 分数从 4.79 提高到 4.31。

表 4 的下半部分显示了素描的 VQ-GAN 性能。MSCOCO [22] 上的 VQ-GAN-Seg 用于草图到图像（S2I）任务的训练，VSPW [24] 上的 VQ-GAN-Seg 用于草图到视频（S2V）任务的训练。所有这些骨干都在像素精度（PA）和频率加权的交集联合（Frequency Weighted Intersection over Union，FWIoU）方面表现良好，这表明我们模型中使用的 3D 素描表示的质量很高。图 8 还显示了一些 336*336 图像和素描的重建样本。

表 5 显示了多任务预训练在文本到视频（T2V）生成任务中的有效性。我们在具有自然描述和真实世界视频的挑战性数据集 MSR-VTT [46] 上进行研究。与仅在单个 T2V 任务上进行训练（第 1 行）相比，同时在 T2V 和 T2I 上进行训练（第 2 行）将 CLIPSIM 从 0.2314 提高到 0.2379。这是因为 T2I 有助于建立文本和图像之间的联系，从而有助于 T2V 任务的语义一致性。相反，同时在 T2V 和 V2V 上进行训练（第 3 行）将 FVD 分数从 52.98 提高到 51.81。这是因为 V2V 有助于学习通用的无条件视频模式，从而有助于 T2V 任务的视觉质量。作为 NUWA 的默认设置，同时进行所有三个任务的训练获得了最佳性能。

表 6 显示了在 VSPW [24] 数据集上进行的草图到视频（S2V）任务的 3D 邻域注意力的有效性。我们研究了 S2V 任务，因为该任务的编码器和解码器都使用了 3D 视频数据。为了评估 S2V 的语义一致性，我们提出了一种新的度量标准，称为检测到的 PA，它使用语义分割模型 [49] 对生成的视频的每帧进行分割，然后计算生成的片段与输入视频草图之间的像素准确度。在最后一行的默认NUWA 设置中，使用了 3D 近场编码器和 3D 近场解码器，实现了最佳的 FID-vid 和检测到的 PA。如果编码器或解码器之一被全注意力替换，性能会下降，显示出关注邻域条件和邻域生成结果比简单考虑所有信息更好。我们将邻域稀疏和轴向稀疏进行了两方面的比较。首先，邻域稀疏和轴向稀疏的计算复杂性分别为

对于生成长视频（更大的 s），邻域稀疏将更加高效。其次，邻域稀疏在视觉生成任务中的性能优于轴向稀疏，这是因为邻域稀疏关注 “邻域” 位置，其中包含空间和时间轴之间的交互，而轴向稀疏将不同轴分开处理，并仅考虑相同轴上的交互。

图 9 展示了本文提出的一个新任务，我们称之为 “文本引导视频操作（TV2V）”。 TV2V 旨在通过文本引导从选择的帧开始更改视频的未来。所有样本都从第二帧开始更改视频的未来。第一行显示原始视频帧，其中潜水员在水中游泳。将 “The diver is swimming to the surface” 输入 NUWA 的编码器并提供第一帧视频后，NUWA 成功生成了第二行中潜水员游向水面的视频。第三行显示另一个成功的示例，其中潜水员游向底部。如果我们想让潜水员飞向天空呢？第四行显示 NUWA 也可以做到，潜水员像火箭一样向上飞行。

5. 结论

在本文中，我们提出 NUWA 作为一个统一的预训练模型，可以用于 8 个视觉合成任务，生成新的图像和视频，或操纵现有的图像和视频。本文的一些贡献包括：（1）一个通用的 3D 编码器-解码器框架，同时涵盖文本、图像和视频；（2）一种考虑了空间和时间轴邻域特征的稀疏注意机制；（3）在 8 个合成任务上进行了全面的实验。这是我们构建 AI 平台的第一步，旨在实现视觉世界的创造，并帮助内容创作者。

附录

A. 3D 稀疏注意力对比

图 10 显示了不同 3D 稀疏注意力之间的比较。假设我们有一个大小为 4x4x2 的 3D 数据，3D 块稀疏注意力的思想是将 3D 数据分成几个固定的块，并分别处理这些块。有很多分块的方法，比如在时间、空间或两者同时分块。图 10 中的 3D 块稀疏示例考虑了时间和空间的分块。3D 数据被分成4 个部分，每个部分的大小为 2x2x2。为了生成橙色标记，3D 块稀疏注意力考虑了固定 3D 块内的先前标记。尽管 3D 块稀疏注意力考虑了空间和时间轴，但对于 3D 块边缘的标记来说，这些空间和时间信息是有限且固定的。只有部分邻域信息被考虑，因为 3D 块外部的某些邻域信息对于块内的标记是不可见的。3D 轴稀疏注意力的思想是考虑沿轴的先前标记。尽管 3D 轴稀疏注意力考虑了空间和时间轴，但这些空间和时间信息沿着轴有限。只有沿轴考虑的部分领域信息，不在轴上的某些邻域信息不会在 3D 轴注意力中考虑。在本文中，我们提出了 3D 邻域稀疏，它考虑了完整的邻域信息，并为每个标记动态生成 3D 邻域注意块。注意力矩阵还显示了作为受关注部分的证据（蓝色），3D 邻域稀疏的光滑性比 3D 块稀疏和 3D 轴稀疏更好。

表 7 显示了不同 3D 稀疏注意力的复杂度。 h，w，s 表示 3D 数据的空间高度、空间宽度和时间长度。不同的稀疏机制在不同的情况下都有其计算优势。例如，对于具有大 h, w, s 的长视频或高分辨率帧，通常 (e^h·e^w·e^s) < (h+w+s)，此时 3D 邻域稀疏注意力比 3D 轴稀疏注意力更有效。如果可以将 3D 数据分成几个没有依赖关系的部分，那么 3D 块稀疏将是一个不错的选择。例如，一部卡通片由几集组成，每一集都讲述一个独立的故事，我们可以简单地将这些故事分开，因为它们之间没有关系。

S. 总结

S.1 主要贡献

本文提出了一个统一多模态预训练模型 NÜWA，设计了一个 3D transformer 编码器-解码器框架来同时处理语言、图像和视频。还提出了一种 3D Nearby Attention（3DNA）机制，以考虑视觉数据的连续性，提升生成质量并减少计算复杂性。

S.2 架构和方法

本文使用的架构如图 2 所示。首先使用适应性的编码器把输入（文本、图像和/或视频）统一编码为 3D 表示。然后使用预训练的解码器解码 3D 表示，从而完成下游任务。相比于以往的仅使用图像或者视频进行预训练的模型，NÜWA 同时使用图像和视频进行训练，从而可以获得更好的性能。

8 个下游任务：文本到图像（T2I），文本到视频（T2V），视频预测（V2V），草图到图像（S2I），图像补全（I2I），文本引导的图像操作（TI2I），草图到视频（S2V）和文本引导视频操作（TV2V）。

3D 数据表示。把文本、图像、视频转化为 3D 符号表示 X ∈ R^(h*w*s*d)，h 和 w 分别表示空间轴上的标记数量（高度和宽度），s 表示时间轴上的标记数量，d 是每个标记的维度。

文本：使用 BPE 对其进行标记化，获得 X ∈ R^(1*1*s*d)。由于文本没有空间维度，所以使用占位符 1。
图像：使用 VQ-GAN，基于可学习码本进行标记化，获得 X ∈ R^(h*w*1*d)。由于图像没有时间维度，使用占位符 1。
视频：使用 2D VQ-GAN 对视频的每一帧进行标记化，获得 X ∈ R^(h*w*s*d)。

3D 邻域自注意（3D Nearby Self-Attention，3DNA）。使用注意力机制时，不仅关注当前坐标的标记，还关注该标记的邻域（图 2 中的黑色方框）。

3D 编码器-译码器。编码器和译码器均由 L 个 3DNA 层堆叠而成。编码器建模条件的自注意力，译码器计算生成结果的自注意力以及生成结果与条件之间的交叉注意力。

你可能感兴趣的:(论文笔记,深度学习,人工智能,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring