EDPJ

（2021，中文，双向生成，端到端，双向稀疏注意力）ERNIE-ViLG：双向视觉语言生成的统一生成预训练

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

2.1 视觉语言预训练

2.2 视觉语言生成

3. 方法

3.1 双向图像-文本生成的统一生成框架

3.1.1 图像离散表示

3.1.2 双向生成模型

3.1.3 文本到图像的合成

3.1.4 图像到文本的生成

3.2 ERNIE-ViLG的大规模预训练

3.2.1 大规模图文数据集采集

3.2.2 大规模生成模型的分布式训练策略

4. 实验

4.1 设置

4.2 文本到图像的合成

4.3 图像标题

4.4 生成式视觉问答

5. 分析

6. 结论

参考

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

传统的图像文本生成任务方法主要分别处理自然双向生成任务，重点是设计特定于任务的框架以提高生成样本的质量和保真度。最近，视觉语言预训练模型极大地提高了图像到文本生成任务的性能，但用于文本到图像合成任务的大规模预训练模型仍然不发达。在本文中，我们提出了 ERNIE-ViLG，这是一种使用 Transformer 模型进行双向图像文本生成的统一生成预训练框架。基于图像量化模型，我们将图像生成和文本生成表示为以文本/图像输入为条件的自回归生成任务。双向图像文本生成建模简化了视觉和语言之间的语义对齐。对于文本到图像的生成过程，我们进一步提出了一种端到端的训练方法来共同学习视觉序列生成器和图像重建器。为了探索双向文本-图像生成的大规模预训练前景，我们在包含 1.45 亿（中文）图像-文本对的大规模数据集上训练了 100 亿个参数的 ERNIE-ViLG 模型，该模型实现了文本到图像和图像到文本任务的最佳性能，在 MS-COCO 上实现文本到图像合成的 FID 为 7.9，在 COCO-CN 和 AIC-ICC 上获得图像标题的最佳结果。

1. 简介

“我不理解我无法创造的东西，。” ——理查德·费曼

跨模态生成旨在将一种模态映射或翻译为另一种模态，要求模型完全 “理解” 源模态并忠实地 “创建”（生成）与源具有高度语义一致性的目标模态 [1]。

作为多模态机器学习研究的重要组成部分，跨模态生成任务（音频-语言 [2, 3]、视觉-语言 [4, 5, 6, 7, 8, 9]、音频-视觉 [10, 11]）引起了人们的极大关注。
在本文中，我们关注视觉-语言生成任务，主要包括图像标题（用自然语言描述图像的视觉内容）和文本到图像合成（创建与文本描述保持语义一致的图像）。
作为计算机视觉和自然语言处理的交叉点，视觉-语言生成任务引起了 NLP 和 CV 社区的极大兴趣，并在过去几年中取得了巨大进展。

当然，文本图像生成任务是双向的，合理的模型应该具有图像标题和文本到图像合成的能力。然而，由于语言生成和图像生成的生成架构不同，解决这两个任务的方法是分开开发的。

传统的图像标题方法主要采用编码器-解码器架构[4]，其中文本以序列生成方式生成。图像首先被编码为一个或多个向量，然后利用解码器（例如 LSTM）根据编码器结果生成语言标记。
最近，基于 Transformer 的视觉语言预训练模型 [7, 12] 受益于大规模图像文本对齐数据集的预训练，显着提高了图像标题的性能。
另一方面，主要的文本到图像合成方法是生成对抗网络（GAN）[13] 变体，其中 ConvNet 被用作生成器的基本架构。虽然已经提出了各种方法来提高生成图像的质量和分辨率，例如 StackGAN [14]、XMC-GAN [8]，但生成具有多个对象的复杂场景的图像仍然很困难。

受图像自回归模型 [15, 16] 的启发，最近的工作 [9, 17] 提出将文本到图像的合成表示为序列到序列问题，其中图像标记是通过离散 VAE 学习的 [ 18, 9]。他们在同一个 transformer 中对文本标记和图像标记进行建模，并且在图像质量和构建复杂场景的能力方面显示出巨大的改进。文本到图像的生成过程通常采用两阶段管道，由生成器（生成图像标记）和重构器（从生成的图像标记构建图像）组成，它们是单独训练的。

最近，研究人员尝试将双向图像文本生成任务统一在单个模型中。

Cho 等人 [19] 尝试增强现有的视觉语言预训练模型的文本到图像生成能力，通过对预训练图像特征使用 K 均值聚类生成图像离散标记，并以非自回归方式生成图像序列。
基于这种方法，Huang 等人 [20] 将这两个任务都制定为序列生成任务，并进一步提出序列级训练任务以提高性能。尽管它们将两个任务统一在一个 transformer 中，但它们采用非自回归采样来生成图像，这可以实现快速推理速度，但由于消除了目标标记之间依赖关系的显式建模，因此与自回归生成模型相比，性能是次优的。

在本文中，我们提出了 ERNIE-ViLG，一种使用 Transformer 模型进行双向图像文本生成的统一预训练方法。

基于图像量化技术 [18,9,21]，图像到文本和文本到图像的生成都是在同一 transformer 内以自回归方式处理的。我们进一步提出了一种用于文本到图像合成的端到端预训练方法，该方法使得传统上独立的两阶段生成器和重建器联合训练。
为了探索双向文本图像生成的大规模预训练前景，我们在包含 1.45 亿个高质量中文图像文本对的大规模数据集上预训练了具有 100 亿参数的模型。它在文本到图像合成和图像标题任务方面都表现出了卓越的性能。具体来说，它在 MS-COCO 上实现了文本到图像合成的最佳 FID，并在两个中文图像标题数据集上获得了最先进的性能。
此外，我们在具有挑战性的生成式视觉问答（VQA）任务上对 ERNIE-ViLG 进行了评估，出色的性能表明我们的双向生成模型已经捕获了跨视觉语言模态的语义对齐，并且还可以迁移到处理复杂的图像文本生成之外生成任务。

总的来说，我们的贡献包括：

我们提出了 ERNIE-ViLG，一种用于双向图像文本生成任务的统一生成预训练方法，其中图像和文本生成都被表述为自回归生成任务。我们提出了第一个基于图像离散表示的文本到图像合成的端到端训练方法，该方法增强了生成器和重建器，并且优于传统的两阶段方法。
我们训练了 100 亿参数的 ERNIE-ViLG 模型，并在文本到图像和图像到文本生成任务上获得了优异的性能，在 MS-COCO 上为文本到图像合成设置了新的 SOTA 结果，并在两个流行的中文数据集的图像标题任务上获得了 SOTA 结果。
生成式 VQA 任务的卓越性能表明，我们的双向生成模型捕获了视觉和语言模态之间复杂的语义对齐。

2. 相关工作

2.1 视觉语言预训练

视觉语言预训练（Vision-Language Pre-training，VLP）模型 [22,7,23,24,25,26,27] 极大地提高了各种视觉语言任务的性能，例如 VQA 和跨模态检索。

利用 Transformer 架构（双流或单流）来融合视觉模态和语言模态，他们提出了各种预训练任务，从传统的掩蔽语言建模（masked language modeling，MLM）、掩蔽区域预测（masked region prediction，MRP）、图像文本匹配（image-text matching，ITM）到词区域对齐 [23]、场景图预测 [24]、多模态条件文本生成 [28]、Prefix-LM [29] 等。
预训练数据集也是 VLP 研究的一个重要关注点，早期的工作利用百万级噪声图像-文本数据集（例如 Conceptual Captions [30]）和人类标记数据集（例如 COCO Captions [31]），而最近的工作则利用数亿和近十亿级噪声图像-文本数据集 [29] 扩大了预训练规模。

虽然大多数 VLP 方法侧重于视觉语言理解任务的预训练，但一些工作已经注意到预训练对于提高跨模态生成任务（主要是图像字幕任务）性能的重要性。

Zhou 等人 [7] 提出了第一个统一模型来提高理解和生成任务的性能，其中双向和序列到序列预训练任务利用不同的注意力掩模。
Wang 等人 [29] 提出了 prefix-LM 预训练任务，类似于图像标题，仅利用语言建模目标。
Hu 等人 [32] 从图像标题的数据和模型角度研究预训练的缩放行为。

虽然由于大规模图像文本数据集的预训练，图像到文本生成任务已经取得了很大进展，但文本到图像合成任务预训练的好处尚未得到充分探索。

Cho 等人 [19] 建议增强 VLP 模型的图像生成能力，该能力基于离散视觉表示并针对文本到图像合成进行微调。
Wu 等人 [33] 尝试构建一个针对图像和视频合成任务的统一编码器-解码器预训练框架。

ERNIE-ViLG 专注于图像到文本和文本到图像生成任务的预训练，并将预训练目标简化为图像和文本的自回归序列到序列生成任务。

2.2 视觉语言生成

图像到文本生成。

图像标题的典型方法采用编码器-解码器架构，将图像到文本问题表述为具有图像上下文的文本序列生成任务。
Vinyals 等人 [4] 提出了一种简单的基于 LSTM 的架构，其中图像被编码为单个向量并用作单层 LSTM 的初始隐藏状态。
利用注意力机制，人们提出了各种方法 [34,6,35] 来提高视觉图像和生成的文本序列之间的相关性，其中图像被编码为多个特征，并通过跨模态注意力来指导生成过程。
最近，研究人员探索了基于 Transformer 的图像标题模型的潜力 [30,36,7]。 Zhou 等人 [7] 建议使用统一的 Transformer 架构来融合视觉和文本模态，以进行编码和解码。
随后，Li 等人 [12] 建议将使用对象检测器从图像中提取的对象标签包含到输入中，以增强图像和文本之间的语义对齐。

文本到图像合成。

自从使用生成对抗网络（GAN）[13] 生成图像，基于 GAN 的方法一直是文本到图像合成中最流行的方法。
Reed 等人 [5] 首先扩展条件 GAN 以从语言描述生成图像。
此后，Zhang 等人 [14] 提出 StackGAN 以多阶段方式生成高分辨率图像。
Zhu 等人 [37] 建议使用动态记忆网络来精练图像内容。
Zhang 等人 [8] 建议结合对比学习来提高生成图像对文本输入的保真度。
最近，受到逐像素图像生成的自回归生成模型 [16] 的启发，基于 transformer 的方法 [9, 17] 在文本到图像的合成方面显示出了有希望的结果。基于通过各种离散 VAE [18, 21] 学习到的离散图像标记，他们尝试在单个 transformer 框架中对图像标记和文本标记进行建模，对于文本输入和图像目标遵循单向的方式。

3. 方法

在本节中，我们将介绍用于双向视觉语言生成的统一生成预训练框架以及用于文本到图像合成训练的端到端方法。此外，我们还详细介绍了大规模图像文本数据集的收集以及预训练 100 亿参数模型的分布式训练策略。

3.1 双向图像-文本生成的统一生成框架

如图 1 所示，ERNIE-ViLG 采用统一的双向图像-文本生成框架。

图像由矢量量化变分自动编码器（vector quantization variational autoencoder，VQVAE）[18] 表示为离散表示序列。图像离散序列用作参数共享 transformer 的输入（输出），用于自回归图像到文本（文本到图像）的生成。
具体来说，对于图像到文本的生成，transformer 将图像离散序列作为输入来生成相应的文本序列。相反，对于文本到图像的合成，文本被输入到 transformer 以生成相应的视觉离散序列，然后使用图像离散序列来重建图像。
除了传统的两阶段管道方法之外，我们还提出了一种联合训练离散表示序列生成和图像重建模块的端到端训练方法，以增强文本到图像合成的能力。

3.1.1 图像离散表示

离散表示最近在图像生成任务中取得了显着的改进，因为它可以更好地适应自回归建模。 VQVAE [18] 提出使用矢量量化将图像表示为潜在离散序列。它比像素聚类具有更强的语义表示能力。 VQVAE 通过编码器 E 对原始图像 x ∈ R^(H*W*3) 进行编码，并用码本 C 将其量化为 z。z 是具有 h*w 索引的离散序列，并用于通过解码器 G 和 C 重建 x。训练期间的损失函数如公式 1-2 所示。

整体损失函数包含两部分。 L_VQV AE 的第一项是重建损失。最后两项旨在使 E(x)（编码器输出）和 z_emb（从码本查找离散序列后的嵌入）彼此接近。 sg[·] 表示停止梯度（stop-gradient）操作，q[·] 表示矢量量化。 x 和 ^x 是原始图像和重建图像。离散序列 z 作为双向生成模型的输入（或输出），其长度 n 为 h*w。

3.1.2 双向生成模型

对于生成模型，我们使用多层 transformer 编码器来执行图像到文本和文本到图像的生成任务。

与仅解码 [9, 17] 或单独的编码器-解码器 [33] 架构不同，ERNIE-ViLG 的编码器和解码器共享参数并使用特定的自注意力掩码来控制上下文，如 UniLM [38] 和 ERNIE- GEN [39]，其中允许源标记注意所有源标记，并且允许目标标记注意源标记及其左侧的目标标记。
双向生成预训练任务在同一模型中精确建模，我们认为共享模型空间有助于在视觉和语言模态之间建立更好的语义对齐。

使用 VQVAE 编码器从图像中离散化的视觉标记 {z_1, ..., z_n} 和使用 WordPiece 标记器从文本标记化的文本标记 {t_1, ..., t_m} 被连接并输入到 transformer 模型中。因此，在训练过程中，模型采用输入流 {t_1, ..., t_m, z_1, ..., z_n} 用于文本到图像生成任务，以自回归方式预测图像标记，采用输入流 {z_1, ..., z_n, t_1, ..., t_m} 用于图像到文本生成任务。我们使用以下多任务损失来学习图像文本双向生成任务。

请注意，视觉序列 z 的长度 n 通常很大（通常大于1024）以减少图像的信息损失，这导致 Transformer 模型在训练和推理过程中的计算成本和内存消耗相对较高。

如图 2 所示，我们利用与 [9] 中类似的稀疏注意力机制。
具体来说，我们对第 i 个 transformer 层采用行注意力（i mod 4 != 2）、列注意力（i mod 4 = 2）和卷积注意力（最后一层）。我们在训练时将行注意力和列注意力实现为块式注意力。
几个初步的实验验证了这种稀疏注意力的实现可以在训练过程中大约提高 25% 的速度并节省 50% 的 GPU 内存，同时保持损失的收敛与密集注意力一致。而且预测方面的改进更为显着。
虽然 [9] 中的稀疏注意力是为单向建模而设计的，但我们将它们调整为用于图像到文本生成的视觉输入标记的双向建模方式，如图 2（b）所示。

3.1.3 文本到图像的合成

基于图像离散序列的文本到图像合成通常在两阶段流程中处理：离散表示序列生成和图像重建。如图 1 中的红色路径，在码本中查找生成的离散序列以获得 3D 张量 z_emb ∈ R^(h*w*d)。然后 z_emb 被发送到重建的解码器以恢复成图像。生成器和重建器是独立训练的。

除了传统的两阶段管道模式外，在 ERNIE-ViLG 的框架下，文本到图像的合成还可以使用我们新提出的端到端训练方法，如图 1 中的绿色路径。最后一个 Transformer 层输出的图像标记的隐藏嵌入被非线性映射到 z_emb。由于避免了不可导出的 ID 映射操作，因此梯度可以从重构器向后传播到生成器。因此，可以进行端到端的训练。

该方法旨在：

为重建器提供更多上下文特征。与码本中的上下文无关嵌入相比，隐藏嵌入由深度模型编码，包含更多图像语义。它还通过注意力交互来感知文本信息。
通过重建任务增强生成器。隐藏嵌入接收来自生成和重建的抽象和原始监督信号。它可以帮助生成器更好地了解图像表示。

我们的实验表明，与两级管道相比，端到端训练可以改进生成器和重建器。详细的实验结果见第 5 节。

3.1.4 图像到文本的生成

对于图像到文本的生成任务，首先使用编码器和 VQVAE 的码本将图像离散化为视觉标记。然后将图像标记输入 Transformer 以自回归生成文本标记。在我们当前的实现中，量化模块在图像到文本生成训练任务期间进行预训练和固定，同时它们也可以与生成模型联合更新，我们将在未来的工作中对此进行探索。

3.2 ERNIE-ViLG的大规模预训练

为了探索双向文本-图像生成的大规模预训练前景，我们训练了一个 100 亿参数的 ERNIE-ViLG 模型，这是一个用于图像到文本和文本到图像生成的 48 层 Transformer 编码器。大规模预训练的核心问题包括训练数据的收集和分布式并行训练。

3.2.1 大规模图文数据集采集

为了预训练具有从基本实体到复杂场景的双向文本图像生成通用能力的生成模型，我们构建了一个由超过 1.45 亿个高质量中文图像-文本对组成的大规模图像-文本数据集。我们的数据集来源如下：

中文网页。我们从各个中文网页中抓取了 8 亿条原始的与图像配对的中文替代文本描述（Chinese alt-text descriptions），进行了多个过滤步骤，总共收获了 7000 万条文本-图像对。过滤规则主要包括： (1) 文本长度：alt-text 的字数小于 15。 (2) 文本内容：alt-text 必须至少包含 1 个名词，且不包含特殊字符。 (3) 图文相似度：替代文本与图像的相似度得分（由内部图文匹配模型计算，得分范围为 0.0 至 1.0）大于 0.5。
图像搜索引擎。我们从内部图像搜索引擎收集了大约 6000 万条查询文本和相应的用户点击图像。查询和用户点击的图像之间通常存在很强的相关性。
公共图像文本数据集。我们从两个公共数据集 CC [30] 和 CC12M [40] 中收集了总共 1500 万个文本图像对。这些数据集中的标题通过百度翻译 API 翻译成中文。

3.2.2 大规模生成模型的分布式训练策略

100 亿参数的 ERNIE-ViLG 是基于 PaddlePaddle 平台 [41] 实现的。训练如此大规模的模型需要解决严峻的挑战，例如有限的设备内存和计算效率。此外，将 10B 生成模型安装到单个 GPU 中要求相当高，而且考虑到我们的双向模型结构使激活和梯度的内存消耗加倍，这变得更具挑战性。

如图 3 所示，我们采用组分片数据并行（Group Sharded data parallelism）技术 [42, 43]，通过跨多个设备划分优化器状态、梯度和参数来消除内存冗余。此外，还应用激活重新计算 [44] 和混合精度 [45] 来减少 GPU 内存占用并提高吞吐量。此外，引入了 Optimizer-offload [46] 将分片优化器状态和主参数交换到 CPU，这大大减少了 GPU 内存占用。此外，我们将优化器卸载与梯度累积相结合，降低 CPU 和 GPU 之间的通信频率，从而提供更高的计算效率。

4. 实验

我们预训练了 100 亿参数的 ERNIE-ViLG 模型并验证了其生成能力。我们对传统的双向图像文本任务进行了实验：文本到图像合成和图像标题。此外，为了进一步验证我们模型的跨模态理解能力，我们将 ERNIE-ViLG 转移到具有挑战性的生成式 VQA 任务中，以评估我们的模型在视觉和语言模态中捕获的对齐情况。

4.1 设置

我们使用 VQGAN [21]（VQVAE 的增强变体）作为我们的 “图像标记器”。通过添加对抗性训练和感知损失，VQGAN 可以从离散表示中恢复更清晰、更真实的图像。我们采用 f = 8，词汇表大小 = 8192 的 VQGAN 模型，其中 f 表示边长（side-length）的缩减因子。我们通过中心裁剪将原始图像预处理为 256 * 256，因此视觉离散标记序列 n 的长度为 1024（h*w，h = w = 32）。

对于生成器，我们使用多层 Transformer 编码器来执行图像到文本和文本到图像生成任务，该编码器由 48 个 Transformer 层、4096 个隐藏单元和 64 个注意力头组成，总共有 100 亿个参数。考虑到基于 GAN 的模型训练的不稳定性，我们在训练该模型时选择两阶段文本到图像合成模式，并直接使用 VQGAN 的解码器作为图像重建器。

4.2 文本到图像的合成

为了生成给定文本的图像，我们遵循与 [9] 中相同的采样策略，并使用内部（in-house）基于对比学习的图像文本匹配模型对生成的图像进行重新排序。我们在零样本和微调设置下对常用的文本到图像合成数据集进行 ERNIE-ViLG 自动评估。此外，我们还开展人工评估活动来直接评估生成的图像的质量。

自动评估。对于自动评估，我们将 ERNIE-ViLG 与 MSCOCO [49] 上的其他强方法进行比较。 MS-COCO 是一个公开的文本到图像合成基准，这对于包含许多涉及常见对象的复杂场景来说具有挑战性。继之前的工作之后，我们从验证集中随机采样了 30,000 张图像，并通过百度翻译 API 将其相应的标题翻译成中文。对于生成的图像，我们对样本进行重新排序，并选择 60 个样本中的最佳样本进行零样本实验，以便与 [17] 进行公平比较，并在微调时选择 10 个样本中的最佳样本。采用 Fréchet Inception Distance (FID) [50] 进行图像质量评估（与之前的作品相同，我们采用来自 https://github.com/MinfengZhu/DM-GAN 的评估代码）。

表 1 所示的结果将我们的模型与之前的工作进行了比较。在零样本设置下，ERNIE-ViLG 大幅超越了 120 亿参数模型 DALL-E，FID 显着提高了12.8，甚至可以与全监督模型相媲美。它证实 ERNIE-ViLG 获得了图像和文本之间的通用语义对齐，即使对于复杂的开放域场景也是如此。在对特定领域的数据集进行微调后，ERNIE-ViLG 在 MS-COCO 上取得了最先进的结果，与基于最佳 Transformer 的方法和基于最佳 GAN 的方法分别将 FID 指标提高了 5.0 和 1.4 。

人类评估为了获得对我们的模型在零样本设置中生成的图像质量的直接评估，我们构建了一个用于人类评估的多样化数据集，其中包含针对各种情况的 500 个文本。从各个方面收集文本句子，以充分探索 ERNIE-ViLG 的通用能力，例如对象的详细属性、以合理的方式组合多个对象等。有关此数据集的更多详细信息，请参阅附录 A。评估时，要求三名评估员从三个角度（图像清晰度、图像纹理、文本与图像之间的相关性）评估每张图像，质量分数范围为 1 到 5。我们重新排序，并对于每个文本，从 60 个生成的样本中选择最好的并与 CogView （给定文本，CogView 生成的图像是从其官方网站手动抓取的）进行比较。平均评估结果列于表 2 中。ERNIE-ViLG 从所有三个角度都获得了比 CogView [17] 更高的质量分数，这表明我们的模型获得了更好的零样本文本到图像生成能力。

定性结果 ERNIE-ViLG 已经获得了各种场景的生成能力，从基本对象到复杂的对象组合。一些示例如图 4 所示。从示例中可以看出，ERNIE-ViLG 不仅可以绘制给定文本描述中提到的实体，还可以将它们以合理的方式与背景组合在一起。令人惊讶的是，我们还发现 ERNIE-ViLG 拥有两项特殊技能。首先，ERNIE-ViLG 只需添加文字提示即可生成不同风格的图像，无需像 CogView 那样进行微调（图 5）。其次，我们的模型可以根据中国古诗生成逼真的图像，这显示出对简短和抽象描述的良好理解。诗中的真实观念层次分明，意境描写得很好（图6）。

4.3 图像标题

为了充分评估 ERNIE-ViLG 的图像标题能力，我们进行了自动评估，以便与以前的方法进行公平比较，并通过人类判断来评估生成的标题的质量。

自动评估。我们在两个常用的中文图像字幕数据集 AIC-ICC [51] 和 COCO-CN [52] 上进行了实验。对于 AIC-ICC，我们按照与 [53] 相同的做法，在训练分割上微调 ERNIE-ViLG，并在验证分割上进行评估。对于 COCO-CN 上的实验，我们使用标准的训练/验证/测试分割并报告测试分割的结果。我们采用广泛使用的指标 BLEU@4、METEOR、ROUGE-L 和 CIDERr 进行所有评估。

如表 3 和表 4 所示，ERNIE-ViLG 在两个数据集上均取得了最佳结果。具体来说，与基于预训练的方法 [53] 相比，我们在 AIC-ICC 上获得了 2.1 BLEU@4 的显着改进。

人工评估。我们还开展了人工评估活动，以评估 ERNIE-ViLG 生成的标题的质量。给定图像和生成的预测，要求评估者从三个角度评估标题质量：流畅性（标题是否流畅）、相关性（标题是否与给定图像相关）和丰富性（标题是否充分描述了图像的全部内容），分数从 0 到 2（越高越好）。我们从 COCO-CN 测试集中随机选择 200 张图像，并根据零样本 ERNIE-ViLG 模型和微调模型进行预测。

评估结果如表 5 所示。微调后的 ERNIE-ViLG 模型获得的平均得分为 1.62。我们还发现零样本 ERNIE-ViLG 模型获得了较高的流畅度分数，接近微调模型的分数，但它们之间的相关性分数和丰富度分数差距很大。我们认为这是因为网络爬取的预训练数据集往往有噪音，并且大多数标题的描述性较差，而人工标记的标题数据集（例如 COCO-CN）中的标题通常具有描述性，可以捕获图像的所有细节。图 7 中展示了一些示例。

4.4 生成式视觉问答

在文献中，视觉问答任务通常转换为预定义候选答案集上的多标签分类问题。然而，在现实应用中很难定义一组封闭的候选答案，这使得这种简化在研究和实际应用之间仍然存在差距。在本文中，我们研究了开放式生成视觉问答任务，其中模型需要在给定图像和问题的情况下直接生成答案。此任务的理想生成模型需要基于视觉和语言理解在图像和问题之间建立语义连接，并生成流畅的文本答案。我们在公共 FMIQA [54] 数据集上进行了实验，该数据集具有自由式和多样化的问答注释。对于评估，我们既进行图灵测试 [54]（要求人类评估者判断答案是否由机器生成），又进行人类判断的答案质量评估（分数从 0 到 2，越高越好）。

由于测试集尚未正式发布，我们从 FMIQA 验证分组中随机选择 200 个样本进行评估。我们在训练分割上对 ERNIE-ViLG 进行微调，并使用微调后的模型对样本进行预测。与 [54] 相比，我们还对人工标记的答案进行评估，以消除不同评估者的偏差。评估结果如表 6 所示。ERNIE-ViLG 的图灵文本通过率为 78.5%，显着超过 mQA [54]，答案得分为 1.495，这清楚地验证了我们的模型已经捕获了跨视觉和语言模态的语义对齐。

5. 分析

为了评估我们提出的端到端文本到图像合成方法带来的好处，我们使用精简版 Transformer 作为图像离散表示生成器进行实验，该版本具有约 3 亿个参数（24 个 Transformer 层，1024 个隐藏单元）和 16 个注意力头）。考虑到 GAN 训练过程的不稳定性，我们利用 dVAE [9]，而不是 VQGAN，将图像离散化为视觉序列，并根据视觉标记构建图像。对于重建器，我们使用与 dVAE 相同的网络架构。我们开发了一个多任务学习过程，为生成损失和重建损失分配相同的权重。该模型在 CC 和 CC12M 的合并数据集上进行训练，并在零样本设置的 MS-COCO 验证集上进行评估。

我们将端到端训练方法的结果与两阶段管道基线进行比较，如表 7 所示。对于两阶段管道，我们训练文本到图像生成器，并直接使用 dVAE 的解码器作为重建器。Two-stage G(R) 是指单独训练的生成器(重建器)，end-to-end G(R) 是指端到端训练的生成器(重建器)。与两级管道相比，我们的端到端方法实现了 1.5 的 FID 显着改进。我们发现，将端到端训练的生成器（end-to-end G）和 dVAE 解码器（two-stage R)）相结合也带来了与两阶段管道相比 0.9 的 FID 改进，但落后于端到端方法。这表明我们提出的端到端方法可以提高生成器（two-stage G & two-stage R vs end-to-end G & two-stage R）和重建器（end-to-end G & two-stage R vs end-to-end G & end-to-end R）。

我们还将通过 dVAE离散化的真实图像的视觉序列（gold image sequence）输入到两个重建器中进行比较。实验结果（表7中的最后两行）表明，端到端训练的重建器在从真实图像离散表示重建方面具有更明显的优势。我们认为端到端训练在具有 100 亿个参数的 ERNIE-ViLG 上会更有效，因为更强大的生成器生成的图像离散表示更接近真实分布，并且更大模型的隐藏嵌入为重建器提供了更有用的特征。由于 GAN 和大规模生成模型的训练都不稳定，我们基于 VQGAN 的 100 亿参数模型还没有使用端到端的训练。我们将解决未来工作中的不稳定问题，并通过端到端训练来改进 100 亿参数的 ERNIE-ViLG。

6. 结论

我们提出 ERNIE-ViLG 将双向图像文本生成任务统一在一个生成模型中，并提出一种用于文本到图像合成的端到端训练方法。 ERNIE-ViLG 在大规模图像文本数据集上进行了预训练，捕获了双向视觉语言生成的功能，并在各种跨模态生成任务上实现了卓越的性能，包括文本到图像合成、图像标题和生成式视觉问答。总的来说，我们的模型进一步推进了图像到文本和文本到图像生成任务的统一预训练。

参考

Zhang H, Yin W, Fang Y, et al. Ernie-vilg: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.

S. 总结

S.1 主要贡献

本文提出 ERNIE-ViLG，这是一种使用 Transformer 模型进行双向生成（图像-文本，文本-图像）的统一生成预训练框架。基于图像量化模型，将生成表示为以输入文本 / 图像为条件的自回归生成任务。双向生成建模简化了视觉和语言之间的语义对齐。

本文提出一种端到端的训练方法来同时训练视觉序列生成器和图像重建器，该方法增强了生成器和重建器，并且优于传统的两阶段方法。

调整用于单向建模的稀疏注意力机制以适应本文的双向建模方案，这种稀疏注意力的实现可以在训练过程中提高速度并节省内存，同时保持损失的收敛与密集注意力一致，而且可以改进预测。

S.2 架构和方法

ERNIE-ViLG 采用的统一双向图像文本生成框架如图 1 所示。

图像由 VQVAE 表示为离散表示序列。图像离散序列用作参数共享 transformer 的输入（输出），用于自回归图像到文本（文本到图像）的生成。
与仅解码或单独的编码器-解码器架构不同，ERNIE-ViLG 的编码器和解码器共享参数并使用特定的自注意力掩码来控制上下文，其中允许源标记注意所有源标记，允许目标标记注意源标记及其左侧的目标标记。
对于文本到图像合成任务，除了采用以往的两阶段流程（离散表示序列生成和图像重建，如图 1 中的红色路径），还可采用本文的端到端训练方法（如图 1 中的绿色路径），与两阶段流程相比，端到端训练可以改进生成器和重建器。

你可能感兴趣的:(论文笔记,人工智能)

SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr