EDPJ

（2023，LLM，扩散，标记对齐，两阶段训练）MiniGPT-5：通过生成式 Voken 进行交错视觉和语言生成

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

3. 方法

3.1 多模态输入阶段

3.2 多模态输出生成

3.3 训练策略

4. 实验

4.1 实验设置

4.2 实验结果

4.2.1 多模态学习阶段

4.2.2 单模态对齐阶段

5. 结论

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

大型语言模型（LLM）因其在自然语言处理方面的进步而受到广泛关注，在文本理解和生成方面展现出无与伦比的能力。然而，同时带有连贯文本叙述的图像的生成仍然是一个不断发展的前沿领域。为此，我们引入了一种创新的交错视觉和语言生成技术，该技术以 “生成式 Voken” 的概念为基础，充当协调图像文本输出的桥梁。我们的方法的特点是独特的两阶段训练策略，专注于无描述的（description-free）多模态生成，其中训练不需要图像的全面描述。为了增强模型完整性，引入了无分类器指导，从而增强了 vokens 在图像生成方面的有效性。我们的模型 MiniGPT-5 比 MMDialog 数据集上的基线 Divter 模型有了显着改进，并在 VIST 数据集上的人类评估中始终提供卓越或可比的多模态输出，突出了其在不同基准上的有效性。

1. 简介

在最近大规模视觉和语言模型的发展中，多模态特征集成不仅是一种不断发展的趋势，而且是塑造从多模态对话代理到尖端内容创建工具等广泛应用的关键进步。

随着该领域研究和开发的激增，视觉和语言模型（Wu et al., 2023a; Li et al., 2023b; Tsimpoukelli et al., 2021; Alayrac et al., 2022）正处于一个时代的边缘，其中，人们期望它们能够无缝地理解和生成文本和图像内容。这种多方面的能力至关重要，因为它可以促进虚拟现实、媒体和电子商务等各个领域之间的增强互动。
本质上，该任务是使模型能够使用视觉和文本模态来连贯地合成、识别和响应，从而协调信息流并创建连贯的叙述。然而，当我们走上混合文本和视觉模态并实现交错视觉和语言生成的道路时，如图 1 所示，我们认识到这是由大型语言模型中对更集成和更流畅的多模态交互的迫切需求所驱动的。

然而，这段旅程充满了多重挑战。

首先，虽然当前最先进的大型语言模型（Large Language Models，LLM）（OpenAI，2023；Chiang et al.，2023；Ouyang et al.，2022）在理解文本和处理文本图像对方面表现出色，但它们在生成精妙艺术图像中却表现不佳。
其次，与受益于详尽图像描述的传统任务不同，新兴的交错视觉和语言任务（Sharma 等人，2018）严重依赖以话题为中心的数据，通常会忽略所有的图像描述符（Huang 等人，2016）。即使在海量数据集上进行训练后，将生成的文本与相应的图像对齐仍然具有挑战性。
最后，当我们推动 LLM 的边界时，大内存需求要求我们设计更有效的策略，特别是在下游任务中。

为了解决这些挑战，我们提出了 MiniGPT-5，

这是一种以 “生成式 vokens” 概念为基础的创新的交错式视觉和语言生成技术。通过特殊的视觉标记（Tan & Bansal，2020）——“生成式 vokens” 将稳定扩散机制与 LLM 合并，我们开发了一种多模态生成的新方法。
与此同时，我们提出的两阶段训练方法强调了无描述基础阶段的重要性，使模型即使在数据稀缺的情况下也能蓬勃发展。
我们的通用阶段没有特定领域的注释，使我们的解决方案与现有的工作不同。
为了确保生成的文本和图像协调一致，我们的双损失策略开始发挥作用，并通过我们创新的生成式 voken 方法和无分类器指导进一步增强。
我们的参数高效微调策略优化了训练效率并解决了内存限制。

基于这些技术，我们的工作标志着一种变革性的方法。

如图 2 所示，使用 ViT（Vision Transformer）和 Qformer（Li 等人，2023b）以及大型语言模型，我们将多模态输入调整为生成式 vokens，与用于上下文感知图像生成的高分辨率稳定扩散 2.1 模型（Rombachet 等人, 2022b)无缝结合。
将图像作为辅助输入与指令调整方法相结合，并开创了文本和图像生成损失的先河，我们放大了文本和视觉之间的协同作用。

总之，我们的贡献主要有三方面：

我们建议使用一种新颖且通用的技术：多模态编码器，该技术已被证明比 LLM 更有效，并且还可以逆转到生成式 vokens，并将其与稳定扩散相结合以生成交错的视觉和语言输出（可以进行多模态生成的多模态语言模型）。
我们重点介绍了一种用于无描述多模态生成的新的两阶段训练策略。单模态对齐阶段从大型文本图像对中获取高质量的文本对齐视觉特征。多模态学习阶段保证视觉和文本提示能够很好地协调生成。在训练阶段加入无分类器指导进一步提高了生成质量。
与其他多模态生成模型相比，我们在 CC3M 数据集上实现了最先进的性能。我们还在著名数据集（包括 VIST 和 MMDialog）上建立了前所未有的基准。

2. 相关工作

文本到图像生成。

为了将文本描述转换为相应的视觉表示，文本到图像模型（Reed et al., 2016; Dhariwal & Nichol, 2021; Saharia et al., 2022; Rombach et al., 2022b;a; Gu et al.,2023）采用复杂的架构和复杂的算法，弥合了文本信息和视觉内容之间的差距。这些模型擅长解释输入文本的语义并将其转换为连贯且相关的图像。
该领域最近的一个值得注意的贡献是稳定扩散 2（Rombach 等人，2022b），它采用扩散过程来生成条件图像特征，然后根据这些特征重建图像。
我们的研究旨在利用这种预先训练的模型，增强其适应多模态输入和输出的能力。

多模态大型语言模型。

随着大型语言模型（Large Language Models，LLM）变得越来越有影响力和易于使用，越来越多的研究已经出现，将这些预训练的 LLM 扩展到多模态理解任务领域（Zhu et al., 2023; Li et al., 2023b）；Dai 等人，2023；OpenAI，2023；Li 等人，2023a；Alayrac 等人，2022）。
例如，为了再现 GPT-4（OpenAI，2023）中令人印象深刻的多模态理解能力，MiniGPT-4（Zhu 等人，2023）提出了一个投影层，使用先进的开源大型语言模型 Vicuna（Chiang 等人，2023）来对齐 BLIP 的预训练视觉组件（Li 等人，2023b）。
在我们的工作中，我们利用 MiniGPT-4 作为基础模型，并将模型的功能扩展到多模态生成。

使用大型语言模型的多模态生成。

为了增强 LLM 无缝集成视觉和语言生成的能力，最近的研究引入了多种创新方法（Ge et al., 2023; Sun et al., 2021; Koh et al., 2023; Sun 等人，2023b；Yu 等人，2023）。
例如，CM3Leon（Yu et al., 2023）提出了一种增强检索、仅解码器的架构，专为文本到图像和图像到文本应用程序而设计。
类似地，Emu (Sun et al., 2023b) 采用预训练的 EVA-CLIP (Sun et al., 2023a) 模型将图像转换为一维特征，并通过自回归技术对 LLAMA (Touvron et al., 2023) 模型进行微调以生成相关的文本和图像特征。
另一方面，GILL（Koh 等人，2023）和 SEED（Ge 等人，2023）都探索了将 vokens 映射到预训练稳定扩散模型的文本特征空间的概念； GILL 采用编码器-解码器框架，而 SEED 采用可训练的 Q-Former 结构。
与这些方法相比，我们的模型通过将 voken 特征与视觉信息对齐，采取了更直接的路线。此外，我们引入了几种旨在增强图像质量和上下文连贯性的训练策略。

3. 方法

为了赋予大语言模型多模态生成能力，我们引入了一个集成了预训练的多模态大语言模型和文本到图像生成模型的结构化框架。为了解决模型领域之间的差异，我们引入了特殊的视觉标记（称为“生成式 vokens”），它能够直接对原始图像进行训练。此外，我们提出了两阶段训练方法，加上无分类器指导策略，以进一步提高生成质量。后续部分将详细探讨这些元素。

3.1 多模态输入阶段

多模态大语言模型（例如 MiniGPT-4）的最新进展主要集中在多模态理解上，从而能够将图像作为顺序输入进行处理。为了将其能力扩展到多模式生成，我们引入了为输出视觉特征而设计的生成 voken。此外，我们在大语言模型 (LLM) 框架内采用尖端、参数高效的微调技术来进行多模态输出学习。以下段落将更详细地介绍这些发展。

多模态编码：每个文本标记都嵌入为向量 e_text ∈ R^d，而预训练的视觉编码器将每个输入图像转换为特征 e_img ∈ R^(32×d)。这些嵌入被连接起来以创建输入提示功能。

在 LLM 中添加 Vokens：

由于原始 LLM 的词汇表 V 仅包含文本标记，因此我们需要在 LLM 和生成模型之间构建一座桥梁。
我们把一组特殊标记 V_img = { [IMG1], [IMG2], ... , [IMGn] }（默认 n = 8）作为生成式 vokens 引入 LLM 词汇表 V 。这些 voken 的 LLM 输出隐藏状态用于后续图像生成，并且这些 voken 的位置可以表示交错图像的插入位置。
在 MiniGPT-4 中所有预训练权重 θ_pretrained 固定的情况下，可训练参数包括额外的输入嵌入 θ_voken-input 和输出嵌入 θ_voken-output。

参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）：

参数高效微调（PEFT）（Houlsby et al., 2019; Hu et al., 2021; Li & Liang, 2021）对于训练大型语言模型（LLM）至关重要。尽管如此，它在多模态环境中的应用在很大程度上仍未得到探索。
我们在 MiniGPT-4（Zhu et al., 2023）编码器上使用 PEFT 来训练模型以更好地理解指令或提示，从而增强其在新颖甚至零样本任务中的性能。更具体地说，我们尝试了在整个语言编码器（MiniGPT-4 中使用的 Vicuna（Chiang 等人，2023））上尝试前缀（prefix）调整（Li＆Liang，2021）和 LoRA 。与指令调整相结合，它显着增强了跨各种数据集（例如 VIST 和 MMDialog）的多模态生成性能。

3.2 多模态输出生成

为了准确地将生成标记与生成模型对齐，我们制定了一个用于维度匹配的紧凑映射模块，并结合了多种监督损失，包括文本空间损失和潜在扩散模型损失。

文本空间损失帮助模型学习标记的正确位置，而潜在扩散损失直接将标记与适当的视觉特征对齐。
由于生成式 voken 的特征直接由图像引导，因此我们的方法不需要图像的全面描述，从而实现无描述学习。

文本空间生成：

我们首先按照因果语言建模在文本空间中联合生成文本和 voken。在训练过程中，我们将 voken 附加到地面真实图像的位置，并训练模型以预测文本生成中的 voken。具体来说，生成的 token 表示为 T = {t_1, t_2, ..., t_m}，其中 t_i ∈ V ∪ V_img，因果语言建模损失定义为：

映射用于图像生成的 Voken 特征：接下来，我们将输出隐藏状态 h_voken 与文本到图像生成模型的文本条件特征空间对齐。为了将 voken 特征 h_voken 映射到可行的图像生成条件特征 e_text-encoder ∈ R^(L×ˆd)（其中 L 是文本到图像生成文本编码器的最大输入长度，ˆd 是文本到图像生成模型中的编码器输出特征的维度），我们构建了一个特征映射器模块，包括一个两层 MLP 模型θ_MLP，一个四层编码器-解码器 transformer 模型 θ_enc-dec 和一个可学习的解码器特征序列 q。映射特征 ˆh_voken 由下式给出：

使用潜在扩散模型（LDM）生成图像：为了生成适当的图像，映射特征 ˆh_voken 被用作去噪过程中的条件输入。直观上，ˆh_voken 应该代表相应的文本特征，指导扩散模型生成地面实况图像。我们使用潜在扩散模型（LDM）的损失作为指导。在训练过程中，地面实况图像首先通过预训练的 VAE 转换为潜在特征 z_0。然后，我们通过将噪声 ϵ 添加到 z_0 来获得噪声潜在特征 z_t。使用预训练的 U-Net 模型 ϵ_θ 来计算条件 LDM 损失：

这种综合方法利用预训练模型、专门化的标记和创新训练地技术等功能，确保对文本和视觉元素的理解和生成一致。

3.3 训练策略

鉴于文本和图像域之间不可忽略的域偏移，我们观察到对有限的交错文本和图像数据集进行直接训练可能会导致错位和图像质量下降。

因此，我们采用两种不同的培训策略来缓解这个问题。
第一个策略包括结合无分类器指导（Ho & Salimans，2022）技术，该技术在整个扩散过程中增强了生成标记的有效性。
第二种策略分两个阶段展开：最初的预训练阶段专注于粗略特征对齐，然后是致力于复杂特征学习的微调阶段。

无分类器指导（Classifier-free Guidance，CFG）：

为了增强生成的文本和图像之间的连贯性，我们首先利用无分类器指导的思想进行多模态生成。

无分类器引导在文本到图像的扩散过程中引入。该方法观察到，通过使用条件 dropout 对条件生成和无条件生成进行训练，生成模型 P_θ 可以实现改进的条件结果。

在我们的背景下，我们的目标是强调可训练条件 h_voken 并且生成模型是固定的。在训练过程中，我们以 10% 的概率将 h_voken 替换为零特征 h_0 ∈ 0^(n×d)，得到无条件特征

推理过程中，^h_0 作为负提示，精炼的去噪过程表示为：

两阶段训练策略：认识到纯文本生成和文本图像生成之间的重要领域转变，我们提出了两阶段训练策略：单模态对齐阶段（Unimodal Alignment Stage，UAS）和多模态学习阶段（Multimodal Learning Stage，MLS）。

最初，我们将 voken 特征与单个文本图像对数据集（例如 CC3M）中的图像生成特征对齐，数据集中每个数据样本仅包含一个文本和一张图像，并且文本通常是图像的标题。在此阶段，我们利用标题作为 LLM 输入，使 LLM 能够生成 voken。由于这些数据集包含图像描述信息，我们还引入了辅助损失来帮助 voken 对齐，从而最小化文本到图像生成模型中生成特征 ˆh_voken 和来自文本编码器 τ_θ 的标题特征之间的距离：

单峰对齐阶段损失表示为 LUAS = λ1 *L_text +λ2 *L_LDM +λ3 *L_CAP，选择值 λ1 = 0.01、λ2 = 1、λ3 = 0.1 将损失重新调整到类似的数值范围。

在单模态对齐阶段之后，

该模型能够为单个文本描述生成图像，但在交错的视觉和语言生成方面遇到困难，其中包括多个文本图像对，并且需要对文本和图像生成进行复杂的推理。
为了解决这个问题，在多模态学习阶段，我们通过交错的视觉和语言数据集（例如 VIST）进一步使用 PEFT 参数来微调我们的模型，其中数据样本具有文本图像和文本顺序相关的多个步骤。
在此阶段，我们从数据集中构建三种类型的任务，包括（1）纯文本生成：给定下一个图像，生成相关文本；（2）仅图像生成：给定下一个文本，生成相关图像，以及（3）多模态生成：通过给定上下文生成文本图像对。
多模态学习阶段损失由 LMLS = λ1 * L_text + λ2 * L_LDM 给出。
更多实现细节可以在附录 A 中找到。

4. 实验

为了评估我们模型的有效性，我们对多个基准进行了一系列评估。这些实验旨在解决几个关键问题：（1）我们的模型能否生成可信的图像和合理的文本？ (2) 在单轮和多轮交错视觉和语言生成任务中，我们的模型的性能与其他最先进的模型相比如何？（3）各个模块的设计对整体性能有什么影响？在接下来的小节中，我们将深入研究用于这些评估的数据集和实验设置，然后对我们的模型的性能进行全面分析。我们使用三个数据集：CC3M (Sharma et al., 2018)、VIST (Huang et al., 2016) 和 MMDialog (Feng et al., 2022)。有关数据集和数据格式的更多详细信息，请参阅附录 B。

4.1 实验设置

为了全面评估我们在多模态生成方面的表现，我们与几个著名的基线模型进行了比较分析：精调的单模态生成模型、GILL 和 Divter。

精调的单模态生成模型：为了促进图像和文本生成的公平比较，我们利用 VIST 数据集微调了两个单独的模型：Stable Diffusion 2.1 和 MiniGPT-4。在稳定扩散 2.1 模型中，U-Net 参数未冻结。对于 MiniGPT-4 的 LLM 部分，LoRA 参数进行了微调。

GILL（Koh 等人，2023）：GILL 是一项最新创新，允许 LLM 使用用于单图像生成的预训练文本到图像生成模型来生成的 voken。与我们采用条件生成损失指导的方法不同，GILL 最大限度地减少了文本到图像文本编码特征和 voken 特征之间的均方误差 (MSE) 损失，类似于我们方法中的 LCAP。由于他们的方法需要图像描述来进行训练，因此我们仅在单模态对齐阶段与它进行比较。（为了确保公平比较，考虑到CC3M数据集中有效数据的变化以及GILL中最初使用的Stable Diffusion 1.5，我们进行了调整。具体来说，我们将他们的文本到图像生成模型切换为稳定扩散 2.1，并按照官方实现中的指南，在我们的特定 CC3M 数据上对其进行了重新训练。（https://github.com/kohjingyu/gill））

Divter (Sun et al., 2021)：Divter 是一款专为多模态对话环境开发的最先进的对话代理。它引入了用于生成多模态响应的定制 transformer 结构。 Divter 的方法包括对大量纯文本对话和文本图像对进行预训练，然后对一组选定的多模态响应数据进行微调。 MMDialog 数据集以 Divter 的方法为基线。

指标。

为了全面评估图像、文本和多模态维度的模型性能，我们采用了一组不同的指标。
为了评估生成图像的质量和多样性，我们利用 IS（Salimans 等人，2016）和 FID（Heusel 等人，2017）。
文本性能通过 BLEU (Papineni et al., 2002)、Rouge-L (Lin, 2004)、METEOR (Banerjee & Lavie, 2005) 和 Sentence-BERT (S-BERT) (Reimers & Gurevych, 2019) 分数等指标来衡量。

在多模态方面，

我们利用基于 CLIP 的指标（Rombach 等人，2022b）来评估生成的内容和真实情况之间的一致性。 CLIP-I 评估生成图像和真实图像之间的相似性，而 CLIP-T 则侧重于生成图像和真实文本之间的一致性。
为了解决多模态生成中潜在的错位问题（例如当地面真实仅是文本，但输出是多模态时），我们利用 MM-Relevance (Feng et al., 2022)。该指标根据 CLIP 相似性计算 F1 分数，提供对多模态一致性的细致评估。
我们还采用人类偏好评分 (HPS) v2（Wu 等人，2023c）来评估生成的图像与基于人类偏好的输入文本提示的一致程度。

认识到生成的多模态输出可能有意义但与真实情况不同，我们还结合人类评估来评估模型的性能。我们从三个角度检查模型的有效性：

(1) 语言连续性 - 评估生成的文本是否与所提供的上下文无缝对齐，
(2) 图像质量 - 评估生成图像的清晰度和相关性
(3) 多模态一致性 - 确定组合的文本图像输出是否与初始上下文一致。

4.2 实验结果

在本节中，我们将定量分析不同训练阶段的不同基准上的模型性能。定性示例如图 4 所示。

4.2.1 多模态学习阶段

在本小节中，我们展示了不同模型在 VIST（Huang 等人，2016）和 MMDialg（Feng 等人，2022）数据集上的性能。我们的评估涵盖视觉（图像相关指标）和语言（文本指标）领域，以展示所提出模型的多功能性和鲁棒性。

VIST 最终步骤评估。我们的第一组实验涉及单步评估，其中根据最后一步的提示，模型旨在生成相应的图像。表 1 总结了此设置的结果。 MiniGPT-5 在所有三种设置下的性能均优于微调后的 SD 2，显示了 MiniGPT-5 管道的优势。值得注意的是，MiniGPT-5 (LoRA) 模型在多种提示类型的 CLIP 分数方面始终优于其他变体，尤其是在组合图像和文本提示时。另一方面，FID 分数突出了 MiniGPT-5（Prefix）模型的竞争力，表明图像嵌入质量（由 CLIP 分数反映）与图像的多样性和真实性（由 FID 分数捕获）之间可能存在权衡。与在 VIST 上直接训练而未结合单模态对齐阶段的模型（MiniGPT-5 w/o UAS）相比，很明显，虽然该模型保留了生成有意义图像的能力，但图像质量和一致性显着下降。这一观察结果强调了我们的两阶段训练策略的重要性。

VIST 多步骤评估。在详细而全面的评估中，我们系统地提供具有先前历史背景的模型，并随后评估每个后续步骤生成的图像和叙述。表 2 和表 3 概述了这些实验的结果，分别封装了图像和语言指标的性能。研究结果表明，MiniGPT-5 能够利用所有数据的长水平（long-horizontal）多模态输入提示生成连贯的高质量图像，而不会影响原始模型的多模态理解能力。这强调了我们的模型在不同环境中的有效性。

VIST 人类评估。为了评估多模态生成的质量，我们在 VIST 验证集上测试了我们的模型和基线。对于每个任务，给定前面的多模态序列，模型的任务是生成后续场景。为了确保公平比较，我们采用了经过微调的 MiniGPT-4，它经过专门训练，可以在没有任何 voken 的情况下生成旁白。随后，这些旁白通过文本到图像管道直接合并到 Stable Diffusion 2 中。我们随机选择了 5,000 个序列样本，每个序列都需要两名工作人员进行评估。这些评估人员的任务是根据三个标准（语言连续性、图像质量和多模态一致性）确定卓越的多模态输出。使用 Amazon Mechanical Turk（Crowston，2012）促进了这一评估，附录中提供了一个代表性示例（图 5）。如表 4 所示，我们的模型 MiniGPT-5 在 57.18% 的情况下生成更合适的文本叙述，在 52.06% 的情况下提供卓越的图像质量，并在 57.62% 的情况下产生更连贯的多模态输出。与使用旁白进行文本到图像提示而不包含语音的两阶段基线相比，该数据清楚地展示了其增强的多模态生成能力。

MMDialog 多轮评估。我们在 MMDialog 数据集上对我们的方法进行了评估，以确定在多轮对话场景中生成精确且适当的多模态信息的有效性。该模型需要根据此数据集中对话期间的先前回合生成单模态或多模态响应。我们的结果如表 5 所示，表明 MiniGPT-5 在生成更准确的文本响应方面优于基线模型 Divter。虽然生成的响应的图像质量相似，但与基线模型相比，MiniGPT-5 在 MM 相关性方面表现出色。这表明我们的模型可以更好地学习如何适当定位图像生成并产生高度一致的多模态响应。

4.2.2 单模态对齐阶段

我们不是对具有多轮多模态数据的数据集进行评估，而是评估单图像数据集 CC3M（Sharma 等人，2018）中的模型，如表 6 所示。在此阶段，模型接受图像描述的输入并生成相应的图像，这是典型的文本到图像任务，但与生成式标记结合。结果表明，虽然我们的模型在多回合场景下可以有更好的生成，但 Stable Diffusion 2 在单图像生成的所有指标上都取得了最佳结果。由于我们的模型在此阶段尝试与 Stable Diffusion 2 的预训练文本编码器保持一致，因此由于数据量的限制，性能上存在轻微差距。与 VIST 数据集上的观察结果相比，我们可以得出结论，MiniGPT-5 可以正确地从长水平多模态信息而不是单个文本输入中提取特征。这表明了如何有效地将 LLM 与生成模型结合起来的未来方向。另一方面，我们的模型在所有指标上都优于另一个最先进的多模态生成模型 GILL。我们的模型生成更连贯和高质量的图像，与预训练的稳定扩散模型生成的图像非常相似。为了进一步评估我们设计的有效性，我们进行了多项消融研究，更多关于 voken 数和 CFG 量表的消融研究可以在附录 C 中找到。

不同损失指导的评估：如第 3.3 节所述，我们引入了用于 CC3M 训练的辅助损失（表示为 L_CAP）。为了评估这种损失的影响并确定单个标题损失是否可以生成像 GILL 这样的高质量图像，我们在没有标题损失 LCAP 的情况下训练了我们的模型（映射的生成式 voken 特征与来自稳定扩散文本编码器的标题特征之间的对齐）和条件潜在扩散损失 L_LDM（映射的生成式 voken 特征与地面实况图像潜在扩散过程的条件特征之间的对齐）。结果如表 6 所示，表明标题损失显着有助于生成更好的图像，而条件潜在扩散损失进一步增强了相干性和图像质量方面的性能。

无分类器指导 (Classifier-Free Guidance，CFG) 的评估：为了评估 CFG 策略的有效性，我们在没有 CFG 下降的情况下训练了我们的模型。在推理过程中，模型利用了原始的 CFG 去噪过程，即利用 Stable Diffusion 2 文本编码器中的空标题特征作为负提示特征。表 6 中的结果表明，如果没有 CFG，所有指标都会变差，这表明 CFG 训练策略提高了图像生成质量。

使用人类偏好评分 (Human Preference Score，HPS) 进行评估：为了更好地评估我们模型的有效性及其各个组成部分，我们采用了人类偏好评分 v2 (HPSv2)（Wu 等人，2023b）。图 3 显示了具有最高 HPS 的每个模型生成的图像数量。值得注意的是，MiniGPT-5 始终优于其竞争对手，强调了损失的重要性以及我们的方法中实施的无分类器引导技术。

5. 结论

在本文中，我们介绍了 MiniGPT-5，旨在通过将 LLM 与预训练的文本到图像生成模型对齐来增强 LLM 的多模态生成功能。正如综合实验所证明的那样，我们的方法展示了显着的改进。通过这项工作，我们渴望在多模态生成模型中树立新的基准，为以前因现有图像和文本合成范式的脱节性质而被视为具有挑战性的应用程序打开大门。

S. 总结

S.1 主要贡献

本文提出 MiniGPT-5，将多模态编码器与稳定扩散结合以生成交错的视觉和语言输出。它以 “生成式 Voken” 的概念为基础，通过将 LLM 与预训练的文本到图像生成模型对齐，来生成带有连贯文本叙述的图像。

介绍了一种用于无描述多模态生成的两阶段训练策略。单模态对齐阶段从大型文本图像对中获取高质量的文本对齐视觉特征。多模态学习阶段保证视觉特征和文本提示能够很好地协调来生成。

在训练阶段加入了无分类器指导来增强生成的文本和图像之间的连贯性，从而增强了 vokens 在图像生成方面的有效性。

S.2 架构和方法

本文的架构如图 2 所示。

多模态输入阶段：除了使用相应的编码器将输入文本和图像编码外，还要在 LLM 的词汇表中引入一组特殊标记作为 voken（这些 voken 的 LLM 输出隐藏状态用于后续图像生成，并且这些 voken 的位置可以表示交错图像的插入位置），从而在 LLM 和生成模型之间构建一座桥梁。

多模态输出阶段：

使用文本空间损失和潜在扩散模型损失将生成标记与生成模型对齐。
文本空间损失帮助模型学习标记的正确位置，而潜在扩散损失直接将标记与适当的视觉特征对齐。
由于生成式 voken 的特征直接由图像引导，因此该方法不需要图像的全面描述，从而实现无描述学习。

训练阶段使用两阶段训练策略：单模态对齐阶段和多模态学习阶段。

第一阶段引入了辅助损失对齐文本到图像生成模型中生成特征和来自文本编码器的标题特征。
第二阶段使用交错的视觉和语言数据集进一步使用参数高效微调（PEFT）来微调模型，从而解决交错的视觉和语言生成（包括多个文本图像对，并且需要对文本和图像生成进行复杂的推理）方面的问题。

你可能感兴趣的:(论文笔记,深度学习,计算机视觉)

蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa