datamonday

【LMM 009】MiniGPT-4：使用 Vicuna 增强视觉语言理解能力的多模态大模型

论文描述：MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
论文作者：Deyao Zhu∗ Jun Chen∗ Xiaoqian Shen Xiang Li Mohamed Elhoseiny
作者单位：King Abdullah University of Science and Technology
论文原文：https://arxiv.org/abs/2304.10592
论文出处：–
论文被引：457（12/31/2023）
论文代码：https://github.com/Vision-CAIR/MiniGPT-4，21.4k star
项目主页：https://minigpt-4.github.io/

ABSTRACT

最近的 GPT-4 展示了非凡的多模态能力，例如直接从手写文本生成网站，以及识别图像中的幽默元素。这些功能在以往的视觉语言模型中很少见。然而，GPT-4 背后的技术细节仍未公开。我们认为，GPT-4 增强的多模态生成能力源于对复杂的大型语言模型（LLM）的利用。为了研究这一现象，我们提出了 MiniGPT-4，它使用一个投影层将冻结的视觉编码器与冻结的高级 LLM Vicuna 对齐。我们的研究首次发现，将视觉特征与先进的大型语言模型进行适当对齐，可以拥有 GPT-4 所展示的众多先进的多模态能力，例如生成详细的图像描述和根据手绘草稿创建网站。此外，我们还观察到 MiniGPT-4 的其他新兴/涌现能力（emerging capabilities），包括根据给定图像编写故事和诗歌，根据食物照片教用户如何烹饪等。在我们的实验中，我们发现在较短的图片描述对（image caption pair）上训练的模型可能会产生不自然的语言输出（e.g, repetition and fragmentation）。为了解决这个问题，我们在第二阶段策划了一个详细的图片描述数据集来对模型进行微调，从而提高了模型生成的可靠性和整体可用性。

1 INTRODUCTION

近年来，大型语言模型（LLMs）取得了突飞猛进的发展（Ouyang et al., 2022；OpenAI，2022；Brown et al., 2020；Scao et al., 2022a；Touvron et al., 2023；Chowdhery et al., 2022；Hoffmann et al., 2022）。这些模型具有超强的语言理解能力，能以零样本的方式完成各种复杂的语言任务。值得注意的是，最近推出的大规模多模态模型 GPT-4 展示了视觉语言理解和生成方面的多项令人印象深刻的能力（OpenAI，2023）。例如，GPT-4 可以生成详细而准确的图像描述，解释不寻常的视觉现象，甚至可以根据手写文本指令构建网站。

虽然 GPT-4 展示了非凡的视觉语言能力，但其卓越能力背后的方法仍是一个谜。我们认为，这些令人印象深刻的技能可能源于使用了更先进的大型语言模型（LLM）。LLM 已经展示了各种新兴/涌现能力（emergent abilities），GPT-3 的小样本提示设置（Brown et al., 2020）和（Wei et al., 2022）的研究结果都证明了这一点。在较小的模型中很难发现这种特性。据推测，这些新兴能力也适用于多模态模型，这可能是 GPT-4 令人印象深刻的视觉描述（visual description）能力的基础。

为了证实我们的假设，我们提出了一种名为 MiniGPT-4 的新型视觉语言模型。

它利用先进的大型语言模型（LLM）Vicuna（Chiang et al., 2023）作为语言解码器，该模型基于 LLaMA（Touvron et al., 2023）构建，据报道，根据 GPT-4 的评估，其质量达到 ChatGPT 的 90%。
在视觉感知方面，我们采用了与 BLIP-2（Li et al., 2023）相同的预训练视觉组件，其中包括来自 EVA-CLIP （Fang et al., 2022）的 ViT-G/14 和 Q-Former 网络。
MiniGPT-4 增加了一个投影层，将编码的视觉特征与 Vicuna 语言模型对齐，并冻结了所有其他视觉和语言组件。

MiniGPT-4 最初在 4 个 A100 GPU 上以 256 的批量大小训练了 20k 步，利用了一个综合图像描述（image captioning）数据集，其中包括来自 LAION（Schuhmann et al., 2021），Conceptual Captions（Changpinyo et al., 2021；Sharma et al., 2018）和 SBU（Ordonez et al., 2011）的图像，以便将视觉特征与 Vicuna 语言模型对齐。然而，仅仅将视觉特征与语言模型（LLM）进行对齐还不足以确保强大的视觉对话能力，与聊天机器人的能力相仿。原始图像-文本对中存在的潜在噪声会导致不合格的语言输出。因此，我们又收集了 3500 对详细的图像描述，利用设计好的对话模板进一步微调模型，以提高生成语言的自然度和可用性。

我们在实验中发现，MiniGPT-4 拥有许多与 GPT-4 类似的功能。例如，MiniGPT-4 可以生成复杂的图像描述，根据手写文本指令创建网站，以及解释不寻常的视觉现象。此外，我们的研究结果表明，MiniGPT-4 还具有 GPT-4 演示中没有展示的其他各种有趣的能力。例如，MiniGPT-4 可以根据食物照片直接生成详细的烹饪食谱，根据图像灵感编写故事或诗歌，根据图像编写产品广告，识别照片中显示的问题并提供相应的解决方案，以及直接从图像中检索有关人物，电影或艺术的丰富事实，等等。以前的视觉语言模型，如 Kosmos-1（Huang et al., 2023）和 BLIP-2（Li et al., 2023），都不具备这些能力。这进一步验证了将视觉特征与先进的语言模型相结合是增强视觉语言模型的关键之一。

我们总结了我们的主要发现：

我们的研究以令人信服的证据表明，通过将视觉特征与先进的大型语言模型（如 Vicuna）对齐，MiniGPT-4 可以实现与 GPT-4 演示相媲美的先进视觉语言能力。
我们的研究结果表明，只需训练一个投影层，就能有效地将预先训练好的视觉编码器与大型语言模型对齐。我们的 MiniGPT-4 只需要在 4 个 A100 GPU 上训练大约 10 个小时。
我们发现，仅仅使用简短的图像描述对（image caption pairs）将视觉特征与大型语言模型对齐，不足以开发出性能良好的模型，还会导致语言生成不自然。使用小而详细的图像描述对进行进一步微调可以解决这一局限性，并显著提高其可用性。

2 RELATED WORKS

Large language models

近年来，由于训练数据的扩大和参数数量的增加，大型语言模型取得了巨大成功。早期的模型，如 BERT（Devlin et al., 2018），GPT-2（Radford et al., 2019）和 T5（Raffel et al., 2020），为这一进展奠定了基础。随后，GPT-3（Brown et al., 2020）以 1,750 亿个参数的庞大规模问世，在众多语言基准方面取得了重大突破。这一发展激励了其他各种大型语言模型的创建，包括：

MegatronTuring NLG（Smith et al., 2022）
Chinchilla（Hoffmann et al., 2022）
PaLM（Chowdhery et al., 2022）
OPT（Zhang et al., 2022）
BLOOM（Scao et al., 2022b）
LLaMA（Touvron et al., 2023）

（Wei et al., 2022）进一步发现了几种新出现的能力，它们只出现在大型模型中。这些能力的出现强调了在开发大型语言模型过程中扩大规模的重要性。此外，通过将预先训练好的大型语言模型GPT-3与人类意图，指令和人类反馈对齐，InstructGPT（Ouyang et al., 2022）和ChatGPT（OpenAI，2022）实现了与人类的对话式交互，并能回答各种不同的复杂问题。最近，基于 LLaMA（Touvron et al., 2023）开发的几个开源模型，如 Alpaca（Taori et al., 2023）和 Vicuna（Chiang et al., 2023），也表现出类似的性能。

Leveraging Pre-trained LLMs in Vision-Language Tasks.

近年来，在视觉语言任务中使用自回归语言模型作为解码器的趋势得到了极大的发展（Chen et al., 2022；Huang et al., 2023；Yang et al., 2022；Tiong et al., 2022；Alayrac et al., 2022；Li et al., 2023；2022；Driess et al., 2023）。这种方法利用了跨模态迁移的优势，允许在语言和多模态领域之间共享知识。

VisualGPT（Chen et al., 2022）和 Frozen（Tsimpoukelli et al., 2021）等开创性研究证明了采用预先训练的语言模型作为视觉语言模型解码器的好处。
Flamingo（Alayrac et al., 2022）利用门控交叉注意技术将预先训练好的视觉编码器和语言模型对齐，并在数十亿图像-文本对上进行了训练，展示了令人印象深刻的上下文少量学习能力。
BLIP-2（Li et al., 2023）采用了带有 Q-Former 的 Flan-T5（Chung et al., 2022），将视觉特征与语言模型有效地对齐。
5620 亿参数的 PaLM-E（Driess et al., 2023）用于将真实世界的连续传感器模态集成到 LLM 中，从而在真实世界的感知和人类语言之间建立联系。
GPT-4（OpenAI，2023）在对大量对齐图像文本数据进行预训练后，展示了更强大的视觉理解和推理能力。

事实证明，像 ChatGPT 这样的 LLM 可以通过与其他专业模型合作，成为提高视觉语言任务性能的强大工具。例如，

Visual ChatGPT（Wu et al., 2023）和 MM-REACT（Yang* et al., 2023）展示了 ChatGPT 如何充当协调者的角色，与不同的视觉基础模型整合，促进它们的协作，以应对更复杂的挑战。
ChatCaptioner （Zhu et al., 2023）将 ChatGPT 视为提问者，提出各种问题让 BLIP-2 回答。通过多轮对话，ChatGPT 从 BLIP-2 中提取视觉信息，并有效总结图像内容。
Video ChatCaptioner（Chen et al., 2023）扩展了这一方法，将其应用于视频时空理解。
ViperGPT （Sur ́ıs et al., 2023）展示了将 LLM 与不同视觉模型相结合，以编程方式处理复杂视觉查询的潜力。
相比之下，MiniGPT-4 直接将视觉信息与语言模型对齐，无需使用外部视觉模型即可完成各种视觉语言任务。

3 METHOD

MiniGPT-4 的目标是将来自预训练视觉编码器的视觉信息与先进的大型语言模型（LLM）对齐（Alignment）。具体来说，

使用 Vicuna（Chiang et al., 2023）作为语言解码器，该解码器基于 LLaMA（Touvron et al., 2023）构建，可以执行各种复杂的语言任务。
视觉感知方：采用与 BLIP-2 （Li et al., 2023）相同的视觉编码器，ViT Backbone（Fang et al., 2022）及其预先训练好的 Q-Former。

语言和视觉模型都是开源的。我们的目标是利用线性投影层弥合视觉编码器与 LLM 之间的差距，图 1 显示了模型概览。

为了实现有效的 MiniGPT-4，我们提出了一种两阶段训练方法。

第一阶段：在大量对齐的图像-文本对上对模型进行预训练，以获取视觉语言知识。
第二阶段：使用一个较小但高质量的图像-文本数据集对预训练模型进行微调，并设计了对话模板，以提高生成的可靠性和可用性。

3.1 FIRST PRETRAINING STAGE

在初始预训练阶段，该模型旨在从大量对齐图像-文本对中获取视觉-语言知识。我们将注入投影层的输出视为对 LLM 的软提示，促使它生成相应的地面实况文本。

在整个预训练过程中，预训练的视觉编码器和线性投影层都保持冻结状态，只有线性投影层进行了预训练。使用 Conceptual Caption（Changpinyo et al., 2021；Sharma et al., 2018），SBU（Ordonez et al., 2011）和 LAION（Schuhmann et al., 2021）的组合数据集来训练模型。经过 20,000 个训练步骤，批量大小为 256，约 500 万个图像-文本对。整个过程耗时约 10 个小时，使用了 4 个 A100 (80GB) GPU。

Issues of the first pretraining stage

第一个预训练阶段之后，MiniGPT-4 显示出拥有丰富知识的能力，并能对人类的询问做出合理的回答。不过，我们也观察到它产生不连贯语言输出的情况，如重复的单词或句子，支离破碎的句子或无关内容。这些问题阻碍了 MiniGPT-4 与人类进行流畅视觉对话的能力。

我们在 GPT-3 中也观察到了类似的挑战。尽管在大量语言数据集上进行了预训练，GPT-3 仍然难以生成与用户意图准确一致的语言输出。通过指令微调和从人类反馈中强化学习，GPT-3 演化成了 GPT-3.5（Ouyang et al., 2022；OpenAI，2022），并能够产生更多对人类友好的输出。这一现象与 MiniGPT-4 在初始预训练阶段后的现状相似。因此，我们的模型在这一阶段可能难以生成流畅自然的人类语言输出也就不足为奇了。

3.2 CURATING A HIGH-QUALITY ALIGNMENT DATASET FOR VISION-LANGUAGE DOMAIN.

为了使生成的语言更加自然，提高模型的可用性，第二阶段的对齐过程必不可少。虽然在 NLP 领域，指令微调数据集（Taori et al., 2023）和对话（sha，2023）很容易获得，但在视觉语言领域却没有相应的数据集。为了弥补这一不足，我们制作了一个详细的图像描述数据集，专门用于视觉语言对齐。在第二阶段对齐过程中，利用该数据集对 MiniGPT-4 进行微调。

Initial aligned image-text generation

在初始阶段，我们使用从第一个预训练阶段得到的模型来生成输入图像的描述。为了使模型能够生成更详细的图像描述，我们设计了一个符合 Vicuna（Chiang et al., 2023）语言模型对话格式的提示（Prompt），如下所示。在该提示中，表示线性投影层生成的视觉特征。

###Human: Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

为了识别不完整的句子，我们会检查生成的句子是否超过 80 个词组。如果没有，则加入一个额外的提示：###Human: Continue ###Assistant: ，提示MiniGPT-4 延长生成过程。通过串联这两个步骤的输出，我们可以创建一个更全面的图像描述。通过这种方法，我们可以生成具有详细图像描述的图像-文本对。我们从Conceptual Caption dataset（Changpinyo et al., 2021；Sharma et al., 2018）中随机选取 5000 张图片，使用预训练模型为每张图片生成相应的语言描述。

Data post-processing

上述自动生成的图片说明包含噪音或不连贯的描述，例如单词或句子重复，句子支离破碎或内容不相关。为了解决这些问题，我们采用了 ChatGPT，通过以下提示对描述进行修补：

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

完成后处理阶段后，我们会手动验证每张图片说明的正确性，以保证其高质量。具体来说，我们首先找出了几个经常出现的错误（“I’m sorry I made a mistake…”, or “I apologize for that …”），然后用硬编码规则自动过滤掉这些错误。我们还通过人工方式完善生成的描述，剔除 ChatGPT 未能检测到的多余单词或句子。最后，在 5000 个图片-文本对中，只有约 3500 个符合我们的要求，这些图片-文本对随后被用于第二阶段的对齐过程。

3.3 SECOND-STAGE FINETUNING

在第二阶段，我们利用准备好的高质量图像-文本对微调预训练模型。在微调过程中，使用以下模板中的预定义提示：

###Human: ###Assistant:

在此提示中，表示从我们预定义的指令集中随机抽取的指令，其中包含 “Describe this image in detail” 或 “Could you describe the contents of this image for me” 等不同形式的指令。我们并不计算这一特定文本图像提示的回归损失。

因此，MiniGPT-4 现在能够生成更自然，更可靠的语言输出。此外，我们还发现，这种微调过程的效率非常高，在批量为 12 的情况下，只需要 400 个训练步骤，而使用单个 A100 GPU 则需要 7 分钟左右。

4 EXPERIMENTS

在实验中，我们旨在通过各种定性实例展示 MiniGPT-4 模型的各种新兴能力。这些能力包括生成详细的图像描述，识别备忘录中有趣的方面，从照片中提供食物食谱，为图像写诗等。此外，我们还展示了图像描述任务的定量结果。

4.1 UNCOVERING EMERGENT ABILITIES WITH MINIGPT-4 THROUGH QUALITATIVE EXAMPLES

与传统的视觉语言模型相比，MiniGPT-4 展示了许多先进的能力。例如，它能详细描述图像，并能解释给定备忘录的幽默方面。在这里，我们将我们的模型与领先的视觉语言模型之一 BLIP-2（Li et al., 2023）进行了定性比较，并列举了八个不同的例子，每个例子都突出了一种不同的能力。

图 2 中的一个例子表明，MiniGPT-4 能有效识别图像中的各种元素，如繁忙的城市街道，钟楼，商店，餐馆，摩托车，人，路灯和云。相比之下，BLIP-2 在生成图像描述时只能涵盖城市街道，人和摩托车。图 4a 中的另一个例子表明，MiniGPT-4 成功地解释了该备忘录幽默的原因。它解释了躺着的狗和许多人在星期一的感受是一样的，星期一通常被认为是一周中最可怕的一天。相比之下，BLIP-2 只简单描述了图片内容，未能理解图片的有趣之处。

我们还展示了 MiniGPT-4 的其他独特能力。这些能力包括：

根据给定图像创建广告促销文案（图 3）
从电影照片中检索事实信息（图 8）
从食物图像生成食物食谱（图 11）
诊断植物疾病并提出治疗方案（图 12）
根据手写草稿创建网站（图 4b）
根据图像灵感写诗（图 10）

传统的视觉语言模型，如 BLIP-2（使用 Flan-T5 XXL（Chung et al., 2022）作为语言模型），使用功能较弱的语言模型，则不具备这些能力。这种对比表明，只有当视觉特征与 Vicuna（Chiang et al., 2023）等先进的 LLM 适当对齐时，才会出现这些先进的视觉语言能力。

4.2 QUANTITATIVE ANALYSIS

Advanced Abilities

为了量化高级视觉语言任务的性能，我们编制了一个由 4 个任务组成的小型评估数据集：

Explain why this meme is funny
How should I make something like this?
Help me draft a professional advertisement for this.
Can you craft a beautiful poem about this image?

我们总共收集了 100 张不同的图片，每项任务分配 25 张图片。我们请人类评估员确定模型生成是否满足要求。我们将结果与 BLIP-2（Li et al., 2023）进行了比较，结果见表 1。在备忘录解释，诗歌创作和广告创作方面，BLIP-2 在很大程度上难以满足任何要求。在食谱生成方面，BLIP-2 在 25 个案例中成功了 4 个。相比之下，MiniGPT-4 能在近 80% 的情况下满足食谱，广告和诗歌创作的请求。此外，在 25 个案例中，MiniGPT-4 在 8 个案例中正确理解了备忘录中具有挑战性的幽默理解。

Image Captioning

我们在 COCO 描述基准上评估了 MiniGPT-4 的性能，并将其与 BLIP-2 进行了比较（Li et al., 2023）。我们的模型生成的描述通常包含丰富的视觉细节。传统的基于相似性的图像描述评估指标很难对我们的模型进行准确评估。为此，我们借助 ChatGPT 来检查生成的描述是否涵盖了所有真实描述的信息，以此来评估模型的性能，详情见附录 A.3。表 2 中的结果表明，MiniGPT-4 在生成与真实视觉物体和关系更接近的描述方面优于 BLIP-2。MiniGPT-4 的成功率为 66.2%，比 BLIP-2 高出许多，后者的成功率仅为 27.5%。对传统 VQA 任务的进一步评估见附录 A.2。

4.3 ANALYSIS ON THE SECOND-STAGE FINETUNING

Effectiveness of the second-state finetuning

仅使用第一阶段预训练后的预训练模型可能会导致失败，例如出现重复的单词或句子，支离破碎的句子或不相关的内容。不过，通过第二阶段的微调过程，这些问题在很大程度上得到了缓解。从图 5 中可以看出，在第二阶段微调之前，MiniGPT-4 生成的描述并不完整。然而，经过第二阶段微调后，MiniGPT-4 能够生成完整流畅的描述。在本节中，我们将探讨第二阶段微调方法的重要性和有效性。

为了量化第二阶段微调的影响，我们从 COCO 测试集中随机抽取了 100 幅图像，并考察了模型在详细描述生成和诗歌创作这两项任务中的表现。使用的提示分别是：

Describe the image in detail.
Can you write a beautiful poem about this image?

模型在第二阶段微调之前和之后都执行了这些任务。我们人工统计了模型在每个阶段的失败的生成。结果如表 3 所示：在第二阶段微调之前，大约有 1/3 的生成输出与真实描述或诗歌不匹配。相比之下，经过第二阶段微调后的模型在这两项任务的 100 张测试图像中只有不到 2 个失败案例。这些实验结果表明，第二阶段微调能显著提高生成输出的质量。图 5 显示了第二阶段微调前后模型生成的定性示例。

Can the original BLIP-2 benefit from the second-stage data?

在本研究中，我们采用与 MiniGPT-4 相同的方法，利用我们的第二阶段数据对 BLIP-2（Li et al., 2023）进行了微调，并检验它是否能获得与 MiniGPT-4 类似的高级能力。经过微调的 BLIP-2 被称为 BLIP-2 FT。请注意，MiniGPT-4 使用与 BLIP-2 相同的视觉模块；而 BLIP-2 使用 FlanT5 XXL（Chung et al., 2022）作为语言模型，其强度不及 MiniGPT-4 模型中使用的 Vicuna（Chiang et al., 2023）模型。我们依靠相同的提示来评估我们模型的高级能力。定性结果如图 4，13 和 14 所示。我们发现，BLIP-2 FT 生成的反应仍然很短，而且无法推广到备忘录解释和网站编码等高级任务中（图 4）。我们的发现表明，BLIP-2 相对较弱的语言模型 FlanT5 XXL 从如此小的数据集中获益较少，并凸显了在 VLM 系统中更先进的 LLM 的有效性。

Second stage with Localized Narratives

Localized Narratives Dataset（Pont-Tuset et al., 2020）是一个详细的图像描述数据集，其中注释者在描述图像的同时对相应区域进行定位。在这里，我们用 Localized Narratives dataset 取代第二阶段的自收集数据集，以此测试我们模型的性能。该模型命名为 MiniGPT-4 LocNa。图 4，13 和 14 中的定性结果表明，MiniGPT-4 LocNa 可以生成较长的图像描述（图 14）。然而，生成的输出质量较低，表达单调。此外，MiniGPT-4 LocNa 在其他复杂任务中的泛化能力不如原始的 MiniGPT-4，如解释 meme 为何有趣（图 4a）。造成这种性能差距的原因可能是 Localized Narratives dataset 中单调重复的图像描述。

4.4 ABLATION ON THE ARCHITECTURE DESIGNS

为了进一步证明使用单个线性层将视觉特征与 LLM 对齐的有效性，我们进行了不同架构设计的实验，包括：

a）移除 QFormer 并将 VIT 的输出直接映射到 Vicuna 的嵌入空间（不使用 Q-former）
b）使用三个线性层而不是一个层
c）在视觉模块中对 Q-Former 进行额外的微调

所有变体的训练方法与原始设计相同。表 4 中 AOK-VQA 数据集（Schwenk et al., 2022）和 GQA 数据集（Hudson & Manning, 2019）的结果表明，

变体 (a) MiniGPT-4 w/o Q-Former 的性能与原始设计相似。图 4，13 和 14 中该变体的定性结果也显示出类似的高级技能。这表明，BLIP-2 中的 Q-Former 对高级技能并没有起到关键作用。

4.5 LIMITATION ANALYSIS

Hallucination

由于 MiniGPT-4 建立在 LLM 的基础上，因此它也继承了 LLM 的局限性，如产生不存在知识的幻觉。图 6 中的一个例子表明，尽管图像中没有白色桌布，但 MiniGPT-4 却错误地识别出了桌布的存在。在这里，我们使用指标 CHAIRi（Rohrbach et al., 2018）来衡量生成的幻觉率，并用两种不同的提示来控制模型生成的长度：

MiniGPT-4 (long): Please describe this image as detailed as possible.
MiniGPT-4 (short): Please describe the image shortly and precisely, in less than 20 words.

表 5 中的结果显示，较长的描述往往会产生较高的幻觉率。例如，MiniGPT-4 (long) 生成的描述平均单词数为 175 个，幻觉率较高；而 MiniGPT-4 (short) 生成的描述平均单词数为 28.8 个，幻觉率较低。如表 2 所示，BLIP-2（平均 6.5 个单词）产生的幻觉较少，但涵盖的对象较少。 在详细的图像描述中产生幻觉仍是一个尚未解决的问题。利用带有幻觉检测模块的强化学习和人工智能反馈可能是一个潜在的解决方案。

Spatial Information Understanding

MiniGPT-4 的视觉感知能力仍然有限。它可能难以区分空间定位。例如，图 6 中的 MiniGPT-4 无法识别窗户的位置。这种局限性可能是由于缺乏专为空间信息理解而设计的对齐图像-文本数据。在 RefCOCO（Kazemzadeh et al., 2014）或 Visual Genome（Krishna et al., 2017）等数据集上进行训练可能会缓解这一问题。

5 DISCUSSION

MiniGPT-4 是如何获得这些高级能力的？GPT-4 展示的许多高级视觉语言能力可以理解为植根于两项基础技能的合成技能：图像理解和语言生成。以基于图像的诗歌创作任务为例。像 ChatGPT 和 Vicuna 这样的高级 LLM 已经可以根据用户的指令创作诗歌。如果它们掌握了理解图像的能力，那么即使在训练数据中没有图像-诗歌对，也可以将构图能力推广到基于图像的诗歌创作任务中。

在第一个预训练阶段，MiniGPT-4 通过对图像和来自图像描述数据集的简短图像描述之间的相关性建模来学习理解图像。然而，这些图像描述数据集的语言风格与现代 LLM 生成的语言风格不同，导致语言生成失真，阻碍了成功的构图泛化。因此，我们引入了第二阶段微调来恢复语言生成能力。经过两阶段训练后，MiniGPT-4 成功地泛化了许多高级的视觉语言合成能力，如根据草稿进行网站编码或进行 meme 解释，验证了我们的假设。未来的研究可能会深入探讨构 compositional generalization 的机制，并寻求提高该能力的方法。我们希望我们的工作，作为对这些基于视觉的 LLM 能力的早期探索，能推动这一领域的进一步研究。

Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持 kakaZhui llama 深度学习 pytorch AIGC chatgpt
1.引言Llama模型的一个重要特性是支持长上下文处理。本文将深入分析Llama源码中实现长上下文的关键技术点，包括位置编码(positionembedding)的外推方法、注意力机制的优化等。我们将通过详细的代码解析来理解其实现原理。2.位置编码的外推实现2.1旋转位置编码(RoPE)基础Llama采用旋转位置编码(RoPE,RotaryPositionEmbedding)来编码token的位置
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
LLM系列(0)：行业大模型落地服务在全业务场景的应用与探索【大模型智能问答、NL2SQL、文档智能分析智能生成、AI智能体决策等】汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt NL2DSL NL2SQL 大模型智能问答
行业大模型落地服务：在全业务场景的应用与探索1.行业大模型落地挑战及应对1.1.挑战一：有限的算力资源在政企客户场景中落地行业大模型方案，可能首先面临的一个挑战是客户的算力资源有限。算力资源作为大模型落地的前提条件，是很多客户关注的重点，也是业务团队前期与客户沟通交流的一个重点。行业大模型场景落地是否一定需要大量的GPU算力，以及需要多少的算力才能满足落地需求？GPU算力主要消耗在两个地方，一是大
【llm对话系统】大模型 RAG 之回答生成：融合检索信息，生成精准答案 kakaZhui 人工智能 AIGC chatgpt llama
今天，我们将深入RAG流程的最后一步，也是至关重要的一步：回答生成(AnswerGeneration)。在这一步，LLM将融合用户问题和检索到的文档片段，生成最终的答案。这个过程不仅仅是简单的文本拼接，更需要LLM对检索结果进行理解、推理和整合，才能输出准确、流畅且符合用户需求的答案。一、回答生成的目标RAG中回答生成的目标主要包括：准确性(Accuracy):生成的答案需要准确回答用户的问题，并
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
ollama如何保持模型加载在内存（显存）中或立即卸载点动生态云 python llama 语言模型
一、ollama如何保持模型加载在内存中或立即卸载？默认情况下，模型在生成响应后会在内存中保留5分钟。这允许在您多次请求LLM时获得更快的响应时间。然而，您可能希望在5分钟内释放内存，或者希望模型无限期地保留在内存中。使用keep_alive参数与/api/generate或/api/chatAPI端点，可以控制模型在内存中保留的时间。keep_alive参数可以设置为：一个持续时间字符串（例如“
AI学习指南Ollama篇-Ollama的多模态应用探索俞兆鹏 AI学习指南 ai
AI学习指南应用篇-Ollama的多模态应用探索一、引言（一）背景介绍随着大语言模型（LLM）的发展，多模态应用（结合文本、图像、语音等）成为新的趋势。多模态模型能够处理多种类型的数据，如文本、图像和语音，从而提供更丰富、更智能的交互体验。Ollama作为本地部署工具，支持多模态模型的运行，为开发者提供了强大的功能。（二）文章目标本文将探讨Ollama在多模态应用中的可能性，并通过实际案例展示如何
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
Llama 3：开源大模型的里程碑式突破 XianxinMao llama 开源
标题：Llama3：开源大模型的里程碑式突破文章信息摘要：Meta通过Llama3展现了开源LLM的重大突破：采用超大规模训练数据和多阶段训练方法（SFT、rejectionsampling、PPO和DPO），突破了传统的Chinchilla最优比例法则。在产品策略上，针对8B和70B两种规模采用不同的训练数据截止日期，实现差异化定位。即将发布的400B模型有望达到GPT-4级别性能，但同时也凸显
阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 chatgpt llama 数据分析论文阅读
摘要摘要是文章的精华，通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家，编写摘要需要言简意赅，直接概括论文的核心，为读者提供快速了解的窗口。下面我们使用DeepSeek、ChatGPT4以及Kimi辅助编写摘要。提示词：你现在是一名[计算机理论专家]，研究方向集中在[人工智能、大模型、数据挖掘等计算机相关方向]。我现在需要撰写一篇围绕[人工智能在
计算机视觉：解锁未来智能的钥匙及其代码实践我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实践中应用这些技术，旨在为读者提供一个理论与实践相结合的全面视角。一、计
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
Rust中奖励函数的实现与应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域，特别是在强化学习（ReinforcementLearning,RL）中，奖励函数（RewardFunction）扮演着至关重要的角色。它定义了智能体（Agent）在执行任务时
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
小南每日 AI 资讯 | 国产AI之光DeepSeek暴击硅谷？？？ | 25/01/29 小南AI学院人工智能
1.中国AI模型震惊硅谷：DeepSeek为何一夜火出圈？国产AI大模型DeepSeek迅速崛起，引发硅谷关注。2.中国银行支持AI产业：1万亿元金融扶持助推智能化升级中国银行宣布提供1万亿元资金支持人工智能产业链发展，助力智能化升级。3.国产AI大模型DeepSeek惊艳全球：游戏科学冯骥称其为“国运级别科技成果”DeepSeek的AI模型引起全球关注，游戏科学的冯骥高度评价其意义。4.AI产业
【我的阅读】【nature |ai4science】Scientific discovery in the age of artificial intelligence【人工智能时代的科学发现】算法研究员【AI 4 Science】人工智能
相关资料：https://www.nature.com/articles/s41586-023-06221-2#Sec15文章目录Abstract摘要Conclusion结论Abstract摘要Artificialintelligence(AI)isbeingincreasinglyintegratedintoscientificdiscoverytoaugmentandaccelerateres
大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF AGI大模型学习语言模型 pdf 人工智能大模型大模型学习大模型教程大模型书籍
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
书籍推荐：《从零构建大型语言模型》附免费PDF下载大模型入门学习语言模型 pdf 人工智能产品经理大模型学习大模型教程大模型入门
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
两个免费的英文论文润色网站知足常乐2023 论文润色笔记
1.DeepL：常用，感觉比较好用，可选择多种润色模式，但润色的字数有限制。DeepLWrite：人工智能驱动的写作助手https://www.deepl.com/write2.赛特新思：用的较少，润色字数也有限制。SCI润色|文献润色|英文润色|Editing|英文写作|论文写作|citexs斯特新思https://www.citexs.com/Editing
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S