datamonday

【LMM 014】NExT-GPT：能够输入和生成任意模态的多模态大模型

论文标题：NExT-GPT:Any-to-Any Multimodal Large Language Model
论文作者：Shengqiong Wu, Hao Fei*, Leigang Qu, Wei Ji, Tat-Seng Chua
作者单位： NExT++ Lab, National University of Singapore
论文原文：https://arxiv.org/abs/2309.05519
论文出处：–
论文被引：57（01/05/2024）
项目主页：https://next-gpt.github.io/
论文代码：https://github.com/NExT-GPT/NExT-GPT

Abstract

虽然多模态大语言模型（MM-LLMs）最近取得了令人振奋的进展，但它们大多受限于只能理解输入端的多模态，而无法生成多种模态的内容。由于人类总是通过各种模态感知世界并与人交流，因此开发能够接受和提供任何模态内容的 any-to-any MM-LLM 对人类级人工智能至关重要。为了填补这一空白，我们提出了一种端到端的通用任意 MM-LLM 系统 NExT-GPT。我们将 LLM 与多模态适配器和不同的扩散解码器连接起来，使 NExT-GPT 能够感知输入，并以文本，图像，视频和音频的任意组合生成输出。通过利用现有的训练好的高性能编码器和解码器，NExT-GPT 只需对某些投影层进行少量参数（1%）的微调，这不仅有利于降低训练成本，还能方便地扩展到更多潜在模态。此外，我们还引入了模态切换指令微调（Modality-switching Instruction Tuning，MosIT），并手动为 MosIT 构建了一个高质量的数据集，在此基础上，NEXT-GPT 具备了复杂的跨模态语义理解和内容生成能力。总之，我们的研究展示了构建能够模拟通用模态的统一人工智能Agent的可能性，为社区中更多的类人人工智能研究铺平了道路。

1 Introduction

最近，人工智能生成内容（AIGC）在某些技术上取得了前所未有的进展，例如文本生成的 ChatGPT [59] 和视觉生成的扩散模型 [21]。其中，大型语言模型（LLMs）的崛起尤为引人注目，如 Flan-T5 [13]，Vicuna [12]，LLaMA [80] 和 Alpaca [79]，展示了其强大的人类水平的语言推理和决策能力，为人工通用智能（AGI）的发展指明了道路。我们的世界本质上是多模态的，人类通过不同的感觉器官感知世界，获取不同的模态信息，如语言，图像，视频和声音，这些信息往往相辅相成，相互协同。基于这样的直觉，纯文本的 LLM 最近被赋予了视觉，视频，音频等其他模态的理解和感知能力。

一种值得注意的方法是使用适配器（Adapter），将其他模态的预训练编码器与文本 LLM 相匹配。这一努力推动了多模态 LLM（MM-LLM）的快速发展，如 BLIP-2 [43]，Flamingo [1]，MiniGPT-4 [109]，Video-LaMA [103]，LLaVA [52]，PandaGPT [77]，SpeechGPT [102]。然而，这些研究大多只关注输入端的多模态内容理解，缺乏输出文本以外的多种模态内容的能力。我们强调，真实的人类认知和交流不可或缺地需要任何信息模态之间的无缝转换。因此，探索任意对任意的 MM-LLM 对于实现真正的 AGI（即接受任意模态的输入并以任意模态的适当形式提供响应）至关重要。

为了模仿人类的任意模态转换，人们做出了一些努力。

最近，CoDi[78] 在实现同时处理和生成任意模态组合的能力方面取得了长足进步，但它的核心缺乏 LLM 的推理和决策能力，而且也仅限于简单的配对内容生成。
另一方面，一些研究（如 Visual-ChatGPT [88] 和 HuggingGPT [72] ）试图将 LLM 与外部工具相结合，以实现近似任意对任意（any-to-any）的多模态理解和生成。遗憾的是，由于采用了完整的流水线架构，这些系统都面临着严峻的挑战。首先，不同模块之间的信息传输完全基于 LLM 生成的离散文本，级联过程不可避免地会引入噪音和传播错误。更关键的是，整个系统只能利用现有的预训练工具进行推理。由于缺乏错误传播方面的端到端整体训练，内容理解和多模态生成的能力可能非常有限，尤其是在解释复杂和隐含的用户指令方面。总之，我们亟需为任意模态构建端到端 MM-LLM。

为了实现这一目标，我们提出了 NExT-GPT，这是一种任意对任意的 MM-LLM，可无缝处理文本，图像，视频和音频四种模态任意组合的输入和输出。如图 1 所示，NExT-GPT 包括三个层级。

首先，利用已有的编码器对各种模态的输入进行编码，然后通过投影层将这些表征投影到 LLM 可理解的类语言表征中。
其次，利用现有的开源 LLM 作为核心，处理输入信息以进行语义理解和推理。LLM 不仅能直接生成文本标记（tokens），还能生成独特的模态信号标记，作为指令指示解码层是否要输出相应的模态内容。
第三，产生的带有特定指令的多模态信号经过映射后，会进入不同的编码器，最终生成相应模态的内容。

由于 NExT-GPT 包含各种模态的编码和生成，从头开始训练该系统将耗费大量成本。相反，我们利用现有的预训练高性能编码器和解码器，如 Q-Former [43]，ImageBind [25] 和最先进的潜在扩散模型 [68, 69 , 8, 2, 51, 33]。通过加载现成的参数，我们不仅避免了冷启动训练，还促进了更多模态的潜在增长。对于三层的特征对齐，我们只考虑对输入投影层和输出投影层进行局部微调，编码侧对齐以 LLM 为中心，解码侧对齐以指令为中心。此外，为了让 MM-LLM 在复杂的跨模态生成和推理方面具备人类水平的能力，我们引入了模态切换指令微调（Modality-switching Instruction Tuning，MosIT），使系统具备复杂的跨模态语义理解和内容生成能力。为了解决社区中缺乏此类跨模态指令调谐数据的问题，我们手动收集并注释了一个由 5000 个高质量样本组成的 MosIT 数据集。利用 LoRA 技术[32]，我们在 MosIT 数据上对整个 NExT-GPT 系统进行了微调，更新了投影层和某些 LLM 参数。

总之，这项工作展示了开发更像人类的 MM-LLM Agent的可能性，它能够模拟通用模态。本项目的贡献如下：

首次提出了一种端到端的通用任意 MM-LLM NExTGPT，它能够进行语义理解和推理，并生成文本，图像，视频和音频的自由输入和输出组合。
引入了轻量级对齐学习技术，在编码端采用以 LLM 为中心的对齐方式，在解码端采用指令遵循对齐方式，只需对参数进行最小限度的微调（只需 1%的参数）即可实现有效的语义对齐。
注释了一个高质量的模态切换指令微调数据集，该数据集涵盖了文本，图像，视频和音频等各种模态组合的复杂指令，帮助 MM-LLM 进行类似人类的跨模态内容理解和指令推理。

2 Related Work

Cross-modal Understanding and Generation

我们的世界充满了多模态信息，我们不断地参与到理解和制作跨模态内容的复杂任务中。人工智能界相应地出现了各种形式的跨模态学习任务，如图像/视频描述[99, 16, 56, 56, 27, 49]，图像/视频问题解答[94 , 90 , 48 , 98, 3]，文本到图像/视频/语音合成[74, 30, 84, 23 , 17 , 51 , 33]，图像到视频合成[18, 37]等，所有这些任务在过去几十年中都取得了快速发展。研究人员提出了高效的多模态编码器，旨在构建包含各种模态的统一表征。同时，由于不同模态的特征空间各不相同，因此必须进行模态对齐学习。此外，为了生成高质量的内容，人们提出了许多性能强大的方法，如 Transformer [82 , 101 , 17 , 24]，GANs [53 , 7, 93 , 110]，VAEs [81 , 67]，Flow 模型 [73 , 6] 以及目前最先进的扩散模型 [31, 64 , 57 , 22, 68]。特别是，基于扩散的方法最近在大量跨模态生成任务中表现出色，如 DALL-E [66] 和 Stable Diffusion [68]。以往所有的跨模态学习都仅限于理解多模态输入，而最近的 CoDi [78] 则带来了突破性的发展。利用扩散模型的强大功能，CoDi 能够从并行的任意输入模态组合中生成任意组合的输出模态，包括语言，图像，视频或音频。遗憾的是，CoDi 可能仍然无法实现类似人类的输入内容深度推理，只能进行并行的跨模态输入和生成。

Multimodal Large Language Models

LLM 已经对整个人工智能界乃至其他领域产生了深远的影响和变革。最著名的 LLM，即 OpenAI 的 ChatGPT [59] 和 GPT4 [60]，通过指令微调 [61, 47, 104, 52] 和来自人类反馈的强化学习（RLHF）[75] 等对齐技术，已经展示了非凡的语言理解和推理能力。一系列开源 LLM，如 Flan-T5 [13]，Vicuna [12]，LLaMA [80] 和 Alpaca [79]，极大地推动了社区的进步和贡献 [109, 100]。之后，人们开始努力构建处理多模态输入和任务的 LLM，从而发展出 MM-LLM 。

一方面，大多数研究人员通过将训练好的各种模态编码器与 LLMs 的文本特征空间对齐来构建基本的 MM-LLMs，从而让 LLMs 感知其他模态输入[35, 109, 76, 40]。例如，

Flamingo [1] 使用交叉注意层将冻结图像编码器与 LLMs 连接起来。
BLIP-2 [43] 采用 Q-Former 将输入图像查询转换为 LLM。
LLaVA [52] 采用简单的投影方案将图像特征连接到词嵌入空间。
在构建能够理解视频（如 Video-Chat [44] 和 Video-LaMA [103]），音频（如 SpeechGPT [102]）等的 MM-LLMs 方面，也有各种类似的做法。
其中，PandaGPT [77] 通过集成多模态编码器（即 ImageBind [25]），同时实现了对六种不同模态的全面理解。

然而，这些 MM-LLM 都受到只能感知多模态数据的限制，无法生成任意模态的内容。为了实现具有多模态输入和输出的 LLMs，一些人探索将 LLMs 作为决策者，并利用现有的现成多模态编码器和解码器作为执行多模态输入和输出的工具，例如 Visual-ChatGPT [88]，HuggingGPT [72] 和 AudioGPT [34]。如前所述，在离散流水线方案下，纯文本（即 LLM 文本指令）模块之间的信息传递不可避免地会引入噪音。此外，缺乏对整个系统的全面微调也大大限制了语义理解的效果。我们的工作兼顾了上述两种类型的优点，即以端到端的方式学习任意对任意的 MM-LLM。

3 Overall Architecture

图 1 是该框架的概览示意图。NExT-GPT 包括三个主要层次：编码阶段，LLM 理解和推理阶段以及解码阶段。

Multimodal Encoding Stage

首先，我们利用现有的成熟模型对不同模态的输入进行编码。有一系列针对不同模态的编码器可供选择，例如 QFormer [43]，ViT [19]，CLIP [65]。在这里，我们利用的是 ImageBind [25]，它是一种横跨六种模态的统一高性能编码器。有了 ImageBind，我们就无需管理大量异构模态编码器。然后，通过线性投影层，不同的输入表征被映射为类似语言的表征，这些表征对于 LLM 来说是可理解的。

LLM Understanding and Reasoning Stage

LLM 被用作 NExT-GPT 的核心Agent。在技术上，我们采用了 Vicuna-7b-delta-v0, [12]，它是基于文本的开源 LLM，被广泛应用于现有的 MM-LLM 中 [77, 103]。LLM 将不同模态的表征作为输入，并对输入进行语义理解和推理。它的输出包括：

1）直接的文本响应。
2）每种模态的信号标记，这些信号标记作为指令指示解码层是否生成多模态内容，以及如果生成则生成什么内容。

Multimodal Generation Stage

基于 Transformer 的输出投影层接收来自 LLM（如有）的带有特定指令的多模态信号，将信号标记表示映射为后续多模态解码器可以理解的表示。在技术上，我们采用了目前现成的不同模态的潜在条件扩散模型，即

用于图像合成的 Stable Diffusion (SD) [68]
用于视频合成的 Zeroscope [8]
用于音频合成的 AudioLDM [51]

信号表示被输入到条件扩散模型的条件编码器中，用于生成内容。

表 1 总结了整个系统的配置。在整个系统中，只有较低尺度参数的输入和输出投影层（与整个巨大容量框架相比）需要在接下来的学习过程中更新，其余所有编码器和解码器都被冻结。也就是说，131M（=4+33+31+31+32）/ [131M + 12.275B（=1.2+7+1.3+1.8+0.975）]，只有 1%的参数需要更新。这也是我们的 MM-LLM 的主要优势之一。

图 2 进一步说明了 NExT-GPT 的推理过程。给定用户输入的任意模态组合，相应的模态编码器和投影器会将其转换为特征表示，并将其传递给 LLM。然后，LLM 决定生成哪些内容，即文本标记和模态信号标记。如果 LLM 确定要生成某种模态内容（语言除外），就会输出一种特殊类型的标记[40]，表示激活了该模态；反之，不输出特殊标记则表示停用了该模态。在技术上，

将 '' (i=0,...,4) 设计为图像信号标记
将 ''(i = 0,···,8) 设计为音频信号标记
将 ''(i = 0,···,24) 设计为视频信号标记

经过 LLM 处理后，文本响应将输出给用户；而某些激活模态的信号token的表示则传递给相应的扩散解码器，用于生成内容。

4 Lightweight Multimodal Alignment Learning

为了弥合不同模态特征空间之间的差距，确保对不同输入的流畅语义理解，对 NExT-GPT 进行对齐学习至关重要。由于我们设计的松耦合系统主要有三层，因此只需更新编码侧和解码侧的两个投影层即可。

4.1 Encoding-side LLM-centric Multimodal Alignment

按照现有 MM-LLM 的常见做法，我们考虑将不同的输入多模态特征与文本特征空间（核心 LLM 可理解的表征）进行对齐。因此，这被直观地命名为以 LLM 为中心的多模态对齐学习。为了完成对齐（alignment），我们从现有的语料库和基准中准备了 ‘X-caption’ pair（‘X’ stands for image, audio, or video）数据。我们使用 LLM 生成每个输入模态的描述与黄金描述（gold caption）的对比。图 3(a) 展示了学习过程。

4.2 Decoding-side Instruction-following Alignment

在解码端，我们集成了来自外部资源的预训练条件扩散模型。我们的主要目的是将扩散模型与 LLM 的输出指令对齐。然而，在每个扩散模型和 LLM 之间执行全面的对齐过程将带来巨大的计算负担。作为替代方案，我们在此探索一种更高效的方法，即解码侧指令遵循对齐，如图 3(b) 所示。具体来说，由于各种模态的扩散模型仅以文本标记输入为条件。在我们的系统中，这种条件与来自 LLM 的模态信号标记有很大差异，这导致扩散模型在准确解释来自 LLM 的指令方面存在差距。因此，我们考虑最小化 LLM 的模态信号标记表示（在每个基于 Transformer 的投影层之后）与扩散模型的条件文本表示之间的距离。由于只使用了文本条件编码器（扩散骨干被冻结），因此学习仅仅基于纯描述文本，即不需要任何视觉或音频资源。这也确保了训练的高度轻量化。

5 Modality-switching Instruction Tuning

5.1 Instruction Tuning

尽管编码和解码两端都与 LLM 保持一致，但在实现让整个系统忠实地遵循和理解用户指令并生成所需的多模态输出这一目标方面仍存在差距。为了解决这个问题，进一步的指令微调（Instruction Tuning，IT）[97 , 77, 52] 被认为是提高 LLM 的能力和可控性所必需的。IT 涉及使用 ‘(INPUT, OUTPUT)’ pairs 对整个 MM-LLM 进行额外训练，其中 ‘INPUT’ 表示用户指令，‘OUTPUT’ 表示符合给定指令的所需模型输出。在技术上，我们利用 LoRA [32]，使 NExT-GPT 中的一小部分参数在 IT 阶段与两层投影同时更新。如图 4 所示，当 IT 对话样本输入系统时，LLM 会重构并生成输入的文本内容（并以多模态信号标记表示多模态内容）。根据gold注释（gold annotations）和 LLM 的输出进行优化。除 LLM 微调外，我们还对 NExT-GPT 的解码端进行了微调。我们将输出投影编码的模态信号标记表示与扩散条件编码器编码的gold多模态描述表示相一致。因此，综合微调过程更接近与用户进行忠实，有效互动的目标。

5.2 Instruction Dataset

对于NExT-GPT的IT，我们考虑以下数据集。

‘Text+X’ — ‘Text’ Data

MM-LLM IT 的常用数据集包含文本和多模态内容（即 “X” 可以是图像，视频，音频或其他内容）输入，而输出则是 LLM 的文本响应。这类数据已经有很多，例如 LLaVA [52]，miniGPT-4 [109]，VideoChat [44]，我们直接使用它们来达到我们的微调目的。

‘Text’ — ‘Text+X’ Data

与现有的 MM-LLM 显著不同的是，在我们的任意到任意场景中，目标不仅包括文本的生成，还包括多模态内容，即 ‘Text+X’。因此，我们构建了 ‘Text’ — ‘Text+X’ 数据，即文本到多模态（即 T2M）数据。基于现有语料库和基准[71, 50, 5, 38]中丰富的 ‘X-caption’ 对，并结合一些模板，我们借用 GPT-4 制作了不同的文字说明来包装描述，从而得到数据。

MosIT Data

编写全面涵盖所需目标行为的高质量指令并非易事。我们注意到，上述信息技术数据集无法满足我们的任意 MM-LLM 场景的要求。首先，在人机交互过程中，用户和 LLM 的输入和输出涉及多种动态变化的模态。此外，我们允许在此过程中进行多轮对话，因此需要处理和理解复杂的用户意图。然而，上述两类数据缺乏可变模态，而且对话时间相对较短，无法充分模拟真实世界的场景。

为了促进任意 MM-LLM 的发展，我们提出了一种新颖的模态切换指令微调（Modality-switching Instruction Tuning，MosIT）。MosIT 不仅支持复杂的跨模态理解和推理，还能生成复杂的多模态内容。结合 MosIT，我们手工精心构建了一个高质量的数据集。MosIT数据涵盖了广泛的多模态输入和输出，提供了必要的复杂性和可变性，以促进MM-LLM的训练，使其能够处理不同的用户交互，并准确地提供所需的响应。具体来说，我们设计了一些人类角色和机器角色之间的模板对话示例，并在此基础上促使 GPT-4 在各种场景下生成更多对话，其中包含 100 多个主题或关键词。交互内容要求多样化，例如，‘Human’ 可以提出直接或隐含的要求，‘Machine’ 可以执行感知，推理，建议，规划等操作。互动内容应具有逻辑关联性，语义内在性和复杂性，"机器"的每次回应都应包含深入的推理细节。每次对话应包括 3-7 个回合（即 QA 对），其中 ‘Human’-‘Machine’ 交互应在输入或输出端涉及多种模态，并交替切换模态。每当对话中包含多模态内容（如图像，音频和视频）时，我们都会从外部资源中寻找最佳匹配内容，包括检索系统（如 Youtube7）甚至 AIGC 工具（如 Stable-XL[63]，Midjourney）。经过人工检查和过滤不合适的实例后，我们总共获得了 5K 个高质量对话。在表 2 中，我们将现有的多模态 IT 数据集与我们的 MosIT 数据进行了比较。

6 Experiments

6.1 Any-to-any Multimodal Generation

我们尝试量化 NExT-GPT 在某些基准数据集上的生成质量，包括文本到 X 的生成，X 到文本的生成和文本条件模态编辑等常见设置。我们通过在用户和模型之间只进行一轮交互来模拟任务。

‘Text’ — ‘X’ Generation

代表了文本条件模态合成中最常见的任务。表 3，表 4 和表 5 比较了我们的系统和一些最先进的系统。总体而言，NExT-GPT 的性能与表现最好的基线系统相当。

‘X’ — ‘Text’ Generation

表示模态描述任务。表 6，表 7 和表 8 显示了不同任务的结果。总体而言，我们发现 NExT-GPT 在 X 到文本生成方面的性能比 CoDi 基线要好得多，这是因为 NExT-GPT 可以直接从 LLM 生成文本，而 LLM 本身已经对文本进行了专业化处理。

‘Text+X’ — ‘X’ Generation

代表文本条件模态编辑任务类别。表 9，10 和 11 显示了在不同任务中的表现。与上述两类任务相比，NEXT-GPT 在文本条件模态编辑任务中的表现并不突出。但是，它仍然表现出了很强的竞争力。

Human Evaluation on Complex Any-to-any QA

我们还对输入和输出之间存在复杂的跨模态交互的更多场景进行了评估。我们主要比较了不同模态转换设置下的模型性能。由于无法使用标准基准，我们在此采用人工评估。我们请多位评估人员对 NExT-GPT 的性能进行评分，评分标准从 1 到 10 分不等。图 5 显示了比较结果。我们发现 NExT-GPT 在生成图像方面比生成视频和音频方面更胜一筹。此外，由于单模态内容的复杂性，生成多模态内容的混合组合也略逊于生成单模态内容。

6.2 Example Demonstrations

为了证明我们提出的 NExT-GPT 在开发类人对话Agent方面的有效性和潜力，我们在此进一步提供了一些令人信服的示例，这些示例生动地说明了该系统在理解和推理各种模态内容方面的卓越能力。图 6，图 7，图 8，图 9，图 10 和图 11 展示了 NExT-GPT 的示例。请访问项目页面了解更多示例，并访问动态视频和音频内容。

7 Conclusion

在这项工作中，我们提出了一种端到端通用任意多模态大语言模型（MM-LLM）。通过将 LLM 与多模态适配器和不同的扩散解码器连接起来，NExT-GPT 能够感知文本，图像，视频和音频的任何组合的输入并生成输出。利用现有的训练好的高性能编码器和解码器，NExT-GPT 的训练只需要某些投影层的少量参数（1%），这不仅有利于降低成本，还能方便地扩展到未来更多的潜在模态。为了使 NExT-GPT 能够进行复杂的跨模态语义理解和内容生成，我们引入了模态切换指令微调（MosIT），并为 MosIT 手动策划了一个高质量的数据集。总之，我们的研究展示了任意对任意 MMLLM 在弥合各种模态之间的差距方面的潜力，并为未来更像人类的人工智能系统铺平了道路。

Limitation and Future work

作为未来的工作，至少有以下四个途径可以探索。

i) Modalities & Tasks Expansion

由于资源有限，目前我们的系统支持四种模态的输入和输出：语言，图像，视频和音频。下一步，我们计划将其扩展到更多的模态（如网页，三维视觉，热图，表格和图片）和任务（如对象检测，分割，接地和跟踪），从而扩大系统的适用性，使其更具通用性。

ii) LLM Variants

目前，我们已经采用了 7B Vicuna 版本的 LLM。我们的下一步计划包括纳入各种类型和尺寸的 LLM，让从业人员可以根据自己的具体要求选择最合适的 LLM。

iii) Multimodal Generation Strategies

虽然我们的系统在跨模态生成内容方面表现出色，但生成输出的质量有时会受到扩散模型能力的限制。探索整合基于检索的方法，对生成过程进行补充，从而提高整个系统的性能，是非常有前途的。

iv) MosIT Dataset Expansion

目前，我们的信息技术数据集还有扩展空间。我们打算大幅增加注释数据的数量，确保提供更全面，更多样的指令集，进一步提高 MM-LLM 理解和有效遵循用户提示的能力。

人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
蓝桥杯2023国赛-01游戏 weixin_66009678 蓝桥杯游戏深度优先
本题的dfs还是比较复杂的，需要兼顾的条件比较多。这一题是我看了其他人的题才写出来的，菜菜捏，哈哈哈哈哈！！！然后这一题如何确保行之前不相同，是通过二进制来的，具体的在代码中给出了详解。直接上代码：//https://www.lanqiao.cn/problems/17100/learning/?page=1&first_category_id=1&sort=students_count&tags
巨兽的阴影：大型语言模型的挑战与伦理深渊田园Coder 人工智能科普人工智能科普
当GPT-4这样的庞然大物能够流畅对话、撰写诗歌、编写代码、解析图像，甚至在某些测试中媲美人类专家时，大型语言模型（LLM）仿佛成为了无所不能的“智能神谕”。然而，在这令人目眩的成就之下，潜藏着复杂而严峻的挑战与伦理困境，如同光芒万丈的科技巨兽脚下那片难以忽视的深邃阴影。这些挑战并非技术进步的偶然副作用，而是深植于LLM的运作本质、训练数据来源以及其与社会交互的复杂性之中。它们警示我们，在追逐能力
为什么让AI洗碗比写诗难百倍？清华教授揭秘具身智能鸿沟 Loving_enjoy 计算机学科论文创新点机器学习人工智能 facebook 课程设计
>**人类小脑数亿年进化出的运动智慧，成了AI最难破解的密码**2025年3月，一位网友困惑地发问：“我想让人工智能替我洗碗做饭洗衣服，没想到现在的AI反而在画画、写歌、搞创作……”对此，全国政协委员、中国科学院自动化研究所研究员赵晓光一针见血地指出：**“大模型没有创新能力，想让AI干体力活还要靠具身智能的发展。”**这个看似矛盾的现象背后，隐藏着人工智能发展进程中一个惊人的认知盲区。清华大学心
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT DeepSeek大模型官方教程 transformer chatgpt 深度学习自然语言处理人工智能 ai 大模型学习
扩散模型近年来在生成逼真但合成的连续媒体内容方面引起了广泛关注。本次演讲将介绍Transformer在图像生成的扩散模型中的应用，并进一步探讨其更广泛的前景。我们首先简要介绍扩散模型的基础知识以及它们的训练方式，从而建立基本背景。接着，我们讲解曾是扩散模型事实标准的基于UNet的网络架构，这将帮助我们理解引入Transformer架构并推动其发展的动因。随后，我们将深入探讨构成基础架构的核心模块，
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程 AI新视界 AI工具全指南：从入门到精通解锁高效生产力人工智能
《2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程》在人工智能技术飞速发展的今天，大型语言模型(LLM)已成为推动数字化转型的核心引擎。作为CSDN资深AI技术专家，我将通过本文为您全面剖析2025年主流大模型的技术特点、应用场景和性能差异，并提供详细的官方注册和使用指南，帮助您快速掌握这些强大的AI工具。一、2025年主流大模型全景概览1.1大模型技术发展现状2024-2025年
Apple Sensor-Fusion 架构全解析：多模态语义图像感知系统设计与实战路径观熵影像技术全景图谱：架构调优与实战架构影像 Camera
AppleSensor-Fusion架构全解析：多模态语义图像感知系统设计与实战路径关键词：AppleA系列、SensorFusion、语义图像感知、IMU+Camera协同、图像识别、ARKit、视觉惯性融合、多模态协同计算、CoreMotion、ISP语义路径摘要：Apple自A13及其后续SoC架构中，持续深化Sensor-Fusion与图像语义感知的协同设计，构建出以ISP、NPU、IMU
AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025） Liudef06小白 AIGC 人工智能 AI作画语言模型
一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
xGen-MM (BLIP-3):一类开放式大型多模态模型 Phoenixtree_DongZhao Large Model 人工智能深度学习大语言模型
xGen-MM(BLIP-3):AFamilyofOpenLargeMultimodalModelsGitHub-salesforce/LAVISatxgen-mm|2408.08872(arxiv.org)AbstractThisreportintroducesxGen-MM(alsoknownasBLIP-3),aframeworkfordevelopingLargeMultimodalMod
Pixhawk源码笔记五：存储与EEPROM管理 zhouxinlin2009
这里，我们对APMEEPROM存储接口进行讲解。如有问题，可以交流[email protected]。新浪@WalkAnt，转载本博客文章，请注明出处，以便更大范围的交流，谢谢。第六部分存储与EEPROM管理详细参考：http://dev.ardupilot.com/wiki/learning-ardupilot-storage-and-eeprom-management/用户参数、航点、集结点、地图
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
Aletheia 情感智能模型：完整实现
Aletheia情感智能模型，整合所有核心模块并解决之前指出的问题。这个实现包含完整的神经动力学系统、多模态情感融合、伦理约束场和量子意识接口。importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.integrateimportodeintfromsklearn.decompositionimportPCAimporttorchimporttor
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
基于迁移学习的多视图卷积神经网络在乳腺超声自动分类中的应用 despacito, 论文精读-乳腺超声分类
BREASTCANCERCLASSIFICATIONINAUTOMATEDBREASTULTRASOUNDUSINGMULTIVIEWCONVOLUTIONALNEURALNETWORKWITHTRANSFERLEARNINGYIWANG,*,1EUNJUNGCHOI,y,1YOUNHEECHOI,*HAOZHANG,*GONGYONGJIN,yandSEOK-BUMKO*TAGGEDEND*De
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
LangGraph是为了解决哪些问题？为了解决这些问题，LangGraph采用哪些方法？LangGraph适用于什么场景？LangGraph有什么局限性？杰瑞学AI AI/AGI NLP/LLMs langchain 人工智能自然语言处理深度学习神经网络
LangGraph旨在解决的问题LangGraph是LangChain生态系统中的一个高级库，它专注于解决构建复杂、有状态、多步LLM应用程序的挑战。它扩展了LangChain的链和代理概念，尤其针对以下问题：多步决策和循环工作流：传统的链通常是线性的或简单的分支，难以处理复杂的决策路径、条件跳转以及需要循环迭代才能达到最终结果的任务。状态管理：在复杂的、多轮的LLM应用中，需要维护和管理应用的状
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
PTP 与 gPTP 的对比解析 ftdlk 人形机器人机器人自动驾驶
PTP与gPTP的对比解析PTP（PrecisionTimeProtocol）和gPTP（generalizedPrecisionTimeProtocol）均为高精度时间同步协议，但设计目标、应用场景及技术实现存在显著差异。以下是两者的核心区别：1.协议标准与目标特性PTP(IEEE1588)gPTP(IEEE802.1AS)标准版本IEEE1588-2008（主流）/IEEE1588-2019I
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p