Mars_prime

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

上海人工智能实验室

Abstract

视觉编码器和大语言模型（LLM）的集成推动了多模态大语言模型（MLLM）的最新进展。然而，视觉语言任务的高质量指令调整数据的稀缺仍然是一个挑战。当前领先的范例，例如 LLaVA，依赖于仅语言的 GPT-4 来生成数据，这需要预先注释的图像标题和检测边界框，这在理解图像细节方面遇到了困难。该问题的一个实用解决方案是利用可用的多模态大语言模型（MLLM）来生成视觉语言任务的指令数据。然而，值得注意的是，目前可用的 MLLM 不如相应的 LLM 强大，因为它们往往会产生不充分的响应并生成虚假信息。作为解决当前问题的解决方案，本文提出了视觉指令生成和校正（VIGC）框架，该框架使多模态大型语言模型能够生成指令调整数据并逐步提高其动态质量。具体来说，视觉指令生成（VIG）指导视觉语言模型生成不同的指令调整数据。为了保证生成质量，视觉指令校正（VIC）采用迭代更新机制来纠正VIG产生的数据中的任何不准确之处，有效降低产生幻觉的风险。利用VIGC生成的多样化、高质量的数据，我们对主流模型进行微调，并根据各种评估来验证数据质量。实验结果表明，VIGC不仅弥补了纯语言数据生成方法的缺点，而且有效提升了基准测试性能。模型、数据集和代码可在 https://opendatalab.github.io/VIGC 获取。

图 1：纯语言 GPT-4 方法与所提出的方法之间的比较，突出了前者的两个关键局限性：(1) 需要进行大量的人工注释，(2) 无法处理视觉数据，从而导致丢失详细信息。

Introduction
----
介绍

在过去的一年里，语言模型取得了重大进展，特别是大型语言模型 (LLM) 中指令调优的出现。该技术使模型能够以零样本的方式执行复杂的任务（OpenAI 2023a，b）。视觉编码器与这些法学硕士的融合（Touvron et al. 2023；Chiang et al. 2023）导致多模态法学硕士领域取得了实质性进展，导致了 BLIP-2 等框架的创建（Li et al. 2023b））、MiniGPT-4（Zhu 等人，2023b）、LLaVA（Liu 等人，2023b）和 InstructBLIP（Dai 等人，2023）。这些框架推动了图文多模态任务的快速发展，在图文对话中展现了令人印象深刻的能力。传统的多模态模型遵循两阶段训练过程。初始阶段涉及使用图像-文本对训练模型，以增强两种模式之间的特征对齐。后续阶段利用高质量的多模式指令调整数据来增强模型遵循指令的能力，从而提高其对用户查询的响应。然而，与大量可用的多模态预训练数据相比（Schuhmann et al. 2022；Sharma et al. 2018；Changpinyo et al. 2021），获取高质量的指令调优数据相对更具挑战性。当前的高质量多模态微调数据（Liu et al. 2023b；Li et al. 2023a）主要基于纯语言 GPT-4（OpenAI 2023b）生成，如图 1-(a) 所示。这种方法需要昂贵的手动预注释，并限制问题的设计和对现有注释信息生成的响应。因此，如果提出的问题不在该注释信息范围内，GPT-4 无法做出回应。此方法还会丢失图像中可回答问题的详细信息。

传统的多模态模型遵循两阶段训练过程。初始阶段涉及使用图像-文本对训练模型，以增强两种模式之间的特征对齐。后续阶段利用高质量的多模式指令调整数据来增强模型遵循指令的能力，从而提高其对用户查询的响应。然而，与大量可用的多模态预训练数据相比（Schuhmann et al. 2022；Sharma et al. 2018；Changpinyo et al. 2021），获取高质量的指令调优数据相对更具挑战性。当前的高质量多模态微调数据（Liu et al. 2023b；Li et al. 2023a）主要基于纯语言 GPT-4（OpenAI 2023b）生成，如图 1-(a) 所示。这种方法需要昂贵的手动预注释，并限制问题的设计和对现有注释信息生成的响应。因此，如果提出的问题不在该注释信息范围内，GPT-4 无法做出回应。此方法还会丢失图像中可回答问题的详细信息。

为了解决这个问题，研究人员开始考虑使用视觉语言模型（VLM）生成数据（Zhu et al. 2023a；You et al. 2023），因为 VLM 在预训练过程中看到了大量的图像-文本对相，本质上蕴含着丰富的知识。目前，可访问的 MLLM 不如其对应的 LLM 强大。他们经常产生不充分的反应并产生错误的信息，例如幻觉。然而，现有方法尝试使用 VLM 生成数据，而没有考虑如何确保生成数据的质量或通过实验对其进行验证。

与上述方法相比，我们提出了可视化指令生成和校正（VIGC），这是一种高质量指令数据生成的新方法。该方法基于现有的视觉语言模型（VLM），通过初始指令数据的微调，引导模型在新图像上生成多样化的视觉语言问答对。生成多样化数据的能力源于视觉编码器和大型语言模型都在广泛的数据集上进行了微调，包含丰富的图像理解和逻辑语言能力。然而，我们发现直接从提供的指令生成的数据存在严重的幻觉问题，这是困扰大型多模态模型的常见问题（Peng 等人，2023b；Liu 等人，2023a）。幸运的是，我们的视觉指令校正模块可以通过迭代更新显着减少模型幻觉现象。我们论文的主要贡献如下：

我们引入了视觉指令生成和校正（VIGC），这是一个能够自主生成高质量图像文本指令微调数据集的框架。 VIGC框架由两个子模块组成：视觉指令生成（VIG）和视觉指令校正（VIC）。具体来说，VIG 生成初始视觉问答对，而 VIC 减轻模型幻觉并通过迭代 Q-Former (IQF) 更新策略获得高质量数据。

• 我们计划发布一系列使用VIGC生成的数据集，包括36,781个VIGC-LLaVA-COCO-extra和约180万个VIGC-LLaVA-Objects365，用于大型多模态模型的研究。据我们所知，这是第一个由 MLLM 自主生成的多模态指令微调数据集。

• 我们对生成的数据进行了广泛的实验。当与 VIGC 生成的数据结合训练时，LLaVA7B 模型的性能显着提高，甚至超过了 LLaVA13B 模型。此外，在MMBench、OKVQA和A-OKVQA等主流多模态评估数据集上，使用VIGC数据训练的模型一致表现出性能增强。

Related Work

遵循指令的LLM

大型语言模型 (LLM) 的出现和发展对自然语言处理 (NLP) 领域产生了重大影响，包括但不限于 GPT-3 (Brown et al. 2020)、PaLM (Chowdhery et al. 2022) 、T5（Raffel 等人，2020）和 OPT（Zhang 等人，2022）。这些模型配备了广泛的训练数据和复杂的优化技术，在各种任务中表现出了卓越的性能。然而，他们有效遵循指令的能力仍然存在一个显着的挑战，这通常会导致在各种实际应用中得到次优结果。为了解决这个问题，人们引入了各种指令微调数据集。增强模型，例如 InstructGPT (Ouyang et al. 2022)、ChatGPT (OpenAI 2023a)、FLAN-T5 (Chung et al. 2022)、FLAN-PaLM (Chung et al. 2022) 和 OPTIML (Iyer et al. 2022) ），旨在改进零样本和少样本学习能力，主要是通过学习将指令映射到相应的预期输出。尽管取得了这些进步，指令数据集的生成经常依赖于预先存在的 NLP 任务，这限制了它们的通用性。为了提高指导的质量和多样性，Wang 等人。（Wang 等人，2022）介绍了 SELF-INSTRUCT，这是一种利用生成的指令数据来提高LLM性能的方法。虽然这些方法在增强语言模型的指令跟踪能力方面取得了重大进展，但它们表现出标准限制，因为它们不能直接推广到多模态数据。

多模式指令调优

与创建语言指令微调数据集相比，构建多模态指令微调数据集需要对图像内容和相应文本的开发有透彻的了解。 MiniGPT-4 利用特征对齐模型来解释 CC 数据集（Sharma 等人，2018 年；Changpinyo 等人，2021 年），使用 ChatGPT 进行初始过滤，并最终生成 3,500 个图像文本对以进行模型细化。然而，这种方法在指令多样性和数量方面遇到限制。相比之下，LLaVA 提出了一种基于纯语言 GPT-4 (OpenAI 2023b) 的创新方法，从包括标题描述和目标数据的信息生成多模态指令数据。虽然这种方法生成高质量的数据，但它需要对每个标题描述、目标信息和问题进行手动注释，这本质上限制了可扩展性。为了将数据扩展至更全面的任务系列，InstructBLIP 开创了指令模板构建方法，将 26 个独特的数据集转换为指令微调数据，并在多个任务中取得了令人印象深刻的结果。同时，MIMIC（Li et al. 2023a）组装了更大规模的指令微调数据集。

然而，所有这些数据集都需要以注释的形式进行人工干预，并且它们的多样性本质上受到现有数据的限制。相比之下，我们的研究旨在提出一种自引导、模型驱动的指令微调数据生成方法，该方法能够创建适合任何新颖图像的高质量微调数据。能够创建适合任何新颖图像的高质量微调数据。

视觉问题生成

视觉问题生成（VQG）旨在根据提供的图像生成相关问题，由于多样性、自然性和参与度的需要，这带来了相当大的挑战。穆斯塔法扎德等人。（Mostafazadeh 等人，2016）提出了视觉问题生成（VQG）的任务，并尝试采用基于检索和生成的方法建立一个基础的 VQG 框架。 iQAN（Li et al. 2018）后来提出了一个统一的、可逆的网络，可以解决 VQA 和 VQG 任务，从而能够从图像中检索答案和生成问题。 Guiding Visual Question Generation (Vedd et al. 2021) 等指导模型也对该领域做出了重大贡献。

本文提出了视觉指令生成和校正（VIGC）网络，该模型与 VQG 一样，可以生成图像相关内容。与现有的工作不同，我们的方法通过开发不同的问题并根据不同的需求类别提供适当的答案，引入了额外的复杂性。利用大型语言模型的丰富知识，我们的模型的输出优于传统的 VQG 任务，而传统的 VQG 任务通常受到训练样本大小的限制。

方法

本文专注于利用现有视觉语言模型的力量来自主生成遵循数据的多模式指令。所提出的方法有助于创建强大且多样化的微调数据集，消除了密集的手动干预的需要。然而，利用现有的多模式模型来实现这一目标面临着巨大的挑战。为了缓解这些问题，我们引入了一个名为 VIGC 的自指导框架。在现有微调数据的指导下，该框架可以生成更高质量、更多样化的新数据，如图 2 所示。

图 2：建议的视觉指令生成和校正 (VIGC) 框架。左图展示了 VIGC 训练过程：指令微调数据被输入到 VIG 和 VIC 子模块中。 VIG 旨在生成与图像相关的问答对，而 VIC 则改进 VIG 生成的答案以提高精度。右图描述了推理阶段，VIGC 将任意图像作为输入，生成初始答案，然后对其进行细化以构建高质量的微调数据。

初始指令构建

与可以通过独立语言模型轻松生成的语言指令相比（Peng et al. 2023a；Wang et al. 2022），视觉文本多模态指令的构建需要对视觉内容的详细理解，以及能力根据图像的实际内容提出相关问题并提供正确答案。然而，现有的多模态模型缺乏直接生成视觉语言指令数据的能力。为了克服这个限制，我们利用现成的指令微调数据并制定额外的指令模板，从而促进指令数据的自动生成。

图 3：与 VIG 和 VIC 子模块中的指令调整相对应的模板示例。

我们提出的方法普遍适用于生成各种类型的图像文本多模态指令微调数据。为了阐明我们的方法，我们使用 LLaVA 样式数据指令的生成来举例说明。具体来说，我们按照 LLaVA 中描述的指令微调数据类型的分类，构建包含对话、详细描述和复杂推理的指令模板。图3展示了这三种类型的指令模板的实例，它们本质上并不复杂，主要要求“根据图像内容生成T型问答对”。理论上，如果模型在训练后能够遵循这些指令描述，那么它应该能够熟练地生成问答对。

利用指令模板和现有的视觉指令调整数据（即 LLaVA 中的问答对），我们构建了一个全面的 VIG 指令调整数据集，如下所示：

其中i ∈ {1, 2, ..., Nt}，Nt表示指令类型，这样的对话，详细描述等。Xi表示RGB图像，Ii表示特定类型t对应的指令，Qt i是与指令 It 背景下的图像 Xi 相关的问题，At i 是问题 Qt i 的答案。我们的目标是利用该数据集来训练模型，在给定特定指令 It 的情况下，模型可以按照指定的指令类型为给定图像生成相应的问答对。图 2 提供了初始指令数据集的图示。

与 VIG 不同，VIC 指令采用图像和查询作为微调过程的输入，目的是生成精确的响应。 VIC指令的数据集如下所示：

视觉指令生成

与当前流行的多模态模型（例如 MiniGPT-4（Zhu et al. 2023b）和 InstructBLIP（Dai et al. 2023））保持一致，所提出的 VIGC 的架构可以分为四个主要组件：视觉编码器（ViT）（ Fang et al. 2023)、大语言模型 (Vicuna) (Chiang et al. 2023)、用于视觉特征提取的 Q-Former (Li et al. 2023b) 以及用于协调视觉的全连接 (FC) 投影-语言特征。从功能上来说，该模型可以进一步分为两个不同的子模块：视觉指令生成（VIG）模块和视觉指令校正（VIC）模块。必须强调的是，这两个子模块共享网络参数，主要区别在于用于训练的数据类型。

VIG 模块的主要目标是自主生成与任何给定图像的特定教学命令相对应的相关视觉问答对。图 2 说明了 VIG 模块在训练阶段遵循的流程。在训练阶段，VIG 模块随机选择图像，随后通过视觉编码器进行处理。它生成一组固定的视觉特征嵌入。 Q-Former 模块专门设计用于了解教学信息，进一步完善了这些视觉特征。在此阶段，模型采用可学习的视觉查询，结合指令执行自注意力操作。此操作之后是具有视觉嵌入的交叉注意阶段。这种机制促使视觉特征集中于指导信息，从而增强其在指定任务的背景下的相关性和准确性。在交叉注意力阶段之后，细化的特征通过 FC 映射层进行传递，这是将视觉特征与其语言对应物对齐的关键步骤，从而确保视觉和语言特征的无缝集成。随后，指令对齐的特征被语言模型摄取。这个过程指导模型生成预测结果。具体来说，这种情况下的目标是生成与图像 Xi 的内容本质上相关的视觉问题和答案，其性质由指令决定。我们利用大语言模型固有的原始自回归损失函数。这种方法指导模型生成与训练集中提供的问答对一致的句子。

视觉指示校正

在本研究进行的探索中，我们发现现有的多模态模型（Liu et al. 2023b）、（Dai et al. 2023）非常类似于语言模型（Radford et al. 2018、2019；Brown et al. 2020；OpenAI） 2023b,a)，经常表现出幻觉问题。这种幻觉现象也存在于 VIG 生成的数据中，尤其是在大量描述的情况下。我们将此归因于多模态模型在答案生成阶段逐渐依赖当前答案文本的趋势，从而逐渐忽略图像信息，从而导致对图像中不存在的目标的描述。为了消除生成数据中的幻觉现象，并确保基于该数据的下游任务不被污染，我们专门引入了指令修正模块来更新答案，减少幻觉的发生。

为了有效利用 VIC，需要在模型训练和推理阶段采取具体行动：

在训练阶段：VIG 阶段的目标是根据指令生成相应的视觉问答对。相反，VIC 训练阶段的目标是为模型提供问题，从而引导模型在 Q-Former 特征提取过程中专注于提取与输入问题/文本相关的特征。这些特征为后续答案奠定了基础。

在推理阶段：使用上述 VIC 方法训练模型后，它可以将 VIG 生成的问答对中的问题作为输入，并在推理阶段重新生成答案。由于模型在制定响应时更加强调问题，因此生成的结果通常更准确。此外，我们迭代这个 Q-Former 特征更新过程，称为 Iterativate-Q-Former (IQF)，如图 2 中的 VIGC 推理阶段所示。在部署 VIC 模块之前，我们首先生成初始问题 (Q) 和使用 VIG 回答 (A)。在第一次迭代中，我们使用指令和问题作为输入，输出答案 A1 和 ̄ A1，其中 A1 表示答案的第一句，̄ A1 表示第一句之后的所有内容。在第二次迭代中，我们输入指令、问题和上一步的答案 A1 来预测 A2，这个过程不断迭代，直到遇到终止符号。这种迭代方法的功效主要是由于使用最新的文本信息不断更新视觉特征，使后续结果更加准确。然而，应该指出的是，虽然该方法对于提供图像内容的详细描述非常有益，但其对于对话任务和推理任务的有效性相对有限。这是因为对话任务通常由单个句子组成，推理任务中的后续内容并不严重依赖图像信息。

实验

数据集

训练数据。我们使用两种类型的视觉语言指令微调数据来训练 VIGC 网络。第一种类型以 LLaVA 数据集 (Liu et al. 2023b) 为代表，是手动策划的，并与仅语言 GPT-4 (OpenAI 2023b) 结合用于多模态模型。它包括 150K 训练样本，细分为简单对话（57,669 个样本）、详细描述（23,240 个样本）和复杂推理视觉语言数据（76,803 个样本）。该数据集涵盖多模态对话的各个方面，包括类别识别、计数、动作识别和场景识别。详细的描述需要仔细的图像观察和全面的细节描述，而复杂的推理任务需要深入的推理和外部知识的整合。第二种类型的数据是从公开可用的图像文本数据集导出的多模式指令微调数据。具体来说，我们使用 InstructBLIP (Dai et al. 2023) 中使用的 OKVQA (Marino et al. 2019) 和 A-OKVQA (Schwenk et al. 2022) 数据集进行 VIGC 训练。这些数据集需要广泛的外部知识，是评估 VIGC 能力的理想选择。

推理数据。在 VIGC 网络训练之后，我们使用图像数据集生成了多模态指令的微调数据。我们使用两个不同的数据集 COCO（Lin 等人，2014 年）和 Objects365（Shao 等人，2019 年）来评估 VIGC 在处理相同或不同图像域内的数据方面的有效性。 COCO 数据集是构建 LLaVA、OKVQA 和 A-OKVQA 数据集的基础。需要强调的是，在数据生成阶段，我们故意省略了之前包含在测试集中的任何图像，以确保评估的公平性和有效性。

实施细节

在 VIGC 的训练阶段，我们利用 MiniGPT4 (Zhu et al. 2023b) 第一阶段预训练模型作为初始参数的来源。这确保了初始模型不包含用于训练的额外指令微调数据，从而保持下游任务验证的公平性。该模型包含 EVA-CLIP 中的 ViT-G/14（Fang et al. 2023）、Q-Former（Li et al. 2023b）和线性投影层。使用的语言模型是 Vicuna7B 和 Vicuna13B (Chiang et al. 2023)。值得注意的是，如图 1 所示，我们的 Q-Former 被设计为同时接收指令或问题文本，这对于 VIC 中的迭代校正至关重要。因此，我们利用 BLIP2-FlanT5XXL (Li et al. 2023b) 中的 Q-Former 作为 Q-Former 的初始参数。我们将此网络模型指定为 MiniGPT-4+。训练过程中，仅对Q-Former和线性投影层的参数进行微调，而语言和视觉模型的参数保持不变。训练共进行 10 个 epoch，每个 epoch 后都会验证模型的性能。随后选择表现出最佳性能的模型来生成数据。

在批量大小方面，我们对 7B 和 13B 模型都使用 64。整个训练过程在 8 个 A100 (80GB) GPU 上执行，大约需要 10 小时即可完成。

LLaVA 数据和评估

数据集分析。

为了生成更多样化的 LLaVAlike 数据集，VIGC 模型使用 LLaVA-150K 数据和三种类型的指令模板的组合进行训练。在推理阶段，我们使用了 COCO 2017 训练集中的图像，有意排除了 LLaVA 数据集中已包含的图像。最终选出了总共 36,781 张初始图像，作为指令数据生成的基础；我们将此数据称为 coco-extra，它作为评估期间用于模型训练的默认补充数据。

基于上述数据，VIG 网络生成各种初始问题和答案。随后，VIC 网络通过迭代 QFormer (IQF) 操作将问题和现有答案作为输入来细化输出，从而生成更高质量的响应。图 4 说明了通过 VIGC 流程生成的三类数据：

• 对话：问题通常很具体，可以得到简洁明了的回答。

• 详细描述：问题相对固定，围绕描述图像的内容。这要求模型能够清晰地观察图像内的所有目标。据观察，直接从视觉信息生成（VIG）生成的详细描述充满了许多错觉。然而，应用视觉信息校正（VIC）后，这些虚幻现象明显减少。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

Abstract

Introduction ---- 介绍

Related Work

方法

实验

你可能感兴趣的:(人工智能,LVLM幻觉,算法,深度学习)

Introduction
----
介绍