Mars_prime

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

Abstract

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理，在复杂推理方面表现出了令人印象深刻的性能。然而，现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT，它将语言（文本）和视觉（图像）模态合并到一个两阶段框架中，将基本原理生成和答案推理分开。通过这种方式，答案推理可以更好地利用基于多模态信息生成的基本原理。借助 Multimodal-CoT，我们的模型在 10 亿个参数下的性能比之前最先进的 LLM (GPT-3.5) 提高了 16 个百分点 (75.17%)→ 91.68％的精度）甚至超过了ScienceQA基准的人类表现。代码已公开。1

机器学习、ICML

1介绍

想象一下阅读一本没有图表的教科书。通过对视觉、语言和音频等多种数据模式进行联合建模，我们获取知识的能力得到了极大的增强。最近，大型语言模型 (LLM) （Brown 等人，2020年;托皮兰等人，2022年;雷伊等人，2021年;乔杜里等人，2022年）通过在推断答案之前生成中间推理步骤，在复杂的推理中表现出了令人印象深刻的表现。这种有趣的技术称为思想链 (CoT) 推理（Wei 等人，2022b;小岛等人，2022年;张等人，2022年)。

但是，与 CoT 推理相关的现有研究很大程度上孤立于语言模态（Wang 等人，2022b;周等人，2022年;卢等人，2022b; Fu等人，2022年），几乎没有考虑多模式方案。为了引发多模态中的 CoT 推理，我们提倡 Multimodal-CoT 范式。给定不同模态的输入，Multimodal-CoT 将多步骤问题分解为中间推理步骤（基本原理），然后推断答案。由于视觉和语言是最流行的模式，因此我们在这项工作中重点关注这两种模式。图 1 显示了一个示例。一般来说，有两种方法可以引发 Multimodal-CoT 推理：(i) 提示 LLM 和 (ii) 微调小模型。2

图1：多模式COT任务的示例。

执行Multimodal-CoT的最直接方法是将不同模态的输入转换为一种模态并提示LLM执行CoT。例如，可以通过字幕模型提取图像的字幕，然后将字幕与原始语言输入连接起来，输入到 LLM （Lu 等人，2022a)。然而，字幕过程中存在严重的信息丢失；因此，使用字幕（相对于视觉特征）可能会因不同模态的表示空间中缺乏相互协同作用而受到影响。

表格1：典型的 CoT 技术（FT：微调；KD：知识蒸馏）。第 1 部分：情境学习技巧；第 2 部分：微调技术。据我们所知，我们的工作是第一个以不同方式研究 CoT 推理的工作。此外，我们专注于 1B 模型，而不依赖于法学硕士的输出。

楷模	多式联运	无法学硕士	型号/发动机	训练	成本角色	成本来源
零射击 CoT (Kojima 等人, 2022年）	✗	✗	GPT-3.5 (175B)	ICL	推理	模板
Few-Shot-CoT (Wei 等人, 2022b）	✗	✗	帕LM (540B)	ICL	推理	手工制作
self-contistency-cot （ Wang等人。2022a）	✗	✗	法典 (175B)	ICL	推理	手工制作
从最少到最多的提示 (Zhou 等人, 2022年）	✗	✗	法典 (175B)	ICL	推理	手工制作
检索（ Zhang等人。，2022年）	✗	✗	GPT-3.5 (175B)	ICL	推理	自动生成
PromptPG-CoT (Lu 等人, 2022b）	✗	✗	GPT-3.5 (175B)	ICL	推理	手工制作
Auto-CoT (Zhang 等人, 2022年）	✗	✗	法典 (175B)	ICL	推理	自动生成
复杂性-CoT (Fu 等人, 2022年）	✗	✗	GPT-3.5 (175B)	ICL	推理	手工制作
Few-Shot-PoT (Chen 等人, 2022年）	✗	✗	GPT-3.5 (175B)	ICL	推理	手工制作
UnifiedQA (Lu 等人, 2022a）	✗	✓	T5（770M）	金融时报	解释	爬行
微调 T5 XXL (Magister 等人, 2022年）	✗	✗	T5（11B）	肯德基	推理	LLM生成
Fine-Tune-CoT (Ho 等人, 2022年）	✗	✗	GPT-3 (6.7B)	肯德基	推理	LLM生成
多式联运-CoT（我们的工作）	✓	✓	T5（770M）	金融时报	推理	爬行

为了促进模态之间的交互，另一个潜在的解决方案是通过融合多模态特征来微调较小的语言模型 (LM)（Zhang 等人，2023年)。由于这种方法允许灵活地调整模型架构以合并多模态特征，因此我们在这项工作中研究微调模型，而不是提示法学硕士。关键的挑战是 1000 亿个参数下的语言模型往往会产生幻觉的基本原理，从而误导答案推断（Ho 等人，2022年;马吉斯特等人，2022年;吉等人，2022年)。

为了减轻幻觉的挑战，我们提出了 Multimodal-CoT，它将语言（文本）和视觉（图像）模态合并到一个两阶段框架中，将基本原理生成和答案推理分开。通过这种方式，答案推理可以更好地利用基于多模态信息生成的基本原理。我们的实验是在 ScienceQA 基准测试上进行的（Lu 等人，2022a)，这是带有注释推理链的最新多模态推理基准。实验结果表明，我们的方法超越了之前最先进的 GPT-3.5 模型 +16%（75.17%→基准为91.68％）。我们的贡献总结如下：

(i) 据我们所知，这项工作是第一个以不同方式研究 CoT 推理的工作。

(ii) 我们提出了一个两阶段框架，通过微调语言模型来融合视觉和语言表示来执行 Multimodal-CoT。该模型能够生成信息丰富的基本原理，以方便推断最终答案。

(iii) 我们的方法在 ScienceQA 基准上实现了新的最先进的性能，比 GPT-3.5 的准确性高出 16%，甚至超过了人类的表现。

2背景

本节回顾了通过提示和微调语言模型来引发 CoT 推理的最新进展。

2.1使用LLM的COT推理

最近，CoT 已被广泛用于激发法学硕士的多步推理能力（Wei 等人，2022b)。具体来说，CoT 技术鼓励法学硕士生成中间推理链来解决问题。研究表明，法学硕士可以使用两种主要的技术范式进行 CoT 推理：零射击 CoT （Kojima 等人，2022年）和几个射击（Wei等人，2022b;张等人，2022年)。对于零射击 CoT，Kojima 等人。（2022年) 通过在测试问题后添加“让我们一步一步思考”之类的提示来调用 CoT 推理，表明 LLM 是不错的零样本推理机。对于Few-Shot-CoT，使用一些逐步的推理演示作为推理的条件。每个演示都有一个问题和一个导致最终答案的推理链。演示通常是通过手工制作或自动生成获得的。因此，相应的技术被称为 Manual-CoT （Wei 等人，2022b) 和 Auto-CoT （Zhang 等人，2022年)。

通过有效的演示，Few-Shot-CoT 往往能取得比 Zero-Shot-CoT 更强的性能，并吸引了更多的研究兴趣。因此，最近的研究主要集中在如何改进Few-Shot-CoT。这些研究分为两个主要研究方向：（i）优化演示； (ii) 优化推理链。表1比较了典型的 CoT 技术。

优化演示

Few-Shot-CoT 的性能依赖于演示的质量。正如 Wei 等人报道的那样。（2022b)，使用不同注释者编写的演示会导致符号推理任务中出现巨大的准确性差异。除了手工制作演示外，最近的研究还研究了优化演示选择过程的方法。值得注意的是，Rubin 等人。（2022年) 检索了与测试实例语义相似的演示。然而，当推理链中出现错误时，这种方法会表现出性能下降（Zhang 等人，2022年)。为了解决这一限制，Zhang 等人。（2022年)发现关键是演示问题的多样性，并提出了 Auto-CoT：(i) 将给定数据集的问题划分为几个集群； (ii) 从每个集群中采样一个代表性问题，并使用带有简单启发式的 Zero-Shot-CoT 生成其推理链。此外，还提出了强化学习（RL）和基于复杂性的选择策略以获得有效的演示。 Fu 等人。（2022年)选择了推理链复杂（即推理步骤较多）的例子作为演示。 Lu 等人。（2022b）培训了一个代理商，从候选池中找到最佳的文本示例，并在与GPT-3.5互动时在给定培训示例中最大化预测奖励。

优化推理链

优化推理链的一种值得注意的方法是问题分解。周等人。（2022年)提出了从最小到最大的提示，将复杂问题分解为子问题，然后依次解决这些子问题。因此，先前解决的子问题的答案有助于解决给定的子问题。同样，Khot 等人。（2022年)使用不同的分解结构并设计不同的提示来回答每个子问题。除了以自然语言文本提示推理链之外，Chen 等人。（2022年) 提出了思维程序 (PoT)，它将推理过程建模为程序，并提示法学硕士通过执行生成的程序来得出答案。另一个趋势是对测试问题的多个推理路径进行投票。王等人。（2022a) 引入了一种自一致性解码策略来对 LLM 的多个输出进行采样，然后获得最终答案的多数。王等人。（2022b) 和 Li 等人。（2022b)在输入空间中引入随机性，以产生更多样化的投票输出。

2.2通过微调模型引发 CoT 推理

最近的一个兴趣是通过微调语言模型来引发 CoT 推理。 Lu 等人。（2022a) 使用 CoT 注释在大规模数据集上微调编码器-解码器 T5 模型。然而，当使用 CoT 来推断答案时，即在答案之前生成推理链（推理）时，会观察到性能急剧下降。相反，CoT 仅用作答案后的解释。 Magister 等人。（2022年) 和 Ho 等人。（2022年) 通过根据较大的教师模型生成的思想链输出对学生模型进行微调，从而采用知识蒸馏。所提出的方法在算术、常识和符号推理任务中显示出性能提升。

将 1B 模型训练为 CoT 推理器存在一个关键挑战。正如 Wei 等人所观察到的。（2022b），低于1000亿个参数的模型往往会产生不合逻辑的婴儿，从而导致错误的答案。换句话说，比直接生成答案，1B模型生成有效的COT可能更难。在多模式环境中，回答问题还需要了解多模式输入的情况变得更加具有挑战性。在下一部分中，我们将探讨多模式-COT的挑战，并研究如何执行有效的多步推理。

3多模式-COT的挑战

现有研究表明，CoT 推理能力可能会出现在一定规模的语言模型中，例如超过 1000 亿个参数（Wei 等人，2022a)。然而，在 1B 模型中引发这种推理能力仍然是一个尚未解决的挑战，更不用说在多模态场景中了。这项工作重点关注 1B 模型，因为它们可以使用消费级 GPU（例如 32G 内存）进行微调和部署。在本节中，我们将研究 1B 模型在 CoT 推理中失败的原因，并研究如何设计一种有效的方法来克服这一挑战。

3.1致力于COT的角色

首先，我们对ScienceQA基准的COT推理进行微调（Lu等，）2022a)。按照 Lu等。（2022a），我们采用unifiedqa （Khashabi等人，2020年在模型在输入中获取文本信息并生成输出序列这包括理由和答案。作为图中所示的示例 1 ，该模型采用问题文本（q）的代币，上下文文本（c）和多个选项（M）的串联作为输入。为了研究COT的效果，我们将性能与三种变体进行了比较：（i）直接预测答案（QCM ）→A）; (ii) 答案推理以基本原理为条件的推理 (QCM→RA）; （iii）解释基本原理用于解释答案推理（QCM）→增强现实）。

表2：COT在一个阶段设置中的影响。

方法	格式	准确性
禁止	质量控制模块→A	80.40
推理	质量控制模块→RA	67.86
解释	质量控制模块→增强现实	69.77

图2：用于生成基本原理和预测答案的不带视觉特征（基线）和带视觉特征（我们的）的两阶段框架示例。上半部分展示了带有黄金原理的问题细节，下半部分显示了基线的输出以及我们与视觉特征相结合的方法。我们观察到，由于幻觉原理的误导，基线未能预测正确的答案。更多示例请参见附录A.1。

令人惊讶的是，我们观察到↓12.54％的精度降低（80.40％→67.86%）如果模型在答案之前预测基本原理（QCM→RA）。结果表明，基本原理可能不一定有助于预测正确答案。 Lu 等人也观察到了类似的现象。（2022a)，其中可能的原因可能是模型在获得所需答案之前超出了最大令牌限制或提前停止生成预测。然而，我们发现生成的输出（RA）的最大长度始终小于 400 个 token，这低于语言模型的长度限制（即 UnifiedQA 中的 512））。因此，值得更深入地研究为什么其理由会损害答案推理。

3.2幻觉的理由误导

为了深入了解基本原理如何影响答案预测，我们将 CoT 问题分为两个阶段：基本原理生成 和 回答推理。我们分别报告基本原理生成和答案推理的 RougeL 分数和准确性。表3显示了基于两阶段框架的结果。尽管两阶段基线模型的推理生成 RougeL 得分为 91.76，但答案推理准确率仅为 70.53%。与QCM相比→表中的一个变体（80.40%）2，结果表明两阶段框架中生成的基本原理并没有改善答案准确性。

表3：(i) 基本原理生成 (RougeL) 和 (ii) 答案推理 (Accuracy) 的两阶段设置。

方法	(一) 质量控制模块→右	(ii) QCMR→A
两阶段框架	91.76	70.53
带字幕	91.85	71.12
带视觉功能	96.97	84.91

然后，我们随机采样了 50 个错误案例，发现模型倾向于生成误导答案推断的幻觉原理。如图2所示的示例，模型（左侧部分）幻想“一个物体的南极由于缺乏对视觉内容的参考，磁铁最接近另一个磁铁的南极”。我们发现此类错误在错误案例中的比例为 64%（图3(a)）。

图3：幻觉错误率 (a) 和视力特征纠正率 (b)。

图4：我们的 Multimodal-CoT 框架概述。 Multimodal-CoT 包含两个阶段：(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构，但输入和输出不同。在第一阶段，我们向模型提供语言和视觉输入以生成基本原理。在第二阶段，我们将原始语言输入附加到第一阶段生成的基本原理。然后，我们将更新后的语言输入与原始视觉输入一起输入模型以推断答案。

3.3多模态有助于有效的理论依据

我们推测这种幻觉现象是由于缺乏执行有效的 Multimodal-CoT 所需的视觉环境造成的。要注入视觉信息，一种简单的方法是将配对图像转换为标题（Lu et al., 2022a) 然后将标题附加到两个阶段的输入中。然而，如表 3 所示，使用字幕只能带来边际性能提升 (↑0.59%）。然后，我们通过将视觉特征融入到语言模型中来探索一种先进的技术。具体来说，我们将配对图像输入 DETR 模型（Carion 等人，2020年) 提取视觉特征。然后，我们将视觉特征与编码的语言表示融合，然后再馈送到解码器（更多详细信息将在第 4 节中介绍）。有趣的是，有了视觉特征，推理生成的 RougeL 分数提升到了 96.97%（QCM→R)，相应地有助于提高 84.91% 的答案准确性 (QCMR→A)。有了这些有效的理据，幻觉现象得到缓解——第3.2节中62.5%的幻觉错误已得到纠正（图3(b))，如图2（右部分）所示。4 迄今为止的分析令人信服地表明，视觉特征确实有利于生成有效的理由并有助于准确的答案推理。作为两阶段方法（QCMR→表中的A)3比表2中的所有单阶段方法获得了更好的性能，我们在 Multimodal-CoT 框架中选择两阶段方法。

4多式联运CoT

根据第 3 节中的观察和讨论，我们提出 Multimodal-CoT 来合并语言（文本）和视觉（图像）模态分为两阶段框架。在本节中，我们将首先概述框架的流程，然后详细阐述模型架构的技术设计。

4.1框架概述

Multimodal-CoT 包含两个训练阶段：(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构，但输入不同�和输出是。整体流程如图 4 所示。我们将以 Vision-Language 为例来展示 Multimodal-CoT 的工作原理。

在基本原理生成阶段，我们为模型提供�={�语言1,�想象}在哪里�语言1代表第一阶段的语言输入，�想象代表视觉输入，即图像。例如，� 可以实例化为多项选择推理问题的问题、上下文和选项的串联（Lu 等人，2022a)如图4。目标是学习基本原理生成模型右=�（�）在哪里右是基本原理。

在答案推理阶段，推理右附加到原始语言输入�语言1构建第二阶段的语言输入，�语言2=�语言1∘右在哪里∘表示串联。然后，我们提供更新后的输入�′={�语言2,�想象}到答案推理模型来推断出最终答案�=�（�′）。

在这两个阶段，我们独立训练具有相同架构的两个模型。他们采用带注释的元素（例如，�→右,�右→�，分别）来自监督学习的训练集。在推理过程中，给定�，使用第一阶段训练的模型生成测试集的基本原理；它们在第二阶段用于答案推理。

4.2模型架构

给定语言输入�语言ε{�语言1,�语言2}和视觉输入�想象，我们计算生成目标文本的概率是（图 4中的基本原理或答案）长度氮经过

�（是|�语言,�想象）=∏我=1氮��（是我∣�语言,�想象,是<我）,

(1)

在哪里��（是我∣�语言,�想象,是<我）使用基于 Transformer 的网络实现（Vaswani 等人，2017年)。网络具有三个主要过程：编码、交互和解码。具体来说，我们将语言文本输入 Transformer 编码器以获得文本表示，然后将其与视觉表示进行交互和融合，然后输入 Transformer 解码器。

编码

该模型�（�）接受语言和视觉输入并获得文本表示�语言和图像特征�想象通过以下功能：

	�语言	=	语言编码器（�语言）,		(2)
	�想象	=	瓦�⋅视觉提取器（�想象）,		(3)

其中语言编码器（⋅）作为 Transformer 模型实现。我们使用 Transformer 编码器中最后一层的隐藏状态作为语言表示�语言εℝ�×�在哪里�表示语言输入的长度，并且�是隐藏维度。同时，VisionExtractor（⋅) 用于将输入图像矢量化为视觉特征。受到 Vision Transformers 最近成功的启发（Dosovitskiy 等人，2021年)，我们通过现成的视觉提取模型获取块级特征，5 例如 DETR （Carion 等人，2020年)。获得块级视觉特征后，我们应用可学习的投影矩阵瓦�来转换形状视觉提取器（�想象）进入那个�语言;因此我们有�想象εℝ米×�在哪里米是补丁的数量。

算法 1 多模式-CoT

1：语言输入�语言1, 视觉输入�想象

2：产生的理由右, 推断答案�

3：构造输入�={�语言,�想象}

4：产生理由右=�（�）使用模型�（⋅）

5：附上理由右到原始语言输入�语言2=�语言1∘右。

6：构建新的输入�′={�语言2,�想象}

7：推断答案�通过调节新的输入，�=�（�′）。

8：程序F( �）

9：对语言和视觉输入进行编码�语言和�想象，分别

10：通过注意力建立语言和视觉特征之间的交互�想象收件人

11：保险丝�语言和�想象收件人通过门控融合机制�保险丝

12：喂养�保险丝到解码器以获得目标预测是

13：返回是

14：结束程序

相互作用

获得语言和视觉表示后，我们使用单头注意网络将文本标记与图像补丁相关联，其中查询（），钥匙（）和值（）是�语言,�想象和�想象，分别。注意力输出�想象收件人εℝ�×�定义为：

�想象收件人

软最大（⊤��）,

(4)

在哪里��与的维度相同�语言因为使用的是单头。

然后，我们应用门控融合机制（Zhang 等人，2020年;吴等人，2021年;李等人，2022a)融合�语言和�想象。融合输出�保险丝εℝ�×�是通过以下方式获得的：

	�	=	乙状结肠（瓦我�语言+瓦��想象收件人）,		(5)
	�保险丝	=	（1-�）⋅�语言+�⋅�想象收件人,		(6)

在哪里瓦我和瓦�是可学习的参数。

解码

最后，融合输出�保险丝被输入 Transformer 解码器来预测目标是。 Multimodal-CoT 的完整流程如算法1所示。

表 4：主要结果 (%)。尺寸 = 主干模型尺寸。问题类别：NAT = 自然科学、SOC = 社会科学、LAN = 语言科学、TXT = 文本上下文、IMG = 图像上下文、NO = 无上下文，G1-6 = 1-6 年级，G7-12 = 7-12 年级。除我们之外的结果均来自Lu 等人。（2022a)。第 1 部分：人类表现；第 2 部分：VQA 基线；第 3 部分：UnifiedQA 基线；第 4 部分：GPT-3.5 基线；第 5 部分：我们的 Multimodal-CoT 结果。粗体结果是最佳性能。

模型	尺寸	网络地址转换	SOC	局域网	TXT	免疫组化	不	G1-6	G7-12	平均
人类	-	90.23	84.97	87.48	89.60	87.50	88.10	91.59	82.42	88.40
MCAN (Yu 等人, 2019年）	95M	56.08	46.23	58.09	59.43	51.17	55.40	51.65	59.72	54.54
自上而下(Anderson 等人, 2018年）	70M	59.50	54.33	61.82	62.90	54.88	59.79	57.27	62.16	59.02
禁令(Kim 等人, 2018年）	112M	60.88	46.57	66.64	62.61	52.60	65.51	56.83	63.94	59.37
DFAF (高等人, 2019年）	74M	64.03	48.82	63.55	65.88	54.49	64.11	57.12	67.17	60.72
ViLT (Kim 等人, 2021年）	113M	60.48	63.89	60.27	63.20	61.38	57.00	60.72	61.90	61.14
补丁 TRM (Lu 等人, 2021年）	90M	65.19	46.79	65.55	66.96	55.28	64.95	58.04	67.50	61.42
VisualBERT (Li 等人, 2019年）	111M	59.33	69.18	61.18	62.71	62.17	58.54	62.96	59.92	61.87
统一质量保证 (Khashabi 等人, 2020年）	223M	68.16	69.18	74.91	63.78	61.38	77.84	72.98	65.00	70.12
统一质量保证与 CoT (Lu 等人, 2022a）	223M	71.00	76.04	78.91	66.42	66.53	81.81	77.06	68.82	74.11
GPT-3.5 (Chen 等人, 2020年）	175B	74.64	69.74	76.00	74.44	67.28	77.42	76.80	68.89	73.97
GPT-3.5 w/ CoT (Lu 等人, 2022a）	175B	75.44	70.87	78.09	74.68	67.43	79.93	78.23	69.68	75.17
多模式CoT	223M	87.52	77.17	85.82	87.88	82.90	86.83	84.65	85.37	84.91
多模式CoT	738M	95.91	82.00	90.82	95.26	88.80	92.89	92.44	90.31	91.68

表 5：Multimodal-CoT 的消融结果。

模型	网络地址转换	SOC	局域网	TXT	免疫组化	不	G1-6	G7-12	平均
多式联运CoT	87.52	77.17	85.82	87.88	82.90	86.83	84.65	85.37	84.91
没有两阶段框架	80.99	87.40	81.91	80.25	78.83	83.62	82.78	82.20	82.57
不带视觉功能	71.09	70.75	69.18	71.16	65.84	71.57	71.00	69.68	70.53

5实验

本节将介绍基准数据集、我们技术的实现以及比较的基线。然后，我们将报告我们的主要结果和发现。

5.1数据集

我们的方法在 ScienceQA 基准上进行评估（Lu 等人，2022a)。 ScienceQA 是第一个大规模多模式科学问题数据集，它通过详细的讲座和解释来注释答案。它包含 21,000 道多模态多项选择题，涵盖 3 个学科、26 个主题、127 个类别和 379 项技能，具有丰富的领域多样性。基准数据集分为训练、验证和测试部分，分别包含 12726、4241 和 4241 个示例。

5.2执行

以下部分介绍 Multimodal-CoT 的实验设置和基线方法。

实验设置

由于 Multimodal-CoT 任务需要生成推理链并利用视觉特征，因此我们使用 T5 编码器-解码器架构（Raffel 等人，2020年)。具体来说，我们采用 UnifiedQA （Khashabi 等人，2020年) 在两个阶段初始化我们的模型，因为它在 Lu 等人中实现了最佳微调结果。（2022a)。为了验证我们的方法在不同 LM 中的通用性，我们还采用了 FLAN-T5 （Chung 等人，2022年) 作为第 6.3 节的主干。由于在第 3.3 节中使用图像标题不会产生显着的性能提升，因此我们没有使用标题。我们将模型微调最多 20 个 epoch，学习率为 5e-5。最大输入序列长度为 512。基础模型和大型模型的批量大小分别为 16 和 8。我们的实验在 4 个 NVIDIA Tesla V100 32G GPU 上运行。

基线模型

以下Lu 等人。（2022a)，我们的基准包括 (i) 视觉问答 (VQA) 模型（Anderson 等人，2018年;金等人，2018年;余等人，2019年;高等人，2019年;金等人，2021年;卢等人，2021年;李等人，2019年); (ii) 文本到文本的语言模型。（卡沙比等人，2020年); (iii) GPT-3.5 模型（Chen 等人，2020年)。更多详情请参见附录B.1。

5.3主要结果

表4显示了主要结果。多模式-CoT优于 GPT-3.5 16.51% (75.17%→91.68%）并超越了人类的表现。具体来说，在 8 个问题类别中，Mutimodal-CoT达到 21.37% (67.43%→对于具有配对图像 (IMG) 的问题，性能提升 88.80%）。与利用上下文中的图像说明提供视觉语义的现有 UnifiedQA 和 GPT-3.5 方法相比，结果表明使用图像特征更有效。此外，根据表 5 中的消融研究结果，我们的两阶段框架有助于取得优异的结果。总的来说，结果验证了多模态的有效性以及通过我们的两阶段框架使用 1B 模型实现 CoT 推理的潜力。

6分析

以下分析将研究 Multimodal-CoT 的工作原理并讨论影响因素和限制。除非另有说明，我们使用基本尺寸下的模型进行分析。

pt1pt2pt3pt4pt5pt6pt7pt8pt9pt10pt40pt50pt60pt70pt80pt90ptEpochptAccuracyOne-stage BaselineOne-stage MultimodalTwo-Stage BaselineTwo-Stage Multimodal

图5：No-CoT 基线和 Multimodal-CoT 变体跨时期的准确度曲线。

6.1多模态促进融合

图5展示了基线和Multimodal-CoT在不同训练epoch下的评估精度曲线。 “单级”基于QCM→表中实现最佳性能的输入输出格式2，“两阶段”是我们的两阶段框架。我们发现，与无需 CoT 直接生成答案的单阶段基线相比，两阶段方法在开始时获得了相对较高的准确度。然而，如果没有视觉特征，随着训练的进行，由于低质量的基本原理，两阶段基线无法产生更好的结果（如第 3）。相比之下，使用视觉特征有助于生成更有效的原理，有助于提高我们的两阶段多模态变体的答案准确性。

6.2使用不同的视觉特征

不同的视觉特征可能会影响模型的性能。我们比较了三种广泛使用的视觉特征类型，CLIP （Radford 等人，2021年)，DETR （Carion 等人，2020年) 和 ResNet （He 等人，2016年)。 CLIP 和 DETR 是类似补丁的功能，其中 DETR 基于对象检测。对于ResNet特征，我们将ResNet-50的池化特征与文本序列重复相同的长度，以模仿类补丁特征，其中每个补丁与池化图像特征相同。有关视觉功能的更多详细信息，请参见附录B.2。

表 6：使用不同视觉特征的准确度（%）。

方法	一级	两级
带夹子	81.21	84.81
带 DETR	82.57	84.91
带 ResNet	80.97	84.77

表6显示了视觉特征的比较结果。我们观察到，使用视觉特征通常比仅使用语言基线获得更好的性能。具体来说，DETR总体上取得了相对较好的性能。因此，我们在Multimodal-CoT中默认使用DETR。

6.3跨骨干模型的总体有效性

为了测试我们的方法对其他骨干模型的好处的普遍性，我们将底层 LM 更改为不同大小或类型的其他变体。如表7所示，我们的方法对于广泛使用的骨干模型通常是有效的。

表 7：不同主干语言模型的准确率 (%)。

方法	尺寸	仅语言	多模式CoT
统一质量保证	223M	80.40	84.91
统一质量保证	738M	83.60	91.68
法兰-T5	248M	83.42	85.85
法兰-T5	783M	85.19	93.02

6.4误差分析

为了更好地理解 Multimodal-CoT 的行为并促进未来的研究，我们手动调查由我们的方法生成的随机选择的示例。表8总结了Multimodal-CoT生成的分类结果。我们随机抽取了 50 个答案正确的样本和 50 个答案不正确的样本。附录C中提供了每个类别的相应示例。

表8：Multimodal-CoT 的分类分析。

回答	交易费用类别	百分比（％）
正确的	科特是正确的	90
正确的	科特不正确	10
不正确	常识性错误	82
	逻辑错误	12
	科特是正确的	6

我们发现正确的样本（即答案正确）包含一定量的错误思路（10%）。结果表明，CoT 可能并不总是有利于答案推理，并且该模型在某种程度上是鲁棒的——它可以通过忽略不正确的理由来预测正确的答案。对于不正确的样本（即答案不正确），CoT 中的常识性错误是最常见的错误类型 (88%)。当回答需要常识知识的问题时，模型经常犯常识性错误，例如，理解地图和计算图像中的数字（图9），并利用字母表（图10）。另一类错误是逻辑错误（12%），推理链存在矛盾（图11）。此外，有些案例的 CoT 正确（6%），但答案不正确，但可能与答案选项不一定相关（图 12）。

分析表明未来研究有前瞻性的方向。可以通过以下方式改进 Multimodal-CoT：（i）结合更多信息丰富的视觉特征并改进语言视觉交互，使其能够理解地图和计数； (ii) 注入常识性知识； (iii)应用过滤机制，例如仅使用有效的CoT来推断答案并去除不相关的CoT。

7结论

我们正式研究多模态 CoT 问题。我们提出了 Multimodal-CoT，它将语言和视觉模态合并到一个两阶段框架中，将基本原理生成和答案推理分开，因此答案推理可以更好地利用多模态信息生成的基本原理。通过 Multimodal-CoT，我们证明我们的方法在 ScienceQA 基准上的准确度比 GPT-3.5 高出 16 个百分点。我们的错误分析表明，在未来的研究中，有可能利用更有效的视觉特征、注入常识知识并应用过滤机制来改进 CoT 推理。

你可能感兴趣的:(大模型幻觉,语言模型,人工智能,机器学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement