程序媛小哨

【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS（ICLR 2020）

文章目录

【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS（ICLR 2020）
- ABSTRACT摘要
- 1 INTRODUCTION介绍
- 2 RELATED WORK相关工作
- - Pre-training for Computer Vision计算机视觉的预训练
  - Pre-training for Natural Language Processing (NLP) 自然语言处理（NLP）的预训练
  - Pre-training for Visual-Linguistic Tasks视觉语言任务的预训练
- 3 VL-BERT
- - 3.1 REVISIT BERT MODEL
  - 3.2 MODEL ARCHITECTURE模型架构
  - - Token Embedding
    - Visual Feature Embedding
    - Segment Embedding
    - Sequence Position Embedding
  - 3.3 PRE-TRAINING VL-BERT预训练VL-BERT
  - 3.4 FINE-TUNING VL-BERT微调
- 4 EXPERIMENT实验
- - 4.1 PRE-TRAINING预训练
  - 4.2 FINE-TUNING ON DOWNSTREAM TASKS对下游任务进行微调
  - - 4.2.1 VISUAL COMMONSENSE REASONING (VCR)视觉常识推理
    - 4.2.2 视觉问答（VQA）
    - 4.2.3 REFERRING EXPRESSION COMPREHENSION引用表达式理解
    - 4.3 ABLATION STUDY消融实验
- 5 CONCLUSION结论
- A. APPENDIX附录
- - A.1 COMPARISON AMONG VL-BERT AND OTHER WORKS（VL-BERT与其他作品的比较）
  - A.2 详细的实验设置
  - A.3 VL-BERT中可视化注意贴图

ABSTRACT摘要

我们为视觉语言任务引入了一种新的可预训练的通用表示形式，称为视觉语言BERT（简称VL-BERT）。VL-BERT采用简单但功能强大的Transformer模型作为主干，并将其扩展为将视觉和语言嵌入式功能都作为输入。在其中，输入的每个元素要么是输入句子中的单词，要么是输入图像中的关注区域（RoI）。它旨在适应大多数可视语言的下游任务。为了更好地利用通用表示，我们在大规模的概念字幕数据集上对VL-BERT以及纯文本语料库进行了预训练。广泛的经验分析表明，预训练程序可以更好地对齐视觉语言线索，并有益于下游任务，例如视觉常识推理，视觉问题解答和参考表达理解。值得注意的是，VL-BERT在VCR基准排行榜上获得了单一型号的第一名。代码在https://github.com/jackroos/VL-BERT上发布。

1 INTRODUCTION介绍

适用于域中各种任务的通用特征表示的预训练是深层网络成功的标志。首先，在计算机视觉中，为ImageNet分类设计并经过ImageNet训练的骨干网络被发现对于改善许多图像识别任务是有效的。最近在自然语言处理（NLP）中，使用大型语言语料库的“掩码语言模型”（MLM）目标（Devlin等人，2018）对Transformer网络（Vaswani等人，2017）进行了预训练NLP任务。

同时，对于视觉和语言交汇处的任务，例如图像字幕（Young等，2014; Chen等，2015; Sharma等，2018），视觉问题回答（VQA）（Antol等。，2015； Johnson等，2017； Goyal等，2017； Hudson＆Manning，2019），视觉常识推理（VCR）（Zellers等，2019； Gao等，2019），缺乏这种预见性。训练的通用特征表示。先前的实践是以特定于任务的方式将经过预训练分别用于图像识别和NLP的基础网络进行组合。特定于任务的模型可以直接针对特定目标任务进行微调，而无需任何常规的视觉语言预训练。当目标任务的数据稀缺时，特定于任务的模型可能会遭受过度拟合的困扰。而且，由于特定于任务的模型设计，很难从预训练中受益，因为预训练任务可能与目标完全不同。通常，在研究视觉语言任务的功能设计和预训练方面缺乏共识。

在为不同的视觉语言任务设计的各种网络体系结构中，关键目标是在视觉和语言领域中有效地聚合多模式信息。例如，要在VQA任务中选择正确的答案，网络应允许从问题和答案中整合语言信息，并从输入图像中聚合视觉信息，并使语言含义与视觉线索保持一致。因此，我们寻求获得可以有效整合和对齐视觉和语言信息的通用表示形式。

同时，我们看到Transformer注意力机制（Vaswani等，2017）在NLP中的成功应用，以及在BERT中基于MLM的预训练技术（Devlin等，2018）。注意模块在聚合和对齐句子中嵌入单词的功能方面具有强大而灵活的功能，而BERT中的预训练则进一步增强了该功能。"

受此启发，我们开发了VL-BERT，这是一种用于视觉语言任务的可预训练的通用表示形式，如图1所示。VL-BERT的主干是（多模式）Transformer注意模块，以视觉和语言嵌入式功能作为输入。其中，每个元素要么是输入句子中的单词，要么是输入图像中的关注区域（RoI），以及某些特殊元素以消除不同的输入格式的歧义。每个元素都可以根据其内容，位置，类别等上定义的兼容性来自适应地聚合来自所有其他元素的信息。单词/ RoI的内容特征是特定于域的（WordPiece嵌入（Wu等人，2016）作为字词功能，请使用RoI的Fast R-CNN（Girshick，2015年）功能）。通过堆叠多层多模式Transformer注意模块，派生的表示在汇总和对齐视觉语言线索方面具有丰富的功能。并且可以在上面为特定的视觉语言任务添加特定于任务的分支。

为了更好地利用通用表示，我们在大型视觉语言语料库和纯文本数据集上都对VL-BERT进行了预训练。视觉语言语料库上的预训练损失是通过预测随机掩盖的单词或RoI引起的。这种预训练增强了VL-BERT汇总和对齐视觉语言线索的能力。虽然纯文本语料库的损失是BERT中标准MLM损失，但可以改善长而复杂的句子的泛化性。

全面的经验证据表明，所提出的VL-BERT在各种下游视觉语言任务（例如视觉常识推理，视觉问答和参考表达理解）上均达到了最新水平。特别是，我们在视觉常识推理的排行榜上获得了单一模型的第一名。

2 RELATED WORK相关工作

Pre-training for Computer Vision计算机视觉的预训练

在深度网络时代之前，在不同任务之间共享功能并通过预训练来改进功能还远远不成熟。用于各种计算机视觉任务的模型的设计选择过于多样化，无法获得通用表示。随着ImageNet（Deng等，2009）分类中AlexNet（Krizhevsky等，2012）的成功，我们看到了视觉社区中卷积神经网络（CNN）的复兴。不久之后，研究人员发现ImageNet预先训练的CNN可以很好地用作各种下游任务（Donahue等，2014）的通用特征表示，例如对象检测（Girshick等，2014），语义分割（Long等）。等人，2015年），实例细分（Hariharan等人，2014年）。用于ImageNet分类的骨干网的改进进一步改善了下游任务。最近，有研究工作在没有ImageNet预先训练的情况下从头开始直接在大规模目标数据集上训练CNN（He等人，2018）。他们获得了与ImageNet预培训相当的性能。他们还指出，对适当的海量数据集进行预培训对于提高具有稀疏数据的目标任务的性能至关重要。

Pre-training for Natural Language Processing (NLP) 自然语言处理（NLP）的预训练

有趣的是，NLP中的预训练技术的发展远远落后于计算机视觉。以前有一些有关改善单词嵌入的研究（Mikolov等，2013； Pennington等，2014； Kiros等，2015），这是一种低级的语言特征表示。最重要的是，为各种NLP任务设计了许多不同的体系结构。在Transformers的里程碑式工作中（Vaswani et al。，2017），提出了Transformer注意模块作为各种NLP任务的通用构建块。之后，提出了很多主要用于训练通用表示的方法，主要基于Transformers，例如GPT（Radford等人，2018），BERT（Devlin等人，2018），GPT-2（ Radford等人，2019），XLNet（Yang等人，2019），XLM（Lample＆Conneau，2019）和RoBERTa（Liu等人，2019）。其中，BERT由于其简单性和优越的性能可能是最受欢迎的一种。

Pre-training for Visual-Linguistic Tasks视觉语言任务的预训练

视觉语言任务模型的开发过程也与计算机视觉和NLP社区中的模型非常相似。"以前，任务设计特定的模型，其中将从现成的计算机视觉和NLP模型获得的功能以特定方式组合用于特定任务。仅针对特定任务在数据集上执行模型训练。

VideoBERT（Sun等，2019b）是寻求对视觉语言任务进行预训练的第一部作品。在其中，视频剪辑由现成的网络进行处理以进行动作识别，并根据派生的功能分配给不同的群集（视觉单词）。通过预测被掩盖的视频剪辑的群集ID，会引起预训练损失。由于视频剪辑的突然聚类，它会丢失大量的视觉内容信息，并会阻碍更新视觉网络参数。在CBT的以下工作中（Sun et al。，2019a），这种聚类机制被删除。这两部作品都应用于视频，视频在时间维度上具有线性结构，与句子相同。迫切需要研究完善的基于图像的视觉语言任务。

与我们的工作同时，最近在Arxiv上发行的多部作品也试图为视觉语言任务衍生出可预训练的通用表示形式。附录中的表5进行了比较。我们在这里简要讨论其中的一些作品。

在正在审查或刚刚被接受的ViLBERT（Lu等人，2019）和LXMERT（Tan＆Bansal，2019）中，网络架构是分别应用于输入句子和图像的两个单模态网络，其后是交叉模式变压器，结合了来自两个来源的信息。跨模态Transformer中的注意力模式受到限制，作者认为该模式可以提高性能。ViLBERT的作者声称，这种两流设计比单流统一模型优越。同时，在提出的VL-BERT中，它是基于Transformers的统一体系结构，对注意力模式没有任何限制。视觉和语言内容作为输入输入VL-BERT，在其中它们可以自由地进行早期交互。我们发现，我们的VL-BERT统一模型优于这种两流设计。

正在开发或正在审查中的VisualBert（Li等人，2019b），B2T2（Alberti等人，2019）和Unicoder-VL（Li等人，2019a）也是统一的单流架构。表5比较了这些作品的差异。这些研究工作的同时发生，表明了为视觉语言任务推导通用的可预训练的表示形式的重要性。

此外，VL-BERT与其他并行工作之间在预训练方面存在三个明显的区别。其效果已在第4.3节中进行了验证。
（1）我们发现在所有其他并行工作（例如ViLBERT（Lu等人，2019）和LXMERT（Tan＆Bansal，2019）中使用的句子-图像关系预测的任务没有帮助训练前的视觉语言表示。因此，此类任务未包含在VL-BERT中。
（2）我们在视觉语言和纯文本数据集上对VL-BERT进行了预训练。我们发现这种联合预训练可以改善长而复杂的句子的泛化性。
（3）改进了视觉表示的调整。在VL-BERT中，还将更新派生视觉功能的Fast R-CNN参数。为了避免在使用语言线索进行“掩码RoI分类”的预训练任务中出现视觉线索泄漏，对卷入的原始像素（而不是由卷积层生成的特征图）进行掩码操作。

3 VL-BERT

3.1 REVISIT BERT MODEL

令x = {x1，…，xN}为BERT中的输入元素（Devlin 等，2018），这些元素具有编码句子单词的嵌入特征。它们由多层双向变压器处理（Vaswani 等，2017），其中每个元素的嵌入特征通过自适应地将其他元素的特征聚合在一起的方式逐层转换权重。令 $x^l = {x^l_1，...，x^l_N}$ 为第l层的特征（将 $x^0$ 设置为输入 $x$ ）。这第（l +1）层的特征 $x^{l + 1}$ 由下式计算

等式1中的m是注意头上的索引，并且 $A^m_{i,j}∝ exp [（Q^{l + 1}_mx^l_i）^T（K^{l + 1}_mx^l_j）]$ 表示第m个标题中元素I和j之间的注意权重，通过以下方式进行标准化

$W^{l + 1}_m，Q^{l + 1}_m，K^{l + 1}_m和V^{l + 1}_m$ 是第m个注意力头的可学习权重，

等式3中的 $W^{l + 1}_1,W^{l + 1}_2$ 和 $b^{l + 1}_1b^{l + 1}_2$
分别是可学习的权重和偏差。请注意，等式中的运算1~4与输入序列的顺序无关，即置换输入的最终BERT表示与相同置换后原始输入的最终BERT表示相同。BERT中元素的位置通过序列位置嵌入被编码在它自己的嵌入特征中。由于这种解耦的表示，BERT模型足够灵活，可以针对各种NLP任务进行预训练和微调。在BERT预训练中，引入了掩蔽语言建模(MLM)任务。某个输入单词的嵌入特征将被随机屏蔽(捕获单词内容的标记嵌入通道被一个特殊的[MASK]标记替换)。BERT模型被训练成从所有其他未掩蔽元素的语言线索中预测被掩蔽的单词。正如王和周(2019)所解释的，基于的总体BERT训练相当于优化以下联合概率分布

其中φi（x|θ）是第i个输入元素的势函数，具有参数θ，而Z（θ）是分区函数。每个对数势项logφi（x）定义为
$logφ_i（x |θ）= x^T_i f_i（x_{ \ i }|θ）_i，（6）$
其中 $f_i（x_{ \ i }|θ）_i$ 表示与输入的第i个元素 $x_{ \ i }$ 相对应的BERT的最终输出特征，其中 $x_{ \ i }$ 定义为 $x_{ \ i }$ = { $x_1，...，x_{i - 1}，[MASK]，x_{i + 1}，...，x_N$ }。基于incurred MLM-based的loss函数为

其中x是来自训练集D的随机采样的句子，而i是用于掩盖单词的随机采样的位置。
第二个预训练任务，即“下一句预测”，着重于对两个句子之间的关系进行建模。从输入文档中抽取了两个句子，并且模型应该预测第二个句子是否是第一个句子的直接后继。在BERT中，采样的两个句子被连接成一个输入序列，在第一个和第二个句子之前分别插入了特殊元素[CLS]和[SEP]。将Sigmoid分类器附加到与[CLS]元素相对应的最终输出特征上以进行预测。令x为输入序列，t ∈{0，1}表示两个句子之间的关系。损失函数定义为

其中 $x^L_0$ 是[CLS]元素(在第L层)的最终输出特征， $g(x^L_0)$ 是分类器输出。

3.2 MODEL ARCHITECTURE模型架构

图1说明了VL-BERT的体系结构。基本上，它通过添加新元素以容纳视觉内容并在输入特征嵌入中嵌入新型视觉特征来修改原始BERT（Devlin等人，2018）模型。与BERT相似，骨干网是多层双向变压器编码器（Vaswani等人，2017），可以在所有输入元素之间进行依赖关系建模。VL-BERT与仅处理BERT的句子单词不同，VL-BERT既将视觉元素也将语言元素作为输入，这些元素分别具有图像中感兴趣区域（RoI）和来自输入句子的子单词上定义的特征。RoI可以是对象检测器产生的边界框，也可以是在某些任务中带注释的RoI。

值得注意的是，不同的视觉语言任务的输入格式也有所不同（例如，用于图像字幕的和用于VQA的（Antol等人，2015； Johnson等人）（2017年； Goyal等人，2017年； Hudson＆Manning，2019年）和VCR（Zellers等人，2019年； Gao等人，2019年））。但是，得益于Transformer注意的无序表示性质（例如，句子中单词的位置仅通过位置嵌入（输入顺序中的顺序除外）进行编码，)只要正确设计了输入元素和嵌入特征，就可以派生通用表示形式。涉及三种类型的输入元素，即虚拟，语言和特殊元素，用于消除不同的输入格式的歧义。输入序列始终以特殊的分类元素（[CLS]）开头，然后以语言元素继续，接着是视觉元素，最后以特殊的结束元素（[END]）结尾。在语言元素的不同句子之间以及在语言和视觉元素之间插入一个特殊的分隔元素（[SEP]）。对于每个输入元素，其嵌入特征是四种嵌入类型的总和，即令牌嵌入，视觉特征嵌入，分段嵌入和序列位置嵌入。其中，视觉特征嵌入是新引入的，用于捕获视觉线索，而其他三个嵌入遵循原始BERT论文中的设计。

Token Embedding

遵循BERT的实践，语言单词嵌入了单词片段嵌入（Wu等人，2016），词汇量为30,000。特殊Token分配给每个特殊元素。对于视觉元素，将为每个视觉元素分配一个特殊的[IMG]Token。

Visual Feature Embedding

视觉特征嵌入我们首先分别描述视觉外观特征和视觉几何形状嵌入，然后如何组合它们以形成视觉特征嵌入。

对于与RoI对应的视觉元素，通过应用Fast R-CNN（Girshick，2015）检测器（即Faster R-CNN中的检测分支（Ren等人，2015））提取视觉外观特征。，其中将每个RoI的输出层之前的特征向量用作视觉特征嵌入（纸上为2048-d）。对于非视觉元素，相应的视觉外观特征是在整个输入图像上提取的特征。它们是通过在覆盖整个输入图像的RoI上应用Faster R-CNN获得的。

视觉几何嵌入旨在告知VL-BERT图像中每个输入视觉元素的几何位置。每个RoI的特征是一个4-d向量，如 $（ x L T / W ， y L T / H ， x R B / W ， h R B / H ）$ ，其中 $（ x L T ， y L T ）和（ x R B ， y R B ）$ 分别表示左上角和右下角的坐标，W，H是输入图像的宽度和高度。遵循关系网络（Hu 等，2018）中的实践，通过计算不同波长的正弦和余弦函数，将4-d向量嵌入到高维表示中（纸上为2048-d）。

视觉特征嵌入附加到每个输入元素，这是完全连接层的输出，将视觉外观特征和视觉几何嵌入的串联作为输入。

Segment Embedding

段嵌入定义了三种类型的段A，B，C，以将来自不同来源的输入元素分开，分别是A和B分别代表来自第一和第二个输入句子的单词，C代表来自输入项的RoI图像。"例如，对于的输入格式，A表示问题，B表示答案，C表示图像。对于输入格式的A表示字幕，C表示Image。将学习的段嵌入添加到每个输入元素，以指示其属于哪个段。

Sequence Position Embedding

序列位置嵌入将可学习的序列位置嵌入添加到每个输入元素，以指示其在输入序列中的顺序，与BERT相同。由于输入视觉元素之间没有自然顺序，因此它们在输入序列中的任何排列都应获得相同的结果。因此，所有视觉元素的序列位置嵌入都是相同的。

3.3 PRE-TRAINING VL-BERT预训练VL-BERT

VL-BERT的通用功能表示使我们能够通过适当设计的预训练任务在大规模数据集上对其进行预训练。我们在视觉语言和纯文本数据集上对VL-BERT进行了预训练。在这里，我们利用概念字幕数据集（Sharma等，2018）作为视觉语言的语料库。它包含约330万张带标题注释的图像，这些图像是从Web数据中收集并通过自动管道处理的。概念字幕数据集的问题在于，字幕主要是简单的子句，对于许多下游任务而言，它们又太短又太简单。为了避免在这种简短的文本情况下过度拟合，我们还对带有长而复杂的句子的纯文本语料库进行了VL-BERT的预训练。我们利用BooksCorpus（Zhu等，2015）和English Wikipedia数据集，这些数据集也用于BERT的预培训中。

在SGD培训中，在每个小批量中，都是从Conceptual Captions和BooksCorpus＆English Wikipedia中以1：1的比例随机抽取样本。对于从“概念字幕”中提取的样本，VL-BERT的输入格式为，其中图像中的RoI由预先训练的Faster R-CNN对象检测器进行定位和分类。利用了两个预训练任务来招致损失，如下所述。

任务1：使用可视线索进行掩蔽语言建模此任务与BERT中使用的掩蔽语言建模（MLM）任务非常相似。关键区别在于VL-BERT中包含了视觉线索，用于捕获视觉和语言内容之间的依存关系。在预训练期间，将随机屏蔽输入句子中的每个单词（概率为15％）。对于被屏蔽的单词，其Token被替换为[MASK]的特殊Token。训练模型以基于未掩盖的单词和视觉特征预测被掩盖的单词。该任务驱动网络不仅对句子中的依存关系进行建模，而且使视觉和语言内容保持一致。例如，在图1“从[模板]喝水的小猫”中，没有输入图像，被屏蔽的单词可以是任何容器，例如“碗”，“勺子”和“瓶”。该表示应捕获图像中“瓶子”一词与相应RoI的对应关系，以做出正确的猜测。在预训练期间，由Softmax交叉熵损失驱动，与被屏蔽单词相对应的最终输出特征将被馈送到整个词汇表的分类器中。

任务2：使用语言线索进行掩盖的RoI分类这是任务1的双重任务。图像中的每个RoI都会被随机掩盖（概率为15％），预训练任务是根据其他线索预测被掩盖的RoI的类别标签。为了避免其他元素的视觉特征嵌入带来的任何视觉线索泄漏，在应用Fast R-CNN之前，将放置在掩码RoI中的像素设置为零。在预训练期间，对应于被掩盖的RoI的最终输出特征将被馈入具有Softmax交叉熵损失的分类器中，以进行对象类别分类。通过预先训练的Faster R-CNN预测的类别标签被设置为真实情况。一个示例如图1所示。图像中与猫对应的RoI被掩盖，并且无法从任何视觉线索预测相应的类别。但是，通过输入“从瓶中喝水的小猫”的标题，该模型可以利用语言线索来推断类别。

对于从BooksCorpus和English Wikipedia数据集中抽取的样本，VL-BERT的输入格式会退化为，其中不涉及任何视觉信息。图1中的“视觉特征嵌入”一词是所有单词共享的可学习的嵌入。培训损失来自BERT中的屏蔽语言建模（MLM）标准任务。

总之，视觉语言语料库的预训练可以改善视觉和语言内容之间的详细对齐。这种详细的对齐对于许多下游任务至关重要（例如，在Visual Grounding中（Kazemzadeh等人，2014年），该模型基于自然语言查询来定位图像中最相关的对象或区域。虽然仅文本语料库的预培训可以促进涉及理解长而复杂的句子的下游任务。

3.4 FINE-TUNING VL-BERT微调

VL-BERT被设计为用于各种视觉语言任务的通用特征表示。对各种下游任务微调VL-BERT相对简单。我们只需要为VL-BERT提供正确格式的输入和输出，并端到端微调所有网络参数。对于输入，和的典型格式涵盖了大多数视觉语言任务。只要引入适当的段嵌入来识别不同的输入源，VL-BERT还支持更多的句子和更多的图像。通常，在输出处，[CLS]元素的最终输出特征用于句子图像关系级别的预测。单词或RoI的最终输出功能是用于单词级别或RoI级别的预测。除了输入和输出格式外，还需要调整特定于任务的损失功能和培训策略。有关详细的设计选择和设置，请参见第4.2节。

4 EXPERIMENT实验

4.1 PRE-TRAINING预训练

如第3.3节所述，我们在概念字幕（Sharma等，2018）上对VL-BERT进行了预培训，作为视觉语言的语料库，在BooksCorpus（Zhu等。，2015）和英语Wikipedia上对纯文本的语料库进行了预培训。由于VL-BERT是通过向原始BERT模型添加可捕获视觉信息的新输入而开发的，因此我们将参数初始化为与（Devlin等人，2018）中所述的原始BERT相同。VL-BERTBASE和VL-BERTLARGE分别表示从原始BERTBASE和BERTLARGE模型开发的模型。VL-BERT中新添加的参数是根据平均值为0，标准偏差为0.02的高斯分布随机初始化的。视觉内容嵌入是由Faster R-CNN + ResNet-101产生的，它是根据在视觉基因组上预先训练的用于对象检测的参数初始化的（Krishna等人，2017）（请参阅BUTD（Anderson等人，2018））。
在对概念字幕进行预训练之前，将预训练的Faster R-CNN用于提取RoI。具体来说，每个图像最多选择100个RoI，检测分数高于0.5。至少从一个图像中选择10个RoI，而不管检测分数阈值如何。详细的参数设置在附录中。

4.2 FINE-TUNING ON DOWNSTREAM TASKS对下游任务进行微调

预训练的VL-BERT模型可以针对各种下游视觉语言任务进行微调，只需对输入格式，输出预测，损失函数和训练策略进行简单的修改即可。

4.2.1 VISUAL COMMONSENSE REASONING (VCR)视觉常识推理

视觉常识推理(VCR)侧重于对给定图像的高阶认知和常识理解。在Zellers等人(2019)的数据集中，给定一幅图像和一个分类的感兴趣区域列表，提出了一个认知层面的问题。模型应该选择问题的正确答案，并提供基本原理解释。每个问题有4个候选答案和4个候选理由。这个整体任务(Q→AR)被分解成两个子任务，研究者可以在其中训练特定的个体模型:问题回答(Q→A)和回答理由(QA → R)。

发行的VCR数据集包含265k对问题，答案和基本原理，以及超过100k独特的电影场景（100k图像）。它们分为训练集，验证集和测试集，分别由213k个问题和80k个图像，27k个问题和10k个图像以及25k个问题和10k个图像组成。

我们的VCR实验协议遵循R2C中的协议（Zellers等，2019）。该模型在分割训练集和测试集进行训练，并在验证集和测试集进行评估。在原始R2C中，设计了特定于任务的“基础”，“情境化”和“推理”模块。在这里，我们仅采用VL-BERT的通用表示形式来完成任务。图2（a）说明了输入格式，。对于Q→A的子任务，在“问题”部分和“答案”部分分别填写“ Q”和“ A”。对于QA→R的子任务，“ Q”和“ A”的串联被填充到“问题”部分，而“ R”被填充到“答案”部分。VL-BERT的输入RoI是数据集中的真实注释。[CLS]元素的最终输出特征被馈送到Softmax分类器，以预测给定的Answer是否是正确的选择。在微调过程中，我们采用了两种损失：答案正确性的分类和具有语言线索的RoI分类。详细的参数设置在附录中。

表1给出了实验结果。预训练VL-BERT在最终Q→AR任务中将性能提高了1.0％，从而验证了预训练的有效性。与R2C相比，我们不使用特定于任务的临时模块。相反，我们仅采用VL-BERT的通用表示形式，并端到端共同训练整个模型。尽管输入，输出和实验协议与R2C相同，但VL-BERT仍以较大的幅度优于R2C，这表明我们简单的交叉模式体系结构的强大功能。与其他并发作品（例如ViLBERT，VisualBERT和B2T2）相比，我们的VL-BERT达到了最先进的性能。

4.2.2 视觉问答（VQA）

在VQA任务中，给定自然图像，会在感知级别上提出问题，并且算法应生成/选择正确的答案。在这里，我们对广泛使用的VQA v2.0数据集（Goyal等人，2017）进行实验，该数据集是基于COCO（Lin等人，2014）图像构建的。VQA v2.0数据集分为训练（83k图像和444k问题），验证（41k图像和
214k个问题），并测试（81k张图像和448k个问题）集。遵循BUTD中的实验协议（Anderson等，2018），对于每个问题，算法应从包含3129个答案的共享集中选择相应的答案。"

图2（b）说明了VQA任务的输入格式，该格式为。由于可能的答案来自与问题无关的共享池，因此我们仅在[答案]部分中填充[MASK]元素。就像在BUTD中一样（Anderson等人，2018），VL-BERT中的输入RoIs是由在视觉基因组上预先训练的Faster R-CNN检测器生成的（Krishna等人，2017）。答案预测是基于[MASK]元素的输出特征从多分类器进行的。在微调期间，网络训练是由可能的答案上的多类交叉熵损失驱动的。详细的参数设置在附录中。

表2给出了我们的实验结果。预训练VL-BERT将性能提高了1.6％，这印证了预训练的重要性。VL-BERT与BUTD共享相同的输入（即问题，图像和RoI），输出和实验协议，BUTD是专门为该任务设计的流行模型。但是，VL-BERT的准确性仍超过BUTD 5％。除了LXMERT，我们的VL-BERT的性能要优于其他并行工作。这是因为LXMERT已针对大量的视觉问题回答数据进行了预训练（几乎汇总了基于COCO和Visual Genome的所有VQA数据集）。尽管我们的模型仅在字幕和纯文本数据集上进行了预训练，但与VQA任务之间仍然存在差距。

4.2.3 REFERRING EXPRESSION COMPREHENSION引用表达式理解

引用表达式理解是指图像中的对象的自然语言短语。参照表达理解任务是使用给定的参照表达来定位图像中的对象。我们采用RefCOCO +（Kazemzadeh等人，2014）数据集进行评估，该数据集包含COCO数据集中20k图像中50k参照对象的141k表达式（Lin等人，2014）。禁止在RefCOCO +中使用引用表达式，例如使用绝对位置词。左狗。因此，引用表达集中在纯粹基于外观的描述上。RefCOCO +分为四组，训练组（train），验证组（val）和两个测试组（testA和testB）。包含多个人物的图像位于testA集合中，而包含其他类别的多个对象的图像位于testB集合中。训练，验证和测试图像之间没有重叠。

**图2（c）**说明了用于引用表达式理解的输入格式，其中输入格式为。模型训练和评估可以在真实的RoIs上或在MAttNet的检测框上进行（Yu 等，2018）。结果分别报告在地面真实区域或检测区域的轨迹中。在训练期间，我们计算所有输入RoI的分类分数。对于每个RoI，都会应用二进制分类损失。在推论过程中，我们直接选择分类得分最高的RoI作为输入参照表达的参照对象。详细的参数设置在附录中。

表3给出了我们的实验结果。预训练的VL-BERT可显着提高性能。与MAttNet相比，VL-BERT在没有特定任务的体系结构设计的情况下要简单得多，但要好得多。VL-BERT与ViLBERT的并发工作可实现可比的性能。

4.3 ABLATION STUDY消融实验

表4列出了VL-BERT预培训中的关键设计选择。为了提高实验效率，仅使用VL-BERTBASE模型时，VL-BERT的微调周期是4.2节中的0.5倍。

总体而言，VL-BERT的预训练可提高所有三个下游任务的性能（通过比较设置“ w / o pre-training”和VL-BERTBASE）。改进幅度因不同任务而异。通过将设置（a）与“不带预训练”的设置进行比较，我们看到了任务1（使用可视线索进行掩盖语言建模）的好处。通过将任务＃2（带有语言线索的掩码RoI分类）进一步合并，在RefCOCO +上的准确性进一步提高，但陷入了VCR和VQA的困境。这可能是因为仅RefCOCO +将与[IMG]Token相对应的最终输出功能用于预测。因此，这些特征的预训练是有益的。设置（c）包含了句子-图像关系预测的任务，如ViLBERT（Lu等人，2019）和LXMERT（Tan＆Bansal，2019）一样。这将损害所有三个下游任务的准确性。我们猜测原因是因为句子-图像关系预测的任务将引入不匹配的图像和字幕对作为否定示例。这种无与伦比的样本会妨碍其他任务的训练。设置（d）在预训练期间添加纯文本语料库。与设置（b）相比，它提高了所有三个下游任务的性能，并且对VCR最为重要。这是因为与VQA和RefCOCO + 2中的VCR相比，VCR的任务涉及更复杂，更长的句子。通过进一步微调可生成视觉特征的Fast R-CNN的网络参数，我们获得了VL-BERTBASE的最终设置。整个网络的这种端到端培训对于所有下游任务都是有帮助的。

5 CONCLUSION结论

在本文中，我们开发了VL-BERT，这是一种用于视觉语言任务的新的可预训练的通用表示形式。VL-BERT并未使用临时的任务特定模块，而是采用了简单但功能强大的Transformer模型作为主干。它在大规模的概念字幕数据集以及纯文本语料库上进行了预训练。大量的经验分析表明，预训练程序可以更好地调整视觉语言线索，从而有利于下游任务。将来，我们希望寻求更好的预训练任务，这些任务可能会使更多的下游任务受益（例如，图片说明生成）。

A. APPENDIX附录

A.1 COMPARISON AMONG VL-BERT AND OTHER WORKS（VL-BERT与其他作品的比较）

中文版

表5比较了VL-BERT和其他并行工作，以进行预训练的通用视觉语言表示。

A.2 详细的实验设置

SGD在16个Tesla V100 GPU上进行了25万次迭代的预训练。在每个小批量中，抽取256个样本。其中128个样本来自Conceptual Captions的对，其余128个样本来自BooksCorpus和English Wikipedia的顺序标记（每个序列最多64个标记）。在SGD中，应用了Adam优化器（Kingma和Ba，2014年），以及基本学习速率为 $2×10^{-5}$ ，β1= 0.9，β2= 0.999，权重衰减为 $10^{-4}$ ，学习速率在前8,000个步骤中逐渐升温，并且学习速率呈线性下降。 VL-BERT中的所有参数和Fast R-CNN在预训练和微调阶段都接受了联合训练。文本语料库的视觉特征输入是所有单词共享的可学习的嵌入。在具有语言线索的掩码RoI分类任务中，所有掩码RoI中的像素均在图像中设置为零。添加覆盖整个图像的框作为RoI，并且不会被遮罩

对于VCR，在16个Tesla V100 GPU上进行微调20个纪元。在每个小批量中，采样了256个三元组的。在SGD中，进行了基本的小批量梯度下降，基本学习率为 $5×10^{-3}$ ，动量为0.9，重量衰减为 $10^{-4}$ .学习速率从最初的学习速率开始的前1,000个步骤中线性地预热
0，并在第14和18个时代衰减0.1。

对于VQA，在16个Tesla V100 GPU上进行微调20个纪元。在每个小批量中，采样了256个三元组的。在SGD中，应用了Adam优化器，其基本学习率为 $1×10^{-4}$ ，β1= 0.9，β2= 0.999，权重衰减为 $10^{-4}$ ，学习率升高，在最初的2,000步中上升，学习率呈线性下降。

对于RefCOCO +，在16个Tesla V100 GPU上进行微调20个纪元。在每个小批量中，采样256对。在SGD中，应用了Adam优化器，其基本学习率为 $1×10^{-4}$ ，β1= 0.9，β2= 0.999，权重衰减为 $10^{-4}$ ，学习率上升，在最初的500个步骤中，学习率呈线性下降。

图3：在预先训练的VL-BERTBASE中可视化注意力图。线强度表示以文本令牌为查询，图像RoI为键的注意力概率大小。对强度进行仿射缩放，以在每个图层的不同打印头上将最大值设置为1，将最小值设置为0。网络层和关注头的索引从0开始计数。

A.3 VL-BERT中可视化注意贴图

为了更好地了解VL-BERT从预训练中学到的知识，我们使用BertViz3可视化了预训练的VL-BERT的注意力图（无需对下游任务进行微调）（Vig，2019）。

图3显示了在COCO（Lin等人，2014; Chen等人，2015）val2017集上的一些可视化结果。我们可以看到各个关注头的关注模式不同。对于某些注意事项，文本令牌在关联图像RoI上的参与更多。在其他情况下，文本令牌统一参与所有RoI。它展示了VL-BERT聚合和对齐视觉语言内容的能力。

你可能感兴趣的:(VQA,计算机视觉,自然语言处理,深度学习,BERT,视觉理解)

DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践 Coderabo DeepSeek R1模型企业级应用政务架构
DeepSeek赋能城市智慧升级：基于RAG架构的市民服务智能知识库构建全解一、需求分析与技术选型1.1市民服务场景需求市民服务智能知识库需要解决政务咨询效率低下、专业术语难理解、多轮对话能力弱等核心问题。系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，
高级java每日一道面试题-2025年3月03日-微服务篇[Eureka篇]-Eureka自我保护机制是什么? java我跟你拼了 java每日一道面试题 java 微服务 eureka SpringCloud SpringBoot 自我保护机制出发条件
如果有遗漏,评论区告诉我进行补充面试官:Eureka自我保护机制是什么?我回答:在Java高级面试中，Eureka的自我保护机制（Self-PreservationMode）是一个非常重要且常被提及的话题。理解这一机制的工作原理及其应用场景对于构建高可用性的微服务架构至关重要。以下是结合提供的内容对Eureka自我保护机制的详细解析和综合概述：自我保护机制的概念Eureka的自我保护机制是一种容错
JVM技术八股文小麟School JVM jvm java 开发语言
JVM面试八股文，整理了出来。排版不太好！目录JVM入门部分为什么要学习JVM？你了解哪些JVM产品？JVM的构成有哪几部分？JVM类加载部分你知道哪些类加载器？为什么需要多个类加载器？什么是双亲委派类加载模型？双亲委派方式加载类有什么优势、劣势？描述一下类加载时候的基本步骤是怎样的？什么情况下会触发类的加载？类加载时静态代码块一定会执行吗？如何理解类的主动加载和被动加载？为什么要自己定义类加载器
一键秒连WiFi智能设备，uni-app全栈式物联开发指南。豆豆（前端开发+ui设计）前端
如何使用uni-app框架实现通过WiFi连接设备并进行命令交互的硬件开发。为了方便理解和实践，我们将提供相应的源代码示例，帮助开发者快速上手。1.硬件准备在开始之前，请确保你已经准备好以下硬件设备：支持WiFi连接的设备：如ESP8266、ESP32等。控制端设备：手机或电脑，安装有支持uni-app开发的开发环境（如HBuilderX）。网络环境：确保设备和控制端在同一个局域网内。2.uni-
注意力机制：让AI拥有“黄金七秒记忆“的魔法----（点积注意力） y江江江江机器学习大模型人工智能深度学习
注意力机制：让AI拥有"黄金七秒记忆"的魔法–（点积注意力）注意⼒机制对于初学者来说有点难理解，我们⼀点⼀点地讲。现在先暂时忘记编码器、解码器、隐藏层和序列到序列这些概念。想象我们有两个张量x1和x2，我们希望⽤注意⼒机制把它俩给衔接起来，让x1看⼀看，x2有哪些特别值得关注的地⽅。具体来说，要得到x1对x2的点积注意⼒，我们可以按照以下步骤进⾏操作。（1）创建两个形状分别为(batch_size
如何实现一个apply函数？风茫 Javascript javascript apply
在JavaScript中，apply是一个非常有用的方法，它允许你调用一个函数，并显式地指定该函数内部的this值。与call方法不同，apply方法接受参数的方式是一个数组或类数组对象。我们将手动实现一个类似apply的函数，以深入理解其工作原理。实现步骤1.定义myApply方法首先，我们需要在Function.prototype上定义一个新的方法myApply，这样所有的函数都可以调用它。F
深入理解指针5 很会做人数据结构
一、回调函数是什么？回调函数就是一个通过指针调用的函数。如果你把函数的指针（地址）作为参数传递给另一个函数，当这个指针被用来调用其所指向的函数时，被调用的函数就是回调函数。回调函数不是由该函数的实现方直接调用，而是在特定的事件或条件发生时由另外的一方调用的，用于对该事件或条件进行响应。下面用代码进行理解当a等于1的时候才会打印hehe。#includevoidfunction(){printf("
利用 HAI 平台进行 DeepSeek 模型训练的详细指南
摘要本文旨在为非专业用户提供在HAI平台上进行DeepSeek模型训练的详细步骤。从创建项目、上传数据集、配置训练参数到启动训练任务并监控训练过程，本文将逐步指导用户完成整个流程。此外，本文还包含可运行的示例代码模块和相关章节配图，以帮助用户更好地理解和操作。引言HAI（HyperAI）平台是一个强大的AI模型训练平台，但对于非专业用户来说，其复杂性可能会成为使用的障碍。本文将详细介绍如何在HAI
05.静态代理设计模式 java
05.静态代理设计模式目录介绍01.静态代理模式基础1.1静态代理由来1.2静态代理定义1.3静态代理场景1.4静态代理思考02.静态代理原理与实现2.1罗列一个场景2.2用一个例子理解代理2.3案例演变分析03.静态代理分析3.1静态代理结构图3.2静态代理时序图04.代理模式优势4.1如何降低耦合4.2保护真实对象使用权限05.静态代理不足5.1静态代理类优缺点5.2静态代理缺乏灵活5.3静态
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
深入理解 Java 反射与 PropertyDescriptor 的应用 HoroMin web基础 easybbs项目疑难记录 java 开发语言反射
在Java编程中，反射是一项强大的功能，它允许我们在运行时动态地访问和操作类的信息，包括字段、方法和构造函数等。在处理JavaBean时，反射的灵活性尤为重要。而PropertyDescriptor类正是用于简化JavaBean属性的动态访问和操作。本文将探讨反射的基本概念，并通过具体示例展现如何使用PropertyDescriptor。什么是反射？反射是Java的一个特性，允许程序在运行时检查类
自定义Retriever的实现方法 vaidfl windows linux microsoft python
技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。检索器的任务是根据用户查询检索相关的文档，这些文档通常被格式化为提示，供LLM使用，从而生成适当的响应，例如，根据知识库回答用户问题。核心原理解析要实现自定义的检索器，需要继承BaseRetriever类，并实现以下方法：_get_relevant_documents：获取与查询相关的文档，必需实现
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
redis中jedis和lettuce pool的区别，那个更好，使用范围更广青春不流名 redis bootstrap 前端
在Redis的Java客户端中，Jedis和Lettuce是两种最常用的客户端库，它们都支持连接池（JedisPool和LettuceConnectionPool），但在设计和特性上有显著差异。下面我将详细对比它们的特点，帮助你更好地选择适合的库。1.同步vs异步Jedis：是一个同步的Redis客户端库。每次操作都会阻塞当前线程，直到Redis响应完成。这使得它易于理解和使用，但如果Redis响
机器视觉工程师必须知道读码器如何选型视觉人机器视觉杂说数码相机 3d 人工智能 c#
一、明确核心需求应用场景工业场景（产线、仓储）：需高防护等级（IP65+）、抗震动/冲击、宽温工作（-20℃~50℃）。商业场景（零售、物流）：注重扫描速度、多码兼容性（一维/二维码混合）。移动场景（手持设备、AGV）：选择无线连接（蓝牙/Wi-Fi）、轻便设计。特殊环境（高粉尘、强光）：需配备强光源补偿、高帧率图像传感器。码的类型一维码：传统激光扫描器（成本低）或线性图像式扫描器（破损码容错）。
施磊老师c++笔记(三) Zhuai-行淮施磊老师cpp c++笔记
c++模板编程-学习cpp类库的编程基础文章目录c++模板编程-学习cpp类库的编程基础1.函数模板2.理解模板函数3.实现cpp的vector向量容器4.理解容器空间配置器allocator的重要性1.函数模板内容:模板的实例化,模板函数,模板类型参数,模板非类型参数,模板的实参推演,模板的特例化,模板函数模板的特例化非模板函数的重载关系区分函数模板和模板函数的概念!!!模板的意义?对类型也可以
链表操作：分区与回文判断共享家9527 数据结构数据结构 c语言开发语言 leetcode 链表
目录链表分区（Partition）功能概述代码实现要点与难点注意事项链表回文判断（PalindromeList）功能概述代码实现要点与难点注意事项总结在链表相关的算法问题中，理解链表的基本结构和操作至关重要。今天我们深入探讨两个经典的链表问题：链表分区和链表回文判断，通过详细分析代码实现，理解其中的要点、难点和注意事项。作者主页：共享家9527-CSDN博客链表分区（Partition）功能概述链
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
书籍-《自然语言理解解析》
书籍：UnderstandingNaturalLanguageUnderstanding作者：ErikCambria出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《自然语言理解解析》01书籍介绍大约半个世纪前，AI先驱们如MarvinMinsky开始了一项雄心勃勃的项目：模拟人类大脑如何编码和解码意义。虽然现在我们借助神经科学对大脑有了更多的了解，但距离揭开大脑的秘密，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
如何创建自定义回调处理器 bBADAS python 开发语言
在现代AI开发中，回调是一个强大的工具，它允许我们在特定事件触发时执行自定义逻辑。本文将深入探讨如何为LangChain创建自定义的回调处理器，从而实现更加灵活的模型交互。技术背景介绍在使用AI模型时，尤其是在处理自然语言生成任务时，可能需要对生成的每个标记（token）进行处理。LangChain提供了一些内置的回调处理器，但为了满足特定的需求，创建自定义回调处理器是非常有必要的。核心原理解析创
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep