程序媛小哨

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

前言：有些文献虽然不是综述，但其中多多少少都有介绍数据集的情况，对目前公开的VQA数据集有了详细的介绍，可以起到类似综述的效果，让读者能更好的对现有数据集有更加直观的认识，其功用类似综述，该文章中对数据集的分类比较客观，主要可以分为两类，一类是自然图像，用于图像内容理解研究；一类是合成图像，用于图像中的关系推理研究。

文章下载地址

文章目录

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集
- Abtract
- 1. Introduction
- 2. Related Work
- - 2.1.VQA数据集
  - - VQA v1/VQA v2。
    - TDIUC [24]
    - CVQA [5]
    - VQACPv2 [4]
    - CLEVR [20]
    - CLEVR-CoGenT
  - 2.2. VQA Algorithms
- 3. The RAMEN VQA Model
- - 3.1. Formal Model Definition
  - 3.2. Implementation Details
  - - Input Representation
    - Model Configuration
    - Training Details
- 4. VQA Models Evaluated
- - - Bottom-Up-Attention and Top-Down (UpDn)[6]
    - Question-Conditioned Graph(QCG) [41]
    - Bilinear Attention Network (BAN) [28]
    - Relation Network(RN)[48]
    - Memory, Attention and Composition (MAC)
  - 4.1. Standardizing Models
- 5. Experiments and Results
- - 5.1. Main Results
  - - Generalization Across VQA Datasets.
    - Generalization Across Question Types.
    - Generalization to Novel Concept Compositions.
    - Counting and Numerical Comparisons.
    - Other CLEVR Tasks
  - 5.2. Ablation Studies
  - 5.3. Newer Models
- 6. Discussion: One Model to Rule them All?
- 7. Conclusion

Abtract

视觉问答(VQA)的研究分为两个阵营:

第一个阵营侧重于需要自然图像理解的VQA数据集
第二个阵营侧重于测试推理的合成数据集
一个好的VQA算法应该两者都有，但是只有少数VQA算法是以这种方式测试的。我们在覆盖两个领域的八个VQA数据集上比较了五种最先进的VQA算法。为了使比较公平，所有模型都尽可能标准化，例如，它们使用相同的视觉特征、回答词汇等。我们发现，这些方法不能在这两个领域进行推广。为了解决这个问题，我们提出了一种新的VQA算法，这种算法在这两个领域都可以媲美或超过最先进的水平。

1. Introduction

视觉问答(VQA)需要一个理解和推理视觉语言概念的模型来回答关于图像的开放性问题。
正确回答这些问题需要大量的能力：
包括对象定位、属性检测、活动分类、场景理解、推理、计数等等。
第一个VQA数据集包含了真实世界的图像和众包问答[36，9]。人们认为这将是一个极其困难的问题，并将其作为视觉图灵测试的一种形式提出来，以测试计算机视觉的性能。然而，很明显，许多高性能算法在没有真正理解视觉内容的情况下，探索了偏见和表面相关性。
例如
回答VQAv1 [9]中所有是/否问题的“是”，这些问题的准确率为71%[25]。
后来自然图像VQA数据集努力解决这个问题。通过将每个问题与互补的图像和不同的答案联系起来：
VQAv2 [16]减少了一些形式的语言偏见。
TDIUC [24]分析了对多种问题和更罕见答案的概括。
CVQA [5]测试概念组成。
VQACPv2 [4]测试训练和测试分布不同时的性能。

虽然后来的自然图像数据集减少了偏差，但这些数据集中的绝大多数问题并没有严格测试推理技能。创建了几个合成数据集[20，7]作为补救措施。

它们包含简单的视觉场景，带有测试多步推理、计数和逻辑推理的挑战性问题。为了正确评估算法的健壮性，这些数据集的创建者认为算法应该在两个领域都进行测试[20，7]。

然而，几乎所有最近的论文都只报道了这两个领域中的一个。
CLEVR的最佳算法没有在自然图像VQA数据集上测试[19，21，37，44，53]，反之亦然[10，6，28，39，13]。
这里，我们在八个数据集上测试了五个最先进的VQA系统。我们发现，大多数方法在这两个领域都表现不佳(图1)，有些方法的性能大幅下降。我们提出了一个新的模型，在所有评估的数据集上与最先进的方法竞争。

我们的主要贡献有:

我们在八个VQA数据集上对五种最新的算法进行了严格的比较，我们发现许多算法不能跨领域推广。
VQA算法通常使用不同的视觉特征和答案词汇，这使得评估性能增益变得困难。我们努力标准化跨模型使用的组件，例如，我们比较的所有算法都使用相同的视觉特征，这需要提升合成场景的方法以使用区域建议。
我们发现大多数VQA算法不能理解真实的文字图像和执行合成推理。所有这些方法在泛化测试中都表现不佳，表明这些方法仍在利用数据集偏差。
我们描述了一种新的VQA算法，它在所有数据集上都可以与最先进的方法相媲美，并且整体性能最好。

2. Related Work

2.1.VQA数据集

在过去的四年里，许多VQA数据集被提出。在这里，我们简要回顾一下实验中使用的数据集。表1给出了这些数据集的统计数据。评论见[25]和[51]。

VQA v1/VQA v2。

VQAv1 [9]是从人类注释者那里收集的最早的开放式VQA数据集之一。VQAv1有多种语言偏见，包括一些与特定答案高度相关的问题。VQAv2 [16]试图通过收集每个问题的互补图像来减轻这种语言偏见，从而导致不同的答案，但其他类型的语言偏见仍然存在，例如，与检测问题相比，推理问题很少。这两个数据集已被广泛使用，VQAv2是自然图像VQA的事实上的基准。

TDIUC [24]

试图通过将问题分为12种不同的类型来解决注释者提出的问题类型中的偏见，从而实现细致入微的任务驱动评估。它有度量标准来评估跨问题类型的概括。

CVQA [5]

是VQAv1的一个再分支，用于测试对训练中没有看到的概念作文的概括，例如，如果训练集询问“绿灯”和“红灯”，测试集将询问“红灯”和“绿灯”。CVQA测试以看不见的方式组合以前看到的概念的能力

VQACPv2 [4]

重新组织VQAv2，使得每个问题类型的答案在训练和测试集中有不同的分布，例如，“蓝色”和“白色”可能是“什么颜色…”的最常见答案训练集中的问题，但这些答案在测试集中很少出现。由于它在训练集和测试集中有不同的偏差，在VQACPv2上做得好表明该系统通过克服训练集中的偏差来推广。

CLEVR [20]

是一个综合生成的数据集，由具有简单几何形状的视觉场景组成，旨在测试“合成语言和基本视觉推理” CLEVR的问题往往需要复杂推理的长链。为了实现对推理能力的精细评估，CLEVR的问题被分为五个任务:“查询属性”、“比较属性”、“存在”、“计数”和“整数比较”。因为所有的问题都是以编程方式生成的，所以**CLEVR-Humans[21]**数据集的创建是为了给CLEVR场景提供人工生成的问题，以测试对自由形式问题的泛化。

CLEVR-CoGenT

==测试处理看不见的概念组合和记住旧概念组合的能力。==它有两个拆分:CoGenT-A和CoGenT-B，形状+颜色组合互斥。如果在CoGenT-A上训练的模型在没有微调的情况下在CoGenT-B上表现良好，10473则表明对新作品的推广。如果在CoGenT-B上微调的模型在CoGenT-A上仍然表现良好，这表明有能力记住旧的概念组合。这些数据集中的问题比CVQA中的大多数问题都要复杂。

仅使用VQAv1和VQAv2就很难衡量一个算法是否能够执行健壮的组合推理，或者它是否使用表面相关性来预测答案。在某种程度上，这是由于寻找众包问题和答案的局限性，人类倾向于针对特定图像更频繁地问某些类型的问题，例如，如果场景中有两个相同类型的东西，并且几乎从来没有零答案，则最经常问计数问题。虽然CVQA和VQACPv2试图克服这些问题，但合成数据集[20，7，22]在更大程度上最小化了这种偏差，并作为衡量特定推理技能的重要试金石，但合成视觉场景缺乏复杂性和可变性。

自然数据集和合成数据集的目的是互补的，合成数据集的创建者认为两者都应该使用，例如，形状的创建者，一个早期的VQA数据集，类似于CLEVR，写道“虽然在这个数据集上的成功绝不是稳健的视觉质量保证的充分条件，但我们认为这是一个必要的条件”[7]。虽然这个建议在很大程度上被社区忽略了，但我们坚信有必要证明VQA算法能够在自然和合成领域处理VQA问题，只需稍加修改。否则，算法的泛化能力将无法得到充分评估。

2.2. VQA Algorithms

目前已经提出了许多用于自然图像VQA的算法，包括贝叶斯方法[23，36]，使用空间注意力的方法[52，33，40，6]，合成方法[7，8，18]，双线性汇集方案[29，14]，以及其他[50，41，26]。
空间注意机制[6，33，38，14，10]是自然语言VQA最广泛使用的方法之一。注意力计算视觉和文本特征的相关性分数，允许模型只处理相关信息。其中，我们评估了UpnN[6]，QCG [41]和BAN [28]。我们将在第4节中更详细地描述这些算法。

类似地，已经为合成VQA数据集创建了许多方法。通常，与自然图像算法相比，这些算法更强调学习合成性、关系推理和可解释性。常见的方法包括模块化网络，其中一些使用基本事实程序[21，37]，另一些隐式学习合成规则[18，19]。其他方法包括使用关系网络(RNs) [48]、早期融合[34]和条件特征变换[44]。在我们的实验中，我们评估了RN [48]和MAC [19]，这将在第4节中详细解释。

虽然存在罕见的例外[18]，但这些算法中的大多数仅在自然或合成VQA数据集上进行评估，而不是两者都进行评估。此外，一些声称具有特定能力的算法没有在为测试这些能力而设计的数据集上进行测试，例如，QCG [41]声称具有更好的合成性能，但没有在CVQA [5]上进行评估。在这里，我们评估了自然和合成VQA数据集上的多种最先进的算法，并提出了一种适用于两者的新算法。

3. The RAMEN VQA Model

我们提出了VQA多模嵌入网络的递归聚合模型。它被设计成一个概念上简单的架构，可以适应自然场景的复杂性，同时也能够回答需要复杂的组合推理链的问题，这些问题发生在像CLEVR这样的合成数据集上。如图2所示，RAMEN分三个阶段处理视觉和问题特征:

视觉和语言特征的早期融合。视觉特征和语言特征之间的早期融合和/或使用语言对视觉特征的早期调节已被证明有助于成分推理[34，44，12]。受这些方法的启发，我们建议通过将空间定位的视觉特征与问题特征连接起来来进行早期融合。
通过共享投影学习双峰嵌入。连接的视觉+问题特征通过共享网络传递，产生空间局部化的双峰嵌入。这个阶段帮助网络学习视觉和文本特征之间的相互关系。
学习的双峰嵌入的循环聚合。我们使用双向门控递归单元(双向GRU)来聚集场景中的双峰嵌入，以捕捉双峰嵌入之间的交互。最后的前向和后向状态本质上需要保留回答问题所需的所有信息。

虽然最近最先进的自然图像VQA模型使用注意[6]或双线性池机制[28]，RAMEN能够在没有这些机制的情况下进行比较。同样，与CLEVR的现有模型相反，RAMEN不使用预定义的模块[37]或推理单元[19]，但我们的实验证明它能够进行组合推理。

3.1. Formal Model Definition

RAMEN的输入是一个嵌入q ∈ $R^d$ 和一组N个区域建议 $r_i$ ∈ $R^m$ 的问题，其中每个ri都有视觉外观特征和空间位置。RAMEN首先将每个建议与问题向量连接起来，然后进行批量规范化，即，

其中⊕代表串联。然后，所有N个向量通过一个函数 $F (c_i)$ ，该函数混合特征以产生双峰嵌入 $bi= F (c_i)$ ，其中 $F (c_i)$ 是使用具有剩余连接的多层感知器(MLP)建模的。接下来，我们通过连接每个双峰嵌入和原始问题嵌入来执行后期融合，并使用

其中函数A使用bi-GRU模型，函数A的输出由前向和后向GRUs的最终状态串联而成。我们称a为RAMEN嵌入，然后发送到预测答案的分类层。虽然RAMEN比最近的VQA模型简单，但我们表明它在数据集之间具有竞争力，不像更复杂的模型。

3.2. Implementation Details

Input Representation

我们将问题词表示为用预先训练的GloV e向量[43]初始化的300维嵌入，并用GRU处理它们以获得1024维问题嵌入，即q ∈ R1024。每个区域建议ri∈r 2560由与空间信息连接的视觉特征组成。视觉特征是基于更快的R-CNN [47]的自下而上架构[6]产生的2048维CNN特征。空间信息是通过将每个建议分成16×16的(x，y)坐标网格来编码的，然后将其展平以形成512维的向量。

Model Configuration

投影仪F被建模为一个4层MLP，有1024个单元，具有嗖嗖的非线性激活功能[45]。它在第2层、第3层和第4层有残余连接。聚合器A是一个单层双GRU，具有1024维的隐藏状态，因此前向和后向状态的连接产生了2048维的嵌入。这种嵌入是通过一个2048维的完全连通的swish层来投影的，然后是一个输出分类层，在数据集中每个可能的答案有一个单元。

Training Details

RAMEN是用Adamax训练的[30]。在[28]之后，我们对前4个时期使用渐进学习率预热(2.5∫时期∫104)，对时期5至10使用5∫104，然后每2个时期以0.25的速率衰减，使用早期停止。小批量是64。

4. VQA Models Evaluated

在本节中，我们将简要描述在我们的实验中评估的模型。

Bottom-Up-Attention and Top-Down (UpDn)[6]

结合自下而上和自上而下的注意力机制来执行VQA，自下而上的机制从更快的R-CNN [47]生成对象建议，自上而下的机制预测这些建议的注意力分布。自上而下的注意力是任务驱动的，使用问题来预测图像区域上的注意力权重。该模型在2017年VQA研讨会挑战赛中获得第一名。为了公平比较，我们将它自下而上的区域特性用于所有其他VQA车型。

Question-Conditioned Graph(QCG) [41]

将图像表示为图形，其中来自自下而上区域建议的对象级特征[6]作为图形节点和边，对问题制约的区域之间的交互进行编码。对于每个节点，质量控制图选择一个具有最强边连接的节点邻域，产生一个问题特定的图结构。该结构由面片算子处理，以执行空间图形卷积[31]。选择这个模型背后的主要动机是检验所提出的组合推理的图形表示和操作的有效性。

Bilinear Attention Network (BAN) [28]

通过考虑所有区域建议(视觉通道)与所有问题词(文本通道)之间的交互，融合了视觉和文本模式。与双重注意机制[38]不同，BAN处理所有通道之间的相互作用。它可以被认为是联合表示每个通道对的低秩双线性汇集方法的推广[33，29]。BAN通过连接的剩余连接支持多次注意。它在VQAv2的测试标准分割上达到70.35%，这是最好的公布结果之一。

Relation Network(RN)[48]

接收每对区域提议，嵌入它们，并对所有N2pair嵌入进行求和，以产生编码对象之间关系的向量。这种成对的特征聚合机制支持组合推理，正如它在CLEVR数据集上的表现所证明的那样。然而，RN的计算复杂度随着对象数量的增加而二次增加，使得当对象数量较大时运行成本较高。最近有人试图通过减少输入到RN的输入对象的数量来减少成对比较的数量[35，2]。

Memory, Attention and Composition (MAC)

使用自动学习执行基于注意力的推理的计算细胞。与需要预定义模块来执行预定义推理功能的模块化网络[7，18，8]不同，MAC直接从数据中学习推理机制。每个媒体访问控制单元维护一个表示推理操作的控制状态和一个作为推理操作结果的存储状态。它具有类似计算机的结构，带有读、写和控制单元。在CLEVR数据集上对媒体访问控制进行了评估，并报告了在具有挑战性的计数和数值比较任务上的显著改进。

4.1. Standardizing Models

VQA模型通常使用不同于以往模型的视觉特征来实现最先进的性能，这使得很难判断良好的性能是来自模型改进还是视觉特征表示的改进。为了使跨模型的比较更有意义，我们对所有数据集的所有算法使用相同的视觉特征。具体来说，我们使用2048维的“自下而上”CNN特征，该特征由训练有素的更快的R-CNN模型[15]的区域建议生成器产生，该模型具有ResNet-101后端。在[49]之后，我们将自然图像的建议数量固定在36个，尽管当使用额外的建议时，性能可能会提高，例如，其他人报告说，将100个建议与BAN一起使用可以略微提高其性能[28]。这个更快的R-CNN模型是为视觉基因组上的对象定位、属性识别和包围盒回归而训练的[32]。虽然美国有线电视新闻网的特征地图在捷克斯洛伐克共和国很常见，但捷克斯洛伐克共和国最先进的方法也在向地区提案转移[53]。对于使用CLEVR图像的数据集，我们训练了一个单独的快速R-CNN进行多类分类和包围盒回归，因为在视觉基因组上训练的快速R-CNN没有很好地转移到CLEVR。为此，我们使用场景注释中指定的3D坐标/旋转来估计边界框。我们将CLEVR区域的数量固定在15个。我们还用一个512维的向量来扩充这些特征，该向量表示关于盒子的位置信息，如第3.2节所述TDIUC,CLEVR, CLEVR-Humans and CLEVR-CoGenT.。根据[6]，我们将候选答案集限制为在训练+验证集中出现至少9次的答案，导致VQAv1的词汇为2185个答案，VQAv2的词汇为3129个答案。根据[4，5]，我们将答案词汇表限制为CVQA和VQACPv2的1000个最常见的训练集答案。对于VQAv2，我们在训练和验证分割上训练模型，并在testdev分割上报告结果。对于剩余的数据集，我们对模型的训练分割进行训练，并报告验证分割的性能。

Maintaining Compatibility. UpDn、QCG和BAN都是根据地区提案运作的。对于媒体访问控制和注册网络，我们需要修改输入层来接受自底向上的特征，而不是卷积特征映射。这样做是为了在所有数据集上使用相同的特征，也是为了升级RN和MAC，使它们在通常使用这些特征的自然图像数据集上具有竞争力[6]。对于媒体访问控制，我们用自下而上特征的线性投影代替初始2D卷积运算。这些是通过MAC的读取单元馈送的，该单元保持不变。对于RN，我们移除初始卷积网络，并以问题嵌入作为输入直接连接自下而上的特征。在这些变化之后，两种模型的性能与使用学习的卷积特征映射作为输入的版本相当，在CLEVR验证集上，MAC达到98%，RN达到95.97%。

5. Experiments and Results

5.1. Main Results

在这一节中，我们展示了当前VQA算法无法在自然和合成数据集上进行推广，并展示了RAMEN在所有数据集上与性能最好的模型竞争。我们还对所有六种算法的抗偏性、组成性和泛化能力进行了比较分析。表2提供了我们在所有八个数据集上所有六种算法的主要结果。我们对所有数据集使用标准度量，即，我们对CLEVR系列数据集使用简单精度，对TDIUC使用每类型平均值，对VQAv1、VQAv2、CVQA和VQACPv2使用“10-choose-3”。与其他模型相比，RAMEN的一些输出示例如图3所示。

Generalization Across VQA Datasets.

RAMEN在TDIUC和CVQA上取得了最高的结果，并且是VQAv1、VQAv2、VQACPv2和所有CLEVR数据集的第二好模型。平均而言，它在所有数据集上得分最高，表明它可以在测试推理的自然数据集和合成数据集上进行归纳。BAN获得了第二高的平均分数。BAN在自然图像数据集上运行良好，在VQAv1、VQAv2和VQACPv2上优于其他模型。然而，BAN表现出有限的组合推理能力。尽管在概念上比BAN简单得多，但RAMEN在CLEVR上的表现优于BAN 6%(绝对)，在CLEVR-CoGenT-B上的表现优于BAN 10%。在所有的组合推理测试中，RAMEN都在MAC的1.4%以内。UpDn和QCG在CLEVR上表现不佳，QCG的得分低于50%。

Generalization Across Question Types.

我们使用TDIUC来研究跨问题类型的概括。TDIUC有多个准确性指标，每种类型的均值(MPT)和归一化每种类型的均值(MPT)补偿偏差。如表3所示，所有方法的简单准确率都达到82%以上；然而，MPT和高考分数都低了13-20%。较低的MPT分数表明，所有算法都在努力推广到多个任务。拉面的MPT评分最高，为72.52%，其次是BAN，为71.10%。对于所有的算法，“物体存在”、“物体识别”和“场景识别”都是最简单的任务，所有的方法都达到了84%以上的准确率；然而，这些任务都有相对大量的训练数据(每个60K - 657K质量保证对)。所有这些方法在“运动识别”(31K个质量保证对)上表现良好，达到93%以上，但在概念相似的“活动识别”(8.5K个质量保证对)任务上表现不佳，达到62%以下的准确率。这表明不能用更少的例子概括问题类型。为了强调这一点，TDIUC提供了归一化MPT (N-MPT)度量，通过考虑回答频率来衡量对罕见答案的概括。标准化和非标准化分数之间的差异在所有模型中都很大。拉面的差距最小，表明对回答分布偏差有更好的抵抗力，而BAN的差距最大。

Generalization to Novel Concept Compositions.

我们使用CVQA和CLEVR-CoGenT-B来评估概念的组成性。如表2所示，CVQA的分数低于VQAv1，这表明所有的算法在以新的方式组合概念时都会遇到困难。媒体访问控制的性能下降最大，这表明它的推理单元不能有效地组合现实世界的视觉语言概念。

为了评估在合成数据集上归纳新概念组合的能力，我们在CLEVR-CoGenT-A的训练分割上训练模型，并在没有微调的情况下在验证集上进行评估。根据[44]，我们从验证集“B”中获得一个测试分割，并报告没有对“B”进行微调的性能。所有算法都显示性能大幅下降。与CVQA结果不同，MAC的性能下降幅度较小。同样，RAMEN的性能下降相对较小。VQACPv2的更改优先级性能。在不断变化的优先级下，所有算法的性能都会大幅下降。这表明，要让VQA算法克服语言和视觉上的先验知识，让它们能够更有效地学习使用可推广的概念，还有很多工作要做。

Counting and Numerical Comparisons.

对于CLEVR，计数和数字比较(“等整数”、“大于”和“小于”)是跨算法的最具挑战性的任务，如表4所示。MAC在这些任务上表现最好，其次是RAMEN。除了MAC和QCG之外，其他算法在“小于”和“大于”问题类型之间存在很大的(> 4.8%)差异，这需要类似的推理。这种差异在注册护士中最为明显(9.13%)，表明在语言理解方面存在困难。BAN使用计数模块[54]；然而，它在CLEVR计数任务上的表现仍然比MAC低9%。所有的算法在自然图像中也很难计数。尽管TDIUC有超过164K的计数问题，但所有方法在这些问题上的得分都低于62%。

Other CLEVR Tasks

其他CLEVR任务。如表4所示，除了数字比较，RAMEN在所有任务上的性能都在MAC的0.03-1.5%以内。UpDn和QCG是所有查询类型中性能最差的模型。除了QCG，所有的模型都很容易回答关于物体属性和存在的问题。除了UpDn和QCG之外的模型在需要比较这些属性的属性比较问题上表现良好。令人惊讶的是，BAN发现需要更多推理的属性比较比更简单的属性查询任务更容易。我们展示了在没有微调的情况下CLEVR-人类的结果，以检查如果他们只在CLEVR的词汇上训练，算法和自由形式语言的效果如何。BAN表现出最好的概括，其次是RAMEN和RN。

5.2. Ablation Studies

表5给出了多项消融研究的结果，以测试RAMEN组件的贡献。我们发现早期融合对RAMEN的性能至关重要，消除它会导致CLEVR的绝对精度下降近20%，VQAv2的绝对精度下降4%。切除晚期融合对CLEVR和VQAv2影响不大。与使用平均池相比，我们还探索了使用双GRU进行聚合的效用，并发现这导致了两个数据集的性能下降。我们认为，重复聚合有助于捕捉双峰嵌入之间的相互作用，这对推理任务至关重要，并且它还通过执行一种非最大抑制的形式来帮助移除重复的提议。

5.3. Newer Models

自从我们开始这个项目以来，已经发布了额外的VQA算法，一些算法已经取得了比我们在一些数据集上评估的模型更高的分数。透明设计(TBD)网络[37]通过使用地面真实函数程序来训练网络，在CLEVR上获得99.10%的准确性，这对于自然VQA数据集是不可用的。神经-符号VQA (NS-VQA) [53]在CLEVR上的得分为99.80%，但使用问题解析器来分配功能模块以及高度专业化的基于分段的CNN功能。他们没有进行消融研究来确定使用这些视觉特征的影响。我们比较的模型都无法访问这些额外的资源。通过使用来自其他VQA数据集的额外数据和集合，可以显著改善VQAv2的结果，例如，2018年挑战赛的获胜者使用来自可视化对话[11]的对话作为额外的问题答案对和30个模型的集合。这些扩展可以应用于我们评估的任何模型，以提高性能。VQACPv2结果也可以使用专门的体系结构来改进，例如GVQA [4]和带有对立正则化的UPdn[46]。然而，它们在VQACPv2上的性能仍然很差，具有对抗性正则化的UpDn获得了42.04%的精度，显示出仅比非正则化模型提高了2.98%。

6. Discussion: One Model to Rule them All?

我们进行了第一次系统研究，以检查在合成数据集上工作的VQA系统是否推广到真实世界的数据集，反之亦然。这是我们项目的最初范围，但是当我们发现没有一种方法在数据集上运行良好时，我们感到震惊。这促使我们创造了一种新的算法。尽管比许多算法简单，RAMEN可以与其他方法竞争甚至超越。我们认为，一些最先进的架构可能被过度设计，以利用他们最初测试的领域中的偏差，导致在其他数据集上测试时性能下降。这让我们不禁要问，在一个特定的数据集上使用高度专业化的机制来获得最先进的结果，是否会导致该领域的重大进展，因为我们在概念上更简单的算法在没有这种机制的情况下，在自然和合成数据集上都具有竞争力。我们主张开发一种单一的VQA模式，能够很好地应对各种挑战。在持续学习范例中训练这个模型将会评估向前和向后的转移[17，27，42]。另一个有趣的途径是将VQA与相关任务相结合，如视觉查询检测[1]。无论如何，现有的算法，包括我们的算法，在展示视觉语言概念理解和推理方面还有很长的路要走。CVQA和VQACPv2的性能大幅下降证明，当前的算法在学习组合概念方面表现不佳，并且受到这些数据集偏差的影响，这表明依赖于表面相关性。我们观察到，专门为合成封闭世界场景开发的方法通常无法处理不受约束的自然图像和问题。尽管VQAv2和CLEVR的性能在这些基准上接近人类水平，但我们的结果显示VQA问题远未解决。我们认为，未来的工作应该集中在创建一个跨领域良好工作的模型上。在通用训练集上训练数据集，然后在多个测试集上评估它，每个测试集需要不同的技能集，这将是很有趣的。这样做将有助于寻找一个可以统治所有人的VQA模式。

7. Conclusion

我们的工作致力于为VQA算法设定一个新的标准:在自然场景和具有挑战性的合成基准上都有良好的性能。我们希望我们的工作将导致VQA未来的进步。

Java中的自然语言处理（NLP）工具：Stanford NLP、Apache OpenNLP、DL4J 花千树-010 RAG java 自然语言处理 apache nlp AIGC
随着人工智能技术的快速发展，自然语言处理（NLP）已经成为各行各业中不可或缺的技术。对于Java开发者来说，选择合适的NLP工具可以极大地提升开发效率。今天，我们将探讨几款常用的JavaNLP工具：StanfordNLP、ApacheOpenNLP和DL4J，并通过代码实例展示如何使用它们。1.StanfordNLP：功能全面的NLP工具StanfordNLP是由斯坦福大学开发的自然语言处理工具包
【深度学习】预训练和微调概述 CS_木成河深度学习深度学习人工智能语言模型预训练微调
预训练和微调概述1.预训练和微调的介绍1.1预训练（Pretraining）1.2微调（Fine-Tuning）2.预训练和微调的区别预训练和微调是现代深度学习模型训练中的两个关键步骤，它们通常是一个预训练-微调(Pretrain-Finetune)流程的不同阶段。两者相辅相成，共同帮助模型从通用的知识到特定任务的适应。1.预训练和微调的介绍1.1预训练（Pretraining）定义：预训练是指在
【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】生活De°咸鱼 AIGC Java 深度学习大数据 AIGC
深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR-103.构建深度学习模型4.训练模型5.使用预训练模型（迁移学习）6.Transformer架构6.1Transformer的核心原理6.2Transformer的基本组件6.3Trans
深度学习模型的全面解析：技术进展、应用场景与未来趋势阿尔法星球深度学习与神经网络实战机器学习
1.深度学习模型概述1.1深度学习模型的定义与分类深度学习模型是基于人工神经网络的算法，它们通过模仿人脑的处理机制来学习数据中的复杂模式和特征。这些模型可以根据其结构和应用场景被分为不同的类别，包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、生成对抗网络（GAN）和Transformer模型等。1.2深度学习模型的关键特点深度学习模型的关键特点在于其深度，即
清华独家教程 | 零基础玩转DeepSeek：AI时代的实战赋能手册阿黎逸阳学习python 人工智能人工智能
在人工智能技术加速渗透各行各业的今天，清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队推出《DeepSeek从入门到精通》，为公众提供了一份权威、实用的AI工具使用指南。这份104页的文档不仅是技术手册，更是人工智能时代的效率革命指南，帮助用户从基础操作到高阶应用全面掌握DeepSeek这一通用人工智能（AGI）工具。当人人都会用AI时，你如何用得更好更出彩？一起来看看吧。
深度学习模型：原理、架构与应用一ge科研小菜菜工具深度学习
深度学习（DeepLearning）是机器学习中的一个分支，基于人工神经网络的发展，尤其是多层神经网络的研究，使其在语音识别、图像处理、自然语言处理等领域取得了显著进展。深度学习的核心是通过大量数据的训练，学习到数据的内在结构和模式，并且具备自动从复杂的输入中提取特征的能力。本文将从深度学习的基本原理、常见模型、训练技巧、应用领域及其面临的挑战等方面进行详细探讨，帮助理解深度学习模型如何在现代科技
基于深度学习的焊缝缺陷检测识别系统：YOLOv10 + UI界面 + 数据集深度学习&目标检测实战项目深度学习 YOLO ui 目标跟踪分类人工智能
1.引言1.1背景介绍焊接是现代工业制造中的重要工艺之一，其质量直接影响产品的安全性、耐用性和可靠性。然而，由于焊接工艺的复杂性，在实际应用中不可避免地会出现焊缝缺陷，如气孔、裂纹、未熔合等。这些缺陷不仅降低了焊接质量，还可能导致严重的安全事故。因此，如何高效、准确地检测焊缝缺陷成为工业领域的重要研究课题。传统的焊缝缺陷检测方法主要依赖于人工经验或简单的图像处理技术。这些方法不仅效率低下，而且受主
基于深度学习的钢材表面缺陷检测系统：UI界面 + R-CNN + 数据集深度学习&目标检测实战项目 R-CNN检测系统深度学习 ui r语言开发语言计算机视觉 cnn 人工智能
在制造业中，钢材表面缺陷的检测是保证产品质量和生产效率的关键环节。随着工业自动化水平的提高，传统的人工检测已经无法满足快速、精确的检测要求。基于深度学习的钢材表面缺陷检测系统能够通过计算机视觉自动识别钢材表面的缺陷类型和位置，极大地提升了检测的准确性和效率。本文将详细介绍如何基于深度学习、R-CNN算法和自定义数据集构建一个钢材表面缺陷检测系统。内容涵盖从数据准备、R-CNN模型训练到UI界面设计
.NET架构师：全网最全“权限系统”设计剖析数字智慧化基地 .NET/C#中大型项目开发 .net .netcore 微服务架构系统架构
作者：科技、互联网行业优质创作者专注领域：.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造欢迎关注我（Net数字智慧化基地），里面有很多高价值技术文章，是你刻苦努力也积累不到的经验，能助你快速成长。升职+涨薪！！1为什么需要权限管理日常工作中权限的问题时时刻刻伴随着我们，程序员新入职一家公司需要找人开通各种权限，比如网络连接的权限、编码下载提
PyTorch torch.logsumexp 详解：数学原理、应用场景与性能优化（中英双语）阿正的梦工坊 PyTorch Deep Learning pytorch 人工智能 python
PyTorchtorch.logsumexp详解：数学原理、应用场景与性能优化在深度学习和概率模型中，我们经常需要计算数值稳定的对数概率操作，特别是在处理softmax归一化、对数似然计算、损失函数优化等任务时，直接求和再取对数可能会导致数值溢出。torch.logsumexp正是为了解决这一问题而设计的。在本文中，我们将详细介绍：torch.logsumexp的数学原理它的实际用途为什么它比直接
adeepSeek 使用指南与资源分享后端
a#deepSeek使用指南与资源分享一、DeepSeek简介deepSeek是一款具有强大推理能力的人工智能模型，其在自然语言处理、逻辑推理和多模态交互等领域表现出色。随着技术的不断发展，DeepSeek已成为Ai领域的热门话题1。二、DeepSeek使用技巧**提示词的使用88提示词是与Deepseek交互的关键。根据卡兹克的分享，DeepSeek的提示词技巧在于简洁明了，避免过度复杂的指令1
基于深度学习的入侵检测系统设计与实现 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于深度学习的入侵检测系统设计与实现文章关键词:深度学习，入侵检测，网络安全，神经网络，特征提取，系统设计文章摘要:随着互联网的快速发展和网络攻击技术的不断演进，网络安全形势日益严峻。传统的入侵检测系统(IDS)面临着检测精度低、适应性差等问题，难以有效应对日益复杂的网络攻击。深度学习作为一种强大的机器学习技术，具有强大的特征学习和模式识别能力，为入侵检测技术带来了新的机遇。本文深入探讨了基于深度
2024年国内人工智能大模型汇总 kiiy2 人工智能 ai 学习
文心一言文心一言（ERNIEBot）是百度基于文心大模型技术推出的生成式对话产品，将于2023年3月完成内测并面向公众开放。该产品是百度在人工智能领域深耕十余年后，拥有产业级知识增强文心大模型ERNIE的基础上，利用跨模态、跨语言的深度语义理解与生成能力而开发的一款AI聊天机器人。它被设计用于回答用户的问题和提供信息，以帮助人们解决问题和获取知识。此外，文心一言还可以通过学习和训练，不断提高自己的
大一的你如何入门TensorFlow eso1983 tensorflow 人工智能 python
刚刚迈入大学的你，对计算机编程还比较陌生。对于现在主流人工智能技术架构TensorFlow的学习，需要循序渐进。入门TensorFlow编程需要结合基础知识学习和实践操作。首先可能需要巩固Python基础，特别是NumPy和数据处理相关的库，因为TensorFlow很多操作和这些库有关联。接下来，可能需要了解机器学习的基本概念。TensorFlow毕竟是一个机器学习框架，如果没有基本的理解，直接上
嵌入式人工智能应用-第四章 KNN 算法介绍 3 数贾电子科技嵌入式人工智能应用人工智能算法 linux knn
KNN算法介绍1KNN介绍1.1基本概念1.1.1主要步骤1.1.2.距离计算：1.1.3进行预测：2分类介绍2.1KNN算法的K值说明2.2K值的选取2.3距离计算2.4KNN算法特点2.5KNN算法流程3实验验证3.1实验代码-具体代码可以从附件下载3.2演示效果1KNN介绍K邻近（K-NearestNeighbors，KNN）是一种广泛使用的监督学习算法，主要用于分类和回归任务。以下是K邻近
嵌入式人工智能应用-第四章逻辑回归 8 数贾电子科技嵌入式人工智能应用人工智能逻辑回归算法
逻辑回归1逻辑回归介绍1.1背景介绍1.2原理1.2.1预测函数1.2.2判定边界1.2.3损失函数1,2,4梯度下降函数1.2.5分类拓展1.2.6正则化2实验代码3实验结果说明1逻辑回归介绍1.1背景介绍逻辑回归的过程可以概括为：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”，但是
《DeepSeek从入门到精通》下载疯狂吧小飞牛 deepseek 深度学习自然语言处理人工智能
下载地址：《DeepSeek从入门到精通》下载–无敌牛DeepSeek：从入门到精通@新媒沈阳团队：余梦珑博士后清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生
初识pytorch m0_73286250 pytorch 人工智能 python
一、AI发展史二、什么是深度学习深度学习是机器学习的一个子集。为了更好地理解这种关系，我们可以将它们放在人工智能（AI）的大框架中来看。机器学习是实现人工智能的一种途径，深度学习是机器学习的一个子集，也就是说深度学习是实现机器学习的一种方法。与机器学习算法的主要区别如下图所示：三、扩展1.使用场景1)图像识别和处理2)自然语言处理（NLP）3)音频处理4)视频分析5)游戏和仿真6)自动驾驶汽车7)
NVIDIA B200：高性能 AI 计算的未来知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 nvidia b200
简介对于一直关注人工智能和机器学习快速发展的人来说，新硬件的发布总是备受期待。每一代新处理器和加速器都有可能极大地改变我们开发和部署大规模机器学习模型的方式。NVIDIA长期处于人工智能硬件开发的最前沿，它再次凭借由Blackwell架构驱动的B200提高了标准。最近的MLPerf基准测试提供了B200的首批可靠数据，结果非常出色。在Llama270B型号上运行推理时，B200每秒可处理11,26
Java部署机器学习模型:方案二(基于DJL) iiilloi 机器学习 spring spring boot
DJL（DeepJavaLibrary）是由亚马逊公司开发的一款开源的深度学习框架，它旨在为Java开发人员提供一个简单而强大的API，使得在Java中使用深度学习变得更加容易。DJL有以下几个方面优势：支持多个底层引擎DJL支持多个底层引擎，包括MXNet、TensorFlow和PyTorch等。这使得DJL可以在多个平台上使用，包括Java、Android、iOS和RaspberryPi等。易
Vue 3最新组件解析与实践指南：提升开发效率的利器 Aic山鱼 vue.js 前端 javascript
目录引言一、Vue3核心组件特性解析1.CompositionAPI与组件逻辑复用2.内置组件与生命周期优化3.新一代UI组件库推荐二、高级组件开发技巧1.插件化架构设计2.跨层级组件通信三、性能优化实战1.惰性计算与缓存策略2.虚拟滚动与列表优化3.TreeShaking与按需引入四、总结作者：Aic山鱼|2025年2月17日作者推荐："近期我偶然邂逅了一个极为出色的人工智能学习平台，它不仅内容
深度学习归一化与正则化鱼儿也有烦恼深度学习深度学习
文章目录深度学习归一化与正则化1.归一化(Normalization)2.正则化(Regularization)深度学习归一化与正则化1.归一化(Normalization)定义：归一化是指通过某种算法将输入数据或神经网络层的激活值处理后限制在我们需要的特定范围内。它的目的是为了方便后续的数据处理，并加快程序的收敛速度。归一化的主要作用是统一样本的统计分布。在0到1之间的归一化代表的是概率分布，而
云上玩转DeepSeek系列之三：PAI-RAG集成联网搜索，构建企业级智能助手阿里云大数据AI技术 deepseek PAI 阿里云人工智能 RAG
正文DeepSeek系列模型以卓越性能在全球范围内备受瞩目，在各类评测中表现优异，推理性能接近甚至超越国际顶尖闭源模型。2025年2月以来，阿里云人工智能平台PAI持续推出围绕DeepSeek系列模型的最佳实践，包含快速部署、应用搭建、蒸馏、微调等各个环节，让企业和个人开发者可以在云上高效、灵活地部署和探索DeepSeek-R1、DeepSeek-V3等模型。本文将为您带来“基于PAI-RAG构建
Linux升级openssl解决方案爱编程的喵喵 Linux解决方案 linux openssl 升级openssl 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Linux升级openssl解决方案
深度学习探索-基础篇-正则化篇神仙盼盼深度学习入门篇深度学习人工智能
文章目录一、正则化介绍1.1正则化的简介1.2正则化的方法介绍1.3正则化的用途二、正则化的详细介绍2.1L1正则化2.2L2正则化2.2.1L2正则化的工作原理2.2.2如何在训练中应用L2正则化2.2.3L2正则化的效果2.3WeightDecay2.4Dropout一、正则化介绍1.1正则化的简介在深度学习领域中，正则化是一种用于防止过拟合的技术。过拟合是指模型在训练数据上表现良好，但在未见
【深度学习】Unet的基础介绍牧歌悠悠深度学习人工智能算法深度学习人工智能 U-net
U-Net是一种用于图像分割的深度学习模型，特别适合医学影像和其他需要分割细节的任务。如图：Unet论文原文为什么叫U-Net？U-Net的结构像字母“U”，所以得名。它的结构由两个主要部分组成：下采样（编码器）：图像逐渐被缩小并且提取特征。上采样（解码器）：逐渐恢复图像的尺寸，并通过“跳跃连接”将高分辨率的特征与低分辨率的特征结合，以保持细节。网络结构U-Net通常包括以下几部分：（1）下采样（
AI 驱动的自动化测试：从代码到报告的全面解读测试者家园人工智能软件测试质量效能测试策略自动化测试测试报告测试用例
在软件开发的生命周期中，测试一直是确保软件质量的关键环节。然而，随着开发规模的日益庞大，传统的手动测试和简单的自动化脚本已经无法满足高效、快速和高质量的需求。随着人工智能（AI）的兴起，尤其是在深度学习、自然语言处理（NLP）和智能决策算法方面的突破，AI驱动的自动化测试正逐渐成为现代软件开发中的核心组成部分。从自动生成测试用例、智能缺陷预测、到自动化报告生成，AI技术的应用为软件测试带来了革命性
科技快讯 | 京东为外卖骑手缴纳五险一金；全3D打印电喷雾发动机问世；小红书：3个月处置超300万违规账号最新科技快讯科技人工智能大数据
京东为外卖骑手缴纳五险一金2月19日，京东宣布，自2025年3月1日起，将逐步为京东外卖全职骑手缴纳五险一金，为兼职骑手提供意外险和健康医疗险。继给快递小哥缴纳五险一金后，京东再次成为首个为外卖骑手缴纳五险一金的平台。京东外卖自2月11日起正式启动“品质堂食餐饮商家”招募，对2025年5月1日前入驻的商家全年免佣金。深大推出DeepSeek人工智能通识课，本学期可选课学习深圳大学与腾讯云合作推出基
智能汽车安全实战：车联网威胁检测从入门到精通（含CAN总线/OTA/深度学习完整代码实现） Coderabo DeepSeek R1模型企业级应用汽车安全深度学习
车联网安全威胁检测实战：从CAN总线到OTA的全链路攻防解析（附完整Python代码）一、车联网安全威胁现状与挑战随着智能网联汽车渗透率突破60%，车端ECU数量超过150个，车载通信接口增加至8种以上，攻击面呈现指数级增长趋势。2023年某知名车企曝出的OTA升级漏洞导致50万辆汽车面临远程控制风险，凸显车联网安全检测的紧迫性。二、车联网安全检测技术框架2.1威胁检测架构设计classVehic
南凌科技接入deepseek大模型，提升云网智安服务能力 NOVAnet2023 科技
南凌科技自成立以来，始终秉持创新驱动的理念，积极探索并运用新兴的人工智能技术，赋能公司服务能力和运营效率提升。2024年，南凌科技便已接入各类大模型，包含智谱、通义千问等大模型。在2024年10月的“AI+安全”研讨大会上，南凌科技CTO鲁子奕博士就已向客户、媒体等展示了南凌科技运用AI大模型进行数据处理、客服问答等场景。如今，DeepSeek以其开源特性崭露头角，不仅展现出高度的灵活性与可定制性
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

文章目录

Abtract

1. Introduction

2. Related Work

2.1.VQA数据集

VQA v1/VQA v2。

TDIUC [24]

CVQA [5]

VQACPv2 [4]

CLEVR [20]

CLEVR-CoGenT

2.2. VQA Algorithms

3. The RAMEN VQA Model

3.1. Formal Model Definition

3.2. Implementation Details

Input Representation

Model Configuration

Training Details

4. VQA Models Evaluated

Bottom-Up-Attention and Top-Down (UpDn)[6]

Question-Conditioned Graph(QCG) [41]

Bilinear Attention Network (BAN) [28]

Relation Network(RN)[48]

Memory, Attention and Composition (MAC)

4.1. Standardizing Models

5. Experiments and Results

5.1. Main Results

Generalization Across VQA Datasets.

Generalization Across Question Types.

Generalization to Novel Concept Compositions.

Counting and Numerical Comparisons.

Other CLEVR Tasks

5.2. Ablation Studies

5.3. Newer Models

6. Discussion: One Model to Rule them All?

7. Conclusion

你可能感兴趣的:(VQA,人工智能,计算机视觉,深度学习,vqa,自然语言处理)