Leokadia Rothschild

【VQA文献阅读】VQS：将语义分割与视觉问答结合起来（ICCV2017）

VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation

文章目录

VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation
- Abstract
- 1. Introduction
- - - Two related datasets
  - 1.1. Applications of the segmentation-QA links
  - - 1.1.1 Supervised attention for VQA
    - 1.1.2 Question-focused semantic segmentation (QFSS)
- 2. Linking image segmentations to text QAs 将图像分割链接到文本质量评估
- - 2.1.Annotation instructions 注释说明
  - - Quality control 质量控制
  - 2.2. Tasks addressed by the participants
  - - Object detection 物体探测
    - Semantic segmentation 语义分割
    - Spatial relationship reasoning 空间关系推理
    - Fine-grained activity recognition 细粒度的活动识别
    - Commonsense reasoning 常识推理
  - 2.3. Data statistics 数据统计
- 3. Applications of VQS
- - 3.1.Supervised attention for VQA VQA的监督注意力
  - - - Experiment setup 实验设置
      - MLP for VQA Multiple Choice MLP为VQA多选
    - 3.1.1 Augmenting MLP by supervised attention 通过监督关注增强MLP
    - - Question and answer features
      - Image features
      - Attention features注意特征。
    - 3.1.2 Experimental results 实验结果
    - 3.1.3 What is good supervision for attention in VQA?在VQA，什么是值得关注的良好监管？
  - 3.2. Question-focused semantic segmentation 以问题为中心的语义分割
  - - 3.2.1 Mask aggregation for QFSS
    - - An oracle upper bound
      - A baseline using deconvolutional network
    - 3.2.2 Experiments on QFSS
    - - Features特征
      - Dataset Split 数据集分割
      - Results 结果
- 4. Conclusion

Abstract

丰富而密集的人为标记数据集是近期视觉语言理解发展的主要因素。许多看似遥远的注释（例如，语义分割和视觉问答（VQA）），其本质上是相互联系的，因为它们揭示了人类对相同视觉场景的理解的不同层次和视角-甚至是同一组图像（例如，COCO的图像）。COCO的流行与那些注释和任务有关。明确地将它们联系起来可能会使个人任务以及视觉语言的统一建模都受益匪浅。

我们提出了将COCO提供的实例分割与VQA数据集中的问题和答案（QA）相关联的初步工作，并将收集的链接命名为视觉问题和分割答案（VQS）。他们在以前单独的任务之间转移人员监督，为现有问题提供更有效的手段，并为新的研究问题和模型打开大门。我们在本文中研究了VQS数据的两个应用：监督VQA的注意力和一个新的以问题为中心的语义分割任务。对于前者，我们通过使用分割-QA链接作为显式监督学习的一些注意特征来简单地增加多层感知器，从而获得关于VQA实际多选任务的最新结果。为了对后者进行观察，我们研究了两种可能的方法，并将它们与假设在测试阶段给出了实例分割的oracle方法进行比较。

1. Introduction

近年来，将视觉理解与自然语言联系起来受到了广泛的关注。我们已经目睹了图像字幕的复兴[41，28，18，6，39，4，46，12，32，10]，这通常是通过用深度神经网络对视觉和文本内容进行联合建模来解决的。然而，图像字幕往往是多样的和主观的——很难评估由不同算法生成的字幕的质量[7，40，1]，并且往往会错过微妙的细节——在训练中，模型可能会导致捕捉场景级的要点，而不是细粒度的实体。鉴于图像字幕的前提和缺点，提出了并行的视觉问题回答(VQA) [3，50，35，13]和视觉基础[34，15，36，27，16，42，49]，以适应对视觉实体(例如，场景，对象，活动，属性，上下文，关系等)的自动评估和多级聚焦。).丰富而密集的人类注释数据集可以说是视觉语言理解这一系列令人兴奋的工作的主要“推动者”之一。COCO [24]在其中尤为引人注目。它主要包含经典标签(例如，分割、对象类别和实例、关键点等)。)和图像标题。许多研究小组随后为各种任务收集了可可图像的附加标签。Agrawal等人众包了关于COCO图像和抽象场景子集的问答(QaS)[3]。朱等。与图像中的边界框相关联[50]。Mao等人[27]和Y u等人[49]让用户给出引用表达式，每个表达式在图像中指出一个唯一的对象。视觉基因组数据集[21]也在图像方面与可可相交，并提供密集的人类注释，特别是场景图。

这些看似遥远的注释在某种意义上是内在联系的，它们揭示了人类对相同可可图像理解的不同视角。COCO的流行可能与这些注释——甚至任务——密切相关。正如我们所设想的，明确地将它们联系起来，可以极大地有利于个体任务和统一的视觉语言理解，以及相应的方法和模型。我们在本文中的贡献之一是启动这方面的初步工作。特别是，我们着重于将COCO[24]提供的分割与VQA数据集[3]中的质量保证联系起来。显示图像和关于图像的问答配对，我们要求参与者选择图像的分段，以便直观地回答问题。

图1展示了一些收集的“可视化答案”。对于“狗旁边是什么？”，输出应该是人的分割掩码。对于“几点了？”，时钟应该分段输出。另一个有趣的例子是，汽车是回答“这条街是空的吗？”，为简单文本回答“否”提供了必要的视觉证据。请注意，虽然在一个问题中可以提到许多视觉实体，但我们只要求参与者选择视觉上回答问题的目标分段。这简化了注释任务，并导致参与者之间更高的一致性。第2节详细介绍了注释收集过程和统计数据#

Two related datasets

达斯等人为VQA任务收集了一些人类注意力地图[5]。他们模糊图像，然后要求用户抓挠图像，以寻找有助于回答问题的视觉线索。得到的注意力图往往很小，揭示的是有意义的部分，而不是完整的物体。对象部分也与背景区域以及彼此混合。因此，与我们在分割和质量保证之间建立的联系相比，人类注意力地图对基于注意力的VQA方法的监督可能不太准确。我们的实验验证了这个假设(参见第3节)。虽然在Visual7W [50]中为质量保证体系中的对象提及提供了边界框，但除了“指向”类型的问题之外，它们并不用于直接回答问题。相比之下，我们以分段的形式为更多的问题类型提供直接的可视化答案。

1.1. Applications of the segmentation-QA links

我们将VQA数据集[3]中COCO分段[24]和质量保证对之间收集的链接称为视觉问题和分段答案(VQS)。这种联系在先前分离的任务之间转移了人的监督，即语义分割和VQA。它们使我们能够以比以前更有效的杠杆作用解决现有的问题，也为视觉语言理解的新研究问题和模型打开了大门。本文研究了我们的VQS数据集的两个应用:VQA的监督注意和一个新的以问题为中心的语义分割任务(QFSS)。对于前者，我们通过简单地用注意力特征扩充[17]的多层感知器(MLP)来获得关于VQA实多重选择任务的最新结果。

1.1.1 Supervised attention for VQA

VQA旨在以短文形式回答关于图像的自然语言问题。注意力方案通常通过关注特定的图像区域[47，45，44，25，23]或建模对象关系[2，26]而对VQA有用。然而，由于缺乏明确的注意注释，现有方法选择潜在变量并使用间接线索(如文本答案)进行推理。因此，机器生成的注意力图与人类注意力图的相关性很差[5]。这并不奇怪，因为由于缺乏明确的训练信号，潜在变量很难匹配语义解释；类似的观察也存在于其他研究中，例如，目标检测[8]，视频识别[11]和文本处理[48]。这些现象强调了在视觉和文本答案之间建立明确联系的必要性，这在VQS的作品中得到了体现。我们表明，通过使用所收集的分割问答链接来参与不同图像区域的监督学习，我们可以将简单的MLP模型[17]提升到在VQA真实多项选择任务上非常引人注目的性能。

1.1.2 Question-focused semantic segmentation (QFSS)

以问题为中心的语义分割(QFSS)
除了为更好地解决VQA问题而受到监督的关注之外，VQS还使我们能够探索一种新颖的以问题为中心的语义分割(QFSS)任务。因为VQA只需要文本答案，所以对于学习代理来说存在潜在的捷径，例如，生成正确的答案而不需要精确地推理不同视觉实体的位置和关系。虽然视觉基础(VG)通过在目标视觉实体上放置边界框[34，36，27，16]或分割[15]来避免警告，但是现有VG作品中文本表达的范围通常限于图像中存在的视觉实体。为了将VQA和VG的优点结合在一起，我们提出了QFSS任务，其目标是产生像素级分割，以便直观地回答关于图像的问题。它有效地借用了VQA的通用问题，同时在像素分割作为期望的输出方面类似于VG的设计。

给定一幅图像和一个关于该图像的问题，我们提出了一种掩码聚合方法来生成一个分割掩码作为视觉答案。由于QFSS是一个新的任务，从长远来看，我们不仅将建议的方法与竞争基线进行比较，而且还通过假设所有实例分段在测试阶段都作为预言给出来研究一种上限方法。

胡等人的著作[15]与最为相关。他们学习以图像分割的形式来表达文本。与本书中使用的问题不同，本书灵活地结合了常识和知识库，而[15]中文本短语的表达范围通常仅限于相关图像中的视觉实体。本文的其余部分组织如下。

第2节详细介绍了我们的VQS数据的收集过程和分析。在第3节中，我们展示了如何使用收集的分割-问答链接来学习监督注意特征和增强现有的VQA方法。在3.2节中，我们研究了一些潜在的框架来解决新的以问题为中心的语义分割任务。第四部分总结全文。

2. Linking image segmentations to text QAs 将图像分割链接到文本质量评估

在本节中，我们详细描述了如何收集语义图像分割和文本问答之间的链接。我们的工作建立在COCO[24]中的图像和实例分割遮罩以及VQA数据集[3]中的质量保证基础上。COCO图像主要是关于日常场景，包含自然环境中的常见对象，适应不同视觉实体之间的复杂交互和关系。为了避免分割和质量保证对之间的琐碎联系，我们在这项工作中只保留包含至少三个实例分割的图像。VQA [3]中的问题多种多样，涵盖了图像的各个部分、不同层次的语义解释以及常识和知识库。接下来，我们详细说明注释说明，并提供一些关于收集的数据集的分析。

2.1.Annotation instructions 注释说明

我们向注释者显示一个图像，它在COCO数据集中的实例分割，以及一个关于来自VQA数据集的图像的问答配对。除了问题之外，还会给出文本答案，以方便参与者选择正确的分段作为视觉答案。以下是我们给注释者的说明(参见图形用户界面的补充材料):

请在图像中选择正确的分割来回答问题。请注意，文本答案显示在问题之后。
关于目标实体的问题可能会使用其他实体来帮助引用目标。只选择目标实体，不选择其他实体(例如，“女人旁边的长凳上有什么？”在图2(g)中)。
问题可能与某项活动有关。选择活动中涉及的所有视觉实体。以图2(j)为例，选择人和摩托车来回答“这个人在做什么？”。
有时，除了分割遮罩覆盖的图像区域，您可能还需要其他区域来回答问题。要包含它们，请在区域上绘制紧密的边界框。
对于“多少”类型的问题，所选部分的数量(加上边界框)必须与答案相匹配。如果答案大于3，在问题中被询问的实体周围放置一个边界框是很好的。
如果您认为问题必须通过完整图像来回答，请勾选问题下方的黑色按钮。
如果您觉得问题不明确，或者您不确定选择哪个部分/地区来回答问题请勾选问题下方的灰色按钮。

偶尔，视觉回答应该只是COCO给出的实例片段的一部分。例如，麦当劳的标志回答“能看到什么快餐店？”在图2(o)中，但是在COCO中没有相应的徽标分割。再比如戒指上回答“女方戴戒指了吗？”(参见图2 ( c ) )。对于这些情况，我们要求参与者在他们周围画出紧密的边界框。如果我们将它们分割出来，QFSS的学习代理可能永远无法为它们产生正确的分割，除非我们在将来包含更多的训练图像，因为这些区域(例如，麦当劳标志、环)是非常细粒度的视觉实体，在我们的数据收集过程中只出现几次。

Quality control 质量控制

我们在开始的时候尝试了AMTurk来收集注释。虽然注释者之间在关于对象和人的问题上的一致程度很高，但是对于涉及活动的问题有许多不一致的注释(例如，“玩什么运动？”).此外，AMTurk的工作人员倾向于经常勾选黑色按钮，表示完整的图像是视觉答案，灰色按钮，表示问题是模糊的。为了获得更高质量的注释，我们邀请了10名本科生和研究生志愿者，并亲自对他们进行了培训(我们在补充材料中包括了一些用于培训的幻灯片)。为了进一步控制注释质量，每个注释者被要求完成100幅图像(大约300个问答对)的作业，然后我们再次与他们会面，一起查看他们的注释所有的志愿者都被要求参与讨论，并共同决定每个问题的预期注释。作为对高质量工作的奖励，我们还逐步将小时工资从12美元/小时提高到14美元/小时。

2.2. Tasks addressed by the participants

由于阿格沃尔等人收集了丰富的问题集[3]和COCO[24]中复杂的视觉场景，参与者必须解析问题，理解视觉场景和上下文，推断视觉实体之间的交互，然后拾取回答问题的分段。我们发现许多视觉任务可能在这个过程中发挥作用。图2显示了一些典型的例子，以方便下面的讨论。

Object detection 物体探测

许多问题直接询问图像中一些对象的属性。在图2(b)中，参与者应该在“咖啡杯是什么颜色？”这个问题的混乱场景中识别杯子。

Semantic segmentation 语义分割

对于某些问题，答案的视觉证据最好用语义分段来表示。以图2(j)和(k)为例。简单地检测骑车人和/或自行车不足以表达他们的空间相互作用。

Spatial relationship reasoning 空间关系推理

类似“女人旁边的长椅上是什么？”(图2(g))通过包括长凳、女人和答案包在内的物体之间的空间关系向参与者提出了挑战。图2(i)是这个领域的另一个例子。

Fine-grained activity recognition 细粒度的活动识别

当问题是关于一项活动时(例如，“正在进行什么运动？”在图2(1)中，我们要求参与者标记所有涉及的视觉实体(例如，人、网球拍和网球)。换句话说，他们应该发现活动的细节。

Commonsense reasoning 常识推理

常识知识可以帮助参与者显著减少对问题答案的搜索空间，例如，回答“几点了？”在图1中，用麦当劳的标志来回答“能看到什么快餐店？”如图2(o)所示。

2.3. Data statistics 数据统计

在收集注释之后，我们移除问题-图像对，对于这些问题-图像对，用户分别选择黑色按钮(完整图像)或灰色按钮(未知)来避免琐碎和模糊的分割-问答链接。总的来说，我们保留了37，868幅图像、96，508个问题、108，537个实例分割和43，725个边界框。在下文中，我们不区分分割和边界框，以便于呈现，也是为了边界框紧密、小，并且比分割少得多。

图3统计了在回答一个问题时，每个图像所选择的实例分割的可能数量的分布。超过70%的问题由一个细分回答。平均而言，每个问题图像对有6.7个候选分割，其中1.6个被标注者选择作为视觉答案。

在图4中，我们可视化了问题类型的分布。最受欢迎的类型是“什么”问题(46%)。共有31，135个“是/是”和“做/做”问题(32.1%)。请注意，尽管对这些问题的文本回答只是简单的是或否，但在VQS，我们要求参与者通过制作语义分割遮罩来明确地展示他们对视觉内容的理解。在表3的第三列中，我们显示了用户从每种问题类型的平均候选人数中选择的平均分段数。

3. Applications of VQS

用户将视觉问题和分段联系起来，后者在视觉上回答前者，这是非常通用的。它们为至少两个问题提供了比以前更好的杠杆作用，即VQA的监督注意和以问题为中心的语义分割(QFSS)。

3.1.Supervised attention for VQA VQA的监督注意力

VQA旨在以短文形式回答关于图像的自然语言问题。我们猜想，在训练中，如果用户链接到质量保证体系的分段具有特权访问权，学习代理可以产生更准确的文本答案。为了验证这一点，我们设计了一个简单的实验来扩充[17]中的MLP模型。增强MLP显著改进了普通版本，并在VQA真正的多项选择任务中产生了最先进的结果[3]。

Experiment setup 实验设置

我们在VQA真多重选择上进行实验[3]。该数据集包含248，349个培训问题、121，512个验证问题和244，302个测试问题。每个问题有18个候选答案选择，学习代理需要找出其中的正确答案。我们按照[3]中建议的指标评估我们的结果。

MLP for VQA Multiple Choice MLP为VQA多选

由于VQA多项选择任务为每个问题提供了候选答案，贾布里等人建议将问题转化为一堆二元分类问题[17]，并通过多层感知器(MLP)模型来解决它们:

其中 $x_iqa$ 是图像的特征表示、关于图像的问题和候选答案的连接，σ(·)是sigmoid函数。隐藏层有8096个单位和一个ReLU激活。这种模式很有竞争力，尽管很简单。

3.1.1 Augmenting MLP by supervised attention 通过监督关注增强MLP

我们建议通过更丰富的问题、答案、图像的特征表示来扩充MLP模型特别是通过下面详细描述的监督注意特征。

Question and answer features

xq&xa。对于一个问题或答案，我们通过对组成单词的300个单词2vec [29]向量进行平均，然后进行l2 normalization来表示它。这与[17]中的相同。

Image features

我们从输入图像中提取两种类型的特征:ResNet [14] pool5激活和属性特征[43]，后者是属性检测分数。我们通过修改ResNet的输出层实现了一个属性检测器。特别地，给定C = 256个属性，我们为每个属性强加一个sigmoid函数，然后使用二元交叉熵损失来训练网络。训练数据从COCO图像字幕[24]中获得。我们将最频繁出现的256个单词作为属性保留下来。

Attention features注意特征。

我们进一步将注意力特性xattto连接到原始输入xiqa。注意力特征是由[47，eq]中图像区域特征和问题特征的加权组合所激发的。(22)]，其中每个图像区域的非负权重pi= f(Q，{ri})是问题Q和区域特征{ri}的函数。我们借用了杨等人[47，第3.3节]的网络架构和代码实现来实现此功能，只不过我们通过交叉熵损失来训练此网络，以将权重{pi}与从数据集中的分段中获得的“基本事实”注意相匹配。特别地，我们将与每个问题图像对相关联的分割图下采样到与图像区域的数量相同的大小，然后l1将其归一化为有效的概率分布。通过训练网络使权重pi= f(Q，{ri})与这种关注相匹配，我们对与用户选择的分割相对应的区域实施更大的权重。

图5的上半部分显示了提取注意力特征的过程，下半部分显示了MLP模型[17]，该模型增加了我们对VQA多项选择题的注意力特征。

3.1.2 Experimental results 实验结果

表1报告了在VQA真实多项选择任务中用几种最先进的方法增强MLP注意特征的比较结果。我们主要使用测试开发进行比较。在确定了我们最好的单个模型和集合模型之后，我们还将它们提交给评估服务器，以获取测试标准的结果。

首先，我们注意到，通过简单地使用所学的注意力特征(MLP +雷斯网+注意力)来增强它，相对于普通的MLP模型(MLP +雷斯网)有1.5%的绝对改善。).第二，图像的属性特征实际上相当有效。通过用属性特征(参见MLP +属性的行)替换ResNet图像特征，我们获得了比普通MLP 1.0%的改进。vs MLP+ResNet)。尽管如此，通过将注意力特征附加到MLP +阿特里。，我们仍然可以观察到1.1%的绝对增益。最后，用五个MLP +雷斯网+阿滕的合奏。模型和五个MLP +属性。+ Atten。模型，截止到论文提交日期，我们提交给评估服务器的论文在VQA真实多项选择任务的测试标准中排名第二。

3.1.3 What is good supervision for attention in VQA?在VQA，什么是值得关注的良好监管？

在这一节中，我们将VQS数据与人类注意力地图[5]和紧紧围绕VQS分割的边界框进行对比。

表2中报告的比较结果是在VQA真实多项选择的测试开发数据集上评估的。我们可以看到，链接到质量保证的分割比包围盒产生更好的结果，这进一步优于质量保证。这些确认源对象在VQA的注意力的监督学习中可能是最佳的，因为它们通常显示对象的小部分并包含大部分背景。然而，我们认为研究VQS的更一般的基于注意力的VQA模型仍然是有趣的[47，45，44，25，23，2，26]。

在补充材料中，我们描述了集成模型的详细实现。我们还展示了研究不同分辨率的分割遮罩如何影响VQA结果的其他结果。

3.2. Question-focused semantic segmentation 以问题为中心的语义分割

这一部分探索了一个新的任务，以问题为中心的语义分割(QFSS)，这是可行的，因为收集的VQS连接了两个以前分开的任务(即分割和VQA)。给定一个关于图像的问题，QFSS期望学习代理通过从图像中语义分割出正确的视觉实体来输出视觉答案。它的设计方式类似于自然语言表达式的分割[15]，可能应用于机器人视觉、照片编辑等。

为了正确地看待新的任务，我们提出了一种针对QFSS的掩码聚合方法，研究了一个基线，并通过假设在测试阶段所有的实例分段都作为预言给出，研究了一种上限方法。

3.2.1 Mask aggregation for QFSS

我们提出了一种解决QFSS问题的掩码聚合方法。建模假设是期望的输出分割掩模可以由高质量的分割建议组成。特别地，我们使用由夏普掩模[33]给定图像生成的N = 25个分割建议e1、e2、… ,eN 每个建议都是与图像大小相同的二进制分割掩码。

然后，我们将这些掩码的凸组合阈值化为响应问题图像对的最终输出，其中第I个组合系数sii由问题特征xqand和第I个分割建议的表示zi通过softmax函数确定，即si= softmax( $x^T_q$ $Az_i$ )。我们通过最小化用户选择的segmentationsE⋆and和模型生成的分割掩模e之间的L2损失来学习模型参数α。我们的当前模型是“浅的”，但是使其变深是直接的，例如，通过按照先前的实践(例如，记忆网络[44]和堆叠的注意力网络[47])将其输出与原始输入堆叠。

An oracle upper bound

我们通过1)用MSCOCO发布的所有实例分段替换分段建议，假设它们在测试中作为预言可用，以及2)使用二进制分类器来确定实例分段是否应该包括在可视答案中，来设计所提出方法的上限。结果可以被认为是我们的方法的上限，因为分割肯定比机器生成的建议更准确，并且二进制分类可以说比聚集多个掩码更容易解决。我们重新训练MLP(情商。1)这里为二进制分类器；现在，它将分段和问题的串联特征作为输入。图6用一个具体的问题图像例子描述了所提出的方法和upperbound方法。

A baseline using deconvolutional network

最后，我们研究了一个受FCN [15]文本制约的竞争基线。如图7所示，它包含三个组件，一个卷积神经网络[22]，一个去卷积神经网络[30]，以及一个在CNN中参与特征映射的问题嵌入。所有图像都被调整到224 × 224。卷积和反卷积网络遵循[30]中的规范。也就是说，VGG-16 [38]被修剪到最后一个卷积层，然后是两个完全连接的层，然后由解卷积网络镜像。对于输入问题，我们使用嵌入矩阵将其映射到与最后一个卷积层的特征映射相同的大小。问题嵌入然后是元素-wsie乘以特征映射。我们用输出掩码和基本事实分段掩码之间的L2损失来训练网络。

3.2.2 Experiments on QFSS

Features特征

除了使用第3.1.1节中的单词嵌入特征 $x_q$ 来表示问题之外，我们还测试了单词包特征。对于每个实例分割或建议，我们用0屏蔽掉图像中的所有其他像素，然后从ResNet-152 [14]的最后一个池层提取其特征。

Dataset Split 数据集分割

我们用的夏普Mask是从MS COCO的训练集里学来的。因此，我们以这样一种方式分割我们的VQS数据，即我们的测试集不与夏普Mask的训练集相交。特别是，我们使用26，995张图片和相应的68，509个问题作为我们的训练集。我们将剩余的图像和问题分成两部分:5000个图像和相关的验证问题，以及5873个图像和14875个问题作为测试集。

Results 结果

表3报告了QFSS的比较结果，通过交叉合并进行评估。此外，前三列是关于不同类型问题的数量和每个问题类型的用户选择的分段的平均数量。平均而言，任何问题类型都会选择多个细分。

首先，我们注意到所提出的掩码聚合优于基线解卷积，但明显差于其上限方法。掩码聚合优于解卷积，部分原因是它实际上使用了VQS数据之外的额外监督信息；也就是说，在微软COCO的训练集中的所有实例分割。上限结果表明，掩码聚合框架仍有很大的改进空间；一种可能性是在将来的工作中深入研究。

此外，我们还发现，两种问题表示法，单词包表示法和单词嵌入表示法，无论是对掩码聚合还是对解模糊网络都产生了可区分的结果。这个观察很有趣，因为它暗示了QFSS任务对问题表征方案有反应。因此，可以合理地预期，QFSS将从联合视觉和语言建模方法的进步中受益并取得进步。

最后，图8显示了一些定性的分割结果。请注意第一行中两个独立的实例分段，它们直观地回答了“有多少个”的问题。

4. Conclusion

在本文中，我们建议将COCO [24]提供的实例分段与VQA [3]中的问题和答案联系起来。收集的链接，命名为视觉问题和分割答案(VQS)，在语义分割和VQA的个体任务之间转移了人类的监督，从而使我们能够以比以前更好的杠杆研究至少两个问题:VQA的监督注意和一个新的以问题为中心的语义分割任务。对于前者，我们通过简单地用一些注意力特征增加多层感知器来获得关于VQA实选择题的最先进的结果。对于后者，我们提出了一种基于掩码聚合的新方法。从长远来看，我们研究了一种基线方法和一种上限方法，假设实例分割是作为预言给出的。

我们的工作是从观察可可的受欢迎程度得到启发的[24]。我们怀疑现有的和看似不同的关于MSCOCO图像的注释是内在联系的。它们揭示了人类对同一视觉场景理解的不同层次和视角。显式地将它们联系起来不仅可以显著地有利于个体任务，还可以显著地有利于统一视觉的总体目标——语言理解。这篇论文只是表面文章。我们将在未来的工作中探索更多类型的注释和更丰富的模型。

Acknowledgement这项工作得到了美国国家科学基金会奖的部分支持，该奖由Adobe系统公司颁发，由英伟达公司颁发。c .甘获得国家基础研究计划(2011CBA00300 &2011CBA00301)和国家自然科学基金(61033001 & 61361136003)部分资助。

你可能感兴趣的:(VQA,vqa,自然语言处理,深度学习,计算机视觉)

使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
大模型算法工程师面试宝典：精选面试题及参考答案全解析，助你备战AI算法工程师岗位！大模型入门学习人工智能产品经理大数据机器学习程序员大模型大模型学习
大模型应该算是目前当之无愧的最有影响力的AI技术。它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等，正成为未来商业环境的重要组成部分。截至目前大模型已超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关面试也是越来越卷。我今天给大家分享一篇大模型的面试题总结，内容较长，喜欢记得收藏、关注、点赞。ii.为什么会出现LLMs复读机问题？出现LLMs复读机问题可能
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http