snow5618

[论文阅读笔记]：LEARNING TO COUNT OBJECTS IN NATURAL IMAGES FOR VISUAL QUESTION ANSWERING

物体计数在VQA任务中的应用

论文地址：https://github.com/Cyanogenoid/vqa-counting
项目地址：https://openreview.net/pdf?id=B12Js_yRb

摘要

Visual Question Answering (VQA) models have struggled with counting objects in natural images so far. We identify a fundamental problem due to soft attention in these models as a cause. To circumvent this problem, we propose a neural network component that allows robust counting from object proposals. Experiments on a toy task show the effectiveness of this component and we obtain state-of-theart accuracy on the number category of the VQA v2 dataset without negatively affecting other categories, even outperforming ensemble models with our single model. On a difﬁcult balanced pair metric, the component gives a substantial improvement in counting over a strong baseline by 6.6%.
到目前为止，视觉问答（VQA）模型一直在努力对自然图像中的对象进行计数。由于这些模型的软性关注，我们确定了一个根本问题。为了解决这个问题，我们提出了一种神经网络组件，该组件允许从对象提议中进行可靠的计数。toy task的实验证明了该组件的有效性，并且我们在VQA v2数据集的数字类别上获得了最新的准确性，而不会负面影响其他类别，甚至在我们的单个模型中也无法达到合奏模型的效果。在一个困难的平衡对度量标准上，该组件在将强大的基线作为基础进行计数时可显着提高6.6％。

1. Introduction

考虑一下计算图1中的猫数的问题。解决该问题涉及几个粗略的步骤：
①了解该类型的实例看起来像什么
②在图像中找到它们
③并将它们加起来。
这是视觉问题解答（VQA）中的常见任务，即回答有关图像的问题，并且被认为是要求人类年龄最低才能回答的任务之一（Antol等人，2015）。

然而，遇到的模型经常问题：当前基于自然图像的VQA模型难以成功地解决数据集偏差之外的任何计数问题（Jabri等人，2016）。？
造成这种情况的一个原因是
①：在广泛使用的软注意力机制中存在一个基本问题（第3节）。
②：与标准计数任务不同，没有要计数的对象的地面事实标签。再加上模型需要能够计算各种各样的对象，并且理想情况下，不应影响非计数问题的性能，VQA中的计数任务似乎非常具有挑战性。
为了使此任务更轻松，我们可以使用来自对象检测网络的对象建议（一个边界框和对象特征对）作为输入，而不是直接从像素中学习。在任何中等复杂的场景中，都会遇到重复计算重叠对象提案的问题。这是许多自然图像中存在的问题，导致在实际场景中计数不准确。我们的主要贡献是可分解的神经网络组件，可以解决该问题，因此可以学习计数（第4节）。与注意力机制一起使用时，此组件避免了柔和注意力的基本限制，同时又产生了强大的计数功能。我们提供了该组件有效性的实验证据（第5节）。在toy数据集上，我们证明了此组件可在各种情况下实现可靠的计数。在VQA v2开放式数据集的数字类别上（Goyal等人，2017），使用计数组件的相对简单的基线模型在不降低性能的情况下优于所有以前的模型-包括大型的最新方法。其他类别的效果

图1 ：有关计算猫咪数量的简化示例。浅色猫被检测到两次，并导致重复的建议。这显示了从注意力权重a到图形表示A的转换，以及该组件的最终目标，每个真实对象只有一个提议。有4个建议（顶点）捕获3个基础对象（虚线组）。有3个相关建议（权重为1的黑色）和1个无关建议（权重为0的白色）。红色边缘标记重复建议之间的对象内边缘，蓝色边缘标记对象之间的主要重复边缘。在图形形式中，对象组，边缘的颜色和顶点的阴影仅用于说明目的；该模型没有直接访问这些对象的权限

2. Related Work

通常，贪婪非最大抑制(NMS)是用来消除重复边界盒。使用它作为模型的一部分的主要问题是它的梯度是分段常数。
各方面不同的变体，例如Azadi等（2017），Hosang等。（2017），以及亨德森和法拉利（2017）的存在。主要区别在于，由于我们对计数感兴趣，因此我们的组件无需针对保留哪些边界框做出离散决策；它输出计数功能，而不是较小的边界框。我们的组件还可以轻松集成到标准的VQA模型中，这些模型可以轻柔地使用注意力，而无需更改其他网络体系结构，并且无需使用真正的边界框进行监督即可使用。

本文模型提高的原因和其他别的论文的计数方法存在的不足

在我们应用我们的方法的VQA v2数据集（Goyal等人，2017）上，在计数问题方面仅取得了很少的进展。准确性的主要提高是由于在安德森（Anderson）等人提出的视觉处理管道中使用了对象建议。（2017）。他们的对象建议网络使用单数和复数形式的类进行训练，例如“tree”与“trees”，这仅允许在感兴趣区域合并后在对象特征中出现原始计数信息。我们的方法的不同之处在于，我们不依赖输入中存在的计数功能，而是使用对象提案中注意力图中存在的信息来创建计数功能。这样做的好处是，它能够计算注意力机制所能分辨的任何事物，而不是仅计数属于具有多种形式的预定类集合的对象。（2018）在VQA v2和Visual Genome的计数问题子集上训练了具有强化学习损失的顺序计数机制。它们的精度略有提高，并且可以获取其模型计算的可解释对象集，但是由于它们的损失不适用于非计数问题，因此尚不清楚其方法是否可以集成到传统VQA模型中。由于他们根据自己的数据集进行评估，因此无法轻易将其结果与VQA中的现有结果进行比较。例如Santoro等人的方法。（2017）和Perez等。（2017）可以成功地依靠合成CLEVR VQA数据集（Johnson et al。，2017），而无需界定框和监督要计数的对象的位置。他们还使用了更多的训练数据（CLEVR训练集中有大约250,000个问题，而VQA v2训练集中有50,000个问题），简单得多的对象和综合性问题结构。更多基于Lempitsky＆Zisserman（2010）的传统方法可以学习生成目标密度图，通过对其进行积分来计算计数。在这种情况下，Cohen等人。（2017年）利用卷积接受域的重叠来提高计数性能。 Chattopadhyay等。（2017）使用一种方法将图像划分为较小的不重叠的块，每个块都单独计数，最后合并在一起。在这两种情况下，卷积接受域或块都可以看作是边界框的集合，边界框的位置固定。请注意，尽管Chattopadhyay等人。（2017）在VQA中的一小部分计数问题上评估了他们的模型，培训设置方面的主要差异使其结果无法与我们的工作相提并论。

3.Problems with soft attention

本节的主要内容是，使用注意力机制之后获得的特征向量不足以进行计数。注意图本身应该被使用，这就是我们在计数组件中所做的。VQA中的模型一直受益于在图像上使用软注意（Mnih等，2014； Bahdanau等，2015），通常用浅层卷积网络实现它学习在特征图中的每个空间位置输出特征向量的权重，该权重首先进行归一化，然后用于在空间位置上执行加权总和以生成单个特征向量。但是，软空间注意力严重限制了模型进行计数的能力。

软注意力限制模型计数能力的原因案例

请考虑为两个图像计算猫的数量的任务：在干净的背景上显示一只猫的图像以及由两个并排组成的图像第一张图片的副本。我们将描述的内容既适用于空间特征图又适用于对象建议集，但为简单起见，我们将重点放在后一种情况。使用对象检测网络，我们在第一幅图像中检测到一只猫，在第二幅图像中检测到两只猫，从而为所有三个检测生成相同的特征向量。然后，注意机制为同一只猫的所有三个实例分配相同的权重。
用于注意力权重的通常归一化是softmax函数，该函数将权重归一化为1。这就是问题所在：第一个图像中的猫的归一化权重为1，但是第二个图像中的两只猫现在每个都归一化重量为0.5。在加权和之后，我们有效地将第二张图像中的两只猫平均为一只猫。结果，在加权和之后获得的特征向量在两个图像之间完全相同，并且我们已经从关注图中丢失了有关可能计数的所有信息。任何将权重归一化为1的方法都会遇到这个问题。

多重瞥见（Larochelle＆Hinton，2010）——注意机制输出的注意权重集或注意的几个步骤（Yang等，2016; Lu et al。，2016）并没有解决这个问题。每个瞥见或步骤都不能将每个对象分开，因为赋予一个特征向量的注意力权重不取决于要关注的其他特征向量。尽管迄今为止尚未发现对后者的计数能力有明显改善，但Hard注意（Ba等，2015； Mnih等，2014）和structured注意（Kim等，2017）可能是解决问题的办法。（Zhu et al。，2017）。 Ren＆Zemel（2017）通过限制注意力一次只在一个边界框内工作来规避问题，这与我们使用对象建议特征的方法非常相似，如果不对权重进行归一化，则输出特征的规模取决于检测到的对象数。在一张有10只猫的图像中，输出特征向量将按比例放大10。由于深度神经网络通常对比例非常敏感-体重初始化和激活的比例通常被认为非常重要（Mishkin＆Matas，2016）并且分类者必须了解所有特征的联合缩放与计数有某种关系，这种方法对于计数对象是不合理的。 Teney等人证明了这一点。（2017），他们提供了乙状结肠归一化的证据，这不仅会稍微降低非数字问题的准确性，而且也无助于计数。

4.Counting Component 计算组件

在本节中，我们描述了一种从注意力权重进行计数的可区分机制，同时还处理了重叠的对象提议以减少对象重复计数的问题。这涉及一些重要的细节，以产生尽可能准确的计数。图1展示了主要思想，图2和图3展示了两个主要步骤。我们的这个组件不仅可以计数还可以继续利用软注意力的好处。我们处理重叠对象提案的关键思想是将这些对象提案转换为基于重叠方式的图形。然后，我们以特定方式删除和缩放边缘，以便恢复对基础对象数量的估计。
我们的总体策略是主要针对完全重叠或完全不同的完美注意图和边界框的不现实极端情况设计组件。通过引入一些参数并且仅使用可微分的运算，我们使模块能够在这些极端情况下的正确行为之间进行插值，以处理更实际的情况。

这些参数负责以适合给定数据集的方式处理注意力权重和部分边界框重叠的变化。为此，我们使用了几个分段线性函数f1，…。。。，f8作为激活函数（在附录A中定义），用域和范围[0，1]近似任意函数。学习了这些函数的形状，以处理处理重叠提案所必需的特定非线性相互作用。通过它们的参数化，我们强制fk（0）= 0，fk（1）= 1，并且它们是单调递增的。前两个属性是必需的，以便我们明确处理的极端情况保持不变。在这些情况下，fk仅应用于0或1的值，因此可以安全地忽略激活函数以了解组件如何处理它们。通过强制单调性，我们可以确保，例如，注意图中的增加值永远不会导致计数减少的预测。

4.1 INPUT

给定对象提案的一组功能，注意力机制会根据问题为每个提案产生权重。计数组件将n个最大关注权重a = [a1,…,an] T及其对应的边界框b = [b1,…,bn] T作为输入。我们假设权重位于区间[0，1]中，这可以通过应用逻辑函数轻松实现。

我们的两个假设

①：在我们明确处理过的极端情况下，我们假设当第i个提案包含相关对象时，注意力机制将为ai分配值为1，否则将其分配0。这与通常的软注意力机制所学的内容一致，因为它们会为相关输入产生更高的权重。
②：我们还假设两个对象建议完全重叠（fully Overlap）（在这种情况下，它们必须显示相同的对象，因此获得相同的注意力权重），或者它们完全不同(fully distinct)（在这种情况下，它们显示不同的对象）。

请记住，尽管我们进行这些假设以使行为的推理更容易，但是在不应用假设的情况下，激活函数中的学习参数旨在处理更现实的情况。

现在，问题不再是部分重叠(partially overlapping)提案，而是变成以可区分的方式处理基础对象的精确重复(extract duplicate)提案。

4.2 Deduplication

我们首先将注意力权重向量a转换为更容易利用边界框的图形表示。因此，我们计算注意权值的外积，得到注意矩阵

$A ∈R^{n×n}$ 可解释为加权有向图的邻接矩阵。在这个图中，第i个顶点表示与ai相关的对象建议，并且任意一对顶点(i,j)之间的边的权值为 $a_ia_j$ 。在 $a_i$ 实际上为0或1的极端情况下，products等同于逻辑和操作符。由此可以得出，只包含满足 $a_i = 1$ 的顶点的子图是一个具有自循环的完全有向图。

例如：[a1,a2,a3,a4,a5]=[1,0,1,0,1]则包含a1,a3,或者a5的子图是一个完全有向图，如下：
$\boldsymbol{A} =[a_1,a_2,a_3,a_4,a_5]^T[a_1,a_2,a_3,a_4,a_5] = \left( \begin{array}{cccc} 1 & 0 &1 & 0 & 1\\ 0 & 0 & 0 & 0 & 0 \\ 1 & 0 &1 & 0 & 1\\ 0 & 0 & 0 & 0 & 0 \\ 1 & 0 &1 & 0 & 1\\ \end{array} \right)$
对应的图如下：

在这个表示中，我们的目标是消除边，在概念上，潜在的真实对象（而不是提议对象）是完整子图的顶点。
为了将这个图转换成一个计数，回想一下，在一个带有自循环的完整有向图中，边的数量 $∣ E ∣$ 与顶点的数量 $∣ V ∣$ 有关—— $E| = |V|^2$ 。 $∣ E ∣$ 可以通过对邻接矩阵中的项求和来计算（sum(A) = 9）， $∣ V ∣$ 就是这个计数。
注意: 当 $∣ E ∣$ 被设为 $A$ 的和时， $\sqrt{|E|}$ = $\sum_ia_i$ =(a1+a2+a3+a4+a5=3)成立。这个方便的属性意味着，当所有建议都完全不同时，组件可以输出与默认情况下简单地对原始注意权重求和相同的结果(当边的数量等于A的和时，其实A就是01矩阵，和的数就是原始注意权重列表中1的个数，就是原始注意权重求和的结果)
为了实现我们的目标，需要消除两种类型的重复边缘:对象内边缘和对象间边缘（意思是消除自循环的边和两顶点间的重复边？）

4.2.1 Intra-object edges

第一步：首先，我们消除了单个底层对象的重复建议之间的对象内边缘。

为了比较两个边界框，我们使用通常的相交-合并(IoU)度量。我们定义距离矩阵 $D∈R^{n×n}$ 为

$D$ 也可以解释为一个邻接矩阵。它表示一个到处都有边的图，除非边连接的两个边界框会重叠

通过将距离矩阵与注意力矩阵逐元素相乘，可以删除对象内边缘(如图2)

图2:通过用距离矩阵 $D$ 掩蔽注意矩阵 $A$ 的边来去除对象内边缘（intra-object edges）。黑顶点现在形成了一个没有自循环的图。这个自循环需要在以后再加回来。
这个图中[a1,a2,a3,a4]=[1,1,1,0] $\boldsymbol{A} =[a_1,a_2,a_3,a_4]^T[a_1,a_2,a_3,a_4] = \left( \begin{array}{cccc} 1 & 1 &1 & 0 \\ 1 & 1 &1 & 0 \\ 1 & 1 &1 & 0 \\ 0 & 0 & 0 & 0 \\ \end{array} \right)$
$\boldsymbol{D} = \left( \begin{array}{cccc} 0& 1 &1 & 1 \\ 1 &0 &0 & 1 \\ 1 &0 &0 &1 \\ 1 & 1 & 1 & 0 \\ \end{array} \right)$
$\hat A = A*B= \left( \begin{array}{cccc} 0& 1 &1 & 0\\ 1 &0 &0 & 0\\ 1 &0 &0 &0 \\ 0 & 0& 0& 0 \\ \end{array} \right)$

$\hat A$ 不再有自循环了，所以我们需要在后面把它们加回来以满足 $E| = |V|^2$ 。请注意，我们开始使用前面提到的激活函数来处理 $A$ 和 $d$ 的区间(0,1)中的中间值。它们调节了不接近于0或1的注意力权重的影响以及部分重叠的影响

4.2.2 Inter-object edges

第二步：我们消除了不同底层(underlying)对象的重复建议之间的对象边界——对象间边缘

主要思想（如图3所示）是计算与每个单个对象相关联的投标的数量，然后按该数量缩小其相关边缘（与该顶点相连的顶点）的权重。如果一个对象有两个提议，则涉及这些提议的边应按0.5缩放（）。本质上，这是对每个基础对象内的投标求平均值，因为我们仅使用边缘权重之和来计算最后的计数。从概念上讲，这可将一个对象的多个提议减少到所需的一个。由于我们不知道某个对象属于多少个提案，因此我们必须对此进行估算。我们通过使用相同对象的提议相似的事实来做到这一点。

图3:删除重复inter-object边缘通过计算每个顶点的比例因子和扩展 $\hat A'$ 相应。 $\hat A'$ 是 $\hat A$ 自循环已经添加。一个顶点的比例因子是通过计算有多少顶点向外延伸到同一个顶点集;右边的两个建议的所有边都被缩放了0.5(由黑色变成灰色)。这可以看作是平均每个对象内的建议，相当于在一个总和下删除重复的建议。

请记住， $\hat A$ 在同一对象的建议之间没有自环或边。结果，当且仅当提议相同时， $\hat A$ 中的两个非零行相同。如果两行至少在一个条目中不同，则一个提案与另一个提案不重叠的提案重叠，因此它们必须是不同的提案
这意味着，为了比较行，我们需要一个相似度函数，该函数满足以下条件:当行与行没有任何差异时，取值为1;如果行与行至少有一处不同，取值为0。我们定义了建议i和j之间可微的相似性

其中：
与 $\hat A$ 相同，除了具有不同的激活函数。

比较提案i与j的行，在初始实验中，此术语代替
对于不准确的边界框更具有鲁棒性

请注意，当只有一个提议要计数时， $f_3(1- |a_i -a_j| )$ 项处理边缘情况。由于 $X$ 没有自环，因此在这种情况下 $X$ 仅包含零，这导致与 $a_i = 1$ 对应的行与 $a_{j != i} = 0$ 的行错误地相似。通过比较该术语的注意力权重。
现在，我们可以检查两个提议的相似程度，计算任何行与任何其他行相同的次数，并为每个顶点 $i$ 计算比例因子 $s_i$

计算的时间复杂度 $s = [s_1,...,s_n ]^T$ 是 $Θ(n^3)$ ，由于有 $n^2$ 行对和 $Θ (n)$ 操作来计算任何一对行的相似度，

由于这些缩放因子适用于每个顶点，因此我们必须使用来将 $s$ 扩展为矩阵外部乘积，以便缩放每个顶点的传入和传出边缘。我们还可以重新添加自环，也需要按 $s$ 进行缩放。然后，计数矩阵 $C$ 为

其中diag(·)将一个向量展开成一个对角矩阵，该向量在对角上

自循环的缩放涉及到一个不明显的细节,回想一下被删除的对角线,当从 $A$ 到 $\hat A$ 时，包含条目 $f_1(a点乘 a)$ 。但是请注意，我们将对角线缩放为s而不是 $(s 点乘 s)$ 。
这是因为对象间边缘的数量与每个对象的建议数量成二次关系，而自循环的数量仅成线性关系

4.3 Output

在总和的作用下，C现在相当于一个包含所有相关对象的自循环的完整图，而不是像最初期望的那样包含相关建议
为了把 $C$ 变成一个计数 $c$ ，我们设 $=\sum_{i,j}C_{ij}$ 如前所述,然后

我们通过实验证明，当我们的极端情况假设成立时， $c$ 始终是一个整数，等于正确的计数，而不管重复的对象提议的数量

为了避免在对象数量较大时出现伸缩性问题，我们将这个单一特性转换为几个类，每个类对应一个可能的数量。因为我们只使用具有最大n个权值的对象建议，所以预测的计数c最多可以是 $n$ 。我们定义输出为 $o = [o_1,...,o_n]^T$
如下：
当 $c$ 是一个整数时，这会导致一个向量在计数的索引处为1，其他地方为0，并且当计数落在两个整数之间时，两个对应的单热向量之间有一个线性插值。

4.3.1 Output Confidence

最后，我们可以考虑用接近0或接近1的 $a$ 和 $D$ 的值进行预测，这样会比很多接近0.5的值更可靠——毕竟我们是显式地处理这些值的。为了体现这一思想，我们在区间[0,1]中用置信值对 $o$ 进行标度。
我们定义 $p_a$ 和 $p_D$ 是到0.5的平均距离。选择0.5并不重要，因为模块可以通过更改 $f_6(x) = 0.5和f_7(x) = 0.5$ 来更改它
则置信度缩放分量的输出为:

总之，我们只使用可扩散的操作来删除对象建议，并获得代表预测计数的特征向量。这样就可以很容易地集成到任何具有软注意力的模型中，使模型能够从注意力图中计数。

5. 实验

5.1 Toy task

首先，我们设计一个简单的玩具任务来评估计数能力。该数据集仅用于评估计数的性能。因此，我们将跳过任何不直接相关的处理步骤，例如输入图像的处理。附录D中给出了来自此数据集的样本。分类任务是根据一组边界框和相关的关注权重来预测真实对象的整数计数 $\hat c$ ，该对象均匀地绘制为0到10（含0和10）。将10个边长为 $l \in （ 0 ， 1]$ 的正方形边界框放置在边长为单位的正方形图像中，从 $U (0 ， 1 - l)$ 均匀绘制其左上角的x和y坐标，以使这些框l用于控制边界框的重叠：较大的 $l$ 导致固定数量的对象被更紧密地包装，从而增加了重叠的机会。是真正的边界框。边界框的分数是它与任何真实边界框的最大 $I o U$ 重叠。然后，注意力权重是分数和从 $U （ 0 ， 1 ）$ 得出的噪声值之间的线性插值，其中 $q \in [0 ， 1]$ 控制权衡取舍q是注意力噪声参数：当q为0时，没有噪声，当q为1时，没有信号；增大q也会间接模拟边界框的不精确放置我们将计数组件与简单的基线进行比较，该基线简单地将注意力总和对权重进行求和，然后使用公式8将总和转换为特征向量。这两个模型之后都进行了线性投影，投影到0至10级（含0和10）以及softmax激活。他们使用Adam（Kingma＆Ba，2015）进行了1000次迭代的交叉熵损失训练，学习率为0.01，批处理大小为1024。

图4中显示了在将q固定为各种值的同时改变l的结果，反之亦然。无论l和q如何，在大多数情况下，计数组件的性能都比基线好，通常情况下明显如此。特别是当噪声低时，该组件可以非常成功地处理l的高值，这表明它实现了对重叠提案提高鲁棒性的目标。只要重叠部分受到限制，该组件还可以适当地处理中等噪声水平。当l和q都很高时，性能与基线紧密匹配，这可能是由于这些参数设置的难度很高，因此几乎没有信息可以提取

我们还可以查看激活函数本身的形状（如图5和附录C所示），以了解行为随数据集参数的变化如何变化。为简单起见，我们将描述限制在两个最容易解释的函数上f1表示注意力权重，f2表示边界框距离。
当增加边长时，f1的“台阶”高度降低以补偿通常更大的程度重叠的边界框。
对于f2可以看到类似的效果：当l较低时-需要部分成对的距离–当部分重叠很有可能是伪造时–会考虑变化，并且考虑到l较高时建议将其视为不同的足够小的距离。
在l的最大值处，由于所有事物都与所有事物重叠，因此在剩余的重叠中几乎没有信号，这解释了为什么f2返回这些参数的默认线性初始化。
当改变噪声量时，无噪声f1类似于阶跃函数，其中阶跃开始时接近x = 1，并且在阶跃之后取接近1的值。由于在没有噪音的情况下，一个真实的建议将始终具有1的权重，
因此可以安全地将任何低于此建议的零归零。随着噪声的增加，x和f1（x）的这一步都远离1，从而在边界框属于真实对象时捕获不确定性。对于较低的q，f2认为一对建议对于较低的距离是不同的，而对于较高的q，f2遵循更呈S形的形状。可以通过模型来解释这一点，该模型通过要求更长的距离才能将提案视为完全不同，从而将精确的边界框放置的不确定性考虑在内。

图5:对于数据集中变化的边界框边长(左)或噪声(右)，经过训练的激活函数f1(注意权重)和f2(边界框距离)的形状在0.01步长中变化。最佳彩色观看效果

5.1.1 Results

5.2 VQA

VQA v2 (Goyal et al.， 2017)是VQA v1数据集(Antol et al.， 2015)的更新版本，该数据集更加注意通过平衡对来减少数据集的偏差:对于每个问题，将识别出该问题答案不同的一对图像。这个数据集上的标准精度度量通过对所有10个选择-9个人类答案子集的min(1/3agreeing，1)进行平均来解释人类答案中的分歧，其中同意是人类回答中同意给定答案的数量。这可以证明等于min(0.3同意，1)没有平均。
我们使用了Kazemi & Elqursh(2017)的强VQA基线的改进版本作为基线模型(详见附录B)。我们没有对该基线进行任何调整，以最大限度地提高它与计数模块基线之间的性能差异。为了用计数组件来扩充这个模型，我们在softmax归一化之前提取第一次注意瞥见(基线中有两个)的注意权重，然后将它们输入到计数组件中运用logistic函数。由于Anderson等人(2017)的对象建议特征从每幅图像10到100不等，使用的top-n建议的数量自然是10。组件的输出被线性投影到分类器的隐含层的同一空间，然后再进行ReLU激活，批量归一化，加上隐含层的特征

5.2.1 Results

表1，在官方的VQA v2排行榜上显示结果。与基线结果相比，我们的组件的基线在数字问题上具有明显更高的准确性，而不会影响其他类别的准确性。尽管我们的单模型基线大大低于最先进的水平，但通过简单地添加计数成分，我们在数字类别上甚至优于Zhou等人(2017)的8模型集合。我们期待在加入他们的技术来提高注意力权重的质量时，数字的准确性会有进一步的提高，特别是在目前最先进的模型遭受我们在第3节中提到的计数问题的时候。在附录E中显示了一些计数组件中的输入和激活的定性例子。
表1:主要模型的VQAv2结果及我们的结果。标记为(en .)的条目是模型的集合。在本文写作时，我们的带有计数模块的模型在所有条目中排名第三。这里列出的所有模型都使用了对象建议特性，并在训练集和验证集上进行了训练。性能最好的集成模型使用额外的预先训练过的单词嵌入，而我们并不使用。

我们还在表2所示的VQA v2验证集上评估了我们的模型。这使我们仅考虑数字问题中的计数问题，因为数字问题包括诸如“几点了？”之类的问题。也一样我们将以“多少”开头的任何问题视为计数问题。正如我们预期的那样，在计数问题子集上使用计数模块的好处通常要比在数量问题上更高。此外，我们尝试一种方法，我们将注意力模块的平均值作为评分，然后通过单次编码剩余的提案数量，简单地用NMS替换计数模块。基于NMS的方法使用的IoU阈值为0.5，并且没有基于验证集性能的评分阈值，在基线上不会有所改善，这表明NMS的分段梯度是学习VQA计数的主要问题，反之，能够通过计数模块进行区分有很大的好处。

此外，正如Teney等人(2017)所提出的，我们可以评估相对于平衡对的准确度:两个问题的VQA准确度均为1.0的平衡对的比率。这是一个更加困难的度量，因为它需要模型找到图像之间的微妙细节，而不是依赖于数据集中的问题偏差。首先，注意到所有平衡对的精度与它们各自的VQA精度相比是如何大大降低的。更重要的是，计数模块的绝对精度改进仍然充分体现在更具挑战性的度量上，这进一步证明了该组件可以正确地计数，而不是简单地拟合数据集的偏差。
在查看训练模型的激活函数时，如图9所示，我们发现它们的一些特征与玩具数据集的高噪声参数化是相同的。这表明，目前的注意机制和对象建议网络仍然非常不准确，这解释了可能是小的增加的表现。这提供了进一步的证据，表明相对于目前70%以上的顶级模型的整体VQA精度，平衡配对精度可能是更能反映当前VQA模型表现如何的衡量标准

6.总结

在了解了为什么VQA模型难以计数时，我们设计了一个计数组件，该组件通过可区分的边界框重复数据删除来缓解此问题。只要该组件仍像VQA v2上所有当前的顶级模型那样继续受到关注，就可以轻松地将该组件与VQA模型中的任何将来改进一起使用。它也可以在VQA之外使用：对于许多计数任务，只要有按建议的计分方式（例如学会使用），它就可以使基于对象建议的方法在没有地面真实对象的情况下工作。分类分数）和一对提案有多不同的概念。由于组件中的每个步骤都有明确的用途和解释，因此激活功能的学习权重也是可以解释的。计数组件的设计是一个示例，展示了如何通过将归纳偏差编码到深度学习模型中，在只有相对较少的监管信息的情况下如何解决诸如对任意对象进行计数之类的挑战性问题。请注意，VQA v2需要当前模型所没有的通用技能。为了在该数据集上取得进展，我们提倡着重于了解模型当前的缺点，并找到减轻这些缺点的方法。

7.附录

附录A

附录A：

附录B

附录B：

附录C

附录C：

附录D

附录D：

附录E：

附录E：

你可能感兴趣的:(神经网络,pytorch,视觉问答,python,计算机视觉)

Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
【论文阅读】MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型勤奋的小笼包论文阅读语言模型人工智能自然语言处理 chatgpt
MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO：用临床感知多模态偏好优化调整医学视觉语言模型gitgub:地址1.
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
Hugging Face 模型格式全解析：从 PyTorch 到 GGUF mingo_敏 Deep Learning pytorch 人工智能 python
HuggingFace模型格式全解析：从PyTorch到GGUFHuggingFace生态支持多种模型格式，以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络：1.PyTorch原生格式（.pt/.pth）特性：直接保存PyTorch的state_dict（模型参数）或完整模型（含结构）。兼容性强，与PyTorch训练/推理流程深度集成。文件体积较大，加载速度较慢，存在安全
python练习3：输入某年某月某日，判断这一天是这一年的第几天？柯.姐姐 python
#输入某年某月某日，判断这一天是这一年的第几天？list=[0,31,59,90,120,151,181,212,243,273,304,334]year=int(input('请输入年份：'))month=int(input('请输入月份：'))day=int(input('请输入天：'))ifmonth>0andmonth2:result=result+1print("这是第%d天"%resu
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
python进阶，类的继承，封装，多态，super 胡萝卜糊了 python 开发语言
#单继承#子类只继承一个父类classPerson:defsay(self,value):print('say:',value)defwalk(self,value):print('walk:',value,'km')#Student类继承PersonclassStudent(Person):defstudy(self,value):print('study:',value)#Teacher类继承
python进阶，迭代器和生成器，函数式编程，闭包，装饰器胡萝卜糊了 python 开发语言
l=[1,2,3,4]it=iter(l)print(next(it))print(next(it))print(next(it))print(next(it))#while循环l=[1,2,3,4]len=len(l)i=0it=iter(l)whilei=self.end:raiseStopIterationself.current+=1returnself.current-1it=MyIte
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
Day6：python面向对象编程——构建可扩展的订单管理系统 weixin_44650422 python 开发语言
目标：掌握类与对象的核心概念，实现模块化的订单业务逻辑一、类与对象：订单管理系统核心1.基础订单类classOrder:"""订单基类"""def__init__(self,order_id,customer):self.order_id=order_id#订单号self.customer=customer#客户名self.items=[]#商品列表self.total=0.0#总金额defadd
python assert()函数欢天喜地小姐姐 python编程学习 python
1.断言函数作用断言函数是对表达式布尔值的判断，要求表达式计算值必须为真。可用于自动调试。如果表达式为假，触发异常；如果表达式为真，不会报错。2.使用assert判断数组是否相等np.array.any()和numpy.array.all()np.array.any()是或操作，任意一个元素为True，输出为True。np.array.all()是与操作，所有元素为True，输出为True。当我们
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
“轻松一键生成 AI 图像：Stable Diffusion Online 带来革命性视觉创意体验！“ ai小精灵人工智能 stable diffusion 文心一言 AI作画 chatgpt
StableDiffusionOnline正在为AI图像生成领域树立新标准，将复杂的功能与便捷直观的用户体验相结合。历史上，StableDiffusion的部署步骤带来了重大挑战，特别是对于技术新手而言。然而，StableDiffusionOnline消除了这些障碍，提供了一个既适合新手也适合资深专业人士的酷炫界面。什么是StableDiffusionOnline？StableDiffusionO
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少