dsjdjsa

Deep Visual-Semantic Alignments for Generating Image Descriptions 翻译

Abstract
摘要

We present a model that generates natural language descriptions of images and their regions. 
我们提出一个模型来生成图像及其区域的自然语言描述。

Our approach leverages datasets of images and their sentence descriptions to learn about the inter-modal correspondences between language and visual data。
我们的方法可以控制图像数据集和它们的句子描述，以了解语言和视觉数据之间的模式对应关系。

Our alignment model is based on a novel combination of Convolutional Neural Networks over image regions, bidirectional Recurrent Neural Networks over sentences, and a structured objective that aligns the two modalities through a multimodal embedding. 
我们的对齐模型基于图像区域上的卷积神经网络，句子上的双向递归神经网络以及通过多模式嵌入来对齐两种模态的结构化目标的新型组合。

We then describe a Multimodal Recurrent Neural Network architec- ture that uses the inferred alignments to learn to generate novel descriptions of image regions.
然后我们描述一个多模态递归神经网络结构，它使用推断的对齐来学习生成图像区域的新颖描述。

We demonstrate that our alignment model produces state of the art results in retrieval experiments on Flickr8K, Flickr30K and MSCOCO datasets. 
我们证明我们的对齐模型可以在Flickr8K，Flickr30K和MSCOCO数据集上进行恢复实验。

We then show that the generated descriptions significantly outperform retrieval baselines on both full images and on a new dataset of region-level annotations.
然后，我们显示生成的描述在整幅图像和区域级注释的新数据集上均优于检索基线。

1. Introduction
1.介绍

A quick glance at an image is sufficient for a human to point out and describe an immense amount of details about the visual scene [14]. 
快速浏览一幅图像足以让人指出并描述关于视觉场景的大量细节[14]。

However, this remarkable ability has proven to be an elusive task for our visual recognition models. 
然而，这种卓越的能力已被证明是我们的视觉识别模型难以捉摸的任务。

The majority of previous work in visual recognition has focused on labeling images with a fixed set of visual categories and great progress has been achieved in these endeavors [45, 11].
以前的大多数视觉识别工作都集中在用一组固定的视觉类别来标记图像，并且在这些工作中取得了很大的进展[45,11]。

 However, while closed vocabularies of visual concepts constitute a convenient modeling assumption, they are vastly restrictive when compared to the enormous amount of rich descriptions that a human can compose.
然而，虽然关于视觉概念的封闭词汇构成了一个方便的建模假设，但与人类可以构成的大量丰富的描述相比，它们是极其严格的限制性的。

Some pioneering approaches that address the challenge of generating image descriptions have been developed [29, 13]. 
已经发明了一些开创性的方法来解决生成图像描述的挑战[29,13]。

However, these models often rely on hard-coded visual concepts and sentence templates, which imposes limits on their variety.
然而，这些模型通常依赖于硬编码的视觉概念和句子模板，这就对其种类施加了限制。

Moreover, the focus of these works has been on reducing complex visual scenes into a single sentence, which we consider to be an unnecessary restriction.
而且，这些作品的重点在于将复杂的视觉场景缩减为单个句子，我们认为这是一个不必要的限制。

Figure 1. Motivation/Concept Figure: Our model treats language as a rich label space and generates descriptions of image regions.
图1.动机/概念图：我们的模型将语言视为丰富的标签空间，并生成图像区域的描述。


In this work, we strive to take a step towards the goal of
generating dense descriptions of images (Figure 1). 
在这项工作中，我们努力朝着生成图像的密集描述的目标迈进（图1）。


The primary challenge towards this goal is in the design of a model that is rich enough to simultaneously reason about contents of images and their representation in the domain of natural language. 
实现这一目标的主要挑战是设计一个足够丰富的模型，以同时推理图像的内容及其在自然语言领域的表现。

Additionally, the model should be free of assumptions about specific hard-coded templates, rules or categories and instead rely on learning from the training data. 
此外，该模型应该没有关于具体的硬编码模板，规则或类别的假设，而是依赖于从训练数据中学习。

The second, practical challenge is that datasets of image captions are available in large quantities on the internet [21, 58, 37], but these descriptions multiplex mentions of several entities whose locations in the images are unknown.
第二个实际的挑战是图像标题的数据集可以在互联网上大量使用[21,58,37]，但是这些描述复合了几个图像中位置未知的实体的提及。

Our core insight is that we can leverage these large image- sentence datasets by treating the sentences as weak labels, in which contiguous segments of words correspond to some particular, but unknown location in the image. 
我们的核心观点是，我们可以通过将句子视为弱标签来利用这些大型的图像 - 句子数据集，其中连续的单词片段对应于图像中的某个特定但未知的位置。

Our approach is to infer these alignments and use them to learn a generative model of descriptions. Concretely, our contributions are twofold:
我们的方法是推断这些对齐，并使用它们来学习描述的生成模型。 具体来说，我们的贡献是双重的：

We develop a deep neural network model that infers the latent alignment between segments of sentences and the region of the image that they describe.
我们开发了一个深层的神经网络模型，该模型提供了句子之间的部分和他们描述的图像区域之间的潜在对齐。

Our model associates the two modalities through a common, multimodal embedding space and a structured objective.
我们的模型通过一个共同的多模式嵌入空间和一个结构化的目标将这两种模式联系起来。 

We validate the effectiveness of this approach on image-sentence retrieval experiments in which we surpass the state-of-the-art.
我们验证了这种方法在图像句子检索实验中的有效性，其中我们超越了现有技术。

We introduce a multimodal Recurrent Neural Network architecture that takes an input image and generates its description in text. 
我们引入了一种多模态递归神经网络架构，它采用输入图像并在文本中生成其描述。

Our experiments show that the generated sentences significantly outperform retrieval-based baselines, and produce sensible qualitative predictions. 
我们的实验表明，生成的句子明显优于基于检索的基线，并产生明智的定性预测。

We then train the model on the inferred correspondences and evaluate its performance on a new dataset of region-level annotations.
然后，我们根据推断的对应关系对模型进行训练，并在一个新的地区级注释数据集上评估其性能。

We make code, data and annotations publicly available. 
我们公开提供代码，数据和注释。

2. Related Work
2.相关工作

Dense image annotations. 
密集的图像注释。

Our work shares the high-level goal of densely annotating the contents of images with many works before us.  
我们的作品与我们面前的许多作品都有对图像内容进行密集注释的高级目标。

Barnard et al. [2] and Socher et al. [48] studied the multimodal correspondence between words and images to annotate segments of images.
巴纳德等[2]和Socher等[48]研究了单词和图像之间的多模态对应以注释图像的分段。

Several works [34, 18, 15, 33] studied the problem of holistic scene understanding in which the scene type, objects and their spatial support in the image is inferred. 
一些作品[34，18，15，33]研究了整体场景理解的问题，在这个问题中，图像中的场景类型，对象及其空间支持被推断出来。

However, the focus of these works is on correctly labeling scenes, objects and regions with a fixed set of categories, while our focus is on richer and higher-level descriptions of regions.
但是，这些作品的重点在于正确地标注具有固定类别的场景，对象和区域，而我们的重点是对区域的更丰富和更高级的描述。

Generating descriptions. 
生成描述。

The task of describing images with sentences has also been explored。
用句子描述图像的任务也被探索。

A number of approaches pose the task as a retrieval problem, where the most compatible annotation in the training set is transferred to a test image [21, 49, 13, 43, 23], or where training annotations are broken up and stitched together [30, 35, 31]. 
许多方法将任务视为一个检索问题，其中训练集中最兼容的注释转移到测试图像上[21,49,13,43,23]，或者训练注释被分解的地方并缝合在一起[30,35,31]。

Several approaches generate image captions based on fixed templates that are filled based on the content of the image [19, 29, 13, 55, 56, 9, 1] or generative grammars [42, 57], but this approach limits the variety of possible outputs. 
有几种方法基于基于图像内容填充的固定模板[19,29,13,55,56,9,1]或生成语法[42,57]生成图像标题，但是这种方法限制了图像标题可能的产出。

Most closely related to us, Kiros et al. [26] developed a logbilinear model that can generate full sentence descriptions for images, but their model uses a fixed window context while our Recurrent Neural Network (RNN) model conditions the probability distribution over the next word in a sentence on all previously generated words. 
Kiros等人与我们关系最为密切。[26]开发了一个对数线性模型，可以为图像生成完整的句子描述，但是他们的模型使用了一个固定的窗口上下文，而我们的循环神经网络（RNN）模型对已经生成的一个句子中的下一个单词中可能性分布进行了调整。

Multiple closely related preprints appeared on Arxiv during the submission of this work, some of which also use RNNs to generate image descriptions [38, 54, 8, 25, 12, 5].
 Arxiv在提交这项工作时出现了多个密切相关的预印本，其中一些还使用RNN生成图像描述[38,54,8,25,12,5]。

Our RNN is simpler than most of these approaches but also suffers in performance. We quantify this comparison in our experiments.
我们的RNN比大多数这些方法更简单，但也有性能受损。我们在我们的实验中量化这个比较。

Grounding natural language in images. 
在图像中引入自然语言。

A number of approaches have been developed for grounding text in the visual domain [27, 39, 60, 36]. 
已经开发了许多方法来处理视域中的文字[27,39,60,36]。

Our approach is inspired by Frome et al. [16] who associate words and images through a semantic embedding. 
我们的方法受Frome等人的启发。
[16]通过语义嵌入关联词和图像。

More closely related is the work of Karpathy et al.[24], who decompose images and sentences into fragments and infer their inter-modal alignment using a ranking objective. 
更密切相关的是Karpathy等人的工作。[24]，他们将图像和句子分解成片段，并使用排名目标来推断它们的模式间对齐。

In contrast to their model which is based on grounding dependency tree relations, our model aligns contiguous segments of sentences which are more meaningful, interpretable, and not fixed in length.
与他们的基于地面依赖树关系的模型相比，我们的模型对齐连续的句子段更有意义，而且是可解释的并且长度是不固定的。


Neural networks in visual and language domains.
视觉和语言领域的神经网络。

Multiple approaches have been developed for representing images and words in higher-level representations. 
已经开发了多种方法来表示更高级别表示中的图像和文字。

On the image side, Convolutional Neural Networks (CNNs) [32, 28] have recently emerged as a powerful class of models for image classification and object detection [45]. 
在图像方面，卷积神经网络（CNNs）[32,28]最近已经成为一个强大的图像分类和目标检测模型[45]。

On the sentence side, our work takes advantage of pretrained word vectors [41, 22, 3] to obtain low-dimensional representations of words. 
在公共方面，我们的工作利用预训练词向量[41,22,3]来获得词的低维表示。

Finally, Recurrent Neural Networks have been previously used in language modeling [40, 50], but we additionally condition these models on images.
最后，递归神经网络已经被用于语言建模[40,50]，但是我们在图像上另外调整这些模型。

3. Our Model
3.我们的模型

Overview. The ultimate goal of our model is to generate descriptions of image regions.
概述。我们模型的最终目标是生成图像区域的描述。

During training, the input to our model is a set of images and their corresponding sentence descriptions (Figure 2). 
在训练期间，我们模型的输入是一组图像及其相应的句子描述（图2）。

We first present a model that aligns sentence snippets to the visual regions that they describe through a multimodal embedding. 
我们首先提出一个模型，将句子片段与通过多模式嵌入描述的视觉区域对齐。

We then treat these correspondences as training data for a second, multimodal Recurrent Neural Network model that learns to generate the snippets.
然后，我们把这些对应关系作为第二个多模态递归神经网络模型的训练数据，学习生成片段。

3.1. Learning to align visual and language data
3.1 学习调整视觉和语言数据

Our alignment model assumes an input dataset of images and their sentence descriptions. 
我们的对齐模型假定了图像的输入数据集和它们的句子描述

Our key insight is that sentences written by people make frequent references to some particular, but unknown location in the image. 
我们的主要观点是，人们写的句子经常提到一些特定但未知的图像位置。

For example, in Figure 2, the words “Tabby cat is leaning” refer to the cat, the words “wooden table” refer to the table, etc.
例如，在图2中，“虎斑猫正在倾斜”一词指的是猫，“木桌”这个词是指桌子等

 We would like to infer these latent correspondences, with the eventual goal of later learning to generate these snippets from image regions. 
我们想要推断这些潜在的对应关系，最终的目标是后面的学习从图像区域生成这些片段。

We build on the approach of Karpathy et al. [24], who learn to ground dependency tree relations to image regions with a ranking objective. 
我们建立在Karpathy等人的方法上。他们学习将依赖树关系映射到具有排名目标的图像区域。

Our contribution is in the use of bidirectional recurrent neural network to compute word representations in the sentence, dispens- ing of the need to compute dependency trees and allowing unbounded interactions of words and their context in the sentence. 
我们的贡献在于使用双向递归神经网络来计算句子中的单词表示，因为需要计算依赖性树，并且允许单词和它们在句子中的上下文无限的相互作用。

We also substantially simplify their objective and show that both modifications improve ranking performance.
我们也大大简化了他们的目标，并显示这两个修改提高排名表现。

We first describe neural networks that map words and image regions into a common, multimodal embedding. 
我们首先描述将单词和图像区域映射成共同的多模式嵌入的神经网络。

Then we introduce our novel objective, which learns the embedding representations so that semantically similar concepts across the two modalities occupy nearby regions of the space.
然后，我们介绍我们的创新目标，它学习嵌入表示，使两个模式中的语义相似的概念占据空间的附近区域。

3.1.1 Representing images
3.1.1 代表图像

Following prior work [29, 24], we observe that sentence de- scriptions make frequent references to objects and their at- tributes.
继之前的工作[29,24]，我们观察到，句子描述经常提及物体及其属性。

Thus, we follow the method of Girshick et al. 
 因此，我们遵循Girshick等人的方法。

[17] to detect objects in every image with a Region Convolu- tional Neural Network (RCNN).
 [17]用区域卷积神经网络（RCNN）检测每个图像中的物体。

The CNN is pretrained on ImageNet [6] and finetuned on the 200 classes of the ImageNet Detection Challenge [45].
CNN在ImageNet上进行了预先训练[6]，并对ImagNet Detection Challenge [200]的200个类进行了调整。

 Following Karpathy et al. [24], we use the top 19 detected locations in addition to the whole image and compute the representations based on the pixels Ib inside each bounding box as follows:
继Karpathy等人 [24]，除了整个图像，我们使用前19个检测位置，并计算基于每个边界框内的像素Ib的表示如下：

where CNN(Ib) transforms the pixels inside bounding box Ib into 4096-dimensional activations of the fully connected layer immediately before the classifier. 
其中CNN（Ib）在分类器之前立即将边界框Ib内的像素转换成完全连接层的4096维激活。 

The CNN parameters ✓c contain approximately 60 million parameters. The matrix Wm has dimensions h * 4096, where h is the size of the multimodal embedding space (h ranges from 1000-1600 in our experiments). 
CNN参数✓c包含大约6000万参数。 矩阵Wm的尺寸 h⇥4096，其中 h 是多峰嵌入空间的大小（h在我们的实验中在1000-1600之间）。 

Every image is thus represented as a set of h-dimensional vectors {vi | i = 1...20}.
因此，每个图像被表示为一组h维向量{vi | i = 1 ... 20}。

3.1.2 Representing sentences
3.1.2代表句子

To establish the inter-modal relationships, we would like to represent the words in the sentence in the same h-dimensional embedding space that the image regions occupy. 
为了建立模式间的关系，我们希望在句子中用相同的h维嵌入空间表示图像区域。

The simplest approach might be to project every individual word directly into this embedding.
最简单的方法可能是将每个单词直接投影到这个嵌入中。

 However, this approach does not consider any ordering and word context information in the sentence.
但是，这种方法不考虑句子中的任何排序和词语环境信息。

 An extension to this idea is to use word bigrams, or dependency tree relations as pre- viously proposed [24].
这个思想的扩展是使用前面提出的词“bigrams”或依赖关系树关系[24]。

However, this still imposes an arbitrary maximum size of the context window and requires the use of Dependency Tree Parsers that might be trained on unrelated text corpora.
然而，这仍然强加上下文窗口的任意最大大小，并且需要使用可能在不相关的文本语料库上训练的依赖树解析器。

To address these concerns, we propose to use a Bidirec- tional Recurrent Neural Network (BRNN) [46] to compute the word representations. 
为了解决这些问题，我们建议使用双向递归神经网络（BRNN）[46]来计算词语表示。

The BRNN takes a sequence of
N words (encoded in a 1-of-k representation) and transforms each one into an h-dimensional vector.
BRNN需要一系列的N个词（以1的k表示编码）并将每个词转换成h维向量。

 However, the representation of each word is enriched by a variably-sized context around that word. 
然而，每个单词的表示都是围绕这个单词的变化大小来加以丰富的。

Using the index t = 1 . . . N to denote the position of a word in a sentence, the precise form of the BRNN is as follows:
使用索引t = 1。 。 。 N表示一个单词在句子中的位置，BRNN的确切形式如下：

Here,  t is an indicator column vector that has a single one at the index of the t-th word in a word vocabulary. 
这里，t是在单词词汇表中第t个单词的索引处具有唯一一个的指标列向量。

The weights Ww specify a word embedding matrix that we ini- tialize with 300-dimensional word2vec [41] weights and keep fixed due to overfitting concerns.
权重ww指定一个字嵌入矩阵，我们用300维的word2vec [41]权重初始化，并由于过度拟合的担忧而保持固定。

However, in practice we find little change in final performance when these vectors are trained, even from random initialization. 
然而，实际上，当这些向量被训练时，即使从随机初始化，我们也发现最终性能几乎没有变化。

Note that the BRNN consists of two independent streams of pro- cessing, one moving left to right (hft ) and the other right to left (hbt ) (see Figure 3 for diagram).
注意，BRNN由两个独立的处理流组成，一个从左到右（hft），另一个从右到左（hbt）（见图3的图）。

 The final h-dimensional representation st for the t-th word is a function of both the word at that location and also its surrounding context in the sentence.
第t个单词的最终h维表示st是句子中该单词和其周围上下文的函数。

Technically, every st is a function of all words in the entire sentence, but our empirical finding is that the final word representations (st) align most strongly to the visual concept of the word at that location ( t).
从技术上讲，每个st都是整个句子中所有单词的函数，但是我们的经验发现是，最终的单词表示（st）与该单词在该位置（t）的视觉概念最为一致。

We learn the parameters We , Wf , Wb , Wd and the respective biases be, bf , bb, bd.
我们学习参数We，Wf，Wb，Wd和相应的偏差为bf，bb，bd。

A typical size of the hidden rep- resentation in our experiments ranges between 300-600 dimensions. We set the activation function f to the rectified linear unit (ReLU), which computes f : x -> max(0, x).
在我们的实验中隐藏代表的典型大小在300-600维之间。我们将激活函数f设置为整流线性单元（ReLU），计算f：x 7！ max（0，x）。

3.1.3 Alignment objective
3.1.3 对准目标

We have described the transformations that map every image and sentence into a set of vectors in a common h-dimensional space. 
我们已经描述了将每个图像和句子映射到共同的h维空间中的一组向量的转换。

Since the supervision is at the level of entire images and sentences, our strategy is to formulate an image-sentence score as a function of the individual region- word scores. 
由于监督是在整个图像和句子的水平，我们的策略是制定一个图像-句子分数作为个别地区单词分数的函数。

Intuitively, a sentence-image pair should have a high matching score if its words have a confident support in the image.
直观地说，如果一个句子在图像中有一个自信的支持，那么它应该有一个高的匹配分数。

The model of Karpathy et a. [24] interprets the dot product viT st between the i-th region and t-th word as a measure of similarity and use it to define the score between image k and sentence l as:
Karpathy等人的模型[24]将第i个区域和第t个单词之间的点积viT st解释为相似性度量，并用它来定义图像k和句子l之间的分数为：

Here, gk is the set of image fragments in image k and gl is the set of sentence fragments in sentence l.
这里，gk是图像k中的图像片段集合，而gl是句子l中的句子片段集合。

The indices k, l range over the images and sentences in the training set.
指数k，l在训练集中的图像和句子的范围内。

Together with their additional Multiple Instance Learning objective, this score carries the interpretation that a sentence fragment aligns to a subset of the image regions whenever the dot product is positive.
再加上他们的多重实例学习目标，这个分数的解释就是，只要点积是正的，句子片段就与图像区域的一个子集对齐。

We found that the following reformulation simplifies the model and alleviates the need for additional objectives and their hyperparameters:
我们发现，下面的修改简化了模型，减少了对额外目标和超参数的需求：

这里，每个单词st对齐到单个最佳图像区域。正如我们在实验中所展示的，这个简化的模型也导致了最终排名表现的改善。假设k = 1表示相应的图像和句子对，则最终的最大边缘结构损失仍然是：

这个目标鼓励对齐的图像句子对比不对齐的对有更高的分数。

3.1.4 将文本段对齐解码为图像
考虑训练集及其对应句子的图像。我们可以将数量viT st解释为描述图像中任何边界框的第t个单词的非归一化对数概率。但是，由于我们最终希望生成文本片段而不是单个单词，因此我们希望将扩展连续的单词序列与单个边界框对齐。请注意，将每个词独立分配给得分最高的区域的原始解决方案不足，因为这会导致词语不一致地分散到不同的区域。

为了解决这个问题，我们将真正的对齐作为一个马尔可夫随机场（MRF）中的潜在变量来处理，在这个马尔可夫随机场（MRF）中，相邻单词之间的二元相互作用促进了对同一个区域的对齐。具体来说，给定一个包含N个单词的句子和一个包含M个边界框的图像，我们引入潜在的对齐变量aj∈{1。。。 M}为j = 1 … N，并沿着句子在链式结构中形成一个MRF如下：

在这里，β是一个超参数，控制对较长的单词短语的亲和力。这个参数允许我们在单词比对（β= 0）之间进行插值，并且当β很大时，将整个句子对齐到一个单一的最大得分区域。我们通过动态编程将能量最小化以找到最佳对齐方式。这个过程的输出是一组使用文本段注释的图像区域。我们现在描述一种基于这些对应关系生成新词组的方法。

3.2用于生成描述的多模态递归神经网络
在本节中，我们假设一组输入图像及其文本描述。这些可以是完整的图像和他们的句子描述，或区域和文本片段，如前一节所述。关键的挑战是设计一个模型，可以预测给定图像的可变尺寸输出序列。在以前发展的基于递归神经网络（RNNs）的语言模型中[40,50,10]，这是通过定义一个序列中下一个词的概率分布来实现的，给定当前词和前一时间步长。

我们探索一个简单而有效的扩展，它对输入图像内容的生成过程进行了调整。更一般地，在训练期间，我们的多模式RNN将图像像素I和一系列输入向量（x1，…，xT）。然后通过迭代t = 1的下列递归关系到T来计算一系列隐藏状态（h1，…，ht）和一系列输出（y1，…，yt）

在上面的等式中，Whi，Whx，Whh，Woh，xi和bh，bo是可学习的参数，而CNN（c）是CNN的最后一层。输出向量yt保存字典中单词的（非标准化的）对数概率和特殊结束标记的一个附加维度。请注意，我们只在第一次迭代时将图像上下文向量bv提供给RNN，我们发现它比每个时间步都更好地工作。在实践中，我们也发现通过激活函数可以同时通过bv，（Whx xt）。 RNN隐藏层的典型大小是512个神经元。

RNN训练。 RNN训练将一个字（xt），前一个上下文（ht-1）组合起来，以预测下一个字（yt）。我们通过第一步的偏置交互来调整RNN对图像信息（bv）的预测。训练过程如下（参见图4）：我们将h0 =〜0，x1设置为一个特殊的START向量，并将所需的标签y1设置为序列中的第一个字。类似地，我们将x2设置为第一个单词的单词向量，并期望网络预测第二个单词等等。最后，如果x表示最后一个单词，则目标标签被设置为特殊的END标记。成本函数是最大化分配给目标标签的对数概率（即Softmax分类器）。
RNN在测试时间。为了预测句子，我们计算图像表示bv，将h0 = 0，x1设置为START矢量，并计算第一个单词y1的分布。我们从分布中抽取一个单词（或者挑选argmax），将其嵌入向量设置为x2，然后重复这个过程，直到生成END令牌。实际上，我们发现光束搜索（例如光束尺寸7）可以改善结果。

3.3。优化
我们使用SGD以100个图像句子对的小批量和0.9的动量来优化对齐模型。我们使用交叉验证学习率和权重衰减。我们也在所有图层中使用了压缩正则化，除了在重复图层中[59]和在5（重要）下基本上剪切梯度。由于稀有词和普通词（例如“a”或END词）之间的词频差异，生成的RNN更难以优化。我们使用RMSprop [52]获得了最好的结果，这是一种自适应步长的方法，通过其梯度范数的移动平均来缩放每个权重的更新。

4.实验
数据集。我们在实验中使用Flickr8K [21]，Flickr30K [58]和MSCOCO [37]数据集。这些数据集分别包含8,000,31,000和123,000个图像，每个图像都使用Amazon Mechanical Turk进行5个句子的注释。对于Flickr8K和Flickr30K，我们使用1,000个图像进行验证，1,000个用于测试，剩下的用于训练（与[21,24]一致）。对于MSCOCO，我们使用5000个图像进行验证和测试。
数据预处理。我们将所有句子转换为小写，丢弃非字母数字字符。我们对训练集中至少出现5次的单词进行过滤，分别得到Flickr8k，Flickr30K和MSCOCO数据集的2538,7414和8791个单词。

4.1。图像句子对齐评估
我们首先调查推断的文字和图像对齐排名实验的质量。我们考虑一组图像和句子，并通过基于图像 - 句子分数Skl（3.1.3节）的排序给出另一个模式的查询。我们报告列表中距离最近的地面真值结果的中间等级和Recall @ K，其测量在最高K结果中找到正确项目的次数的分数。这些实验的结果可以在表1中找到，并在图5中查找示例。现在我们重点介绍一些外观。

我们的完整模型胜过以前的工作。首先，我们的完整模型（“我们的模型：BRNN”）胜过Socher等人。 [49]谁训练出来的损失是类似的，但使用单一的图像表示和递归神经网络的句子。 Kiros等人也得到了类似的损失，他使用LSTM [20]编码句子。我们用一个相当于CNN（AlexNet [28]）的方法列出了他们的表现，与这个工作中使用的CNN相似[54]，但是他们使用更强大的CNN（VGGNet [47]，GoogLeNet [51]）。 “DeFrag”是Karpathy等人报道的结果。 [24]。由于我们使用不同的词向量，正则化的丢失和不同的交叉验证范围以及更大的嵌入尺寸，我们重新实现了公平比较的损失（“DeFrag的实现”）。与其他使用AlexNets的工作相比，我们的完整模型显示了持续改进。

我们通过简单成本提高了性能。我们努力更好地了解达到这种表现的原因。首先，我们删除了BRNN，并使用了与Karpathy等人所描述的依赖关系树关系。 [24]（“我们的模型：DepTree边缘”）。这个模型与“我们重新实现DeFrag”的唯一区别是3.1.3节介绍的新的，更简单的成本函数。我们看到我们的表述显示了一致的改进。

BRNN优于依赖树关系。另外，当我们用BRNN替换依赖树关系时，我们观察到了额外的性能改进。由于依赖关系表现出比单个词和两个词更好的工作[24]，这表明BRNN正在利用长于两个词的上下文。此外，我们的方法不依赖于提取依赖树，而是直接使用原始单词。

MSCOCO的结果为未来的比较。我们不知道其他公布的MSCOCO排名结果。
因此，我们报告1,000个图像的子集和5000个测试图像的全套集合，以供将来进行比较。请注意，由于Re-call @ K是测试集大小的函数，因此5000个图像数字较低。

定性。从图5的例子可以看出，该模型发现了可解释的视觉 - 语义对应，即使对于小型或相对罕见的物体，如“手风琴”，也是如此。这些可能会被那些只有完整图像的原因的模型所遗漏。

学到的区域和词矢量幅度。我们模型的一个重要特征是它学习调制区域的大小和字嵌入。由于内在的相互作用，我们观察到，像“皮划艇，南瓜”这样具有视觉辨别力的单词的表示具有较高磁性的嵌入向量，这反过来又转化为对图像句子分数的较高影响。相反，停止诸如“现在，简单地，实际上，但是”这样的词被映射到原点附近，这减少了它们的影响。请参阅补充材料中的更多分析。

4.2。生成的描述：Fulframe评估
我们现在评估我们的RNN模型描述图像和区域的能力。我们首先训练了我们的Multimodal RNN在完整图像上生成句子，目的是验证模型足够丰富，以支持从图像数据到单词序列的映射。对于这些完整的图像实验，我们使用更强大的VGGNet图像特征[47]。我们报告用Coco-caption代码[4]计算的BLEU [44]，METEOR [7]和CIDEr [53]得分。每种方法通过测量一个人类写的候选语句

定性。该模型生成图像的合理描述（见图6），尽管我们考虑了最后两个图像的失败情况。第一个预言“黑衬衫的男人在弹吉他”并没有出现在训练集中。然而，“黑衬衫男”出现20次，“吉他付费”出现60次，可能是模型用来形容第一个形象。一般而言，我们发现在训练数据中可以找到相对大部分的生成句子（60％，波束大小为7）。这个分数随着光束尺寸减小而减小;例如，光束大小1降到25％，但性能也变差（例如从0.66到0.61 CIDEr）。

多模RNN优于检索基准。我们的第一个比较是最近邻的检索基线。

在这里，我们注释每个测试图像与一个最相似的训练集图像由L2规范决定的VGGNet [47] fc7功能的句子。从表2可以看出，多重RNN的表现比这种检索方法更胜一筹。因此，即使在MSCOCO中有113,000个训练集图像，检索方法也是不足的。此外，RNN只需要几分之一秒来评估每个图像。

与其他工作比较。自从这项工作的最初提交以来，Arxiv预印本已经提出了几个相关的模型。表2还包括了这些比较。与我们的模型最相似的是Vinyals等。 [54]。与第一步通过偏倚项传递图像信息的工作不同，这些工作将它作为第一个词汇，使用更强大但更复杂的序列学习器（LSTM [20]），不同的CNN （GoogLeNet [51]），并报告模型集合的结果。 Donahue等人[8]使用2层因子LSTM（在结构上类似于毛等人的RNN [38]）。这两种模式似乎比我们的工作更糟糕，但这很可能在很大程度上是由于他们使用不太强大的AlexNet [28]功能。与这些方法相比，我们的模型优先考虑简单性和速度，而且性能稍微低一些。

4.3。生成的描述：区域评估
现在我们根据对齐模型的推导，对图像区域和文本片段之间的对应关系进行多模式RNN训练。为了支持评估，我们使用Amazon Mechanical Turk（AMT）来收集我们只在测试时使用的区域级注释的新数据集。标签界面显示单个图像，并要求注释者（我们每个图像使用九个）绘制五个边界框，并用文本注释。总的来说，我们在MSCOCO测试版本中为200张图片收集了9000个文本片段（即每张图片有45个片段）。片段平均长度为2.3字。示例注释包括“跑车”，“以前坐的夫妇”，“建筑工地”，“三只狗在皮带上”，“巧克力蛋糕”。我们注意到，要求注释的文本摘要与全图像标题中的统计信息不同。我们的区域符号更全面，并且特征很少被认为足以被包含在关于整个图像的单个句子中的突出显示的元素，诸如“加热通风口”，“皮带扣”和“烟囱”。

定性。我们在图7中显示了示例区域模型预测。为了重申任务的难度，例如考虑在图7右侧的图像上生成的短语“带酒杯的桌子”。该短语仅出现在训练集中30次。每次它可能有不同的外观，每一次它可能占用我们的对象边界框中的几个（或没有）。为了生成这个区域的字符串，模型必须首先正确地学习将字符串打底，然后学习生成它。

区域模型优于全帧模型和排名基线。类似于完整的图像描述任务，我们评估这个数据作为一个预测任务从像素的二维数组（一个图像区域）到一系列单词并记录BLEU评分。排名基线检索与BRNN模型判断的每个区域最相容的训练语句子串。表3显示区域RNN模型产生与我们收集的数据最一致的描述。请注意，全帧模型仅在完整图像上进行了训练，因此向较小的图像区域馈送会降低其性能。然而，其句子也比区域模型句子更长，这可能对BLEU评分产生负面影响。句子长度对于用RNN进行控制是非平凡的，但是我们注意到区域模型在所有其他指标上也优于全帧模型：区域/全帧的CIDEr 61.6 / 20.3，METEOR 15.8 / 13.3，ROUGE 35.1 / 21.0 。

4.4 限制
虽然我们的结果令人鼓舞，但多模态RNN模型受到多重限制。首先，模型只能以固定的分辨率生成一个像素输入数组的描述。更明智的做法可能是在图像周围使用多次扫视，以在生成描述之前识别所有实体，它们的相互作用和更广泛的上下文。另外，RNN只通过加性偏差相互作用接收图像信息，这种相互作用已知比较复杂的多重相互作用表现性更差[50,20]。最后，我们的方法由两个独立的模型组成。直接从图像句子数据集到区域级注释，作为端对端培训的单一模型的一部分仍然是一个悬而未决的问题。

5 结论
我们引入了一个模型，基于图像和句子的数据集形式的弱标签生成图像区域的自然语言描述，并且硬编码假设很少。我们的方法提供了一种新颖的排名模型，通过共同的多模式嵌入来对齐视觉和语言模式的各个部分。我们发现，这个模型提供了图像 - 句子排名实验的最先进的表现。其次，我们描述了一种多模态递归神经网络架构，该架构生成可视数据的描述。我们评估了它在全帧和区域级实验的性能，并显示在这两种情况下，多模态RNN都优于检索基线。

你可能感兴趣的:(自然语言,rnn,cnn,深度学习,brnn)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
uniapp 获取各种小程序code 灵魂清零 uniapp 小程序
各种小程序在进入小程序是都需要去获取code才能拿到基础信息，自己记录一下用uniapp开发小程序是获取微信小程序、百度小程序、头条小程序、支付宝小程序的codeVue.prototype.$global={appLogin(){returnnewPromise((resole,reject)=>{varthat=this;varwxLoginUrl=app.globalData.url+"/lo
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include