饿了就干饭

【CVPR2020 image caption】读Meshed-Memory Transformer for Image Captioning

论文信息

论文名称：Meshed-Memory Transformer for Image Captioning（用于图像描述的带存储器的网状Transformer）
原论文地址：下载地址
官方开源代码地址：代码
本篇博客参考文章：
1、[CVPR2020] Meshed-Memory Transformer for Image Captioning
2、论文笔记：Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020

全文翻译

Abstract
基于transformer的架构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而，它们在图像描述等多模态上下文中的适用性在很大程度上仍未得到充分探索。为了填补这一空白，我们提出了M2一个带有内存的网状Transformer，用于图像描述。该体系结构改进了图像编码和语言生成步骤:它集成学习到的先验知识学习图像区域之间关系的多级表示，并在解码阶段使用网状连接来利用低、高级特征。实验中，我们研究了M2Transformer的性能和不同的完全注意模型，并与 recurrent使用的模型进行了比较。在COCO上进行测试时，我们的建议在“卡帕西”测试分割和在线测试服务器上实现了单模型和集成配置的新状态。我们也评估它在描述训练集中看不见的物体时的表现。训练模型和代码复制实验是公开的:https://github.com/aimagelab/
meshed-memory-transformer.
1. Introduction
图像标注是用自然语言描述图像的视觉内容的任务。因此，它需要一个算法来理解和建模视觉元素和文本元素之间的关系，并生成一个输出单词序列。这通常通过循环神经网络模型来解决[40,15,43,42,7]，其中语言的顺序性质是用rnn或lstm的循环关系来建模的。为了建模图像区域、单词和最终标签[20]之间的关系，添加注意力或图状结构[46]经常被添加到递归[43,12]中。

除了卷积语言模型[5]的研究之外，这种模式在过去几年中一直是主要的方法，但是[5]并没有成为主要的选择。最近出现的充分关注模型,复发的关系放弃了自我关注的使用,提供了独特的机会在设置和序列建模表演,作证的Transformer[37]和Bert[8]模型及其应用[33]检索和视频理解[35]。此外，这种设置还提供了新颖的架构建模功能，这是注意力操作符第一次以多层和可扩展的方式使用。然而，图像字幕的多模态性质要求特定的框架，不同于那些用于理解单一的模态。

在此前提下，我们研究了一种全新的图像描述方法的设计。我们的架构从用于机器翻译的Transformer模型[37]中获得灵感，并结合了两个与之前所有图像字幕算法相关的关键创新点:
(i)图像区域及其关系以多级方式编码，其中考虑了低级和高级关系。当建模这些关系时，我们的模型可以通过使用持久记忆向量来学习和编码先验知识。
(ii)句子的生成采用多层架构，利用低级和高级的视觉关系，而不仅仅是视觉形态的单一输入。这是通过一个学习的门控机制来实现的，该机制在每个阶段权重多级别的贡献。由于这在编码器和解码器层之间创建了一个网格连接模式，我们将我们的模型命名为网格内存转换器(mesh-memory Transformer，简称M2 Transformer)。图1描述了架构的模式。
通过实验，我们探索了不同的全注意基线和最近的建议，获得了关于全注意模型在图像字幕中的表现的见解。在COCO基准测试中，我们的M2 Transformer在“卡帕西”测试集上达到了一个新的先进水平，无论是单模型还是整体配置。最重要的是，它超过了在线测试服务器上的现有提议，在已发布的算法中排名第一。
的贡献。综上所述，我们的贡献如下:
Contributions.
•我们提出了一种全新的 fully-attentive图像描述算法。我们的模型封装了一个用于图像区域的多层编码器和一个生成输出句子的多层解码器。为了开发低级和高级的贡献，编码和解码层以网状结构连接，并通过可学习的门控机制进行加权;
•在我们的视觉编码器中，图像区域之间的关系以多层次的方式编码，利用学到的先验知识，这是通过持久记忆向量建模;
•我们展示的M2变压器超越了所有先前的图像字幕建议，实现了在线COCO评估服务器上的一个新状态;
•作为补充贡献，我们使用最近提出的nocaps数据集进行实验，比较不同的fully-attentive的图像字幕架构，并验证我们的模型在新对象字幕上的性能。最后，为了提高再现性，促进该领域的新研究，我们将公开所有实验的源代码和训练过的模型。
3. Meshed-Memory Transformer
我们的模型可以在概念上分为编码器模块和解码器模块，它们都是由一堆attentive的层组成的。编码器负责处理输入图像的区域并设计它们之间的关系，解码器则从每个编码层的输出中逐字读取，生成输出描述。所有模态内和跨模态交互之间的词和图像级特征建模通过缩放点积注意，没有使用 recurrence。注意操作三组向量，即一组查询Q、键K和值V，根据查询和键向量之间的相似度分布，取值向量的加权和。在标量点积注意的情况下，算子可以被正式定义为

其中Q是一个有nq个查询向量的矩阵，K和V都包含了nk个键向量和值向量，三种向量都有同样的维度，d是一个缩放因子。
3.1. Memory-Augmented Encoder
给定从输入图像中提取的一组图像区域X，可以通过Transformer[37]中使用的自注意操作来获得X的置换不变编码。在这种情况下，查询、键和值是通过线性投影输入特征获得的，operator可以定义为
where Wq, Wk, Wv are matrices of learnable weights.
self-attention operator的输出是一组新的元素S(X)，与X具有相同的基数，其中X的每个元素都被替换为值的加权和，即输入的线性投影(Eq. 1)。

值得注意的是，attentive权值仅仅依赖于输入集本身的线性投影之间成对的相似性。因此，self-attention operator可以被视为一种编码输入集中的成对关系的方法。当使用图像区域(或从图像区域派生的特征)作为输入集时，S(·)可以自然地对理解输入图像之前描述它所需的区域之间的成对关系进行编码。

然而，自我注意定义中的这种特性有一个显著的局限性。因为每件事都仅仅依赖于成对的相似性，所以自我注意不能模拟图像区域之间关系的先验知识。例如，给定一个区域编码一个人，一个区域编码一个篮球，在没有任何先验知识的情况下，将很难推断出球员或游戏的概念。同样，给定编码鸡蛋和烤面包的区域，我们可以通过对关系的先验知识很容易地推断出这幅图描绘的是一顿早餐。

Memory-Augmented Attention. 为了克服自我注意的这种局限性，我们提出了记忆增强注意操作。在我们的建议中，用于自我注意的键和值的集合被扩展为附加的“槽”，它可以编码先验信息。为了强调先验信息不应依赖于输入集X，额外的键和值被实现为简单可学习的向量，可以直接通过SGD更新。形式上，该operator定义为:

其中Mk和Mv是有着nm行的可以学习的矩阵，[·, ·] indicates concatenation.直观地说，通过添加可学习的键和值，通过注意，将有可能检索尚未嵌入x的已学习知识。同时，我们的公式保持查询集不变。
就像 self-attention operator一样，我们的记忆增强注意可以多头运用。在本例中，记忆增强注意操作重复进行h次，每个头部使用不同的投影矩阵Wq、Wk、Wv和不同的可学习记忆槽Mk、Mv。然后，我们连接来自不同头部的结果，并应用一个线性投影。
Encoding layer. 我们将记忆增强算子嵌入到一个Transformer-like层中:记忆增强注意的输出被应用到一个由两个具有单一非线性的仿射变换组成的position-wise前馈层中，这两个仿射变换独立地应用于集合中的每个元素。在形式上,
Xi表示input set中第i个向量，F(X)i是输出向量的第i个向量。Also, σ(·) is the ReLU activation function, V and U are learnable weight matrices, b and c are bias terms.

每个子组件(memory-augmented attention and position-wise feed-forward)然后被封装在一个residual connection和layer norm operation.中。编码层的完整定义可以写成:

where AddNorm indicates the composition of a residual
connection and of a layer normalization.
Full encoder. 在上述结构下，多个编码层按顺序堆叠，使第i层消耗第i - 1层计算的输出集。这相当于为图像区域之间的关系创建多级编码，其中较高的编码层可以利用和细化前一层已经识别的关系，最终使用先验知识。因此，一堆N编码层将产生一个多层输出X = (X1，…~ XN)，从每个编码层的输出获得。
3.2. Meshed Decoder
我们的解码器以之前生成的单词和区域编码为条件，并负责生成输出标题的下一个标记。在这里，我们利用前面提到的输入图像的多层次表示，同时仍然构建一个多层结构。为此，我们设计了一个meshed attention operator，与Transformer中的 cross-attention operator不同，它可以在句子生成过程中利用所有编码层。
Meshed Cross-Attention. 给定向量Y的输入序列，以及来自所有编码层X ~的输出，Meshed
Attention operator通过gated cross-attentions将Y连接到X中的所有元素。我们不是只关注最后一个编码层，而是对所有编码层执行交叉注意cross-attention。这些多层次的贡献在被调制后汇总在一起。形式上，我们的 meshed attention operator被定义为

其中C(·，·)表示encoder-decoder cross-attention，使用解码器的查询和编码器的键和值计算:

αi是一个权重矩阵，其大小与cross-attention结果相同。αi中的权重既调节了每个编码层的单一贡献，也调节了不同编码层之间的相对重要性。通过测量每个编码层的cross-attention计算结果与输入查询之间的相关性，计算结果如下:

where [·, ·] indicates concatenation, σ is the sigmoid activation, Wi is a 2d×d weight matrix, and bi is a learnable bias vector.
Architecture of decoding layers. 至于编码层，我们在一个多头的fashion上应用meshed attention。由于单词的预测只能依赖于之前预测的单词，解码器层包含一个隐藏的自我注意操作，该操作将来自其输入序列Y的第t个元素的查询与从左侧子序列(即Y≤t)获得的键和值连接起来。此外，解码器层包含一个position-wise的前馈层(如Eq. 4)，所有组件都封装在AddNorm操作中。解码器层的最终结构可以写成:

其中Y为向量的输入序列，Smask表示随时间的a masked self-attention。最后，我们的解码器是将多个解码器层堆叠在一起，帮助改进对文本输入的理解和下一个token的生成。总的来说，解码器以词向量为输入，其输出序列的第t个元素编码t+1时刻的一个字的预测，条件是Y≤t。在进行线性投影和softmax操作之后，它对字典中单词的概率进行编码。
3.3. Training details
按照图像字幕的标准做法[29,31,4]，我们使用词级交叉熵损失(XE)预训练我们的模型，并使用强化学习来微调序列生成。当使用XE进行训练时，训练模型预测给定先前ground-truth单词的下一个标记;在这种情况下，解码器的输入序列立即可用，整个输出序列的计算可以一次完成，所有操作随时间并行化。

在强化学习训练时，我们对使用波束搜索[4]采样的序列采用一种自批判序列训练方法[31]的变体:解码时，我们从解码器在每个时间步的概率分布中抽样前k个单词，并始终保持最高概率的前k个序列。由于序列解码在此步骤中是迭代的，因此无法利用上述随时间变化的并行性。然而，用于计算t时刻的输出令牌的中间键和值可以在下一次迭代中重用。

在之前的作品[4]中，我们使用apple - d分数作为奖励，因为它与人类的判断[38]很好地相关。我们使用奖励的平均值作为奖励的基线，而不是像之前的方法那样贪婪解码[31,4]，因为我们发现它可以略微提高最终的表现。一个样本的最终梯度表达式为:

背景：

transformer-based architectures 没有充分利用到多模型图像字幕。

引言：

图像描述是用自然语言描述图像的视觉内容的任务。因此，它需要一种算法来理解和建模视觉元素和文本元素之间的关系，并生成一个输出单词序列。 这通常是通过循环神经网络模型来解决的，其中语言的顺序本质是用rnn或lstm的循环关系来建模的，为了建立图像区域、单词和最终标签之间的关系模型，常常在递归中加入附加注意力或图形样结构。
在最近出现的fully attentive models中循环关系被抛弃，而使用self-attention，在集合和序列建模性能方面提供了独特的机会，此外，此设置还提供了新颖的架构建模功能，因为注意力操作符首次以多层和可扩展的方式使用。然而，图像描述的多模态本质要求特定的架构，不同于那些用于理解单一模态的架构。
虽然基于Transformer的体系结构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而，它们对图像描述等多模态上下文的适用性仍然有待探索。作者提出了 M2，一个用于图像描述的带存储器的网状Transformer。该体系结构改进了图像编码和语言生成步骤：它结合学习到的先验知识学习图像区域之间关系的多层次表示，并在解码阶段使用网状连接来挖掘低级和高级特征。

论文方法(M2 Transformer)
整个模型分为编码器和解码器模块，编码器负责处理输入图像的区域并设计它们之间的关系，解码器从每个编码层的输出中逐字读取并输出描述。文字和图像级特征之间的模态内和跨模态的交互都是通过缩放点积注意力来建模的，而不使用递归。注意力操作基于三个向量：Q，K，V。根据Q和K向量之间的相似度分布，计算V向量的加权和，表示如下：

其中Q，K，V都是由向量组成的矩阵，具有相同的维度。

背景：

transformer-based architectures 没有充分利用到多模型图像字幕。

创新点：

我们提出了一个新型fully-attention图像字幕算法，对于image caption我们提出了一个带有内存的网格transformer。这个结构优化了图像编码器和语言生成步骤，它学习集成先验知识的图像区域之间关系的多级表示，并在解码阶段使用网格状连接来利用低和高级特征。

结论：

我们的模型包含了一种区域编码方法，它通过内存向量和利用先验知识编码和解码模块之间的网状连接。值得注意的是，对于其他fully-attention的架构来说，这种连接模式是前所未有的。
memory augmented encoder
给定从输入图像中提取的一组图像区域X，attention可以通过transformer中使用的自注意操作来获得X的排列不变编码。在这种情况下，query、key和value是通过线性投影输入特征来获得的。
meshed decoder
解码器以之前生成的单词和区域编码为条件，生成输出字幕的下一个标记，为了构建多层结构，我们设计了一个meshed attention operator，它能够利用到句子生成中的所有编码层。

Memory-Augmented Encoder
传统的Transformer可表示为：

本文提出，这种self-attention有一定的局限性，因为一切都完全取决于pairwise similarities，所以self-attention不能对图像区域之间关系的先验知识进行建模。例如，给定一个region encode一个人，一个region encode一个球，如果没有任何先验知识，就很难推断出球员或比赛的概念。

由此引入了Memory-Augmented Attention的概念

Memory-Augmented Attention

这里与传统的self-attention有一定的区别，为了编码出先验知识，它在key和value部分新增了一部分slotsMk,Mv，这两个矩阵可以通过SGD自动学习，及可以自动学习到输入X XX 所不能表达的先验知识。
除此之外，Multi-Head Attention的步骤和Transformer并没有什么不同。
Encoding layer
类似Transformer有:

Feed Forward可以表示为：

Full encoder
由此可以堆叠多个encoding layer，上一个layer的输出作为下一个layer的输入。
这相当于创建图像区域之间关系的多级编码，其中更高的编码层可以利用和改进先前层已经识别的关系，最终使用这些先验知识建模。最终可以获得一系列layer的输出：

Meshed Decoder
在这里，在构建多层结构的同时利用了上述输入图像的多级表示。与传统的Transformer不同，可以充分利用不同的Encoding Layer的信息。
Meshed Cross-Attention

如上如所示，将Y与不同Layer Encode出来的信息进行Cross-attention，再由Y与Cross-attention进行一个attention，将不同layer的Cross-attention 信息加权起来，放入feed-forward层。
Cross-attetion表示如下：

加权因子：
Meshed Cross-attention：
Architecture of decoding layers
同样类似于Transformer：
其中Smask代表t时刻只能知道t-1及之前的信息，要为模型加上mask

浅谈 Attention 机制的理解
图解Transformer（完整版）
【NLP】Transformer模型原理详解

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
vue3中el-table中点击图片放大时，被表格覆盖叫我小鹏呀 vue.js javascript 前端
问题：vue3中el-table中点击图片放大时，被表格覆盖。解决方法：el-image添加preview-teleported
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
详解：如何设计出健壮的秒杀系统？夜空_2cd3
作者：Yrion博客园：cnblogs.com/wyq178/p/11261711.html前言：秒杀系统相信很多人见过，比如京东或者淘宝的秒杀，小米手机的秒杀。那么秒杀系统的后台是如何实现的呢？我们如何设计一个秒杀系统呢？对于秒杀系统应该考虑哪些问题？如何设计出健壮的秒杀系统？本期我们就来探讨一下这个问题：image目录一：****秒杀系统应该考虑的问题二：****秒杀系统的设计和技术方案三：*
2020年学习什么知识比较好？互联网行业依然是发展较佳编程仔
2019年余额已不足，不少职场人心里也在盘点这一年的工作得失，琢磨新一年的奋斗策略，是继续冲刺还是换个跑道？今年跳槽更难吗？image互联网行业一直以相对较丰厚的薪酬和广阔的发展前景吸引着各界人才。但最近，互联网行业寒冬、互联网企业裁员等话题再次引起热议。正在从前些年的高速发展期转向发展调整期的互联网行业真的步入了“寒冬”？该行业依旧具有吸引力吗？什么职位又最热门呢？image互联网行业仍保持较高
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
uniapp使用内置地图选择插件，实现地址选择并在地图上标点神夜大侠 Uniapp vue.js uniapp
uniapp使用内置地图选择插件，实现地址选择并在地图上标点代码如下：page{background:#F4F5F6;}::-webkit-scrollbar{width:0;height:0;color:transparent;}page{height:100%;width:100%;font-size:24rpx;}image,view,input,textarea,label,text,na
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
idea使用自定义checkstyle.xml配置文件 Gemkey
1.下载插件image.png2.插件安装完后,找到设置中的checkstyle,点击"+",新增自定义规则image.png3.输入描述信息,点击Browse找到对应的文件image.pngimage.png4.可以把active勾上,则使用默认校验规则,点击OK,则可以开始使用自定义规则检测单个文件了image.png
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
使用input[type=file]遇上的一些问题刘圣凯
项目遇到一个需要，如下image.png功能大致就是添加图片，展示出来，然后在用户点击提交的时候把图片传给后台，在和后台交涉之后，决定在用户选择图片之后转成formdata传给后台，后台返回一个url，提交的时候将url返回给后台/**转formdata*/varformdata=newFormData();formdata.append("file1",$("#pic")[0].files[0]
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

【CVPR2020 image caption】读Meshed-Memory Transformer for Image Captioning

论文信息

全文翻译

背景：

引言：

背景：

创新点：

结论：

你可能感兴趣的:(Image,Caption,Transformer,自然语言处理,神经网络,深度学习)