github_37228709

GRET: Global Representation Enhanced Transformer----AAAI 2020

整理一下阅读的关于transformer的应用相关的论文，这是第一篇。这篇论文直接利用了Transformer的结构并且做了相应的改进，主要创新点在于使用了胶囊神经网络以及引入了一些门控机制，解决的主要问题是Transformer只能表示词级别的信息表示（论文里面说的是局部表示），但是不管是翻译问题还是摘要问题等这些自然语言生成问题中生成的内容都是用句子来表示具体的含义，所以希望模型可以表示句子级别（文中说的全局信息）的表示。具体的内容看下面的内容。

本文论文链接：GRET: Global Representation Enhanced Transformer

胶囊网络是18年提出来的，最初也是用于图像处理领域的，它的工作原理我还尚不清楚，下面给出胶囊网络原文论文，感兴趣的可以先去了解一下。胶囊网络：Dynamic Routing Between Capsules

Abstract

1 Introduction

2 Approach

2.1 建模全局表示

2.2 融入解码过程

2.3 训练

3 实验

3.1 实现细节

3.2 主要实验结果

3.3 消融实验

3.4 不同模型设置的有效性

3.5 胶囊网络分析

3.5 探测实验

4 相关工作

5 结论

摘要

Transformer是一种基于encoder-decoder的结构，它在很多自然语言生成任务上都取得了SOTA的效果。encoder将inputs句子中的单词映射到一个隐藏状态（hidden states）序列，这个隐藏状态序列然后被放进decoder用来生成输出句子。这些隐藏状态反应了输入单词并且专注于捕捉局部信息。然而，全局（句子级别）的信息几乎被忽略了，给提高生成质量提供了空间。（本文主要创新点就在于捕获句子的全局信息）。在本文中，我们提出了一个全新的全局表示增强Transformer（GRET)，用Transformer网络构建一个具体的全局表示模型。具体地，在提出的模型中，从编码器生成用于全局表示的外部状态。全局表示然后被投入decoder中用于解码过程，来提高生成质量。本文在两个生成任务上进行了实验：机器翻译和文本摘要。实验结果在四个WMT机器翻译任务和LCSTS数据集上的文本摘要任务证明了本文提出的方法在自然语言生成上的有效性。

1 简介

Transformer在机器翻译，文本摘要等自然语言生成任务上其他方法更有效。通常来说Transformer是基于encoder-decoder结构，包含了两部分：一个encoder网络和一个decoder网络。encoder将输入序列编码成隐藏状态序列，每个隐藏状态对应了句子中一个特定的单词。decoder逐个单词的产生输出。在解码的每个时间步中，解码器进行注意力读取以获得输入隐藏状态并且决定应该生成哪个单词。

正如上面所提到的，解码过程中Transformer只依赖于隐藏状态的表示。然而，有研究表明Transformer的encoder的隐藏状态只获取了局部表示，仅仅关注于单词级别的信息。之前的一些工作（不详细列举了）显示了Transformer的encoder生成的隐藏状态更多的关注了单词到单词的映射关系，注意力机制的权重确定了哪个单词将会被产生，这类似于单词对齐。

正如Frazier指出的，全局信息，表示的是整个句子的信息而不是单独单词的信息，在生成一个句子的时候也应该作为一种重要因素被考虑进去。在自然语言生成任务上，这种全局表示扮演了重要的角色。基于RNN的模型在文本摘要任务上显示了引入全局信息的表示可以提高生成质量并且减少重复。之前也有一些相关工作表明了全局信息在目前的神经网络模型中的有效性。然而，相比于RNN和CNN来说，自注意力机制可以获得更长程的依赖，目前在Transformer中没有明确的机制显示出它可以整个句子的信息。因此，为Transformer提供这种全局表示是一个有吸引力的挑战。

在本文中，我们将这个挑战划分成了两个问题：1）如何对全局上下文信息进行编码；2）如何在生成的过程中使用全局信息。本文提出了GRET模型来解决这两个问题。对于第一个问题，我们建议在编码阶段通过两种互补方法基于局部单词级别表示生成全局表示。一方面来说，我们采用一个调整过的胶囊网络，基于从局部单词级别的表示中提取的特征来生成全局表示。局部表示通常和词到词的映射相关，这通常是多余或者有噪声的。直接用它们生成全局表示。而没有任何过滤是不可取的。胶囊网络，有很强的特征提取能力，可以从局部表示中提取更多合适的特征。相比于其他网络比如CNN来说，胶囊网络可以同时感知所有的局部信息，然后经过多次审议之后提取特征向量。

在另一方面，我们提出了一个layer-wise的循环结构进一步增强全局表示。之前的工作显示出每一层有不同方面的信息表示，比如，下层包含更多语法信息，而更高的层包含更多的语义信息。完整的全局上下文应具有信息的不同方面。但是，由胶囊网络生成的全局表示仅获得层内信息。所提出的逐层递归结构是通过汇总来自所有层的表示来组合层间信息的有用补充。这两种方法可以通过充分利用本地表示中的不同粒度信息来对全局表示进行建模。

对于第二个问题，我们建议在每个步骤中使用上下文门控机制动态控制应将来自全局表示的多少信息融合到解码器中。在生成过程中，每个解码器状态在输出字之前都应获取全局上下文信息。他们对全局信息的需求在输出句子中的单词之间也有所不同。所提出的门控机制可以通过为每个状态提供自定义表示，有效地利用全局表示来提高发电质量。
在四个WMT翻译任务和LCSTS文本摘要任务上的实验结果表明，我们的GRET模型在强大的基线和先前的一些研究中带来了显着的改进。

2 方法

我们的GRET模型包括两个步骤：在编码阶段对全局表示进行建模，并将其合并到解码过程中。我们将在本节中基于 Transformer（Vaswani et al.2017）描述我们的方法。

2.1 建模全局表示

在编码阶段，我们提出了两种以不同粒度对全局表示进行建模的方法。我们首先使用胶囊网络从局部词级表示中提取特征，并基于这些特征生成全局表示。然后，随后采用分层递归结构，以通过汇总来自编码器所有层的表示来增强全局表示。第一种方法侧重于利用词级信息来生成句子级表示，而第二种方法侧重于组合句子级信息的不同方面以获得更完整的全局表示。

层内表示生成 我们建议使用具有动态路由的胶囊从局部表示中提取特定和合适的特征，以进行更强大的全局表示建模，这是一种有效而强大的特征提取方法（Sabour，Frosst和Hinton，2017年; Zhang，Liu和Song，2018年。）编码器隐藏状态的特征被概括为多个胶囊，并且通过动态路由算法迭代地更新隐藏状态和胶囊之间的权重（路径）。

正式地，给定具有M层和输入语句X（由I个单词组成）的Transformer的编码器。encoder第m层的隐藏状态序列H通过以下公式计算：

Q,K,V是查询，键，值向量和m-1层的隐藏状态一致。LN(·）表示层归一化函数，SAN(·）表示自注意力网络。这里省略了残差网络。

然后，通过Hm生成大小为K的胶囊Um。具体而言，第k个胶囊umk的计算公式为：

其中q（·）是非线性壁球函数（咋翻译）：

ck计算公式为：

其中矩阵B由零初始化，其行和列分别为K和I。当所有胶囊被产生时，该矩阵将被更新。

该算法在算法1中显示。胶囊Um的序列可用于生成全局表示。

与使用连接方法生成最终表示形式的原始胶囊网络不同，我们使用细心池化方法来生成全局表示形式2。正式地，在第m层中，全局表示：

FFN(·)是一个前馈神经网络，sm计算公式如下：

这种注意力的方法可以考虑胶囊网络的不同作用，并更好地对全局表示进行建模。生成全局表示的过程概述如图1所示。

层间表示聚类 通常来说，Transformer模型仅仅把最后一层的隐藏状态向量Hm作为输入句子的表示放进decoder中去生成输出句子。根据这一点，我们可以将最后一层的全局表示Sm直接喂到decoder中去。然而，目前的全局表示仅仅包含了层内的信息，其他层的表示被忽略掉了，不同层表示的是不同方面的信息（之前的一些工作对此得到了证实）。基于这个前提条件，我们提出了一个逐层（layer-wise）的递归结构来整合解码器encoder中，所有不同层的胶囊网络产生的表示来完成全局表示的建模。

逐层递归结构通过门控递归单元聚合每个层的内部全局状态（Cho等人，2014，GRU），这可以实现与上一层的全局表示不同的信息方面。正式地，我们通过以下方式调整sm的计算方法：

ATP(·)是注意力池化操作，计算公式如等式7-9所示。GRU单元可以通过忘记无用的信息并捕获合适的信息来控制信息流，从而可以有效地汇总前一层的表示形式。逐层递归结构可以实现更精美和完整的表示。此外，所提出的结构在编码阶段仅需要再多一步，这是不费时的。聚合结构的概述如图2所示。

2.2 融入解码过程

在生成输出字之前，每个解码器状态应考虑全局上下文信息。我们将解码过程中的全局表示与对解码器最后一层的加法运算相结合，以指导状态输出真字。但是，对每个目标词的全局信息的需求是不同的。因此，我们提出了一种上下文门控机制，可以根据每个解码器的隐藏状态提供特定的信息。

具体地，给定具有N层的解码器和在训练阶段具有J个单词的目标句子y，从该解码器的第N层计算隐藏状态RN是通过以下公式计算得到：

对每一个隐藏状态r(N,j)和R（N），上下文门控计算公式为：

包含了所需的全局信息的新状态的计算公式如下：

进一步，输出概率通过输出层的隐状态计算得到：

这种方法使每个状态都能获得其自定义的全局信息。概述如图3所示。

2.3 训练

我们的GRET模型的训练过程与标准Transformer相同。通过在给定输入语句x的情况下最大化输出语句y的似然度来优化网络，用Ltrans表示：

的定义是式（14）。

3 实验

3.1 实现细节

数据集 WMT的机器翻译数据集和LCSTS文本摘要数据集，具体细节看论文。

实验设置 机器翻译任务中，我们采取了字节对编码（BPE)对所有语言对进行编码，并且限制词汇表的大小为32k。在文本摘要任务中限制词汇表的大小为3500，并且是基于词级别的词汇表。离线此用UNK来表示了。

Transformer中的encoder和decoder的维度设置为512前馈网络设置为2048.我们采用了8个并行的注意力头。encoder和decoder的层数设置为6层。句子对按近似的句子长度分批处理。每批有50个句子，一个句子的最大长度限制为100。我们将dropout的值设置为0.1。我们使用Adam（Kingma and Ba 2014）来更新参数，在4000步的热启动策略下学习率有所不同（Vaswani et al.2017）。其他细节在Vaswani等人中显示。（2017）。胶囊网络数设置为32，默认迭代时间设置为3。在DE→EN任务上，Transformer的训练时间约为6天。当使用基线参数作为初始化时，GRET模型的训练时间约为12小时。

在训练阶段之后，我们使用beam搜索进行启发式解码，并将beam大小设置为4。我们使用NIST-BLEU来测量翻译质量和ROUGE（Lin 2004）评测摘要质量。

3.2 主要实验结果

实验结果直接看表格比较清晰。

3.3 消融实验

本节介绍了论文的消融实验，特别的，我们研究了胶囊网络，整合结构以及门控机制的作用在全局表示上的表现。

实验结果在表3中表示出来了。

消融实验实验结论1：具体来说，如果没有胶囊网络，性能会降低0.7 BLEU，这意味着从局部表示中迭代提取特征可以减少冗余信息和噪音。

结论2：如果没有门控机制，性能将降低0.24 BLEU分数，这表明上下文门控机制对于控制每个解码步骤中使用全局表示的比例很重要。尽管GRET模型将花费更多时间，但我们认为在大多数情况下通过降低效率来提高生成质量是值得的。

3.4 不同模型设置的有效性

3.5 胶囊网络分析

3.5 探测实验

4 相关工作

略

5 结论

在本文中，我们解决了Transformer无法建模全局上下文信息的问题，这会降低生成质量。然后，我们提出了一种新颖的GRET模型，该模型可以通过包含全局信息的编码器生成外部状态，并将其动态融合到解码器中。我们的方法解决了如何建模以及如何使用全局上下文信息这两个问题。我们将提出的GRET与最新的Transformer模型进行了比较。在四个翻译任务和一个文本摘要任务上的实验结果证明了该方法的有效性。将来我们会做更多的分析并将其与有关增强局部表示的方法相结合，以进一步提高生成性能。

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
为什么学生不喜欢上学虾虾说
图片发自App《为什么学生不喜欢上学》作者是丹尼尔·威林厄姆。本书从认知心理学角度，结合大量实证案例，阐释了大脑工作的基本原理，回答了关于学习过程的一系列问题。为什么学生不喜欢上学？——大脑工作的基本原理思考是缓慢的、费力的、不可靠的。思考有三个要素，环境、工作记忆和长期记忆。环境是信息来源；长期记忆是知识、经验的巨型仓库，随时可以调取；工作记忆是中央处理器，是加工信息素材的中央厨房，也是思考过程
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
6.0 践行打卡 D47 星月格格
去努力改变1.运动步行13000+8分钟腿部拉伸2.阅读《墨菲定律》第三章第三节:霍桑效应～适度发泄，才能轻装上阵“霍桑效应”这一概念，源自于1924年一个1933年间以哈佛大学心理专家乔治·埃尔顿·梅奥教授为首进行的一系列工厂工人的谈话实验研究。“霍桑效应”告诉我们，在工作，生活中总会产生数不清的情绪反应，其中很大一部分是负面的负面情绪的积累会影响人的精神和心情，不仅仅会影响个人健康，还会破坏人
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
今天是个好日子 singing阿梅
图片发自App今日小年公历日子是20180208上午赶写一个材料，关于“四风”问题自查自纠报告，待一稿已成送交主任过目，他瞄一眼即大声反对！不顾我这厢受伤的小心脏，立马重写！吓！下午两个视频会议自从单位条件改善，会议多开了不少……贷款到期开始着急上火今日写作任务还欠奉写什么呢原本想继续写《我的2017》系列很多时候所谓意义都是总结和提炼出来的码一堆文字于他人无甚意义于己也待商榷、重估。另一方面，冥
极度休闲的一天淡泊孤峰
国庆国庆，普天同庆。在家躺着看大家游山玩水，长辈走亲戚，我的微信一天没几条消息，标准结局，习惯了。哈利波特系列电影真不错，童年总幻想着像主角哈利一样，像《龙族》少年楚子航浪迹江湖，风云天下。而现在却败给华为ICT大赛题还有永无止境的代码视频，唉，真可笑！
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
靠写文章能赚钱么如何通过写作赚钱写文章怎么赚钱优惠券高省
如何通过写作赚钱？最近这段时间，在网上搜兼职的时候，我发现很多人不在谈做自媒体赚钱，为什么呢？我想是普通人想做，根本不能赚钱！了解过写作的人，应该很多人都能看到网上各种各样的推文，什么“月入三千的我是怎么靠写作月入三万的？”，还有“一个公众号，月入几万，靠的是啥？”等等一系列写作相关的文章。给大家推荐一个适合任何人可做的线上副业项目，属于0投资创业项目，使用智能手机就可以做，兼职专职都可以，这个软
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
安全演练有保障，专项督查促改进——记公道中学校园安全（化学实验）系列活动公中盛传云
近期，公道中学为了全面贯彻落实“预防为主，安全第一，综合治理”的安全工作方针，学校按照安全工作方针的要求，通过多种途径开展了以“预防演练为主，人防物防技防相结合”的主题的安全教育系列活动。11月8日，在学校校务会议上，学校党总支书记李兆兵强调，学校必须采取有力措施，不断增强教师综治安全防范意识，落实学校安全工作责任制，切实保障教师和学生的安全坚决杜绝意外事故的发生，确保校园平安稳定、教育教学工作顺
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
女儿讲笑话系列 | 得想点办法梁之川
期末考试小明又考砸了。爸爸接过试卷看了许久，语重心长地说：小明，分数这么低，你得想点办法啊！小明回答：我也想啊！这分数是用黑色水笔写的，我也没办法改啊……
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

GRET: Global Representation Enhanced Transformer----AAAI 2020

摘要

1 简介

2 方法

2.1 建模全局表示

2.2 融入解码过程

2.3 训练

3 实验

3.1 实现细节

3.2 主要实验结果

3.3 消融实验

3.4 不同模型设置的有效性

3.5 胶囊网络分析

3.5 探测实验

4 相关工作

5 结论

你可能感兴趣的:(论文阅读系列,transformer,nlp)