Paper_weekly

自然语言处理中的自注意力机制（Self-Attention Mechanism）

作者丨罗凌

学校丨大连理工大学信息检索研究室

研究方向丨深度学习，文本分类，实体识别

近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理各个任务中，之前我对早期注意力机制进行过一些学习总结 [1]。

随着注意力机制的深入研究，各式各样的 Attention 被研究者们提出。在 2017年 6 月 Google 机器翻译团队在 arXiv 上放出的 Attention is All You Need [2] 论文受到了大家广泛关注，自注意力（self-attention）机制开始成为神经网络 Attention 的研究热点，在各个任务上也取得了不错的效果。

本人就这篇论文中的 Self-Attention 以及一些相关工作进行了学习总结，其中也参考借鉴了张俊林博士的博客深度学习中的注意力机制（2017版）[3]"和苏剑林的一文读懂「Attention is All You Need」| 附代码实现，和大家一起分享。

背景知识

Attention 机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是 2014 年 Google Mind 团队的这篇论文 Recurrent Models of Visual Attention [4]，他们在 RNN 模型上使用了 Attention机制来进行图像分类。

随后，Bahdanau 等人在论文 Neural Machine Translation by Jointly Learning to Align and Translate [5] 中，使用类似 Attention 的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是第一个将 Attention 机制应用到 NLP 领域中。

接着 Attention 机制被广泛应用在基于 RNN/CNN 等神经网络模型的各种 NLP 任务中。2017 年，Google 机器翻译团队发表的 Attention is All You Need 中大量使用了自注意力（self-attention）机制来学习文本表示。自注意力机制也成为了大家近期的研究热点，并在各种 NLP 任务上进行探索。

下图为 Attention 研究进展的大概趋势：

Attention 机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

下面我先介绍一下在 NLP 中常用 Attention 的计算方法，里面借鉴了张俊林博士深度学习中的注意力机制（2017版）里的一些图。

Attention 函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射，如下图：

在计算 Attention 时主要分为三步，第一步是将 query 和每个 key 进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个 softmax 函数对这些权重进行归一化；最后将权重和相应的键值 value 进行加权求和得到最后的 Attention。

目前在 NLP 研究中，key 和 value 常常都是同一个，即 key=value。

Attention is All You Need

接下来我将介绍 Attention is All You Need 这篇论文。这篇论文是 Google 机器翻译团队在 2017 年 6 月放在 arXiv 上，最后发表在 2017 年 NIPS 上，到目前为止 Google 学术显示引用量为 119，可见也是受到了大家广泛关注和应用。

这篇论文主要亮点在于：

1. 不同于以往主流机器翻译使用基于 RNN 的 Seq2Seq 模型框架，该论文用 Attention 机制代替了 RNN 搭建了整个模型框架。

2. 提出了多头注意力（Multi-headed Attention）机制方法，在编码器和解码器中大量的使用了多头自注意力机制（Multi-headed self-attention）。

3. 在 WMT2014 语料中的英德和英法任务上取得了先进结果，并且训练速度比主流模型更快。

该论文模型的整体结构如下图，还是由编码器和解码器组成，在编码器的一个网络块中，由一个多头 Attention 子层和一个前馈神经网络子层组成，整个编码器栈式搭建了 N 个块。类似于编码器，只是解码器的一个网络块中多了一个多头 Attention 层。

为了更好的优化深度网络，整个网络使用了残差连接和对层进行了规范化（Add & Norm）。

下面我们重点关注一下这篇论文中的 Attention。在介绍多头 Attention 之前，我们先看一下论文中提到的放缩点积 Attention (Scaled Dot-Product attention)。

对比我在前面背景知识里提到的 Attention 的一般形式，其实 Scaled Dot-Product Attention 就是我们常用的使用点积进行相似度计算的 Attention，只是多除了一个（为 K 的维度）起到调节作用，使得内积不至于太大。

多头 Attention（Multi-head Attention）结构如下图，Query，Key，Value 首先进过一个线性变换，然后输入到放缩点积 Attention，注意这里要做 h 次，其实也就是所谓的多头，每一次算一个头。而且每次 Q，K，V 进行线性变换的参数 W 是不一样的。然后将 h 次的放缩点积 Attention 结果进行拼接，再进行一次线性变换得到的值作为多头 Attention 的结果。

可以看到，Google 提出来的多头 Attention 的不同之处在于进行了 h 次计算而不仅仅算一次，论文中说到这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息，后面还会根据 Attention 可视化来验证。

那么在整个模型中，是如何使用 Attention 的呢？如下图，首先在编码器到解码器的地方使用了多头 Attention 进行连接，K，V，Q 分别是编码器的层输出（这里 K=V）和解码器中都头 Attention 的输入。

其实就和主流的机器翻译模型中的 Attention 一样，利用解码器和编码器 Attention 来进行翻译对齐。然后在编码器和解码器中都使用了多头自注意力 Self-Attention 来学习文本的表示。

Self-Attention 即 K=V=Q，例如输入一个句子，那么里面的每个词都要和该句子中的所有词进行 Attention 计算。目的是学习句子内部的词依赖关系，捕获句子的内部结构。

对于使用自注意力机制的原因，论文中提到主要从三个方面考虑（每一层的复杂度，是否可以并行，长距离依赖学习），并给出了和 RNN，CNN 计算复杂度的比较。

可以看到，如果输入序列 n 小于表示维度 d 的话，每一层的时间复杂度 Self-Attention 是比较有优势的。

当 n 比较大时，作者也给出了一种解决方案 Self-Attention（restricted）即每个词不是和所有词计算 Attention，而是只与限制的 r 个词去计算 Attention。

在并行方面，多头 Attention 和 CNN 一样不依赖于前一时刻的计算，可以很好的并行，优于 RNN。

在长距离依赖上，由于 Self-Attention 是每个词和所有词都要计算 Attention，所以不管他们中间有多长距离，最大的路径长度也都只是 1。可以捕获长距离依赖关系。

最后我们看一下实验结果，在 WMT2014 的英德和英法机器翻译任务上，都取得了先进的结果，且训练速度优于其他模型。

在模型的超参实验中可以看到，多头 Attention 的超参 h 太小也不好，太大也会下降。整体更大的模型比小模型要好，使用 dropout 可以帮助过拟合。

作者还将这个模型应用到了句法分析任务上也取得了不错的结果。

最后我们看一下 Attention 可视化的效果（这里不同颜色代表 Attention 不同头的结果，颜色越深 Attention 值越大）。可以看到 Self-Attention 在这里可以学习到句子内部长距离依赖"making…….more difficult"这个短语。

在两个头和单头的比较中，可以看到单头"its"这个词只能学习到"law"的依赖关系，而两个头"its"不仅学习到了"law"还学习到了"application"依赖关系。多头能够从不同的表示子空间里学习相关信息。

Self-Attention in NLP

■ 论文 | Deep Semantic Role Labeling with Self-Attention

■ 链接 | https://www.paperweekly.site/papers/1786

■ 源码 | https://github.com/XMUNLP/Tagger

这篇论文来自 AAAI2018，厦门大学 Tan 等人的工作。他们将 Self-Attention 应用到了语义角色标注任务（SRL）上，并取得了先进的结果。

这篇论文中，作者将 SRL 作为一个序列标注问题，使用 BIO 标签进行标注。然后提出使用深度注意力网络（Deep Attentional Neural Network）进行标注，网络结构如下：

在每一个网络块中，有一个 RNN/CNN/FNN 子层和一个 Self-Attention 子层组成。最后直接利用 softmax 当成标签分类进行序列标注。

该模型在 CoNLL-2005 和 CoNll-2012 的 SRL 数据集上都取得了先进结果。我们知道序列标注问题中，标签之间是有依赖关系的，比如标签 I，应该是出现在标签 B 之后，而不应该出现在 O 之后。

目前主流的序列标注模型是 BiLSTM-CRF 模型，利用 CRF 进行全局标签优化。在对比实验中，He et al 和 Zhou and Xu 的模型分别使用了 CRF 和 constrained decoding 来处理这个问题。

可以看到本论文仅使用 Self-Attention，作者认为在模型的顶层的 Attention 层能够学习到标签潜在的依赖信息。

■ 论文 | Simultaneously Self-Attending to All Mentions for Full-Abstract Biological Relation Extraction

■ 链接 | https://www.paperweekly.site/papers/1787

■ 作者 | Patrick Verga / Emma Strubell / Andrew McCallum

这篇论文是 Andrew McCallum 团队应用 Self-Attention 在生物医学关系抽取任务上的一个工作，应该是已经被 NAACL 2018 接收。这篇论文作者提出了一个文档级别的生物关系抽取模型，里面做了不少工作，感兴趣的读者可以更深入阅读原文。

我们这里只简单提一下他们 Self-Attention 的应用部分。论文模型的整体结构如下图，他们也是使用 Google 提出包含 Self-Attention 的 transformer 来对输入文本进行表示学习，和原始的 transformer 略有不同在于他们使用了窗口大小为 5 的 CNN 代替了原始 FNN。

我们关注一下 Attention 这部分的实验结果。他们在生物医学药物致病数据集上（Chemical Disease Relations，CDR）取得了先进结果。去掉 Self-Attention 这层以后可以看到结果大幅度下降，而且使用窗口大小为 5 的 CNN 比原始的 FNN 在这个数据集上有更突出的表现。

总结

最后进行一下总结，Self-Attention 可以是一般 Attention 的一种特殊情况，在 Self-Attention 中，Q=K=V 每个序列中的单元和该序列中所有单元进行 Attention 计算。

Google 提出的多头 Attention 通过计算多次来捕获不同子空间上的相关信息。Self-Attention 的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并行可以并行计算。

从一些论文中看到，Self-Attention 可以当成一个层和 RNN，CNN，FNN 等配合使用，成功应用于其他 NLP 任务。

除了 Google 提出的自注意力机制，目前也有不少其他相关工作，感兴趣的读者可以继续阅读。

参考文献

[1] Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017.

[2] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.

[3] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016.

[4] Shen, T.; Zhou, T.; Long, G.; Jiang, J.; Pan, S.; and Zhang, C. Disan: Directional self-attention network for rnn/cnn-free language understanding. arXiv preprint arXiv:1709.04696, 2017.

[5] Im, Jinbae, and Sungzoon Cho. Distance-based Self-Attention Network for Natural Language Inference. arXiv preprint arXiv:1712.02047, 2017.

[6] Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. Self-Attention with Relative Position Representations. arXiv preprint arXiv:1803.02155 ,2018.

点击以下标题查看相关内容：

一文读懂Attention is All You Need | 附代码实现
从2017年顶会论文看Attention Model
Attention is All You Need | 每周一起读

#作者招募#

让你的文字被很多很多人看到，喜欢我们不如加入我们

我是彩蛋

解锁新功能：热门职位推荐！

PaperWeekly小程序升级啦

今日arXiv√猜你喜欢√热门职位√

找全职找实习都不是问题

解锁方式

1. 识别下方二维码打开小程序

2. 用PaperWeekly社区账号进行登陆

3. 登陆后即可解锁所有功能

职位发布

请添加小助手微信（pwbot02）进行咨询

长按识别二维码，使用小程序

*点击阅读原文即可注册

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 加入社区一起刷论文

unique_ptr 在跨线程使用时安全吗 unique-ptr
std::unique_ptr在跨线程使用时的安全性需要谨慎处理，因为它本身并不提供线程安全的机制。以下是关于std::unique_ptr在多线程环境中的安全性和使用注意事项：独占所有权与线程安全std::unique_ptr保证了对资源的独占所有权，这意味着在任何时刻只有一个std::unique_ptr实例可以管理一个特定的资源。由于std::unique_ptr不支持复制操作，仅支持移动语
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
基于QScriptEngine的简单解释器有追求的菜鸟 qt 解释器模式
需求：voidDataFormatPipline::DataFormatPipline(QMapdata,QStringListtarger){}data中保存元素数据，类似Fe-1.2,Cu-2.4，Mn3.5,QStringList中的为Fe/Cu，Fe/Cu-Mn，Fe*Cu+Mn，如何利用解释器或者其它简单的方法完成这个需求？解决方案：现在项目中添加scriptQT+=corescript
【达梦数据库学习】数据库体系架构-逻辑结构理解合作愉快：）数据库数据库架构学习
1.1数据库和实例在有些情况下，数据库的概念包含的内容会很广泛。如在单独提到DM数据库时，可能指的是DM数据库产品，也有可能是正在运行的DM数据库实例，还可能是DM数据库运行中所需的一系列物理文件的集合等。但是，当同时出现DM数据库和实例时，DM数据库指的是磁盘上存放在DM数据库中的数据的集合，一般包括：数据文件、日志文件、控制文件以及临时数据文件等。实例一般是由一组正在运行的DM后台进程/线程以
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
CI/CD管道 NEUMaple 微服务 ci/cd spring cloud 微服务 spring
CI/CD管道指的是持续集成（ContinuousIntegration,CI）、持续交付（ContinuousDelivery,CD）和持续部署（ContinuousDeployment,CD）的组合流程，用于自动化软件开发过程中的构建、测试和部署环节。这些实践旨在提高软件开发的质量和效率，同时减少人为错误。持续集成（CI）持续集成是指团队成员频繁地将代码变更合并到共享的主分支或主线中，并且每次
Kotlin学习5.4：Map接口 CNwanku Kotlin入门学习 Kotlin
Kotlin学习5.4：Map接口Map接口简介不可变Map查询操作遍历操作可变MutableMap修改操作批量操作Map接口简介Map接口是一种双列集合，它的每个元素都包含一个键对象Key和一个值对象Value，键和值对象之间存在一种对应关系，称为映射。从Map集合中访问元素时，只要指定了Key就能找到对应的Value。Map集合中的元素是无序可重复的，Map集合与List、Set集合类似，同样
kotlin中的数据转换 LCY133 spring后端 kotlin python 开发语言
在Kotlin中，将数字转换为字符串非常简单且灵活。以下是几种常用的方法及其示例：1.直接使用toString()方法所有数字类型（Int、Long、Double等）都提供了toString()方法，可以直接将数字转为字符串。valnumber=42valstr1=number.toString()//"42"valpi=3.14159valstr2=pi.toString()//"3.14159
kotlin中的list set map整理 LCY133 kotlin list 开发语言
在Kotlin中，List、Set和Map是三种核心集合类型，它们分别适用于不同的场景，具有独特的特性和操作方式。以下是它们的详细对比与使用指南：1.List（列表）核心特性•有序：元素按插入顺序存储。•可重复：允许存在相同值的元素。•索引访问：通过下标（get(index)或[index]）快速访问元素。分类•不可变列表：List，创建后不可修改。valimmutableList=listOf(
Spring Boot 中的 @ConditionalOnBean 注解详解 weixin_44563169 spring boot java 后端
SpringBoot中的@ConditionalOnBean注解详解1.前言2.`@ConditionalOnBean`作用与基本用法2.1`@ConditionalOnBean`的作用2.2基本用法示例：当`DataSource`Bean存在时，才创建`MyService`Bean3.`@ConditionalOnBean`详解3.1`value`和`type`属性（指定Bean类型）3.2`n
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
静态html 500错误,HTTP-500错误金门走狗静态html 500错误
http500内部服务器(HTTP-InternalServerError)错误说明IIS服务器无法解析ASP代码，访问一个静态页面试试是否也出现这个问题，如果访问静态页面没问题，那就要分以下几种情况来分析了：①你是否改变过计算机名称。②站点所在的文件目录是否自定义了安全属性。③安装了域控制器后是否调整了域策略。如果是其中的一种情况，请一一将改变的参数设置回来看是否解决问题。如果静态空间也无法访问
如何使用JSON输出解析器解析语言模型的输出 vaidfl json 语言模型 easyui python
在现代AI应用中，让语言模型返回结构化的数据是一个重要的能力，特别是在需要进一步处理或集成的时候。本文将深入探讨如何利用JsonOutputParser来解析语言模型的JSON输出。技术背景介绍随着语言模型的普及，许多应用场景需要从自然语言处理任务中获取结构化的输出。针对这一需求，输出解析器应运而生，它能够帮助我们定义JSON模式，通过提示语言模型生成符合该模式的输出，并将其解析为JSON格式。核
JavaScript数组-遍历数组咖啡の猫 javascript 开发语言
在JavaScript开发过程中，数组是一种非常常见且强大的数据结构，用于存储一系列有序的数据项。遍历数组是处理这些数据项的基础操作之一，无论是为了显示、转换还是过滤数据。本文将详细介绍几种常见的遍历数组的方法及其应用场景，帮助你选择最适合当前任务的方式。一、为什么需要遍历数组？遍历数组意味着逐一访问数组中的每个元素，以便执行特定的操作，如打印输出、修改值或基于条件筛选数据。不同的场景可能需要不同
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
使用LocalAI进行文本嵌入的实战指南 bavDHAUO python
技术背景介绍文本嵌入是一种将文本片段转换为高维向量的技术，可以用于自然语言处理任务中的相似性计算、信息检索等应用。LocalAI提供了一种本地化的嵌入解决方案，允许开发者在本地环境中运行和测试嵌入模型。通过在本地部署LocalAI服务，您可以避免依赖外部API，享受更快的响应速度和更好的数据隐私。核心原理解析LocalAIEmbedding类主要负责与本地运行的LocalAI服务通信，进行文本嵌入
嵌入式系统中的状态机模式 boringhex.top MCU 嵌入式设计模式
在嵌入式系统中，状态机模式是一种常用的设计模式，通过定义系统的不同状态及其转换规则，帮助开发者更好地管理系统的行为和状态变化。本文将详细讲解状态机模式，并结合实例深入分析，帮助读者深入理解这一模式在嵌入式系统中的应用。状态机模式概述状态机模式（StateMachinePattern）是一种行为型设计模式，它允许对象在其内部状态改变时改变其行为。状态机模式通过将状态封装为独立的类，使得对象在不同状态
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
软件工程课程作业 cfjybgkmf 软件工程课程作业软件工程
一、什么是DevOps?DevOps中的Dev指的是Development（开发），Ops指的是Operations（运维）DevOps包含了三个部分：开发、测试和运维，是一组过程、方法与系统的统称，用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。DevOps是为了填补开发端和运维端之间的信息鸿沟，改善团队之间的协作关系；突出重视软件开发人员和运维人员的沟通合作，通过自动化流程来使得软
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
线性代数介绍 ZhuBin365 其它机器学习线性代数人工智能
线性代数介绍线性代数是数学的一个重要分支，它研究向量空间、线性变换和线性方程组。其概念抽象，应用广泛，是现代科学技术中不可或缺的数学工具。本篇将详细解释线性代数中的核心概念，包括行列式、矩阵、向量与向量空间、线性方程组、特征值与特征向量以及二次型，力求深入浅出，帮助读者全面理解。一、行列式(Determinants)行列式是线性代数中一个fundamental的概念，它是一个将方阵映射到一个标量的
Angular-Slickgrid中的数据更新与聚合计算 t0_54program 编程问题解决手册 angular.js javascript 前端个人开发
在使用Angular-Slickgrid进行数据展示时，经常会遇到数据的实时更新和聚合计算的问题。本文将结合实例，详细介绍如何在Angular-Slickgrid中处理数据的编辑后更新聚合计算结果。背景介绍Angular-Slickgrid是一款强大而灵活的网格组件，支持复杂的数据操作，包括分组、排序和聚合计算。假设我们有一个数据表，包含用户的性别（Gender）、费用（Cost）和时长（Dura
Flink CDC 与 SeaTunnel CDC 简单对比窝窝和牛牛 flink 大数据 cdc SeaTunnel
FlinkCDC与SeaTunnelCDC简单对比CDC技术概述变更数据捕获（ChangeDataCapture，简称CDC）是一种用于捕获数据库中数据变更的技术，能够实时识别、捕获并输出数据库中的插入、更新和删除操作。CDC技术在现代数据架构中扮演着至关重要的角色，特别是在实时数据集成、数据同步和事件驱动架构等场景中。CDC的工作原理CDC主要通过以下几种方式捕获数据变更：基于日志的CDC：直接
java将动态图转换成静态图_如何用最简单的方法把静态图变成动图？ PEI Lobster java将动态图转换成静态图
在今日头条浏览文章时，我们经常会看到有些作者在文章中插入了一些动态图片，不但美化了页面，而且起到了简明扼要的说明作用，让读者对文章内容加深了理解，也提高了文章的阅读量和点击量。这样的动态效果是如何制作的呢？主要有两个步骤：首先要制作出图片动态效果的视频，一般是MP4格式，第二步用格式工厂等文件格式转换软件，把MP4转换为gif动画格式，然后就可以把它插入到网页中。这其中的难点和重点就在于制作图片的
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
JVM常用概念之编译器黑洞剑海风云 JDK（Java Development Kit）jvm 编译器编译器黑洞
问题JMH如何避免微小基准测试中的不会运行的代码的消除工作？是否有隐式或显式编译器支持？基础知识优化编译器擅长优化简单的东西。例如，如果存在任何人都无法观察到的计算，则可以将其视为“不会运行的代码”并将其删除。这通常是一件好事，直到你运行基准测试。在那里，你想要计算，但你不需要结果。本质上，你观察基准测试所占用的“资源”，但没有简单的方法可以与编译器争论这一点。比如下面的测试用例，该方法中只涉及到
Ret2syscall（超详细） LuoYaFu 服务器算法运维
什么是系统调用？系统调用（SystemCall）是操作系统提供给应用程序的接口，允许应用程序请求操作系统内核执行某些特权操作。由于操作系统内核运行在更高的特权级别（如x86架构中的内核态），普通应用程序（运行在用户态）无法直接访问硬件资源或执行某些敏感操作（如文件读写、进程管理、网络通信等）。因此，应用程序需要通过系统调用来请求内核完成这些操作。我用自己的话说就是设置对应寄存器的值，达到调用系统函
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
Multisim在射频电路仿真与实验教学中的应用探究 She Ran 546 课程设计
摘要本文深入探究Multisim在射频电路仿真与实验教学中的应用。阐述Multisim软件在射频领域的功能特点，通过具体射频电路实验案例，详细说明如何运用Multisim进行电路搭建、参数设置与仿真分析。探讨其在实验教学中对学生理解射频电路原理、提升实践能力的积极作用，以及在丰富教学手段、提高教学质量方面的显著优势，为射频电路实验教学改革提供新思路与方法。关键词Multisim；射频电路；仿真；实
复习JVM LMQ6 jvm
JVM的三个主要主题:1.java内存区域划分:a.堆b.栈c.元数据区d.程序计数器2.类加载a.加载:打开.class文件,读取内容b.验证:验证.class文件的格式是否符合要求.c.准备:给类对象分配内存空间d.解析:初始化字符串常量e.初始化:对类对象中的各个部分初始化,比如静态代码块,静态成员的初始化等经典面试题:双亲委派模型他出现在"加载"环节,根据"全限定名称"寻找对应的.clas
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

自然语言处理中的自注意力机制（Self-Attention Mechanism）

背景知识

Attention is All You Need

Self-Attention in NLP

总结

相关链接

参考文献

你可能感兴趣的:(自然语言处理中的自注意力机制（Self-Attention Mechanism）)