ClaraR

学习笔记|NLP中的注意力机制汇总

说在前面的话：

前段时间因为组会要对注意力机制做一个报告，我在收集资料的时候发现，网上很多所谓的attention总结无非最后都陷入了对transformer模型和自注意力机制的解释中，其实这并没有对所有的注意力机制类型进行一个详细的总结，这对一个初学者来说很容易陷入一个思维定势中。因此我决定深入剖析各个经典文章中所使用的Attention机制，并对他们进行一个分类总结。可以说这篇文章内容是全网最全的，应该找不到比这个更全的总结了，除了参考一些综述和网上资料，我还根据自己的理解整合并加入了一些新的内容。本文参考的文献和网上资料都会在最后部分给出。

一、Attention的含义

二、Attention的可解释性

三、Attention的种类

四、Attention的网络架构及分析

五、其他Attention

六、参考文献

一、Attention的含义

Attention机制的原理来源于人脑中视觉系统通常是有选择性地关注事物的某些部分，而忽略掉无关紧要的部分，从而快速筛选出重要的信息
Attention的计算本质是根据事物之间的关系进行线性加权得到新的表示，这个表示蕴含了各个事物之间的相对重要程度
Attention是一种思想、机制，可以用到很多模型和结构中。常见的应用领域有：机器翻译、文本生成、推荐系统、图像分割、语音识别等
Attention的计算过程类似“检索”的过程，计算方式可以视作某种相似度计算。但与检索不同，检索最终要从检索库中取出与查询向量相似度最高的向量，而注意力计算只是通过计算查询向量与检索库中所有向量之间的相似度获得一个权重向量，进而将这个权重向量应用到原本向量（即线性加权）

随着Transformer的流行，因为transformer使用的是纯自注意力而不借助RNN的结构，所以有越来越多人关注自注意力机制的使用。一开始看这篇论文时，里面提到了qkv这三个向量，一开始其实并不是很明白qkv到底代表什么，在这里将Attention机制与检索进行类比：

假设给定一个要查询的向量表示q，以及对应的检索库 $\left \{ k_i,v_i \right \}_{i=1}^{K}$ ，其中是关键字对应的评分，那么查询向量q从检索库中检索的计算过程就是： $\sum_{i=1}^{K}sim(q,k_i)v_i$ ，其中是计算查询向量q和关键字的相似度函数。

二、Attention的可解释性

自2014年Bahdanau将attention作为软对齐引入神经机器翻译以来，大量的自然语言处理工作都将其作为模型中一个提高性能的重要模块，大量的实验表明attention机制是计算高效且效果显著的。Attention的另一个好处就是，attention是解释神经模型内部工作的重要方法之一，因此为了能更好的了解其内在机理来优化模型，现在也有很多研究是针对Attention机制的可解释性的探讨，解释其为什么有效，并且提供证明，这是一个很有价值的研究方向。但是，也有学者对其提出质疑，认为attention机制并不具备可解释性。

人类注意力认知过程是选择性地专注于一件或几件事物而忽略其他事物的认知过程。而注意力机制则是模拟这一过程给予序列数据不同位置不同的权重，通过权重大小突出重要信息和抑制不相关信息。

有一些研究将attention可视化了出来，比如说在目标检测中使用attention，其权重会倾向于要检测的物体本身，在翻译或理解句子时就会把注意力集中到对句子贡献大的词语上，在语音识别中注意力权重会集中到语音频谱集中的波段。这个可视化的结果和我们人类的注意力认知过程是相符合的，因为我们会选择性地将注意力分配到显眼或重要的事物而忽略掉其他事物。

现在有一些文章研究attention是否能帮助神经网络模型可解释，但是他们得出的结论有些矛盾，比如以下这两篇，第一篇的结论是attention机制不可解释，是个黑盒子。第二篇是对第一篇不可解释论证方法的反驳，但并不是证明attention可解释。

但是追究他们论证结果差异的根源，根本原因是在于对可解释性这个定义理解的不同，而且他们的论证手段是否科学也很受争议。但是attention的可解释性大体可以分为两个。

可解释性的定义：

Attention权重的高低应该与对应位置信息的重要程度正相关
高权重的输入单元对于输出结果有决定性作用

因为这些论证过程涉及很多数学知识和复杂的实验设计，所以我没有细看，了解不多。

感兴趣的同学可以自己去看这两篇文章。

不过attention机制现在是应用的越来越广了，在很多任务上都有很大的效果提升，所以在我们的研究中可以好好利用这个技巧。

三、Attention的种类

接下来是介绍attention的详细分类，主要集中于NLP领域，针对序列数据的处理。后面也会介绍一些其它领域的attention的应用。

根据目前大部分文章中所使用的attention的特点，可以从6个不同角度对Attention进行分类。

1、权重计算方式

权重计算方式也就是相似度计算。主要有以下几种：

（1）矩阵内积

（2）余弦相似度

（3）拼接方式（加性注意力）

（4）多层感知

多层感知也就是MLP，在qk向量相加后经过激活函数激活再乘上一个向量。

以上所有计算方式除了qk向量，其他向量或矩阵都是需要学习的。

最常用的是1、3、4种。

2、计算区域

计算区域是指一个查询向量q在检索库中检索时，参与计算的key的数量。

（1）Soft/Global Attention

对所有key求权重概率，也就是说在查询的时候要计算检索库里面所有的key与查询向量q之间的相似度，是一种全局的计算方式
考虑了所有信息，但计算量比较大

（2）Hard Attention

直接精准定位到某个key，这个key的概率是1，其余key的概率全部是0
不可导，一般需要用强化学习的方法进行训练（或者使用gumbel softmax采样）
这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响

（3）Local Attention

以上两种方式的折中，对一个窗口区域进行计算
先用Hard方式定位到某个地方，以这个点为中心可以得到一个窗口区域，在这个小区域内用Soft方式来算Attention

大部分文章中使用的是global attention

3、所用信息

所用信息是指在计算attention时是否用到外部信息或者说是否有多个输入。

（1）General/Distinctive Attention

这种方式利用到了外部信息,常用于需要构建两段文本关系的任务
query一般包含了额外信息，根据外部query对原文进行对齐
这种方式可用于机器翻译、图像字幕生成、语音识别等任务

(ps:对齐的意思是指在原文中找到与query相关度高的key，对齐这种说法通常在机器翻译或图像字幕生成中使用，指与要生成的词语相关度高的信息)

（2）Self Attention

这种方式只使用内部信息，key和value以及query只和输入原文有关，key=value=query
原文中的每个词可以跟该句子中的所有词进行Attention计算，相当于寻找原文内部的关系
这种方式可用于分类和推荐等任务

由于self attention不需要外部信息，所以可以应用在一些分类和推荐任务中.

（3）Co-Attention/Cross Attention

涉及到多个的输入（多视图/多模态），协同学习他们的注意力向量，以获得多个输入间的联系
可用于多模态/多视图数据分类、小样本学习等领域

这种方式与distinctive attention的区别是它对多个输入是同时处理的，而distinctive是先处理内部信息，然后外部信息使用内部信息。

4、模型结构

模型结构这个分类角度是指根据一个模型中attention的层次结构进行分类。

（1）单层Attention

用一个query对原文只做一次attention
普遍使用

（2）多层Attention

通常用于具有层次关系的模型
如文档分类，可对词向量做一次attention，接着对句向量做attention，再对文档向量做attention，层层连接

（3）多头Attention

Transformer中所使用的multi-head attention
即使用多个query对原文进行了多次attention计算，再拼接起来
每个query都关注到原文的不同部分，相当于重复做多次单层Attention

5、表示数量

表示数量这个分类角度是从对多个embedding表示做attention还是从特征维度上做attention。

（1）多表示Attention

输入有多种embedding表示时，Attention可用于衡量不同embedding的重要性
最终得到的是embedding的weighted sum
这种方法可以结合各种embedding的优点，即让神经网络自己选择对下游任务效果好的embedding

这里的多种embedding表示可以指不同词嵌入方法得到的不同embedding表示，通过对这些表示计算attention从而得到效果好的词嵌入。也可以指通过多层神经网络训练后得到的各个隐层的特征表示，比如卷积神经网络，比起只使用最后一层的特征表示，将各个层的表示都利用起来可以充分利用浅层的颜色、边缘信息以及高层的抽象的语义信息，这样可以根据下游任务的特点通过注意力网络自行选择效果好的特征表示而抑制无效的特征表示。

（2）多维度Attention

这种attention可以用来衡量embedding向量各个维度之间的相关性
可在训练word/sentence/document embedding时添加一层attention层，得到的embedding向量质量更高，对下游任务的效果更好（词嵌入可预训练，或与下游任务一起训练）

6、使用的模型

使用模型是指attention可以和哪些模型结合起来使用。

（1）CNN + Attention

其实在图像领域中卷积神经网络的概念就与attention类似，通过使用不同大小的卷积核进行卷积来模拟人脑视觉系统中的不同感受野大小，而attention机制是模拟人脑视觉系统对显眼或重要的事物给予更多的关注。那么attention在CNN中的使用常常在以下几个角度切入：

可以在卷积前、后或在池化层做attention代替max pooling
Channel Attention：对通道做attention
Spatial Attention：对空间做attention

（2）LSTM + Attention

为了缓解直接使用LSTM最后一个hidden state造成的信息损失问题
对所有hidden state进行加权，权重需要学习
这种方法可以关注到重要的hidden state，缓解了信息损失问题，但是会增加计算量

（3）纯Attention

Transformer模型就是纯使用Self Attention和Multi-Head Attention来构造模型

以上从6个不同角度对attention机制进行了分类，这些机制都不是独立的，在应用中可以结合多种attention机制以达到想要的效果。接下来就介绍一些经典的网络架构，并且对所使用的attention机制进行分析。

四、Attention的网络架构及分析

1、Encoder-Decoder

首先是使用了encoder-decoder架构的经典的神经机器翻译NMT模型，这篇文章是多种attention机制的鼻祖，很多attention机制都是由这篇文章所发展而来。

NMT模型包含三个部分，encoder, attention layer和decoder
主要关注他的attention layer部分，计算过程是这样的：我们要得到当前位置的单词的预测，我们现在拥有的信息是decoder的上一个输出yi-1和上一个隐状态si-1，以及encoder的所有隐状态h，我们要如何进行翻译的对齐呢？通过attention计算，也就是说通过计算decoder上一个隐状态和encoder所有隐状态的attention来对齐。计算公式就是上面三个式子。总结为右边一个式子，这个式子就是ppt一开头提到的那个attention计算公式。把decoder上一个隐状态当成查询向量q，encoder的隐状态当成k和v，通过计算qk的相似度再与v相乘得到一个context向量，这个向量可以在decoder端用来计算当前隐状态和预测值。
在一些文章中为了限制权值的大小，需要对权值进行归一化或缩放操作，可以使用softmax， sigmoid, tanh等函数

接下来从上一节的6个角度分析这个模型所用到的Attention机制吧。

（1）所用信息：Distictive Attention

利用了Decoder的隐状态 $s_{i-1}$ （外部信息）和Encoder的隐状态（原文信息）一起计算attention。

（2）计算区域：Global Attention

Encoder的每个隐状态都参与了每次解码的attention计算

（3）权重计算方式：Additive Attention/多层感知

sim(q,k)函数的计算方式为加性注意力计算

（4）使用模型：BiRNN + Attention

（5）层次结构：单层Attention

2、Hybrid Encoder-Decoder

Attention机制可以将编码部分任意长度的输出表示变换到一个固定长度的context向量用于解码部分，从而实现编码部分和解码部分的解耦
因此引入Hybrid Encoder-Decoder，如Encoder可以使用CNN，Decoder使用RNN/LSTM
这种架构特别适用于多模态任务，例如图像字幕生成、可视问题回答、语音识别等

分析：

（1）所用信息：Co-Attention

在解码时利用Decoder的文本信息的hidden state和Encoder的图像信息的annotation state.

（2）计算区域：Soft Attention/Hard Attention

（3）权重计算方式：多层感知

（4）使用模型：CNN+LSTM+Attention

（5）层次结构：单层Attention

3、Memory Networks

问答机器人和聊天机器人需要从知识库中学习知识，因此这种网络的输入是一个知识库和一个查询
End-to-End Memory Network通过使用一组memory blocks来存储知识库
通过计算memory block中所有知识的attention来实现查询的目的
这种网络可看作是注意力模型的泛化，因为它不止在单个序列上建模注意力，而是在一个包含大量序列的知识库上建模注意力

分析：

（1）所用信息：Distinctive Attention

（2）计算区域：Global Attention

（3）权重计算方式：scaled dot production

（4）使用模型：RNN+Attention

（5）层次结构：单层Attention

（6）表示数量：多表示Attention

4、Network without RNNs

（1）RNN的缺点：

RNN低效的循环结构使得序列计算非常耗时
只使用最后一个隐状态会造成信息丢失

（2）Transformer的特点：

Transformer只使用self attention和multi-head attention进行计算，不嵌入任何RNN结构
Transformer中的一个单元由Multi-Head Attention层+Position-wise FFN层组成（还分别接了residual层和归一化层），通过堆叠多个这样的单元构成Encoder和Decoder
在input embedding加上positional encoding以增加位置信息
可并行计算，计算效率和准确率大大提高

分析：

（1）所用信息：Self Attention和Distinctive Attention

编码部分是SA，解码部分是DA

（2）计算区域：Global Attention

（3）权重计算方式：scaled dot product

（4）使用模型：纯Attention

（5）层次结构：多头Attention

五、其他Attention（CV、GNN、多模态）

以上是Attention机制在NLP应用中常见的模型架构。这部分将介绍一些NLP之外的领域的Attention的应用。

1、多模态的共同注意网络

这个模型将图像和文本共同输入，分别使用Faster R-CNN和Glove+LSTM对图像和文本进行处理。获得相应特征向量后，将图像信息作为X，文本信息作为Y，一起输入到SA和GA的block里面计算attention，block有两种搭建方式，分别是stacking和encoder-decoder，经过attention block将得到两种模态信息的交互信息，再往后进行特征融合和分类。

分析：

（1）所用信息：Self Attention和Guided Attention(Distinctive Attention)

（2）计算区域：Global Attention

（3）权重计算方式：scaled dot product

（4）使用模型：纯Attention

（5）层次结构：多头Attention

2、图神经网络中的非对称注意力：GAT（Graph Attention Networks）

GAT是空域GNN的代表模型，相较于其他时域的模型，他很适合作为上手的模型。GAT的重点就是Attention，这个attention就是图中每个节点相对于其相邻节点的相互重要性。GAT的attention在理解上和其他模型的相比没有很大区别，因为GAT将图节点用投影矩阵投影到了F维，以方便后续使用神经网络处理，它的核心创新点就在于相邻节点对相互具有不一样的重要性，这个重要性可以量化，通过网络训练得出。

GAT中Attention计算的特点：

（1）权重计算方式：拼接方式

这导致 $e_{ij}\neq e_{ji}$ ，即相邻节点各自的注意力权重向量是不一样的，是非对称的
这种非对称性在社交网络中有很直观的解释。例如，有一个大V和一个普通用户互相关注，但是，大V对于普通用户的重要性和普通用户对大V的重要性明显是不一样的

（2）计算区域：Global Attention

对当前节点的所有邻居节点都计算了attention

（3）层次结构：多头Attention

（4）使用模型：GNN + Attention

3、卷积神经网络注意力机制：SENet(Squeeze-and-Excitation Networks)

4、卷积神经网络注意力机制：CBAM(Convolutional Block Attention Module)

六、参考文献

以下是本文内容涉及到的参考文献和网上资料，有部分给出了github链接，方便大家看代码。

[1] Chaudhari S , Polatkan G , Ramanath R , et al. An Attentive Survey of Attention Models[J]. 2019.

[2] Hu D . An Introductory Survey on Attention Mechanisms in NLP Problems[J]. 2018.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.

https://github.com/harvardnlp/annotated-transformer

[4] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola, and Eduard H. Hovy. Hierarchical attention networks for document classification. In HLT-NAACL, 2016.

https://github.com/arunarn2/HierarchicalAttentionNetworks

[5] Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. Hierarchical question-image co-attention for visual question answering. In NIPS, pages 289–297, 2016.

https://github.com/karunraju/VQA

[6] Thang Luong, Hieu Pham, and Christopher D. Manning. Effective approaches to attention-based neural machine translation. In EMNLP, pages 1412–1421, Lisbon, Portugal, September 2015. ACL.

https://github.com/thisisiron/nmt-attention-tf2

[7] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.

https://github.com/DeepRNN/image_captioning

[8] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.

https://github.com/Lyusungwon/nmt

[9] Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In EMNLP, pages 1466–1477, 2018

https://github.com/facebookresearch/DME

[10] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured selfattentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.

https://github.com/yufengm/SelfAttentive

[11] Wang Y , Huang H , Feng C , et al. CSE: Conceptual Sentence Embeddings based on Attention Model[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.

[12] Yin W , Schütze, Hinrich, Xiang B , et al. ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs[J]. Computer ence, 2015.

https://github.com/Lapis-Hong/ABCNN

[13] William Chan, Navdeep Jaitly, Quoc Le, and Oriol Vinyals. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In ICASSP, pages 4960–4964. IEEE,
2016

[14] Yu, Zhou & Yu, Jun & Cui, Yuhao & Tao, Dacheng & Tian, Qi. (2019). Deep Modular Co-Attention Networks for Visual Question Answering. 10.1109/CVPR.2019.00644.

https://github.com/MILVLG/mcan-vqa

[15] Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al. End-to-end memory networks. In NIPS, pages 2440–2448, 2015.

https://github.com/carpedm20/MemN2N-tensorflow

[16] Velikovi P , Cucurull G , Casanova A , et al. Graph Attention Networks[J]. 2017.
https://github.com/PetarV-/GAT

[17] Zhang, Yuanyuan & Du, Jun & Wang, Zirui & Zhang, Jianshu. (2018). Attention Based Fully Convolutional Network for Speech Emotion Recognition.

[18] Jain S , Wallace B C . Attention is not Explanation[J]. 2019.

[19] Wiegreffe S , Pinter Y . Attention is not not Explanation[J]. 2019.

[20] 知乎专栏：https://zhuanlan.zhihu.com/p/106662375

[21] 知乎专栏：https://zhuanlan.zhihu.com/p/91839581

CV中的注意力机制：

[22] Jaderberg, Max & Simonyan, Karen & Zisserman, Andrew & Kavukcuoglu, Koray. (2015). Spatial Transformer Networks. Advances in Neural Information Processing Systems 28 (NIPS 2015).

[23] Hu J , Shen L , Albanie S , et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

[24] Wang F , Jiang M , Qian C , et al. Residual Attention Network for Image Classification[J]. 2017.

[25] Mnih, Volodymyr & Heess, Nicolas & Graves, Alex & Kavukcuoglu, Koray. (2014). Recurrent Models of Visual Attention. Advances in Neural Information Processing Systems. 3.

[26] Woo S , Park J , Lee J Y , et al. CBAM: Convolutional Block Attention Module[J]. 2018.

[27] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. 2014 ECCV.

[28] https://www.jianshu.com/p/8f5c13aa19a8

[29] https://cloud.tencent.com/developer/news/247227

你可能感兴趣的:(NLP,注意力机制,nlp,attention)

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
vllm在线推理踩坑记懂点投资的码农大语言模型 ai 语言模型 python
最近在《AI大模型全栈工程师》课程里看老师推荐使用vllm部署大模型，优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过PagedAttention实现）、连续批处理输入请求、优化的CUDA内核等功能。至于原理就先不看了，直接上手部署，以后再来补理论知识。一、vLLM在线推理在Qwen2的上市指南里介绍了v
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
思考：怎样让自己每天都精力充沛廷伟
让自己方向坚定，精力充沛的能量法则：Habit习惯能量的倍增Energy精力，能量的来源Attention注意力，能量的转化Target目标，能量的积累这是读张家瑞老师的《能量法则》最重要的四句话。从2018年认识家瑞，一起在AACTP武汉主席峰会一起学习，一起成长，到受他影响，定下更大的目标，践行《职场圆梦手册》，到现在读他的书，更加了解他的经历，一路以来，受他影响颇多。进入地产行业以来，日益忙
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01 小小帅AIGC VLM论文时报人工智能语言模型自然语言处理 VLM 大语言模型计算机视觉视觉语言模型
文章目录～1.PayingMoreAttentiontoImage:ATraining-FreeMethodforAlleviatingHallucinationinLVLMs2.MTA-CLIP:Language-GuidedSemanticSegmentationwithMask-TextAlignment3.MarvelOVD:MarryingObjectRecognitionandVisi
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
《自然语言处理 Transformer 模型详解》黑色叉腰丶大魔王自然语言处理 transformer 人工智能
一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。本文将深入讲解Transformer模型的原理、结构和应用。二、Transformer模型的背景在Transformer出现之前，RNN及其变体（如LSTM和GRU）是自然语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_