没有原创,都是各处粘贴汇总的,只是为了自己梳理以下结构。
Attention
monotonic attention
一、原理
Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因。
An attention function can be described as mapping a query and a set of key-value pairs to an output,where the query, keys, values, and output are all vectors
1. Recurrent Models of Visual Attention - deepmind 2014
在RNN模型上使用了attention机制来进行图像分类
2.Neural Machine Translation by Jointly Learning to Align and Translate.
这篇论文算是在NLP中第一个使用attention机制的工作。
3.Effective Approaches to Attention-based Neural Machine Translation.
这篇论文是继上一篇论文后,一篇很具代表性的论文,他们的工作告诉了大家attention在RNN中可以如何进行扩展,这篇论文对后续各种基于attention的模型在NLP应用起到了很大的促进作用。在论文中他们提出了两种attention机制,一种是全局(global)机制,一种是局部(local)机制。
4.ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
这篇论文是attention在CNN中较早的探索性工作.ABCNN笔记
5.A Structured Self-attentive Sentence Embedding ICLR-2017
keywords:[self attention]
这篇文章提出了使用self-attention技术来生成可解释句子向量的模型。通常我们使用向量(vector)来表示单词、短语或者句子向量,在这篇文章中,作者提出可以使用二维句子来表示句子,矩阵的每一行表示句子的不同部分.
Self Attention与传统的Attention机制非常的不同:传统的Attention是基于source端和target端的隐变量(hidden state)计算Attention的,得到的结果是源端的每个词与目标端每个词之间的依赖关系。但Self Attention不同,它分别在source端和target端进行,仅与source input或者target input自身相关的Self Attention,捕捉source端或target端自身的词与词之间的依赖关系;然后再把source端的得到的self Attention加入到target端得到的Attention中,捕捉source端和target端词与词之间的依赖关系。因此,self Attention Attention比传统的Attention mechanism效果要好,主要原因之一是,传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系,相对比,self Attention可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系
5.Attention is all you need
笔记
6.Show, Attend and Tell: Neural Image Caption Generation with Visual
[image caption]
基于序列生成的Attention机制可以应用在计算机视觉相关的任务上,帮助卷积神经网络重点关注图片的一些局部信息来生成相应的序列,典型的任务就是对一张图片进行文本描述。给定一张图片作为输入,输出对应的英文文本描述。Attention机制被用在输出输出序列的每个词时会专注考虑图片中不同的局部信息。Show, Attend and Tell 论文阅读笔记
6.2 Image Captioning with Semantic Attention.
加入attention机制的image caption问题
7.Reasoning about Entailment with Neural Attention, 2016
Attention机制被用于关联假设和前提描述文本之间词与词的关系。我们提出了一种基于LSTM的神经网络模型,和把每个输入文本都独立编码为一个语义向量的模型不同的是,该模型同时读取前提和假设两个描述的文本序列并判断假设是否成立。我们在模型中加入了Attention机制来找出假设和前提文本中词/短语之间的对齐关系。
8.Attention-Based Models for Speech Recognition, 2015.
Attention机制被用于对输出序列的每个音素和输入语音序列中一些特定帧进行关联。一种基于Attention机制的端到端可训练的语音识别模型,能够结合文本内容和位置信息来选择输入序列中下一个进行编码的位置。该模型有一个优点是能够识别长度比训练数据长得多的语音输入。
9.A Neural Attention Model for Abstractive Sentence Summarization, 2015
给定一篇英文文章作为输入序列,输出一个对应的摘要序列。Attention机制被用于关联输出摘要中的每个词和输入中的一些特定词。在最近神经网络翻译模型的发展基础之上,提出了一个用于生成摘要任务的基于Attention的神经网络模型。通过将这个概率模型与一个生成式方法相结合来生成出准确的摘要。
10.Attention and Augmented Recurrent Neural Networks
Attention和增强RNN
11.Hierarchical Attention Networks for Document Classification
本文采用document级分类,即document由sentence组成,而sentence由word组成,因此天然的具有层级关系。以word为粒度输入网络抽取word级特征得到表示sentence的特征向量;然后将sentence级向量输入网络抽取sentence级特征得到最终的document级特征,然后将document特征通过一个线性表示和softmax。为了给与不同的word和不同的sentence分配不同的权重,论文设计一个层级架构的attention机制用于提升模型的性能。
12.Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition
这种网络可以更精准地找到图像中有判别力的子区域,然后采用高分辨率、精细化特征描述这些区域,进而大大提高精细化物体分类的精度。
12.list
从2017年顶会论文看Attention Model
http://mini.eastday.com/mobile/171011124829097.html
ICLR 2017:注意力与记忆网络
http://baijiahao.baidu.com/s?id=1562210686081237&wfr=spider&for=pc
13.CVPR 2017: Attention Models
https://github.com/ArcherFMY/Paper_Reading_List/tree/master/CVPR2017-Attention-model
14.Attentive Memory Networks: Efficient Machine Reading for Conversational Search
rest:
Attention and memory in deep learning and NLP
Attention Mechanism
Survey on Attention-based Models Applied in NLP
What is exactly the attention mechanism introduced to RNN(Quora问答)
What is Attention Mechanism in Neural Networks?
14.Gentle Introduction to Global Attention for Encoder-Decoder Recurrent Neural Networks
https://machinelearningmastery.com/global-attention-for-encoder-decoder-recurrent-neural-networks/
list:
模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理、分类及应用https://zhuanlan.zhihu.com/p/31547842
Attention!神经网络中的注意机制到底是什么https://mp.weixin.qq.com/s/VotQNDmJiBUnNS116IzaLQ
Memory:
1.Structured Attention Networks
2.Neural Turing Machines-NTM系列
http://blog.csdn.net/rtygbwwwerr/article/details/50548311
读《Neural Turing Machines》: https://zhuanlan.zhihu.com/p/22513016
3.A Closer Look at Memorization in Deep Networks
4.记忆网络之Memory Networks
https://zhuanlan.zhihu.com/p/29590286