用一文来串起attention,transformer,seq2seq的知识点

用一文来串起attention,transformer,seq2seq的知识点

  • 前言
  • 历史不全面回顾
  • 怎样形象的理解记忆这些术语
  • 引用以及参考文献

前言

前两天正沾沾自喜的稍稍看明白点RNN,结果随便搜了一下,比较醒目的关于序列建模,是时候抛弃RNN和LSTM了和有了Transformer框架后是不是RNN完全可以废弃了?,以及放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较就在知乎上就冒了出来,仔细读来也不是危言耸听,神经网络在序列建模方面,经历了RNN,seq2seq,attention,transformer一系列的进化,现在的情况是RNN(lstm,gru)已经变成了入门玩家的学习基础了。

历史不全面回顾

不了解科技发展史,你的科技水平就是无根水,夜空的烟花,无法夯实基础,一步一个脚印的前进,所以先局部片面的了解和回顾一下这几个词汇相关的进化历程。
1.在2014年的谷歌文章Sequence to Sequence Learning with Neural Networks中,作者阐述了用多层LSTM网络实现了sequence to sequence的方法,完成了语言翻译end2end的一次跨越。
2.2015年斯坦福大学的论文Effective Approaches to Attention-based Neural Machine Translation将attention引入了NMT.
2.2016年,这篇Google’s Neural Machine Translation System: Bridging the Gapbetween Human and Machine Translation提出了代用attention机制的encoder-decoder的模型,为神经网络处理自然语言开辟了新的天地。这个模型提到的隐层总让我联想起隐马尔可夫模型。
3.2017年的Attention Is All You Need保留了encoder-decoder,进化了attention,却抛弃了RNN。
NMD(此处为叹词,可以理解为nerual machine dnn),这个进化速度显然是人类个体难以企及的,而作为个体的调参师、炼丹师,尽量拼命追赶吧。

怎样形象的理解记忆这些术语

此处将A Neural Network for Machine Translation, at Production Scale 博文中的动图引用过来,seq2seq的魅力是用数学的方法省却了很多内部人为的设计,达到一个序列到另一个序列的映射,同时不要求两个序列的长度统一。attention作为序列映射过程中,隐藏式的透漏出了输入和输出序列更为复杂的联系,这个联系摒弃了时间先后的观念,更像人类的思维方式,所以大家更看好它。而transformer不过是彻底把RNN打入冷宫,但发扬了encoder-decoder的seq2seq架构,以及演进了attention方法。
用一文来串起attention,transformer,seq2seq的知识点_第1张图片

引用以及参考文献

Attention和Transformer 来自知乎
详解Transformer (Attention Is All You Need)来自知乎
Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)
The Illustrated Transformer
Attention Is All You Need
Sequence to Sequence Learning with Neural Networks
Google’s Neural Machine Translation System: Bridging the Gapbetween Human and Machine Translation
Effective Approaches to Attention-based Neural Machine Translation
关于序列建模,是时候抛弃RNN和LSTM了
有了Transformer框架后是不是RNN完全可以废弃了?
放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
A Neural Network for Machine Translation, at Production Scale

你可能感兴趣的:(RNN,人工智能,机器学习,自然语言处理,机器学习)