Transformer Bert总结不错的文章

普通的attention,例如BahdanauAttention,LuongAttention
query为encoder的状态
memory为Encoder的output作为(没有key_m,value_m这么一说,或者说key_m和value_m是相同的)

self attention
可以看做是一种query机制,即用一个query来检索memory区域
query表示为key_q
memory由一个键值对组成,

Transformer论文
Attention Is All You Need https://arxiv.org/abs/1706.03762

Bert论文
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805

转载几篇总结得很不错的文章
1.2017 Transformer
图解Transformer
“变形金刚”为何强大:从模型到代码全面解析Google Tensor2Tensor系统
2.2018 Bert
【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT模型理解)

你可能感兴趣的:(机器学习)