Transformer 到 BERT:文章收集

今天看了几篇简直炸裂的文章,之前火的要死的 transformer 终于搞懂了(尤其是在 Bert问世之后),感觉学会了很多东西,下面分享链接。


放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNN/RNN/TF)比较

图解 transformer(就是看这篇看懂的transformer)

多头注意力 中文篇(通过这篇看懂了 position embedding)

图解seq2seq模型里的注意力机制

今天算是收获满满了~

NLP2017至今的两年炸裂历程:

Transformer
->
Weighted Transformer
->
Universal Transformers
->
Transformer-XL
->
ELMO
GPT
ULM-FiT
->
BERT

讲解:

Transformer 三部曲:RNN 的继承者

从Word Embedding到Bert模型——发展史

The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)

附带一篇自适应计算次数(ACT)的解读文章,理解 universal transformer 时会用到~:
Adaptive Computation Time

当然还有很多很多,我就不一一贴出来啦,小编在此祝大家学习愉快~

你可能感兴趣的:(Transformer 到 BERT:文章收集)