15 Transformer 框架概述

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看
配套 github 链接:https://github.com/nickchen121/Pre-training-language-model
配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html

1000*0.04=40–>10

5000*0.04=200–>20

预训练–》NNLM–》word2Vec–》ELMo–》Attention

NLP 中预训练的目的,其实就是为了生成词向量

顺水推舟,transformer 其实就是 attention 的一个堆叠

从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结

总分总

seq2seq

一句话,一个视频

序列(编码器)到序列(解码器࿰

你可能感兴趣的:(数据中台,管理体系,数字孪生,transformer,深度学习,人工智能)