19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看
配套 github 链接:https://github.com/nickchen121/Pre-training-language-model
配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html

Transformer 的编码器和解码器

19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)_第1张图片

问题一:为什么 Decoder 需要做 Mask

机器翻译:源语句(我爱中国),目标语句(I love China)

为了解决训练阶段和测试阶段的 gap(不匹配)

训练

你可能感兴趣的:(管理体系,数据中台,数字孪生,transformer,深度学习,人工智能)