【transformer】|李宏毅 transformer encoder

seq2seq

结构通常有编解码器
【transformer】|李宏毅 transformer encoder_第1张图片

可以用于语音-文字识别,不同语言文字翻译、语音-文字翻译
输出向量维度由模型决定
【transformer】|李宏毅 transformer encoder_第2张图片

用于目标检测

transformer结构

【transformer】|李宏毅 transformer encoder_第3张图片

encoder

【transformer】|李宏毅 transformer encoder_第4张图片
多个模块处理
【transformer】|李宏毅 transformer encoder_第5张图片
具体来说

蓝色输入与经过自注意模块输出做residual相加后,经过层正则化(对一个输入各个维度求均值方差,而不是BN在一个批次同一个维度)
输入到FC层,再跟输入做risidual相加再层正则化
得到最终输出

【transformer】|李宏毅 transformer encoder_第6张图片
总的就是如下图(输入加入了顺序考虑,加了位置向量),重复Nx次

【transformer】|李宏毅 transformer encoder_第7张图片

可以改进encoder的样子
【transformer】|李宏毅 transformer encoder_第8张图片

为什么Layer Norm?

参考
https://zhuanlan.zhihu.com/p/126749311?from_voters_page=true

PowerNorm
https://arxiv.org/pdf/2003.07845.pdf

你可能感兴趣的:(【transformer】|李宏毅 transformer encoder)