self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2&spm_id_from=pageDriver&vd_source=c67a2725ac3ca01c38eb3916d221e708
self-attention、transformer、bert理解_第1张图片
一个输入,一个输出,未考虑输入之间的关系!!!
self-attention、transformer、bert理解_第2张图片
在这里插入图片描述

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。
self-attention、transformer、bert理解_第3张图片
multi-head attention:
self-attention、transformer、bert理解_第4张图片
transformer:
self-attention、transformer、bert理解_第5张图片
self-attention、transformer、bert理解_第6张图片
cross attention:
self-attention、transformer、bert理解_第7张图片

你可能感兴趣的:(transformer,bert,深度学习)