【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)

复现的代码没看到。

Records

正常在Transformer中,都是通过线性变化来得到 q k v的。

下图中的1x1,是因为作者没有用全连接,用的是1x1的卷积,这样做也是可以的。

【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)_第1张图片


相对位置编码。倘若共有64号,在1号看来,有64个相对编码,2号看来也是有 64个相对位置编码。

在一开始的时候,是通过随机初始化的方式,往后就是会更新的,相对位置编码 是可学习的参数。

【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)_第2张图片


⨂ \bigotimes 符号的意思是矩阵乘法。

【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)_第3张图片


【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)_第4张图片

你可能感兴趣的:(【小小的项目,(实战+案例)】,transformer,论文阅读,深度学习,Python)