小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)

终结篇了

      书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)

      本章把Trasfomer剩的一点网络讲完

      上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)

      我下面再换几张图,换个角度来看,来自于复旦的Qiu Xipeng教授的slide

      首先自注意机制它也不是Transformer才有的,实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络

      如下图所示,我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系,我们可以让"The"这个向量去分别跟其他每个单词的向量做内积,然后走softmax做归一化之后,

你可能感兴趣的:(transformer,深度学习,人工智能,AIGC,agi)