Bert 结构理论 笔记 Bert理解

Bert理解

  • Attention

Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射

Bert 结构理论 笔记 Bert理解_第1张图片

 

 

在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。

Bert 结构理论 笔记 Bert理解_第2张图片

  • Transrofmer模型

Transformer模型中也采用了 encoer-decoder 架构。但其结构相比于Attention更加复杂,论文中encoder层由6个encoder堆叠在一起,decoder层也一样。
 

å¨è¿éæå¥å¾çæè¿°

每一个encoder和decoder的内部简版结构如下图

å¨è¿éæå¥å¾çæè¿°

对于encoder,包含两层,一个self-attention层和一个前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。decoder也包含encoder提到的两层网络,但是在这两层中间还有

你可能感兴趣的:(深度学习-机器学习)