Attention Is All Your Need

Attention Is All Your Need_第1张图片

 Attention Is All Your Need_第2张图片

 q,k,v是一个东西(自注意力)

由于位置编码通过sin和cos得到,在+-1之间抖动,因此为了与embedding相加scale匹配,所以embedding除以根号dk

Attention Is All Your Need_第3张图片

注意力机制:注意力函数

quary(不同的q) 和 k 的相似度决定了value对应的权重(不同的权重)相加得到 (不同的)输出

英文积累:

sequence transduction models  序列转录模型(给你一个序列生成一个序列)

dispensing with ... entirely 完全抛弃了...
a small fraction of... 一小部分

你可能感兴趣的:(AI论文精读--李沐,transformer)