为什么position embedding就是相加一个随机矩阵

position embedding BERT 里的实现:
为什么position embedding就是相加一个随机矩阵_第1张图片
要思考一个问题,什么是position embedding,
就是:
如果每个position的位置用0,1,2,3,4…来表示的话,
怎样像word embedding似的输进模型里呢,
就是两种办法:
one-hot
或者
把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word embedding同样维数,也就是用一个vector代表0,用一个vector代表1,用一个vector代表2……
position 0,1,2,3,4每个id或index都会转成一个vector,合起来也就是一个随机矩阵!

所以看position embedding的另一种实现:
position embedding code
为什么position embedding就是相加一个随机矩阵_第2张图片

你可能感兴趣的:(自然语言处理NLP)