Transformer--Add&Normalize

归一化

transformer在进行self-Attention之后会进行一个layerNormalization 【将数据统一到固定区间内】
其中又分为batchNormalization和layerNormalization
Transformer--Add&Normalize_第1张图片

batchNormalization 即按照batch维度化成均值为0标准差为1的数据
Layer则是纵向将每次的向量数据进行归一化

残差作用:加入未学习的原向量使得到的结果的效果至少不弱于原来的结果

你可能感兴趣的:(深度学习,Transformer,nlp)