探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系
论文:OnLayerNormalizationintheTransformerArchitecture推荐说明:我们知道,在原始的Transformer中,LayerNorm在跟在Residual之后的,我们把这个称为Post-LNTransformer;而且用Transformer调过参的同学也知道,Post-LNTransformer对参数非常敏感,需要很仔细地调参才能取得好的结果,比如必备的