batch-normalization和layer-normalization

BN究竟起了什么作用?一个闭门造车的分析
从几何视角来理解模型参数的初始化策略

一个直观的猜测是,center操作,类似于全连接层的bias项,储存到的是关于数据的一种先验分布信息,而把这种先验分布信息直接储存在模型中,反而可能会导致模型的迁移能力下降。所以T5不仅去掉了Layer Normalization的center操作,它把每一层的bias项也都去掉了。

你可能感兴趣的:(batch-normalization和layer-normalization)