[nlp] Transformer & bert base & bert large 参数对比

bert中最大处理序列长度超过512的处理策略_lbertj的博客-CSDN博客_bert长度限制

Transformer 的FFN的隐层维度是 512*4 = 2048

Bert 的 FFN 隐层维度是 768*4 = 3072

FFN的隐层维度 是 Self-Attention-layer隐层维度 的4倍。

Transformer

num_encoder_layers=6,

num_decoder_layers=6,

H(隐藏层维度)=512

A(Attention 多头个数)=8,

torch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=, custom_encoder=None, custom_decoder&#

你可能感兴趣的:(nlp,自然语言处理,bert,人工智能)