模型压缩-方案(一)-参数共享:ALBERT、BERT-of-Theseus

ALBERT中使用和BERT大小相近的30K词汇表。假如我们的embedding size和hidden size一样,都是768,那么如果我们想增加了hidden size,就也需要相应的增加embedding size,这会导致embedding table变得很大。




参考资料:
BERT模型压缩方法(1)-- 蒸馏 | 参数共享 | 矩阵近似

你可能感兴趣的:(AI/模型压缩,bert,人工智能,深度学习)