[论文笔记] Scaling Laws for Neural Language Models

概览:

[论文笔记] Scaling Laws for Neural Language Models_第1张图片 

一、总结

 

[论文笔记] Scaling Laws for Neural Language Models_第2张图片
计算量、数据集大小、模型参数量大小的幂律 与 训练损失呈现 线性关系。

三个参数同时放大时,如何得到最佳的性能?

[论文笔记] Scaling Laws for Neural Language Models_第3张图片

更大的模型 需要 更少的样本 就能达到相同的效果。

你可能感兴趣的:(论文笔记,论文阅读,语言模型,深度学习)