深度学习中,样本量和参数的关系

        GPT模型的出现让我们对大模型的性能有了一个新的认识,但是不是模型越大越好?

        在之前的实践中,通常使用复杂的模型和较少的数据集,容易产生过拟合;而使用简单的模型和较大的数据集,则会欠拟合。

        论文《Scaling Laws for Neural Language Model》发表于2020年,探究了语言模型的一些规律。

        模型大小和模型结构对结果的影响:模型的性能依赖于模型的规模,模型的规模主要由三部分组成:模型参数N(包括emb的数量),数据集的大小D,还有算力C,模型性能主要受限于这三个因素,和模型的深度和宽度关系不大。

深度学习中,样本量和参数的关系_第1张图片 随着模型大小、数据集大小和计算量的增加,语言建模性能会有所提高。为了获得最佳性能,三个因素必须同时进行扩展。当不受其他两个因素的制约时,模型表现与每个单独的因素都有幂律关系。

 以下是本论文的主要结论:

        性能主要取决于规模,而不取决于模型形状:模型性能主要依赖于规模,规模由三个因素组成:模型参数的数量N(不包括嵌入的embeddings)、数据集的大小D和用于训练的计算量C。在合理的范围内,性能对其他架构超参数(如深度与宽度)的依赖性非常弱。

        平滑幂定律:性能与三个比例因子N、D、C中的每一个都有幂律关系,当不受其他两个因子的制约时,其趋势跨越六个数量级以上。

        过拟合的普遍性:只要我们同时扩大N和D,性能就会得到可预测的改善,但如果其中一个(N或者D)保持不变,而另一个增加,则会进入收益递减的状态。性能损失可预测地取决于比率N0.74/D,这意味着每次我们将模型大小增加8倍时,我们只需要将数据增加大约5倍就可以避免损失。

        训练的规律:训练曲线遵循可预测的幂律,其参数与模型大小大致无关。通过推断训练曲线的早期部分,我们可以粗略地预测如果我们训练更长时间,将会达到的损失。(这里GPT3的技术文档中也有用到类似的概念)

        迁移随着测试性能的提高而提高:当我们在具有不同于训练分布的文本上评估模型时,结果与训练验证集上的结果强相关,损失的偏移量大致恒定——换句话说,转移到不同的分布会导致持续的惩罚,但在其他方面会随着训练集的表现而大致提高。(这个没太看懂)

        样本效率:大模型比小模型更具样本效率,可以用更少的优化步骤和更少的数据量达到相同的性能。

        收敛效率低下:当计算量C固定,但对模型大小和可用数据没有限制时,我们通过训练非常大的模型和在收敛之前停止训练来获得最佳性能。因此,最大计算效率训练将比基于训练小模型以收敛的预期更具样本效率,数据需求随着训练计算的增长非常缓慢。

        最佳batchsize:训练这些模型的最佳batchsize致仅为loss的幂,并且仍然可以通过测量梯度噪声尺度来确定;;对于我们可以训练的最大模型来说,大约有1-2百万个token在收敛。

深度学习中,样本量和参数的关系_第2张图片

 ​​​​​​

深度学习中,样本量和参数的关系_第3张图片 随着越来越多的计算可用,我们可以选择分配多少用于训练大模型、使用更大的批次和训练更多的步骤。

 

你可能感兴趣的:(深度学习,人工智能)