大模型训练时间估算

文章目录

  • 开激活重计算
  • 不开激活重计算

开激活重计算

在这里插入图片描述

大模型训练时间估算_第1张图片
GPU利用率一般在 0.3 - 0.55 之间,假定为0.45
4090 理论性能:FP16:82.58 TFLOPS

不开激活重计算

我们来说一下系数8或6是怎么来的:

  • 对于每个模型参数,都进行2次浮点数计算,即计算Y = AB 时,先将元素按位相乘,再按位相加,因此每个参数都需要进行两次浮点数运算。
  • 反向传播的计算量是前向传播时的两倍
    大模型训练时间估算_第2张图片
    个人理解,对每个参数而言,反向传播时需要计

你可能感兴趣的:(大模型通关打怪之旅,自然语言处理)