资源有限的大型语言模型的全参数微调

文章目录

  • 摘要
  • 1、简介
  • 2、相关工作
  • 3、方法
    • 3.1、重新思考optimizer的功能
      • 3.1.1、使用SGD
      • 3.1.2、隐式BatchSize
    • 3.2、LOMO:低内存优化
    • 3.3、使用LOMO稳定训练
      • 3.3.1、梯度归一化和裁剪的替代方法
      • 3.3.2、缓解精度下降
  • 4、实验
    • 4.1、内存配置
    • 4.2、吞吐量
    • 4.3、下游性能
      • 4.3.1、主要结果
      • 4.3.2、LoRA与LOMO
  • 5、结论

你可能感兴趣的:(大模型论文翻译与实战,高质量AI论文翻译,语言模型,人工智能,自然语言处理)