【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程

本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法,主要参考了kaggle notebook Optimization approaches for Transformers | Kaggle,其中梯度累积Gradient Accumulation,冻结Freezing已经在

你可能感兴趣的:(【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程)