【DeepSpeed 教程翻译】三,在 DeepSpeed 中使用 PyTorch Profiler做性能调试和Flops Profiler教程翻译
文章目录0x0.前言0x1.在DeepSpeed中使用PyTorchProfiler做性能调试Profile模型训练的循环标记任意代码范围ProfileCPU/GPU的活动Profile内存消耗0x2.FlopsProfiler总览Flops测量多GPU,多节点,数据并行和模型并行例子和DeepSpeed运行时一起使用在Megatron-LM中使用在DeepSpeed运行环境之外的使用方法在模型推