deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

测试场景:使用deepspeed框架训练gpt模型

问题:

报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

具体见截图:

deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError_第1张图片

你可能感兴趣的:(笔记,ai)