deepspeed训练时export CUDA_VISIBLE_DEVICES无效这件事

deepspeed训练时export CUDA_VISIBLE_DEVICES无效这件事_第1张图片

官方文档在一个犄角旮旯的地方说了不管用(哭了,早点看到少受罪两天)

见Resource Configuration (single-node)

所以正确的做法是使用--include在.py前指定你要用的GPU

--include localhost:6,7,8,9 \

顺便多说一句,仅仅单服务器(节点)训练压根不需要hostfile

你可能感兴趣的:(深度学习,深度学习,deepspeed)