ec2 run machine learning project

自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题

  1. ec2上有8个gpu,结果code只能拿到一个gpu。原因是环境变量CUDA_VISIBLE_DEVICES只配置了一个。
    解决方案:
export CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"

或者是在code里面:

os.environ["CUDA_VISIBLE_DEVICES"]="0,1,2,3,4,5,6,7"
  1. 后来开了一个更大的ec2,有16个gpu。但是code run不起来,报错 CUDA peer resources error 这个问题没有根本解决,最后认命把gpu调到8个了。但是有类似问题可以参考下这个issue:https://github.com/NVIDIA/nccl/issues/51
  2. 安装fasttext遇到点问题,全程爆红,仔细看了下是gcc的版本太低了,手动升级版本就ok了
  3. transformers真的很好用!

你可能感兴趣的:(ec2 run machine learning project)