调试模型记录1

又是被环境反复折磨的一天,真该死啊。没关系,还在呼吸,已经很厉害了。

调试模型记录1_第1张图片

报错是这样的

RuntimeError: Failed to import transformers.sagemaker because of the following error (look up to see its traceback):
module 'torch.distributed' has no attribute '_all_gather_base'

在网上搜索了很久还是没能解决,尝试问了GPT说可能是Apex和transformers产生了冲突。

已经试过将Apex卸载重装,但是还是没有解决。。。

今天继续试。

——————————————————

二编:解决了

在终端中输入python,然后输入import apex,报错,可以看出还是apex没装好的问题。

 还是要重装apex。

使用下面的命令卸载apex。

pip uninstall apex

然后再重装。

git clone https://github.com/ptrblck/apex.git
cd apex
git checkout apex_no_distributed
pip install -v --no-cache-dir ./

难绷,这个东西可太难整了。

参考:

apex安装常见的三个报错并成功解决(亲测有效)_python_weixin_59726951-华为云开发者联盟

你可能感兴趣的:(该死的环境,pytorch,人工智能,python,transformer)