1.服务器只安装了cuda9.2
2.安装anaconda
Anaconda3-5.2.0-Linux-x86_64.sh python3.6
sh Anaconda3-5.2.0-Linux-x86_64.sh
增加清华源:
https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
如果卸载重装执行conda install ***会报错:
需要更新Upgrading pycosat to 0.6.2
执行pip install update pycosat ,之后就可以继续安装了
https://github.com/conda/conda/issues/7815
3.安装pytorch1.2(tensor大一点就报错,尤其使用torch.cat函数做拼接的时候),退回了pytorch1.1
conda install pytorch torchvision cudatoolkit=9.2 -c pytorch
conda install pytorch=1.1 cuda92 -c pytorch
conda install pytorch=1.1 torchvision cudatoolkit=9.2 -c pytorch
有清华源的执行:
conda install pytorch torchvision cudatoolkit=9.2
安装成功后执行import torch报错
from torch._C import *
ImportError: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by ~/anaconda3/lib/python3.6/site-packages/torch/lib/libshm.so)
这是因为centos系统的最高版本是GLIBC_2.12;
tensorflow部分
conda install cudnn=7.6.0
conda install cudatoolkit=10.0.130
注意要先装cudnn,因为conda会把依赖更新,而cudnn需要的最新cuda是10.1。这样后安装会把之前的新版本降级
参考:https://zhuanlan.zhihu.com/p/71581533
4.升级gblic到2.12
下载相应的版本:
https://ftp.gnu.org/gnu/glibc/
解压编译
cd /glibc-2.14/
mkdir build && cd build/
../configure --prefix=~/anaconda3/glibc-2.14
make -j4
make install
可以看到在~/anaconda3下面生成了glibc-2.14文件夹;
生成的时候可能报LD_LIBRARY_PATH相关的错误,执行export LD_LIBRARY_PATH= 可以解决
如果不想替换/lib64/libc.so.6的方法:
由于没有root权限,所有不能重定向/lib64/libc.so.6到~/anaconda3/glibc-2.14/lib下的相应libc-2.14.so
所有需要每次打开新窗口执行:
export LD_LIBRARY_PATH=/home/work/glibc-2.14/lib:$LD_LIBRARY_PATH
import torch
print(torch.cuda.device_count())
6
成功检索到GPU片数