在配置实验室服务器时出现的各种问题及解决方案
#问题一
一直都装不上cuda,经过请教发现是因为账号的权限设置错误,所有者是root。之后把其他同学装好的cuda路径引到我这边就能用了。
#问题二
解决方法:
可能是因为我这里pip版本跨度太大了,无法直接更新,所以我先折中选了一个版本,发现成功了。然后再将pip更新到最新版本。
python -m pip install -U --force-reinstall pip
但是后来用pip安装一些库的时候,还是会出现安装不上的情况。后来发现默认版本的python是2.6,如果想用pip命令的话要在原来基础上将pip改成pip3 之后就成功安装上torch 和torchvision了
#问题三
在新的虚拟环境里无法使用conda安装包,提示镜像源中搜不到。但其实这个包很常见,不应该出现这种情况。
查询到的解决方法是更新一下conda,即
conda update -n fsdet conda
但又出现了新问题
到这里才知道我装的是miniconda并不是anaconda,【但我确实不太明白为什么会装成了miniconda,因为我一直都没有接触过miniconda】所以要用如下命令去更新
conda install anaconda
#问题四
在vscode上一直都不能git代码,然后才明白是我没有设置好。在vscode上登陆github账号,然后在github上将daimafork到自己的仓库中,通过输入名字就能成功下载到服务器的指定文件夹里面啦~~
#问题五
我的cuda版本是10.1,有些时候如果按默认安装pytorch可能会出现不匹配的情况,所以每次安装pytorch时可以指定版本安装
pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
#问题六
昨晚新建了一个虚拟环境,安装pytorch又出现了问题,和实验室同学讨论后才知道可以建立一个base环境,把pytorch等等常用的包安在里面,然后每次新建环境时都先从base环境里面拷贝该环境!!又get了一个新技能。
具体的操作方式:
conda create -n pytorch python==3.8.0 #这是base环境
conda activate pytorch #激活环境
pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html #在pytorch环境里安装常用的torch包
conda deactivate
conda create -n test --clone pytorch #clone环境
conda activate test
然后发现test环境里已经有了pytorch包!!
#问题七
最近要跑一个代码,它用的pytorch版本是1.1.0,去官方看了一下cuda10.1不支持这个版本,于是想要再装一个cuda10.0版本。
意外发现服务器上有其他师兄已经装好的各个cuda的版本,于是想要通过软链接的方式使用。
首先,把我的bashrc中原有的cuda路径删除
然后软链接到现有的cuda路径中
ln -s /usr/local/cuda_10.0 我的路径
之后在bashrc文件中将原来删掉的那些路径都替换成cuda10.0所在的路径
然后,激活一下bashrc文件
source ~/.bashrc
然后再按照正常流程新建环境,安装对应的torch包就可以了,可以验证一下
发现,没有问题!
下次想要换其他的cuda版本时也可以这样操作,但是好像直接软链接就行了,不需要再删掉了(存疑,这个是实验室其他同学说的,有待验证)
未完待续~~