nvidia-smi
在这里可以看到已装显卡型号、显存占用、哪些进程在占用显存、驱动版本、cuda版本
发现显存不足时可杀掉目前占用显存的非关键进程(如带python的进程)
kill -9 (PID编号)
到Anaconda官网找到Liunx版本的Anaconda,cd到安装包根目录下,安装:
bash Anaconda3-2020.11-Linux-x86_64.sh
安装完成后修改环境变量文件:
sudo vi /etc/profile
在文件内加入语句:
export PATH=$PATH:/root/anaconda3/bin
这里我写入的时Anaconda默认的安装目录。
然后激活文件:
source /etc/profile
输入指令,若能看到conda版本即配置完成:
conda -V
安装完conda后若终端模式下用户名前面没有显示base则需先激活虚拟环境:
source activate
可使用命令行的方式创建(windows、Linux):
conda create -n (虚拟环境名称) python=(你的python版本,如3.7)
对于Windows,也可以打开Anaconda Navigator使用图形界面安装:
使用命令行可查看已经建立的虚拟环境:
conda info -e
使用命令行进入到你已经建立好的pytorch使用的虚拟环境:
conda activate (虚拟环境名称)
conda remove -n (虚拟环境名称) --all
若想使用Jupyter Notebook,由于Jupyter默认使用系统环境,需在当前环境下使用命令行让Jupyter关联 Anaconda 环境:
conda install nb_conda
conda install ipykernel
首先确定cuda版本(跟显卡驱动有关,驱动越新、cuda越新),可使用上面的nvidia-smi命令,对于windows还可以打开英伟达控制面板,确定本机支持cuda版本:
到英伟达官网下载对应的CUDA版本。
对于Windows,安装过程中有一项是确定安装路径,这里最好不要乱放,因为后面要配置环境变量,我这里使用的是默认路径:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\CUPTI\lib64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\bin\win64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\common\lib\x64
对于Linux,安装完cuda同样需要配置虚拟环境:
vim ~/.bashrc
打开脚本后按i进入编辑,添加下面几行(注意cuda版本):
export CUDA_HOME=/usr/local/cuda-11.1
export LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-11.1/bin:$PATH
export就是Linux添加环境变量指令
点Esc退出编辑,‘shift’ + ‘:’ ,输入‘wq’保存并退出,然后激活脚本:
source ~/.bash_profile
输入命令行,若能正常显示cuda版本证明安装成功:
nvcc -V
到pytorch官网找到自己对应的pytorch版本:(这里cuda版本能向下兼容,也就是说11.1的cuda能运行cuda10.2的torch)
激活虚拟环境后若直接在Anaconda Prompt(Linux直接在Terminal)输入命令行:
conda install pytorch torchvision cudatoolkit=10.2 -c pytorch
可能会因为网络问题安装失败,可以采用添加镜像源的方法,进入清华镜像源官网,找到pypi和conda对应的镜像地址,Anaconda添加方式如下:
conda config --add channels (镜像源地址)
https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
并且设置下载某个包时显示这个包的下载源
conda config --set show_channel_urls yes
使用下面命令行并找到channels这一块可查看是否成功添加该镜像源
conda config --show
最后记得不要直接使用官网提供的命令行,因为这依然会从官网下载pytorch;应使用:(记得要在自己建立好的虚拟环境内安装)
conda install pytorch torchvision cudatoolkit=10.2
输入官方指令后在控制台中会出现即将要安装的包,不要点确认下载,退出
然后上到Anaconda Cloud,搜索找到对应版本的pytorch、cudatoolkit、torchvision、torchaudio,放到Anaconda安装目录下的pkgs文件夹下
执行命令行,后耐心等待其提出成功:
conda install --use-local pytorch-1.7.1-py3.8_cuda110_cudnn8_0.tar.bz2
也可尝试pip安装,若直接使用官网给的指令下得很慢,可选择换个时间段再下(很玄学,有的时候下得特别快),也可指定镜像源(但镜像源里面的pytorch可能不支持最新版本的显卡,本人就遇到下下来后报3080无法使用的问题),如果中途下载失败可重复几次:
pip install torch torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
最后在Jupyter中新建一个文本或直接命令行写入并运行代码,查看是否安装成功:
import torch
print(torch.__version__)
print(torch.cuda.is_available())
我在新建以自己建立的虚拟环境为内核的Jupyter文本时服务器一直卡着,PowerShell显示下面错误:
解决方法:
pip install --upgrade ipykernel
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow-gpu
conda config --add (某个配置项) (添加的值)
conda config --remove (某个配置项) (删除的值)
如添加虚拟环境路径:conda config --add envs_dirs /home/dell/anaconda3/envs/
如删除某个镜像源:conda config --remove channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/