前言:我从其它专业转到深度学习方向,由于最开始接触的时候缺乏很多计算机方面的系统知识,所以环境配置中常常出现各种问题而不知其所。网上同一个问题往往有多种解决方案而有的可用,有的不可用,最开始只能通过不断尝试探索出解决问题的确切方案,但随着趟过的坑越来越多,也慢慢了解了一些常见问题背后的原因。为了避免自己忘记,方便查找,同时也希望能够帮助到其他和我有相同境况的小伙伴不再将大量时间浪费在信息鉴别与筛查,方案收集与试错上,谨以此记。
sudo apt-get install software-properties-common
sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install -y python3.8
sudo apt install -y python3-pip
sudo ln -s /usr/bin/python3.8 /usr/bin/python
sudo ln -s /usr/bin/pip3 /usr/bin/pip
如果软链接已经存在则使用-f参数进行覆盖
apt-get autoclean
apt autoclean
rm -rf /var/lib/apt/lists/*
rm -rf ~/.cache/pip
rm -rf ~/.cache/pip3
docker login
docker commit [ID] [Name]
docker tag [ID] 用户名/仓库名
docker push 用户名/仓库名
docker save -o docker_iamges_name.tar REPOSITORY:TAG
docker load -i docker_iamges_name.tar
export PATH=/usr/local/cuda-11.4/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
source ~/.bashrc
unzip [-Z] [-opts[modifiers]] file[.zip] [list] [-x xlist] [-d exdir]
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
CUDA Toolkit | Toolkit Driver Version | |
Linux x86_64 Driver Version | Windows x86_64 Driver Version | |
CUDA 11.6 Update 1 | >=510.47.03 | >=511.65 |
CUDA 11.6 GA | >=510.39.01 | >=511.23 |
CUDA 11.5 Update 2 | >=495.29.05 | >=496.13 |
CUDA 11.5 Update 1 | >=495.29.05 | >=496.13 |
CUDA 11.5 GA | >=495.29.05 | >=496.04 |
CUDA 11.4 Update 4 | >=470.82.01 | >=472.50 |
CUDA 11.4 Update 3 | >=470.82.01 | >=472.50 |
CUDA 11.4 Update 2 | >=470.57.02 | >=471.41 |
CUDA 11.4 Update 1 | >=470.57.02 | >=471.41 |
CUDA 11.4.0 GA | >=470.42.01 | >=471.11 |
CUDA 11.3.1 Update 1 | >=465.19.01 | >=465.89 |
CUDA 11.3.0 GA | >=465.19.01 | >=465.89 |
CUDA 11.2.2 Update 2 | >=460.32.03 | >=461.33 |
CUDA 11.2.1 Update 1 | >=460.32.03 | >=461.09 |
CUDA 11.2.0 GA | >=460.27.03 | >=460.82 |
CUDA 11.1.1 Update 1 | >=455.32 | >=456.81 |
CUDA 11.1 GA | >=455.23 | >=456.38 |
CUDA 11.0.3 Update 1 | >= 450.51.06 | >= 451.82 |
CUDA 11.0.2 GA | >= 450.51.05 | >= 451.48 |
CUDA 11.0.1 RC | >= 450.36.06 | >= 451.22 |
CUDA 10.2.89 | >= 440.33 | >= 441.22 |
CUDA 10.1 (10.1.105 general release, and updates) | >= 418.39 | >= 418.96 |
CUDA 10.0.130 | >= 410.48 | >= 411.31 |
CUDA 9.2 (9.2.148 Update 1) | >= 396.37 | >= 398.26 |
CUDA 9.2 (9.2.88) | >= 396.26 | >= 397.44 |
CUDA 9.1 (9.1.85) | >= 390.46 | >= 391.29 |
CUDA 9.0 (9.0.76) | >= 384.81 | >= 385.54 |
CUDA 8.0 (8.0.61 GA2) | >= 375.26 | >= 376.51 |
CUDA 8.0 (8.0.44) | >= 367.48 | >= 369.30 |
CUDA 7.5 (7.5.16) | >= 352.31 | >= 353.66 |
CUDA 7.0 (7.0.28) | >= 346.46 | >= 347.62 |
# CUDA 10.2
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
# CUDA 11.1
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge
# CPU Only
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly -c pytorch
# CUDA 11.1
pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
# CUDA 10.2
pip install torch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0
# CPU only
pip install torch==1.8.0+cpu torchvision==0.9.0+cpu torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
# CUDA 9.2
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=9.2 -c pytorch
# CUDA 10.1
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch
# CUDA 10.2
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.2 -c pytorch
# CUDA 11.0
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch
# CPU Only
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cpuonly -c pytorch
# CUDA 11.0
pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
# CUDA 10.2
pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
# CUDA 10.1
pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
# CUDA 9.2
pip install torch==1.7.1+cu92 torchvision==0.8.2+cu92 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
# CPU only
pip install torch==1.7.1+cpu torchvision==0.8.2+cpu torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
docker build [OPTIONS] PATH | URL | -
Options 常用参数:
-t
: 打包出镜像的名称及标签,通常写法为 name:tag
--rm
: 构建成功后,删除中间产生的容器。--force-rm=true
: 无论是否构建成功,都删除中间产生的容器--no-cache
: 构建镜像时不使用缓存。-f
: 指定 DockerFile 的路径apt-get install openssh-server
apt-get install openssh-client
启动ssh服务和检查启动情况
# 启动SSH服务
/etc/init.d/ssh start
# 检查启动情况
ps -e | grep ssh
生成密钥
ssh-keygen
forward port:本地端口
SSH Server:服务器和SSH端口
Remote Server:localhost
Remote port:6006
conda activate tensorboard_NN
# 启动tensorboard
tensorboard --log_dir=/path/to/log_dir --host=localhost
激活SSHTunnel后在浏览器中输入
127.0.0.1:本地端口
或
服务器ip:6006
即可访问
docker images
docker image ls
docker rmi repo:tag
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
Note:如果此时连接不上https://nvidia.github.io,但是服务器可以连接外网,则可能需要设置apt代理,可通过临时设置代理进行安装和更新。
sudo apt-get -o Acquire::http::proxy="http://127.0.0.1:8889/" update
Note:8889为本机代理转发端口
# 不使用临时代理
sudo apt-get install -y nvidia-docker2
# 使用临时代理
sudo apt-get install -o Acquire::http::proxy="http://127.0.0.1:8889/" nvidia-docker2
sudo systemctl restart docker
export http_proxy=http://127.0.0.1:8000
sudo apt-get update
Acquire::http::proxy "http://127.0.0.1:8000/";
Acquire::ftp::proxy "ftp://127.0.0.1:8000/";
Acquire::https::proxy "https://127.0.0.1:8000/";
sudo apt-get -o Acquire::http::proxy="http://127.0.0.1:8000/" update
#!/bin/bash
# "$@" 是传递给python脚本的参数,此处相当于从标准输入读入
# python代码段的缩进应当用空格控制,否则会遇到违法缩进的错误
# << -符号可有可无,但是最好有。-符号存在时,结束标识符可以在任意位置,-符号不存在时,结束标识符只能在一行的开头
# END是结束标识符,可以自定义,例如EOD,EOF等都可以。
python3 - "$@" <<-END
import torch
print('Hello, world!')
END
# 关闭图形界面
sudo systemctl set-default multi-user.target
# 开启图形界面
sudo systemctl set-default graphical.target
# 重启生效
sudo shutdown -r now
# 检查现有驱动程序
ubuntu-drivers devices
# 安装驱动 驱动版本为上面命令列出的版本
sudo apt install nvidia-driver-xxx-server
# scp
scp -r user@ip:/path/to/file /path/to/file
sudo vim /etc/ssh/sshd_config
# ----------------------------------------
# 是否允许 root 远程登录
PermitRootLogin yes
# 密码登录是否打开
PasswordAuthentication yes
# 开启公钥认证
RSAAuthentication yes # 这个参数可能没有 没关系
PubkeyAuthentication yes
# 存放登录用户公钥的文件位置
# 位置就是登录用户名的家目录下的 .ssh
# root 就是 /root/.ssh
# foo 就是 /home/foo/.ssh
AuthorizedKeysFile .ssh/authorized_keys
# ----------------------------------------
service sshd restart
ssh-keygen
此命令会在用户目录/.ssh文件夹下创建公私钥:id_rsa(私钥)、id_rsa.pub(公钥)
ssh-copy-id -i user/.ssh/id_rsa.pub user@ip
# 或使用scp上传
cat >>~/.ssh/authorized_keys<id_rsa.pub
# 首先使用umount解除所有挂载
sudo udisksctl power-off -b /dev/sdb
conda create -n jupyter python=3.8
conda activate jupyter
pip install jupyter lab
ipython
# 如果提示没有,则要先安装
# 在交互界面中输入
from notebook.auth import passwd
passwd()
# 输入密码,同时记住输出的字符串
jupyter notebook --generate-config
# 修改配置文件
vim ~/.jupyter/jupyter_notebook_config.py
# 主要修改内容
c.NotebookApp.allow_remote_access = True
c.NotebookApp.open_browser = False
c.NotebookApp.ip='*'
c.NotebookApp.port = 8888
c.NotebookApp.password = 'sha1:xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
nohup jupyter lab &
在浏览器中输入服务器ip:端口,即可访问
之前本想通过超链接的方式以一篇文章作为目录,链接到其它文章中,没想到可以直接在前面加目录。希望这一箩筐能够帮到大家,我也会不定时更新~