服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)

1.Ubuntu系统安装

1.1 进入启动盘

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第1张图片

1.2 按e键 添加 “ nomodeset nodmraid xforcevesa” 启动安装

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第2张图片

1.3 按照实际要求一步一步安装

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第3张图片
PS:如果到此界面选择键盘后卡死,是由于超微IPMI的显卡与乌班图内置显卡驱动不匹配导致,需要在安装时加上xforcevesa nomodeset参数,然后按实际需求根据屏幕提示安装

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第4张图片

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第5张图片

2. 安装显卡驱动(Tesla t4)

注意(PCI设置一下,否则驱动安装不上去)

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第6张图片
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第7张图片

2.1 配置网络

例:(文本编辑器)
vim /etc/netplan/**.yam

修改为
ethernets:

eno1: #配置的网卡名称,使用ifconfig -a查看得到
dhcp4: true #dhcp4开启
#dhcp4: no #dhcp4关闭
#addresses: [192.168.1.2/24] #设置本机IP及掩码
#gateway4: 192.168.1.1
#nameservers:
addresses: [192.168.1.1,114.114.114.114]
#optional: true

netplan apply 敲入此命令应用网络配置

#ip dns ip 需要用”[]”分割,网关不用
#冒号后需要一个空格
#每一层前面缩进需要2个空格

ip a s 查看IP
或者通过GUI界面编辑

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第8张图片
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第9张图片
Ubunto改root密码
sudo passwd root(修订root密码)

2.2 把Ubuntu自带显卡驱动添加到黑名单

sudo chmod 666 /etc/modprobe.d/blacklist.conf #添加修改权限
sudo apt-get install vim #安装编写器
vim /etc/modprobe.d/blacklist.conf #打开黑名单配置文件,在最后添加
如下:
blacklist nouveau
options nouveau modeset=0
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第10张图片
sudo chmod 644 /etc/modprobe.d/blacklist.conf #把黑名单权限恢复

sudo update-initramfs -u #应用

sudo reboot now #重启

2.3 更新apt 列表,安装SSH服务和安装依赖包

Sudo apt-get update
Sudo apt-get install openssh-server(系统默认不带sshd服务,如果需要远程需要安装)
sudo apt-get install build-essential gcc-multilib dkms
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev libglfw3-dev libgles2-mesa-dev
在这里插入图片描述

2.4 安装驱动(具体安装版本,请按实际需求安装)

Su 切换到root用户
Alt ctrl F2 切换到命令行界面
init 3 关闭x服务图形界面
chmod 755 NVIDIA-Linux-x86_64-450.57.run 添加执行权限
./NVIDIA-Linux-x86_64-450.57.run -no-x-check -no-nouveau-check -no-opengl-files 安装

在这里插入图片描述
注意不要让驱动自动打开x服务
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第11张图片
安装完成
在这里插入图片描述

2.5 验证

重启后 运行nvidia-smi

3. 安装 Cuda 10.0.130 (安装版本请按实际安装,若使用conda配置环境则不需要安装Cuda)

3.1安装 cuda

3.1.1添加权限

chmod 755 cuda_10.0.130_410.48_linux.run

3.1.2执行文件

./cuda_10.0.130_410.48_linux.run

在这里插入图片描述

3.1.3 弹出协议(持续按空格)并开始安装

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第12张图片
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第13张图片

3.2 修改环境变量和验证安装是否成功

vim ~/.bashrc   编辑环境变量文件,在最后添加

export PATH="/usr/local/cuda-10.2/bin: P A T H "     e x p o r t L D L I B R A R Y P A T H = " / u s r / l o c a l / c u d a − 10.2 / l i b 64 : PATH"    export LD_LIBRARY_PATH="/usr/local/cuda-10.2/lib64: PATH"  exportLDLIBRARYPATH="/usr/local/cuda10.2/lib64:LD_LIBRARY_PATH"
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第14张图片

cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery

make 编译

./deviceQuery 运行,如果安装成功能显示cuda版本与显卡信息
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第15张图片

编译测试程序
cd ~/NVIDIA_CUDA-10.0_Samples/5_Simulations/nbody
make编译
重启后运行测试程序
Cd ~/NVIDIA_CUDA-10.0_Samples/5_Simulations/nbody
./nbody -benchmark -numbodies=512000 -device=0(device 为几号GPU,0开始)
./nbody -benchmark -numbodies=512000 -device=1(同上)
查看/监控GPU状态 watch -n 1 nvidia-smi

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第16张图片

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第17张图片

4 安装anaconda

4.1下载anaconda安装包

Anaconda 安装包可以到 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载。ps:也可以去官网下载 https://www.anaconda.com/download/

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第18张图片
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第19张图片
ps:本次使用的是Anaconda3-5.0.0-Linux-x86_64.sh

4.2 anaconda安装

进入文件目录:
指令 bash ./Anaconda3-5.0.0-Linux-x86_64.sh
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第20张图片
Ps 全程 yes +回车 ,默认安装在home目录下

4.3 anaconda环境变量

4.3.1检查环境变量,没有则添加

查看命令 sudo gedit ~/.bashrc
在这里插入图片描述
检查末尾是否已经添加如下变量,没有则添加

export PATH="/home/用户名/anaconda3/bin:$PATH"

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第21张图片

需要重启系统,不然找不到命令

4.3.2打开控制台 ,更换conda清华源(墙太高)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

4.3.3创建自命名的虚拟环境

conda create -n+环境名字+python=3.6

创建成功

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第22张图片
激活环境
source activate +环境名

5. 安装所需框架(如pytorch)

方法一:命令在线安装
使用conda清华源快速安装
切换源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

去pytorch官网上寻找需要安装的torch和torchvision版本的指令
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第23张图片
例如:

conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2

接下来就可以快速安装了

服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第24张图片
方法二:安装包离线安装
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第25张图片
找到所需要的包,下载放在指定位置利用pip 安装
服务器系统(Ubuntu)安装及环境(pytorch+gpu)配置(Tesla T4)_第26张图片

你可能感兴趣的:(系统安装,深度学习环境,pytorch,ubuntu,pytorch,服务器)