实验室深度学习服务器从硬件到系统和软件上的配置,不使用外包的服务器,从装机到管理全程自己摸索,从而实现实验室多用户共同共用服务器资源,目前服务器上所有的硬件配置就都是INTEL和NVIDIA,系统上使用Ubuntu系统,同样其他Linux操作系统也可以,但是目前来说Ubuntu对于深度学习服务器来说还是适用性最广的。
服务器的配置方面,首先是CPU,普遍选择Intel至强系列芯片居多,当然最近几年AMD确实是香,但是从软件兼容性角度考虑,还是选择Intel;显卡方面就不必多说了RTX30系列真的香;关于电源方面,推荐美商海盗船的电源,一定要选择有质量保障的,电源功率方面最好选择较大一点的根据显卡具体情况而定;关于散热方面,可选择风冷也可以选择水冷,水冷噪音会小一点;关于内存条方面,运行内存越大越好对于深度学习的训练速度有帮助;关于存储硬盘部分,机械硬盘选择西数或者希捷硬盘,固态硬盘选择三星的固态。
系统方面选择Ubuntu20.04版本,比较新且比较稳定好看
cp /etc/apt/sources.list /etc/apt/sources.list.bak
sudo vim /etc/apt/sources.list
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
sudo apt update
sudo apt upgrade
sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target
systemctl status sleep.target
sudo fdisk -l
# 比如
sudo fdisk /dev/sdb
# 在Command (m for help)提示符后面输入n,执行 add a new partition 指令给硬盘增加一个新分区。
# 出现Command action时,输入e,指定分区为扩展分区(extended)。
# 出现Partition number(1-4)时,输入1表示只分一个区。
# 后续指定起启柱面(cylinder)号完成分区。
# 在Command (m for help)提示符后面输入w,保存分区表
# 表示将分区格式化成ext4文件系统类型
sudo mkfs -t ext4 /dev/sdb
df -l
sudo mkdir /media/Harddisk/
sudo mount -t ext4 /dev/sdb /media/Harddisk
sudo vim /etc/fstab
# 在该文件最后一行添加
/dev/sdb /media/Harddisk ext4 defaults 0 0
cd ~
mkdir .pip
sudo vim ~/.pip/pip.conf
# 加入下面内容
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple/
[install]
trusted-host = pypi.tuna.tsinghua.edu.cn
sudo apt-get install xfce4
sudo apt-get install xrdp
sudo adduser xrdp ssl-cert
sudo systemctl restart xrdp
echo xfce4-session >~/.xsession
sudo adduser 用户名
sudo gedit /etc/sudoers
用户名 ALL=(ALL:ALL) ALL
su 用户名
echo xfce4-session >~/.xsession
curl -s https://install.zerotier.com | sudo bash
sudo zerotier-cli join 你的network ID
sudo vim ~/.bashrc
# 最后一行加入(注意把文件夹名改成对应安装的CUDA文件夹名)
export CUDA_HOME=/usr/local/cuda-11.0
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}
# 生效环境变量
source ~/.bashrc
tar -xzvf cudnn-11.0-linux-x64-v8.0.5.39.tgz
# 注意改一下对应的文件夹名
sudo cp cuda/lib64/* /usr/local/cuda-11.0/lib64/
sudo cp cuda/include/* /usr/local/cuda-11.0/include/
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2