实验室GPU服务器的搭建

实验室GPU服务器的搭建

背景:以此记录在实验室两台GPU服务器安装Ubuntu系统遇到的问题
服务器1:主板:技嘉TRX40 AORUS XTREME; GPU:RTX 2080TI
服务器2:主板:技嘉TRX40 AORUS XTREME; GPU:TITAN RTX

1、系统的安装

1.1 服务器2系统的安装

服务器2的安装很顺利

安装流程:

  1. 下载18.04 系统,直接copy到U盘;
  2. 然后按照网上教程按照挂载系统的硬盘进行分区,包括主分区、逻辑分区(分区是按照网上说的比例进行的);
  3. 然后可正常安装;

之后问过老师才知道,分区的时候没必要这么繁琐,于是又重新安装了一遍(按以下分区之后也安装顺利)。1T的固态硬盘分区如下:

10G的Swap; 200G的“/”(主分区), 60MB的EFI引导项, 然后剩下的空间全部分给/home(逻辑分区)

1.2 服务器1系统的安装

服务器1的安装前后持续了一周,各种问题不断。安照服务器2系统的安装方法,一直出现安装后黑屏,也试了网上说的针对Ubuntu系统安装之后黑屏问题的解决办法,但还是无法解决。
之后发现是自己的系统缺少引导向,之前安装的系统是下载的ISO系统直接放到U盘下。

解决办法:使用Ubuntu引导项软件Rufus,制作过程中,分区类型选:GPT 目标系统类型:UEFI。

如果U盘无法引导又无法删除卷进行分区,需要使用命令行进行删除卷,解决办法:

(1)在cmd中运行diskpart
(2)lisk disk
(3)sel disk 1(U盘的编号需要一般为1)
(4)clean

2、驱动的安装

1、NVIDIA驱动官网下载驱动
2、卸载原有的驱动

sudo apt-get purge nvidia*
#第一遍安装失败之后继续这样卸载
 ./NVIDIA-Linux-x86_64-390.48.run --uninstall #确保卸载干净。

3、安装需要的依赖(可只安装前两个或者跳过)

 sudo apt-get update 
 sudo apt-get install dkms build-essential linux-headers-generic
 sudo apt-get install gcc-multilib xorg-dev
 sudo apt-get install freeglut3-dev libx11-dev libxmu-dev install libxi-dev  libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

4、禁用系统默认显卡驱动

方法二:安装NVIDIA需要把系统自带的驱动禁用,打开文件:
sudo gedit /etc/modprobe.d/blacklist.conf
在文本最后添加以下内容:
blacklist nouveau
option nouveau modeset=0
命令窗口会提示warn,无视之。

保存退出,执行以下命令生效:
sudo update-initramfs -u
重启电脑后输入:
lsmod | grep nouveau没有任何输出说明禁用成功。

5、正式安装驱动

按住CTRL+ALT+F2 进入命令行界面,输入用户名和密码登录命令行界面。

Login : 安装ubuntu的用户名
紧接着输入密码

sudo service lightdm stop    或者   sudo stop lightdm  //# 这会关闭图形界面,禁用X服务

sudo init 3

cd 下载目录 //进入NVIDIA的.run文件目录下

chmod a+x NVIDIA-Linux-x86_64-384.90.run #添加权限
sudo ./NVIDIA-Linux-x86_64-384.90.run --dkms --no-opengl-files

sudo service lightdm start  //开启桌面  “注意:在命令行输入:sudo service lightdm start ,然后按Ctrl-Alt+F7即可恢复到图形界面。”

6、安装出错
安装时,你可能会收到一条 pre-install script failed 信息
卸载安装失败的驱动(从上面步骤2开始继续)
7、安装验证

nvidia-smi #若列出GPU的信息列表,表示驱动安装成功

驱动安装参考
https://www.cnblogs.com/carle-09/p/11244396.html
https://blog.csdn.net/u014561933/article/details/79958017

3、硬盘的挂载

挂载参考
https://blog.csdn.net/qq_28019591/article/details/91044873

4、Anconda和其它软件的安装

包括anconda、中文输入法,谷歌浏览器
https://blog.csdn.net/m0_37864814/article/details/8211202

5、Anconda建立虚拟账户

安装
conda create -n  name python==3.6
进入
conda activate 虚拟环境名称
退出
ctrl+D
列出已有环境
conda env list

6、其它的安装

cuda安装参考:https://blog.csdn.net/qq_43030766/article/details/91513501

虽然安装anconda之后就默认安装CUDA了,但如果运行大型的数据集例如ImageNet数据集会导致网络模型的训练特别慢。
本人使用ResNet50在ImageNet进行训练,但由于没有手动安装CUDA直接使用anconda默认的CUDA,所以导致网络模型的训练特别缓慢,安装CUDA之后,可解决网络训练慢的问题。
所以还是需要下载并安装CUDA。

关于使用GPU运行大型数据集,程序运行缓慢的问题:
https://blog.csdn.net/qq_32998593/article/details/92849585?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

pycharm的安装可以直接在Ubuntu软件包中下载、安装

你可能感兴趣的:(python,个人小结,电脑,ubuntu,linux,github)