服务器重装Ubuntu系统+深度学习环境配置

服务器重装Ubuntu系统+深度学习环境配置

2020年12月14日(勉强成功
最后并不是按照下面这样一步步安装的(可能是由于服务器的硬件问题),而是直接安装CUDA,在安装过程中会提示是否安装nvidia driver,选择安装就行,具体步骤在后面。
虽然安装结束了,还是要说一句:“Nvidia, fuck you !”。

一、重装ubuntu18.04稳定版

  1. 写U盘(见网上教程,注意备份U盘文件)
  2. 插U盘,开机前根据机器型号使用命令进入boit manager,选择从U盘boot
  3. 根据提示安装ubuntu(服务器不用分区,默认就行,如果自己电脑双系统则需要根据内存设置分区)

二、设置root密码并进入root

sudo passwd root

三、配置实验室网络

记住网络名称eno1和eno2,编辑网络配置文件

vi /etc/network/interfaces

这里使用vi编辑,和vim略有不同,常用操作有:

  • esc:退出编辑模式
  • o:在命令模式下换行,在下一行自动进入编辑模式
  • i:进入编辑模式,在当前字符位置插入(命令模式下光标在字符上而不是字符之间)
  • a:进入编辑模式,在当前字符位置的下一位置输入
  • x:在命令模式下删除当前光标所在字符

更建议使用gedit编辑,还能复制粘贴,但是指不定哪天只能用vi了是吧哈哈哈。

打开后文件有下面两行:

auto lo
iface lo inet loopback

再下面添加添加有线网络的静态设置

auto eno1
iface eno1 
address xxx.xxx.xxx.xxx
netmask xxx.xxx.xxx.xxx
gateway xxx.xxx.xxx.xxx
dns-nameservers xxx.xxx.xxx.xxx

有的博客说变量名应该是eth0,我试的时候不太好使,干脆全加上了,上述代码将eno1换成eno2eth0,都加在这个文件中。

保存退出,重启networking服务:

sudo /etc/init.d/networking restart

但是这样并不能配置DNS(最后一行好像没用),此时还是不能打开网页

我的方法是DNS在图形界面配置:
在ubuntu右上角点击需要连接的网络,点击设置,在ipv4里面把DNS写上(事后记录所以没图,应该找得到),并点击 应用

这位xd提出再另一个文件手动设置DNS服务器

vim /etc/resolv.conf

手动添加

nameserver xxx.xxx.xxx.xxx

保存退出,重启networking服务:

sudo /etc/init.d/networking restart

正常情况下,最后把DNS配好后,就可以打开网页了
然而这样做还是有问题,重启之后又不能上网了,问题出在/etc/resolv.conf。重启后,此文件配置的dns又被自动修改为默认值。所以需要永久性修改DNS。方法如下:

vim /etc/resolvconf/resolv.conf.d/base

添加

nameserver xxx.xxx.xxx.xxx

保存退出,重启networking服务:

sudo /etc/init.d/networking restart

然而这个方法在我这里仍然没用,重启之后依然要重新在图形界面配置DNS,甚至还碰到还碰到一个问题

有线连接未托管

方法是:

sudo vim /etc/NetworkManager/NetworkManager.conf

(联网之后下了vim嘿嘿嘿)

[main]
plugins=ifupdown,keyfile

[ifupdown]
managed=false

[device]
wifi.scan-rand-mac-address=no

managed=false改成managed=true
这样就托管上了,详情见这位老哥

四、安装NVIDIA驱动

这是 天坑 ,我还没爬出来
参考 A, B 等老哥的博客后,大致流程应该如下:

  1. 禁用BIOS的secure boot(disable),不关闭的话安装驱动后不能使用,具体方法因电脑而异。
  2. 禁用nouveau驱动
    在/etc/modprobe.d/blacklist.conf中加入如下内容:
blacklist nouveau
options nouveau modeset=0
  1. 输入以下命令使禁用生效然后重启
sudo update-initramfs -u
sudo reboot
  1. 重启后验证:
lsmod | grep nouveau

如果回车后无反应,说明禁用成功

  1. 卸载原有的显卡驱动
sudo apt-get remove --purge nvidia*
  1. 安装ppa源(据说是安装驱动最好的源)
    在进行这一步之前建议换源,这点非常非常重要,除非有梯子而且人品极好,具体参照这位老哥,清华源就挺好
    换完之后记得:
sudo apt update && sudo apt upgrade

然后(没换源的话下一步大概率失败)

sudo add-apt-repository ppa:graphics-drivers/ppa
  1. 查看电脑适合的NVIDIA驱动版本
ubuntu-drivers devices

在最适合的后面会有 recommended

  1. 安装驱动
 sudo apt-get install nvidia-driver-435 #此处数字要对应上面查询到的版本号
 sudo apt-get install mesa-common-dev #不造这是干啥,但是博客里有

注意: 如果前面没有禁用secure boot,则在安装过程中会提示设置一个密码,在重启时需要输入密码验证以禁用secure boot,重启后会出现蓝屏,这时候不能直接选择continue,而应该按下按键,选择Enroll MOK, 确认后在下一个选项中选择continue,接着输入安装驱动时设置的密码,开机

  1. 完成安装后重启
sudo reboot

目前卡死在这一步,服务器显示CPU internal error,而且进入不了ubuntu登录界面,所以甚至连进入命令行删除已经安装(失败)的NVIDIA驱动都做不到,只能重装系统。
(重装也不是插上U盘就重装,首先要关闭服务器,然后在服务器后面拔掉2根电源,然后长按开关键20s,并等待1min左右后再次接上两根电源,CPU error才会消失)
9. 打开终端验证

nvidia-smi

多么希望看到这张图啊

你可能感兴趣的:(环境搭建,深度学习,pytorch,ubuntu,nvidia)