服务器安装ubuntu18.04,然后配置环境深度学习环境

U盘启动,装Ubuntu18系统

Ubuntu 的iso镜像下载
https://mirrors.melbourne.co.uk/ubuntu-releases/服务器安装ubuntu18.04,然后配置环境深度学习环境_第1张图片
可以选择上面的这个iso,保留一些图形化界面最好,虽然会多占点内存。
服务器安装ubuntu18.04,然后配置环境深度学习环境_第2张图片

U盘刻录软件UltralISO(软碟通)poj下载:
https://cn.ultraiso.net/xiazai.html(官网下载)
注册码(随便挑一个填进去):
Registration name: Home
Registration code: 4BA9-0D54-214A-C938

Registration name: Heinzdieter Beckmann Jr
Registration code: 641D-D430-88E6-A656

Registration name: Steve Olson
Registration code: 2BEC-ED28-82BB-95D7

Registration name: Christopher Wydler
Registration code: 424F-ED23-7C0A-D75B

然后插入U盘,打开UltrallSO软碟通软件-》文件-》打开-》选择你下好的本地iso文件,打开
服务器安装ubuntu18.04,然后配置环境深度学习环境_第3张图片
然后在上面这个界面中,最上面那一个( 启动-》写入硬盘映像 )
服务器安装ubuntu18.04,然后配置环境深度学习环境_第4张图片
先格式化一个U盘(记得买大一些,我的是30G的,记得备份U盘里的原数据):
服务器安装ubuntu18.04,然后配置环境深度学习环境_第5张图片
选择exFAT格式化,大小值默认。这里NTFS文件格式是windows用的,而FAT32也不行,因为单文件大小限制在4GB内,显然不适用于深度学习这种大数据文件要求。所以选exFAT格式。
服务器安装ubuntu18.04,然后配置环境深度学习环境_第6张图片
格式化完成之后,直接点击写入,即可。
U盘制作好之后,直接弹出。

我用的服务器是超微,里面有几张GPU卡。

首先打开服务器的电源(竖的图案是通电,圈的图案是断电),

随便找一台显示屏,用D-sub线连接(线的实物如下):服务器安装ubuntu18.04,然后配置环境深度学习环境_第7张图片
然后将,键盘和鼠标都插入服务器。

然后将U盘插进去和键盘与鼠标一样连接的USB接口(我插蓝色的USB接口,虽然网上说接口都一样)。

然后系统开机,开机与开电源并不是一个东西,这两个开关在服务器的前后两个不同位置。其中开机用软件也能控制。我刚开始玩的时候找了半天,显示屏一直显示无信号,我一度以为是服务器或者显示屏坏了、、、、

开机的完全结束之前!!!像那种大一点的服务器都是会有画面提示你按什么键位进入bios系统,对于超微,我是按提示疯狂的按Del(删除)和Tab键位,似乎Tab是大写的,我还会按一下shfit键位。总之,主要按tab。然后服务器的开机很慢,然后进入Bios系统。(每个电脑进入bois方式可能不同,可以搜索其进入bios的键位)

成功进入之后,找到boot ->boot mode select选项,从legacy,UEFI,Dual三个启动方式中选择UEFI,然后从UEFI的这么多个启动方式中,找到第一个,按Enter点进去更换,更换成带有“USB hard disk”字样的选择作为UEFI的第一个选项,然后保存退出即可,他会重启。(UEFI更加智能,我那个服务器2018年买的,是可以选这个启动方式)

这时候,在完全开机前,根据提示,选择invoke方式,按F11(屏幕会有提示)。

然后找到你的kinston(这是我U盘的品牌类型),然后回车即可!进入安装。(我有些忘了是找到带kinston的还是说找到带USB hard disk的,都试一下)

这样就进入图形界面安装了,直接根据选择语言和时区就可以了(建议用英文版)。

另外,我装系统的方式选择删除掉原来系统,因此下面这里选了第一个。
服务器安装ubuntu18.04,然后配置环境深度学习环境_第8张图片
然后基本上就装好了系统。

服务器简单配置(开启SSH服务):

刚开始装好了之后是没有网络的,你的服务器需要绑定固定的ip v4的地址。(下面的是中文版,英文版一样的)
服务器安装ubuntu18.04,然后配置环境深度学习环境_第9张图片
服务器安装ubuntu18.04,然后配置环境深度学习环境_第10张图片
服务器安装ubuntu18.04,然后配置环境深度学习环境_第11张图片
ip填好后点应用即可,ip没问题的话就有网了
服务器安装ubuntu18.04,然后配置环境深度学习环境_第12张图片
配置ssh,开启ssh服务:
在桌面右键打开terminal终端,执行下面命令

1、下载ssh

sudo apt-get install openssh-server

2、开启ssh服务

sudo /etc/init.d/ssh start

3、ssh重启

service ssh restart

执行12条就可以了,即便是后来ubuntu reboot命令重启,他也会自动连上,不需要再次开启ssh服务。

防火墙是默认关闭的,这时候就可以在远程用ssh通过ip地址,连接本地服务器了。

因为服务器里有英伟达显卡,因此时常用nvidia-smi等命令查看显卡信息。于是要装英伟达驱动包。

先更新安装源,因为linux版本不太新,一些安装源都过期或者没有了,然后需要重启
更新源

sudo apt update

查看推荐的驱动

sudo ubuntu-drivers devices

安装驱动(命令后面的nvidia-driver-470换成上面命令返回的推荐驱动号)

sudo apt install nvidia-driver-470

重启系统

sudo reboot

安装Anaconda3

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.10-Linux-x86_64.sh
忘了为什么要下载这个版本了,只记得跑代码好像没有因为anaconda的版本而出过问题。
不支持wget下载,需要在浏览器下载,然后传上去,或者ubuntu的浏览器也可以下载。

cd到下载目录,然后保险起见赋予安装权限命令:

chmod +x Anaconda3-2022.10-Linux-x86_64.sh

安装,然后过程中不断回车

./anaconda3-2022.10-Linux-x86_64.sh

默认安装目录是/home/username/anaconda3
服务器安装ubuntu18.04,然后配置环境深度学习环境_第13张图片
然后等待解压:
在这里插入图片描述
然后问你要不要用conda 初始化,输入yes即可。

然后关闭终端,再打开新的终端看到base即成功,后面就可以删除掉安装包。

虚拟环境创建和命令

创建虚拟环境命令, 可指定下载哪个版本python=

conda create --name your_environment_name python=3.8.2

退出conda环境

conda deactivate

激活环境

conda activate name 

删除虚拟环境

conda remove --name env_name

根据环境配置文件创建虚拟环境(这个命令先放着,不要用它,因为一个项目那么多包,有很多下载不了)

conda env create -f environment.yaml

导出指定虚拟环境配置

conda env export -n env_name > environment.yaml

查看有哪些环境

conda env list

查看有哪些conda 安装的包

conda list

有时候conda install 《包名》,安装包的时候安装不了就用pip install 《包名》

执行pip install gpustat,然后直接输入gpustat命令,查看gpu状况:
在这里插入图片描述

深度学习框架pytorch,对应python包的安装

先用前面的conda create --name your_environment_name python=3.8.2创建好需要的python环境(每个项目的readme文件都会说自己python的版本),然后用activate命令激活创建的your_environment_name环境

先查看自己的显卡支持哪个版本的pytorch,执行命令查看:nvidia-smi服务器安装ubuntu18.04,然后配置环境深度学习环境_第14张图片
进入pytorch官网 https://pytorch.org/,根据自己的参数选择,我这边是应该下载cuda 11.4,发现版本太久了,于是需要找左下角找以往的版本。
服务器安装ubuntu18.04,然后配置环境深度学习环境_第15张图片
找了一圈发现没有11.4的下载命令,百度了一下11.3也是可以的。

服务器安装ubuntu18.04,然后配置环境深度学习环境_第16张图片
执行官网中推荐版本命令:conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch,安装那几个包
服务器安装ubuntu18.04,然后配置环境深度学习环境_第17张图片
至此,pytorch环境就已经安装好了。
然后根据项目的readme的markdown文件看看整个项目需要那些其他的python包。直接把他们复制一下,再vi requirements.txt创建文件,按i,粘贴进去,按Esc ,再按:,输入wq! 再回车,保存退出。

然后一次性用pip下载所有包:服务器安装ubuntu18.04,然后配置环境深度学习环境_第18张图片
用pip下载基本上都是能成功的,用conda下载百分之五十都下载不成功,但是conda很保险对依赖处理的很好。
当然,创建好环境指定安装好python之后,把别人的项目git clone下自己的服务器,直接运行,在看看错误里显示哪些包缺失,缺哪个就pip install 哪个,这样也行,就是费时间而已。

差点忘了git还要下载:
执行命令:

sudo apt install git

然后查看。
在这里插入图片描述

之后还有一个问题,就是怎么在自己的windows系统上,用远程软件连接,编码,测试,调试,然后挂进程训练代码等等~~~~~~~~~再说

你可能感兴趣的:(服务器,深度学习,运维)