服务器连接以及搭建深度学习环境记录

小白第一次使用学校服务器跑深度学习项目,走了很多弯路,这里记录一下从创建一个容器后(创建容器的过程可能需要再参考别的教程)到搭建好深度学习环境的过程,由于不同服务器的管理方式不同,并且本人水平有限,所以以下内容仅供参考哈。

服务器配置

本人连的学校服务器,使用portainer进行容器管理(Docker的图形化管理工具),并提供了创建一个容器的基本教程。
GPU服务器配置(GPUSvr2):
操作系统:Ubuntu server 18.04.5 LTS
GPU:Tesla P100 16GB GP100GL x 2
内核:GUN/Linux 4.15.0-135-generic x86_64
驱动:440.118.02
CUDA:10.2.89

按照使用文档通过账号密码登录portainer,选择一个服务器,选择一个image创建一个容器,创建的时候记得添加下端口映射xxxxx-22,用于本地ssh连接(有的服务器不需要端口就能连,具体看服务器是如何管理的)。操作完就可以在potainer进入你自己的容器的终端了。


一、本地连接服务器

首先进来先得在本地连上服务器进行文件传输(方便传输数据集,实验结果等)。

1、服务器的设置

首先设置root密码,我这里创建的容器默认进去是root用户。
直接在终端输入passwd,然后设置密码

安装ssh
先执行apt updata 和 apt upgrade 。再使用命令sudo apt-get install openssh-server。打开ssh服务/etc/init.d/ssh start。连接的时候如果没有修改配置,则只能用自己创建的用户名连接,但是服务器终端还是要在root下打开ssh服务。

如果用root连接需要更改一下配置:Ubuntu允许root用户远程登录_「已注销」的博客-CSDN博客_ubuntu允许root远程登录

如果用用户连接:创建新用户useradd -r -m -s /bin/bash name,修改新用户密码passwd name,输入密码即可。进入新用户的命令:su name。

2、连接方式

可以用cmd连接然后传文件,但是太麻烦了,亲测用xshell连接来传文件,vscode连接运行项目(方便调试)最方便。
更方便的文件传输连接方式:XShell连接教程 - 极链AI云支持中心
更方便的项目运行方式:vscode连接远程服务器(傻瓜式教学)_chls的博客-CSDN博客_vscode远程连接

二、下载安装软件

创建容器里的ubuntu系统刚开始啥软件都没有,需要手动安装一些东西来搭建深度学习环境。

  • 第一步如果缺少什么命令直接用apt install xxx进行安装wget、vim、git等等,非常的方便。
  • 安装anaconda参照Ubuntu 安装 conda - 知乎
  • 安装cuda,按照这个教程Linux系统CUDA安装及踩坑记录 - 知乎 安装cuda需要先完整安装,然后在conda环境里安装pytorch的时候选择安装对应版本的cuda(pytorch官网有提供命令)下面是我安装的cuda版本的命令(注意安装的cuda版本不能比服务器自带的高,就是用nvidia-smi命令查到的cuda版本)
wget https://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run
sudo sh cuda_10.1.243_418.87.00_linux.run

  • 创建一个pytorch环境,Anaconda-用conda创建python虚拟环境 - 知乎。首先把pytorch安装上(官网查找自己需要的版本安装),使用命令conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch。随后用python、import torch、torch.cuda.is_available()查看是否安装成功。显示true即按照成功。后面就可以在这上面跑实验了。

你可能感兴趣的:(深度学习,ubuntu系统,深度学习,服务器,linux,python)