Mobaxterm连接云服务器AI MAX及使用

AI Max 是一款AMAX基于kubernetes+docker+GPU架构,实验室使用次平台作为我们的实验平台,GPU小白第一次使用,经历了许多坑,一步步探索的过程满含心酸,记录一下使用经验,希望能帮助到要使用此平台的人。

1.建立连接

1).在服务器端创建终端。
选择交互式开发,创建终端。
Mobaxterm连接云服务器AI MAX及使用_第1张图片
2)设置各项参数,此处的坑在于cpu核最多选择4核,超多四核无法建立连接。GPU核小于用户资源,但是要选择不同类型(TITAN_Xp、TITAN_V、Tesla_K80、TITAN_X),选择的类型需要与分区剩余资源类型匹配,否则无法运行,Mobaxterm端便无法建立连接。
Mobaxterm连接云服务器AI MAX及使用_第2张图片
建立好后显示终端信息如下。
Mobaxterm连接云服务器AI MAX及使用_第3张图片
点击查看详情,未成功建立的终端会显示暂停中,此种情况无法建立连接。成功建立的终端显示运行中,才是可用SSH建立连接的。
在这里插入图片描述
2).建立连接。
打开mobxterm(xshell也可以,个人比较习惯前者,传输文件方便)。SSH连接分别对应输入ip地址和端口号就行啦。用户名默认是root,这个在创建终端的时候确定的,没办法修改。
Mobaxterm连接云服务器AI MAX及使用_第4张图片
连接成功会显示如下图。
Mobaxterm连接云服务器AI MAX及使用_第5张图片
遇到连接不成功的问题可以尝试:
cmd中ping服务器ip排除本机无法访问服务器的可能性;
检查服务器端是否在运行中等。

2.搭建python环境

1).安装anoconda。
使用wget下载安装包,也可手动下载再上传到mobaxterm.下载地址https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=A

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.1.0-Linux-x86_64.sh

下载完成,bash命令安装,一路ENTER+yes即可。

bash Anaconda3-5.1.0-Linux-x86_64.sh

这里特别注意要选择yes添加路径。
在这里插入图片描述
如果在这里选择了no,可以输入vim命令打开配置文件

vim ~/.bashrc

路径根据你的anoconda所在位置更改。

export PATH="/root/anaconda3/bin:$PATH"

这里可以根据个人需要选择是否需要安装Visual.
在这里插入图片描述
安装完成输入conda会报错
在这里插入图片描述
原因是虽然我们刚刚将anaconda的路径添加进环境变量$PATH,但是我们还没有重启环境变量,所以会出现这个错误,现在只需要在命令行中输入如下命令激活即可。

source ~/.bashrc

之后再输入conda就不会报错啦。这样就是安装成功了
Mobaxterm连接云服务器AI MAX及使用_第6张图片

2)创建欲使用的python环境。
conda create --name 你的环境名 python=版本命令创建python虚拟环境,根据需要选择版本。

conda create --name py36 python=3.6

conda info命令查看所有环境。

conda info --envs

在这里插入图片描述
不想要某个环境可以用remove命令删除。

conda remove -n py36 --all

source activate 命令进入你的虚拟环境。

source activate py36

在这里插入图片描述
source deacivate 退出当前环境。

source deactivate

在这里插入图片描述

3.使用

1).程序运行
上传你的工程并解压到合适的路径下,解压不会的话步骤可参考https://editor.csdn.net/md/?articleId=106653389
这是我解压好的文件。
Mobaxterm连接云服务器AI MAX及使用_第7张图片
conda activate命令进入虚拟环境。

conda activate py36//进入python3.6环境下

cd 命令进入文件夹中知道找到想要运行的程序

cd /home/HPE/Hourglass/example

中途可使用ls命令查看具体路径。

运行程序

python main.py//需要设置默认参数的可以自己加上,中间用空格隔开

设置GPU选择,不设置默认选择编号0的GPU.

CUDA_VISIBLE_DEVICES=0,1 python main.py//使用第0块和第一块GPU

运行过程中缺乏模块可用pip或conda命令安装,现在安装的module都会存在于选择的虚拟环境中(比如我的是在py36中)。
例如:安装pytorch。
在这里插入图片描述
安装好程序中所需要的module再运行,程序就能跑起来啦。
2)查看gpu使用情况
nvidia-smi命令查看GPU使用情况。

nvidia-smi

Mobaxterm连接云服务器AI MAX及使用_第8张图片
以上便是从创建终端,建立连接,搭建环境到程序运行的过程,新手小白吐血记录,如有错误还望指正。

你可能感兴趣的:(GPU,云服务器)