AI Max 是一款AMAX基于kubernetes+docker+GPU架构,实验室使用次平台作为我们的实验平台,GPU小白第一次使用,经历了许多坑,一步步探索的过程满含心酸,记录一下使用经验,希望能帮助到要使用此平台的人。
1).在服务器端创建终端。
选择交互式开发,创建终端。
2)设置各项参数,此处的坑在于cpu核最多选择4核,超多四核无法建立连接。GPU核小于用户资源,但是要选择不同类型(TITAN_Xp、TITAN_V、Tesla_K80、TITAN_X),选择的类型需要与分区剩余资源类型匹配,否则无法运行,Mobaxterm端便无法建立连接。
建立好后显示终端信息如下。
点击查看详情,未成功建立的终端会显示暂停中,此种情况无法建立连接。成功建立的终端显示运行中,才是可用SSH建立连接的。
2).建立连接。
打开mobxterm(xshell也可以,个人比较习惯前者,传输文件方便)。SSH连接分别对应输入ip地址和端口号就行啦。用户名默认是root,这个在创建终端的时候确定的,没办法修改。
连接成功会显示如下图。
遇到连接不成功的问题可以尝试:
cmd中ping服务器ip排除本机无法访问服务器的可能性;
检查服务器端是否在运行中等。
1).安装anoconda。
使用wget下载安装包,也可手动下载再上传到mobaxterm.下载地址https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=A
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.1.0-Linux-x86_64.sh
下载完成,bash命令安装,一路ENTER+yes即可。
bash Anaconda3-5.1.0-Linux-x86_64.sh
这里特别注意要选择yes添加路径。
如果在这里选择了no,可以输入vim命令打开配置文件
vim ~/.bashrc
路径根据你的anoconda所在位置更改。
export PATH="/root/anaconda3/bin:$PATH"
这里可以根据个人需要选择是否需要安装Visual.
安装完成输入conda会报错
原因是虽然我们刚刚将anaconda的路径添加进环境变量$PATH,但是我们还没有重启环境变量,所以会出现这个错误,现在只需要在命令行中输入如下命令激活即可。
source ~/.bashrc
2)创建欲使用的python环境。
conda create --name 你的环境名 python=版本命令创建python虚拟环境,根据需要选择版本。
conda create --name py36 python=3.6
conda info命令查看所有环境。
conda info --envs
conda remove -n py36 --all
source activate 命令进入你的虚拟环境。
source activate py36
source deactivate
1).程序运行
上传你的工程并解压到合适的路径下,解压不会的话步骤可参考https://editor.csdn.net/md/?articleId=106653389
这是我解压好的文件。
conda activate命令进入虚拟环境。
conda activate py36//进入python3.6环境下
cd 命令进入文件夹中知道找到想要运行的程序
cd /home/HPE/Hourglass/example
中途可使用ls命令查看具体路径。
运行程序
python main.py//需要设置默认参数的可以自己加上,中间用空格隔开
设置GPU选择,不设置默认选择编号0的GPU.
CUDA_VISIBLE_DEVICES=0,1 python main.py//使用第0块和第一块GPU
运行过程中缺乏模块可用pip或conda命令安装,现在安装的module都会存在于选择的虚拟环境中(比如我的是在py36中)。
例如:安装pytorch。
安装好程序中所需要的module再运行,程序就能跑起来啦。
2)查看gpu使用情况
nvidia-smi命令查看GPU使用情况。
nvidia-smi