GPU服务器使用教程

转自https://ai.futurelab.tv/news/7
硬件型号和配置
本次大赛区域赛免费为选手提供GPU计算资源。GPU服务器为金山云P3I.14B1,配置如下:

GPU:Tesla P4 x 1
vCPU:Xeon E5 v4 14核
内存:DDR4 120GB
数据盘:本地SSD 500GB
软件环境
GPU服务器默认安装:

Ubuntu Linux 16.04-64位
CUDA 9.1
Anaconda 3.7
我们也可提供 CentOS 7.2/3镜像或CUDA8.0,如有需求,请联系小助手申请重置。

我们暂不提供桌面版本Linux,请使用命令行进行操作。

如何登陆
Windows 环境,可以使用 PuTTY 等SSH 终端软件登录,配置host, 填入IP地址、用户名和密码即可登录。
Linux、Mac OS 可以使用系统自带的"终端"直接登录。命令如下:

IP地址请替换为申请时下发的IP,输入正确的用户名和密码即可登录。

ssh [email protected]

Mac OSX 系统推荐使用Terminus终端,可获得更好的操作体验。
挂载数据盘
系统提供的数据盘需要自行操作挂载,命令如下:

sudo mkfs.ext4 /dev/vdb
sudo mkdir /data
sudo mount /dev/vdb /data

执行 df -h 可以查看到磁盘空间被挂载到 /data目录下

下载和解压数据集
使用如下命令即可通过内网环境高速下载数据集:

跨设备说话人识别训练集

wget http://172.31.0.3:9090/2019af-sr-aishell2.zip

跨设备说话人识别训练集 SHA1SUM

wget http://172.31.0.3:9090/2019af-sr-aishell2.zip.sha1

跨设备说话人识别开发集

wget http://172.31.0.3:9090/af2019-sr-devset-20190312.zip

跨设备说话人识别开发集 SHA1SUM

wget http://172.31.0.3:9090/af2019-sr-devset-20190312.zip.sha1

发现超新星训练集

wget http://172.31.0.3:9090/af2019-cv-training-20190312.zip

发现超新星训练集 SHA1SUM

wget http://172.31.0.3:9090/af2019-cv-training-20190312.zip.sha1

检查数据集完整性:

以图像数据集为例

sha1sum -c af2019-cv-training-20190312.zip.sha1

af2019-cv-training-20190312.zip: OK

输出OK,即为成功下载

解压数据集:

以图像数据集为例

unzip af2019-cv-training-20190312.zip

系统会提示输入密码,解压密码请与微信小助手联系取得。

上传和下载程序和模型
您可以通过SCP命令远程拷贝你开发的程序。

在本地打开终端,执行如下命令:

从本地拷贝到服务器, 目录和IP地址根据实际情况填入。

scp -r /myprojects/mycodes [email protected]:/data/

从远程拷贝到本地:

scp -r [email protected]:/data/mycodes /myprojects

您也可以考虑使用gitlab一类的代码托管平台,使用git传递代码,考虑到竞赛期间的代码保密,建议使用private仓库,竞赛结束后再考虑是否转为public仓库。

数据训练后,记得下载保存训练好的模型用于测试集的计算,否则您的计算成果有可能丢失。

安装所需的其他程序
您可以使用 apt-get 命令安装所需的软件包。

例如安装 g++

sudo apt-get install g++

您也可以选择自行下载源码编译,具体请查询所需软件包的文档。

安装python软件包
推荐使用conda在挂载数据盘上创建环境并安装软件包。

在/data/myproject创建环境

conda create -p /data/myproject

进入环境

conda activate /data/myproject

安装软件包

conda install tensorflow

可以安装指定版本python或软件包

conda install python=3.6 tensorflow=1.4

你可能感兴趣的:(GPU,环境搭建)