使用恒源云GPU进行远程训练

最近同学参加比赛需要使用云GPU,经过比对多个云GPU平台,从价格和GPU可用稳定性上,最终选择了恒源云,我购买使用了一下,可以支持一场Kaggle比赛或者实验论文没有问题,大家可以按照步骤进行操作,记录下来,其他平台也差不多。

1.创建实例

恒源云提供的GPU很多,从单卡到多卡价格不等,经常有特惠价格:

使用恒源云GPU进行远程训练_第1张图片

这里考虑性价比,以A5000单卡为例:

使用恒源云GPU进行远程训练_第2张图片

购买时候我选择的镜像是Pytorch1.8版本,购买实例后,实例就启动了

image-20230721171433065

2.Pycharm远程连接GPU

2.1配置远程文件连接

个人习惯是在本地Pycharm上编写代码,然后使用云GPU运行代码。注意哦,只有Professional版本才支持远程开发功能

打开Pycharm,工具->部署->配置

使用恒源云GPU进行远程训练_第3张图片

点击添加按钮,选择 SFTP,给连接自己起个名字,我这里是"恒源云A5000"

使用恒源云GPU进行远程训练_第4张图片

点击连接,浏览连接

使用恒源云GPU进行远程训练_第5张图片

新建一个SSH配置,因为我们是使用SSH从本地连接恒源云服务器。

image-20230721172337086

恒源云 gpushare.com 我的实例 中点击复制登陆指令,就是下图1处。

image-20230721171433065

如我的是:ssh -p 1066 [email protected],从中提取信息:

主机名 端口号 用户名
i-1.gpushare.com 1066 root

将信息填写在 SSH 配置中,并从 我的实例 中点击复制密码填写到 Password 字段。

使用恒源云GPU进行远程训练_第6张图片

点击 Test Connection 按钮测试连接。

使用恒源云GPU进行远程训练_第7张图片

2.2 配置远程解析器

文件->配置

使用恒源云GPU进行远程训练_第8张图片

新增Python解释器

使用恒源云GPU进行远程训练_第9张图片

左侧选择 SSH Interpreter。右侧选择现有服务器配置,选择上一步创建的 SSH 连接。点击 下一步。

使用恒源云GPU进行远程训练_第10张图片

点击下一步以后,配置远程服务器和本地项目文件夹之间的映射:

使用恒源云GPU进行远程训练_第11张图片

解析器已经切换为了刚配置的远程解析器,点击 OK 开始同步,等待下方状态栏完成配置与同步。

使用恒源云GPU进行远程训练_第12张图片

在右下角状态栏会显示远程 Python 解析器。此时运行代码为在远程主机上运行。

image-20230721230725902

可以看到,配置好后,马上就自动上传本地源代码到远程服务器上,等进度完成,代码就上传完毕,后面当你在本地改代码完成保存后,代码也会自动同步。

image-20230721231003619

3.Xshell访问恒源云GPU Linux服务器

Xshell是一个开源免费的远程工具。

打开会话窗口新建一个会话。

使用恒源云GPU进行远程训练_第13张图片 使用恒源云GPU进行远程训练_第14张图片

切换到 用户名身份验证 标签页,用户名填写 root,密码在 我的实例 中复制。点击 确定 保存。

使用恒源云GPU进行远程训练_第15张图片

会话 中选择刚创建好的会话,点击 连接 进入实例。

使用恒源云GPU进行远程训练_第16张图片 使用恒源云GPU进行远程训练_第17张图片

4.登录恒源云存储上传和下载文件

参考链接:https://gpushare.com/docs/data/upload/
使用恒源云GPU进行远程训练_第18张图片

4.1 OSS命令

上传:

# 查看命令帮助
~# oss help
# 登陆恒源云账号,使用恒源云的账号名与密码,账号名为手机号
# 如果是非中国大陆手机号码,需要加上带 + 的区号
~# login
Username:136**********
Password:*************
13638731747 login successfully!

#在个人数据中创建文件夹
~# oss mkdir oss://datasets
Create folder [oss://] successfully, request id [0000017E0091FBEC9012CBB9E0EBBCE1]
Create folder [oss://datasets/] successfully, request id [0000017E0091FC1D9012CC094BBD9AF3]

#将本地电脑的 "个人数据.zip" 上传至平台个人数据中的 `datasets` 文件夹下
~# oss cp 个人数据.zip oss://datasets/

#查看我上传的 个人数据.zip
~# oss ls -s -d oss://datasets/
Listing objects .
Folder list:
oss://datasets/
Object list:
oss://datasets/个人数据.zip
Folder number is: 1
File number is: 1

4.2 FIleZilla客户端连接站点

站点管理器中新建站点,填写服务器信息后,就可以连接,通过拖拽上传下载服务器文件
使用恒源云GPU进行远程训练_第19张图片

你可能感兴趣的:(深度学习,深度学习,人工智能)