Linux服务器上跑深度学习实验

原文地址:Linux上跑深度学习实验

目录

    • 远程连接
    • 环境搭建
    • 与服务器断开连接后代码停止

之前一直使用Google Colab跑实验,因为实验的规模不大,配合Google Drive用起来就很舒服,但是最近要系统地进行实验,规模一下子上来了,Colab经常在代码没跑完就达到额度上限,于是自己租了个GPU服务器,Ubuntu子系统,没有图形化界面,所以用起来还不太熟练,这里简单记录一下一些关键点。

远程连接

远程连接的方式就比较多了,这里简单说说。

  1. 服务器租赁平台会提供登录,直接在那里登录即可,需要用户名和密码
  2. 如果本机是Windows系统,可用自带的远程连接,此时需要通过服务器公网IP和密码
  3. 通过SSH连接到服务器,可以用密码登录,也可用公钥,一般需要公网IP、端口、用户名和密码

环境搭建

我是在腾讯云租赁的服务器,租赁时提供了不同的操作系统镜像,我选择了Ubuntu的,并且搭载了Pytorch环境,只需要将代码上传到服务器,配置Python第三方库即可。

这里说一下上传代码的几种方式:

  1. 通过服务器租赁平台上传。一般来说会提供这样的功能,不过就腾讯云来说,上传的文件大小有限制,大文件用起来很不方便。

  2. 将git仓库作为媒介。我这里使用Gitee,在国内,如果没有科学上网工具的话,这种方式速度比较快。只需要先创建一个远程仓库,然后将本地代码和数据集push到仓库,然后在服务器上安装一个git,直接用pull拉取代码即可,我觉得用起来很方便,而且自带版本冲突提示,比较方便,但是仍然存在文件大小限制问题,可以配置git,具体限制是多少我还没进一步学习。

  3. 使用scp或rcp命令。一般来说Windows和Linux会自带这个命令,我们只需要在本地使用该命令,就可以将指定文件(夹)复制到指定服务器的指定位置。具体可以查看菜鸟教程scp命令。这里简单说一下如何使用。

    • 首先在本地机器打开命令行(win+r → \rightarrow 输入cmd → \rightarrow 回车),如果为了方便起见,可以先进入资源管理器中要上传文件的目录,在地址栏输入cmd回车,这里假定已经进入需要上传文件的目录。

    • 查看服务器公网IP以及用户名,这些信息在服务器租赁平台都能查看

    • 输入命令

      scp 本地文件路径 服务器用户名@服务器公网IP:目标路径
      

      本地文件路径可以是相对路径,也可以是绝对路径,目标路径是绝对路径/home开始

效果:
在这里插入图片描述

这个速度应该取决于本地带宽和服务器带宽的最小值。传大文件很方便,尤其是数据集。

同样,如果将上述命令后面两部分调换位置,即可从远程将文件复制到本地,这里不再讲解。

与服务器断开连接后代码停止

该问题解决方式也比较多,这里讲一下使用screen的方式解决该问题。

  1. 创建screen

    screen -S screenName
    

    screenName为需要创建的screen名称

    创建完成后即进入该screen,然后将代码在这里跑起来就行,建议将代码结果通过日志或写入文件的方式保存,方便查看。

  2. detach

    代码跑起来后,通过Ctrl+A+D快捷键,将screen切换到Detached状态,此时代码会在后台运行,即使本地与服务器断开连接,代码也不会终止,除非服务器出现问题。

  3. 查看screen

    screen -ls
    

    使用该命令可以查看当前创建的screen,可以在忘记screenName的时候使用。

  4. 回到screen

    如果想查看代码运行情况,可以使用下面的命令进入screen。

    screen -r screenName
    

    上述命令可以回到名为screenName的screen中

此外,我在查阅资料时,有人提到使用Tmux解决ssh断开连接问题,而且Tmux可搭配Pycharm专业版,可能用起来比较方便,而且还有手机端实时查看代码运行状态,如果有兴趣可以学习一下。

以上便是我在使用Linux服务器跑深度学习代码遇到的一些问题即解决办法,希望能帮到大家,如果对你有帮助,不妨点赞评论关注!感谢阅读!

你可能感兴趣的:(Linux,服务器,linux,深度学习)