关于快速配置滴滴云做深度学习训练

做深度学习的过程中,没有卡是最苦恼的,想过自己配个 1066 的台式机,但是发现一次性画 4000 块搞个主机还是有点肉疼的。因此选择尝试使用滴滴云的 GPU 按时计费资源。

我选用的是 p4 的卡,每小时大概 3块钱,但是问题在于,你不用 GPU 了,因为你的代码还占用着它的虚机资源,它还是照样按照使用 GPU 的价格扣费。所以训练结束需要删除资源,用的时候需要新配置环境。

本文记录了快速配置相关环境的步骤方法,仅供自己学习记录使用,如对他人有帮助,不甚荣幸!

  1. 设置语言,不然 pip3 安装的时候会报错:
export LC_ALL=C
  1. 设置 pip 源:
nano ~/.pip/pip.conf 

复制下面的粘贴过去即可

[global]
index_url = http://mirrors.aliyun.com/pypi/simple/
trusted-host = mirrors.aliyun.com
  1. 安装 TensorFlow

注意,不指定版本的情况下会直接安装 1.13.0 这个版本的,这个版本需要的 cuda 版本是 10.0。 因此在 cuda 是 9.0 的情况下,通过以下命令指定版本

pip3 install tensorflow-gpu==1.12.0
  1. 传输文件方法:

在传输文件过大,常常会有 scp acket_write_wait: Connection to 116.85.42.132 port 22: Broken pipe 的问题。
解决方法:
Try throttling - 2Mb/sec max throughput like so:
scp -l 2000 MaryBaked.tar.gz [email protected]:/home/marybakedpdx

  • 从服务器复制文件到本地:
scp [email protected]:/data/test.txt /home/myfile/
  • 从服务器复制文件夹到本地:
    只需在前面加 -r 表示递归,就可以拷贝整个文件夹。
scp -r [email protected]:/data/ /home/myfile/
  • 从本地复制文件到服务器:
scp /home/myfile/test.txt [email protected]:/data/
  • 从本地复制文件夹到服务器:
scp -r /home/myfile/ [email protected]:/data/
  1. 运行代码,训练自己的模型。

你可能感兴趣的:(关于快速配置滴滴云做深度学习训练)