GPU服务器从购买到运行深度学习、模型训练

1. 先从阿里云租个服务器,因为是测试,配置不用太高。

        选择Centos 7.2 64位

GPU服务器从购买到运行深度学习、模型训练_第1张图片

2. 通过XShell 6连接:

      2.1这个当然百度就有

      2.2前提是先下好Xmanager Power Suite 6并且激活

3. 连接之后等待他启动配置GPU啥的,这个不需要自己操作

4. 连接成功先看看购买的服务器性能:

nvidia-smi

可以通过这里了解更多关于GPU的信息

GPU服务器从购买到运行深度学习、模型训练_第2张图片

我们看到只有一个GPU,而且性能为P0,说明性能状态很好

5. 查看内置Python版本,并且更新pip,包等

      5.1 查看python版本

       

       发现是python3.6.9,那就不用下了嘛!(牛逼了!一般linux自带的都是python2,这个已经装好了python3)因为平时用的就是python3。

      关于一般的linux从头安装python可以看看我的这篇文章:

      5.2 然后查看pip版本

      居然也是最新的!所以那基本上只要安装各种包了嘛~

关于一般的linux从头安装python可以看看我的这篇文章:服务器Linux上配置python3以及pip

      5.3 装包

      一般的linux服务器装完python3后是通过pip3装包的,因为pip是默认为python2环境装,但是这里既然默认环境为python3,那么就肯定直接用pip装包啦!

     GPU服务器从购买到运行深度学习、模型训练_第3张图片

在这个代码中我们需要安装的包挺多的,先输进去看看哪些包已经有了,哪些包没有。

GPU服务器从购买到运行深度学习、模型训练_第4张图片

装包的话建议中国内的源安装,之前推荐的那篇文章也有讲

pip install foolbox -i https://pypi.tuna.tsinghua.edu.cn/simple
#这是使用清华的源

别的也都用这个模板,注意:cv2 是 opencv-python

之前几个服务器装opencv都直接一遍装好了,这次居然出现了问题

GPU服务器从购买到运行深度学习、模型训练_第5张图片

这个方法的具体解决方法在这里:https://blog.csdn.net/qq_24798295/article/details/90240666

别的包就直接装好了。

     5.4运行代码

     通过Xftp 6上传代码到服务器:这个具体方法网上也有了,随便就能百度到

     通过python运行代码:

   调用tensorflow包

  但是你会发现特别慢,五分钟一张图,Windows下是10分钟一张图,1216张图这样下去得跑4天,去查看GPU使用情况

 GPU服务器从购买到运行深度学习、模型训练_第6张图片

   根本就没有调用GPU,那么去网上找方法解决

   发现普遍方法是:

   ①在代码前加:

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0,2,3"
#其中0 2 3是使用的GPU的编号,注意GPU是从0开始编号的

  ②设置GPUid:

   使用命令

CUDA_VISIBLE_DEVICES=0,2,3 command

   这条命令适用于命令行运行tensorflow程序的时候,指定gpu

   ③通过GPU跑代码:

CUDA_VISIBLE_DEVICES=0,2,3 python test.py

    结果是一如既往的慢,最后通过学长找到的资料,最终原因是:Linux下安装的tensorflow和keras包不是默认使用GPU运行的,这时候就需要卸载原来的包,然后更换新的GPU运行的包,具体操作():

https://blog.csdn.net/back_1995/article/details/82705672?tdsourcetag=s_pctim_aiomsg

and

https://blog.csdn.net/qq_32728345/article/details/81570504

   卸载:

   keras 使用GPU是基于 tensorflow 的GPU版本,所以使用 keras 要先安装tensorflow-gpu 
   使用 pip list ; conda list 两条指令可以分别看到用 pip 和 conda 安装的包,可以使用 
   

pip uninstall 包name 
conda uninstall 包name 分别卸载之前安装错的包

   安装:
   这里只建议使用 pip 方法安装 tensorflow-gpu 和 keras ,因为有看到博客上说,使用 conda 安装时会默认安装CPU版本(就是因为这句话,所以把 conda 安装的全卸了,用 pip 重新安装了下,然后就可用了) 
 

pip install tensorflow-gpu 
pip install keras

   之后用原来的方法就能跑了,调用GPU之后的处理图片的速度从原来Win下的10分钟一张,再到5分钟一张,再到30秒一张!
 

你可能感兴趣的:(机器学习,Python,Linux)