拿到全新的GPU云服务器之后,如何部署环境以训练模型

拿到全新的GPU云服务器之后,如何部署环境以训练模型

如果将模型放在colab上面,可以不需要另外部署环境,直接将模型和数据集放到google硬盘并让colab搭载google硬盘,之后即可开始训练。

但是对于一台全新的、没有环境配置的服务器,需要我们自己部署环境以训练模型。

文章目录

  • 拿到全新的GPU云服务器之后,如何部署环境以训练模型
    • 一、安装Anaconda
      • 1.1 下载安装包
      • 1.2 开始下载
      • 1.3 检验是否安装成功
    • 二、根据模型需要安装额外的python第三方库
    • 三、开始训练模型

一、安装Anaconda

1.1 下载安装包

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.05-Linux-x86_64.sh

最后一个“/”后面是anaconda安装包的版本,可以替换成别的安装包。查询要下载的安装包的版本的页面:https://repo.anaconda.com/archive/

1.2 开始下载

bash Anaconda3-2022.05-Linux-x86_64.sh

注意安装包的路径位置和版本。在执行这条命令时,当前路径正好有这个安装包

1.3 检验是否安装成功

conda -V

注意:V是大写。

这条命令可以在任何路径下执行,如果有显示conda的版本,则说明anaconda已经安装成功。

二、根据模型需要安装额外的python第三方库

由于anaconda并不是把所有python第三方库都在安装完成时配置好,所以有一些库模型需要但目前环境中没有,要额外安装。自己在做模型的实验的时候就发现这些库需要额外安装。

有些库不能用conda命令安装的,就试下用pip命令去安装。

conda install scipy
pip install sklearn //用conda命令安装会失败
pip install torchsummary //用conda命令安装会失败

三、开始训练模型

然后就可以开始训练模型了。来到模型py文件所在的路径,运行文件即可(数据集配置等其他涉及到具体问题的,具体另外解决)。

python XXX.py

我一般习惯使用tee命令,将模型训练的每一行输出同时记录到一个txt文件里面。

python XXX.py | tee record.txt

一行输出同时记录到一个txt文件里面。

python XXX.py | tee record.txt

将模型训练的每一行输出同时记录到一个record.txt文件里面。

你可能感兴趣的:(python)