Slurm作业调度系统常见操作(使用超算运行深度学习)

1. 传输下载文件 sftp
远程命令cd,pwd等,本地命令lcd,lpwd
get 远程地址  本地地址 
put 本地地址 远程地址
    上传文件夹
	1. 在远程建立和本地一样名称的文件夹如data/
	2. put -r data/
2. 建立虚拟环境
module load python/3.8   # 加载module
virtualenv --no-download ENV  # 建立一个叫ENV的虚拟环境
    激活虚拟环境 source ENV/bin/activate
    module有很多种,如python, matlab等,使用module avail查看module
module avail python查看python module
3. 安装pytorch和其他包
pip install --no-index torch torchvision torchtext torchaudio
pip install -r requirements.txt
4. 提交作业和查看作业

主要有两种方式,一通过salloc申请可以交互的节点,可用于jupyternotebook调试代码,二是通过sbatch提交作业,用于运行完整训练任务。

4.1 salloc交互运行作业
salloc --time=48:00:0 --nta

你可能感兴趣的:(工程项目,#,deep,learning,深度学习,服务器)