云资源使用

文章目录

    • 分流程
    • 整体流程
    • 取消作业
    • 创建环境
    • 查看云计算显存
    • 查看指定日期的任务所用时间
    • 批量删除日期之前的文件

分流程

salloc -N 1 -p gpu --gres=gpu:1
squeue -u jiaochangzhe 查看分配资源的计算节点
ssh 计算节点
module load anaconda/3.7
source activate python37
cd /dat01/jiaochangzhe/lijiaming
cd pytorch/1

到根目录下
然后运行以下代码其中1为文件名

python 1.py

整体流程

salloc -N 1 -p gpu --gres=gpu:1     ------抢占节点

squeue -u jiaochangzhe                   ------查看申请节点

ssh (作业号)      	                         ------连接节点

module load anaconda/3.7

source activate python37

python

import tensorflow as tf

tf.test.is_gpu_available()          	         ------测试gpu

squeue -w (节点)		         ------查看节点中的作业

scancel (作业号)     		         ------取消作业
1、   cd   /home/jiaochangzhe/.cache/matplotlib   
执行rm  -rf     fontlist-v300.json.matplotlib-lock   ,删除这个文件
2、抢占节点   salloc -N 1 -p gpu --gres=gpu:1
3 登录计算节点   ssh  计算节点
4、加载环境  module   load   pytorch/1.0_python3.7_gpu  
5、cd   /dat01/jiaochangzhe/lijiaming/pytorch/'fc mil'
6、python train_gulfport.py
测试路径:/dat01/jiaochangzhe/lijiaming/pytorch/fc-mil
测试脚本:test.sh
提交作业:sbatch  test.sh
查看作业情况:squeue
结束作业:scancel  作业号(作业号执行squeue即可查看到)
实时查看输出文件:tail -f   文件名
tail -f slurm-xxx.out  实时查看日志,其中 xxx 为作业号

test.sh

#!/bin/bash
#SBATCH -N 1
#SBATCH -n 5
#SBATCH -M swarm
#SBATCH -p gpu 
#SBATCH --gres=gpu:1
#SBATCH --no-requeue

module load pytorch/1.0_python3.7_gpu nvidia/cuda/10.0
python test_gulfport.py

取消作业

scancel  作业号

创建环境

module load anaconda/3.7
conda create --name keras1 python=3.6
source activate keras1
pip install keras

查看云计算显存

云资源使用_第1张图片
云资源使用_第2张图片

查看指定日期的任务所用时间

sacct -u jiaochangzhe -S 2020-10-09 -E 2021-10-09 --format=jobid,partition,jobname,user,nnodes,nodelist,start,end,elapsed,state

批量删除日期之前的文件

删除文件

find /home/jiaochangzhe/dat01/lijiaming/my_work1/fc_mil/results-valid-test -mtime +91 -name "*.*" -exec rm -Rf {} \;

你可能感兴趣的:(云资源使用,ssh,pytorch,python)