SGE上的qsub以及作业的状态查看

定义:

qsub命令用来像SGE(Sun Grid Engine)提供批量处理作业,SGE提供单节点或者是多节点作业。

SGE:

Sun电脑所研发的自由软件和开档源代码设计计算机集群软件,BLC通过SGE作业调度系统投放任务。
qsub: 提交批处理任务
qstat: 检查SGE作业和队列的状态
qmod: 修改作业和队列的状态
qmod -s: 挂起任务
qmod -us (job-id): 解挂任务
qdel job_id: 从队列中删除任务
qalter: 修改正在排队的作业的属性

任务运行状态:
r: executing
qw: queue waiting
eqw: error queue waiting
dr: dead execution, 任务挂了

qsub的一些常用options:

qsub [ options ] [ command | -- [ command_args ]]
  1. -@ optionfile (contains all valid options) 就是把qsub命令的可选项组合成一定功能的语句,保存在一个文件中。 qsub -a optionfilename jobfilename

  2. -a date_time 设置作业什么时候可以执行。 格式:CC YY MMDDHHMM.SS 如 201109272213.21 qsub -a 201109272213.21 …/simplejob

  3. -A account_string Identifies the account to which the resource consumption of the job should be charged 设置一个作业的账户名,便于统计该账户使用的资源等信息 qsub -A testaccountname jobname

  4. -ac 添加名/值对到作业上下文 -dc 删除。。 -sc 设置(修改)。。 Contexts provide a way to dynamically attach and remove meta- information to and from a job. The context variables are not passed to the job’s execution context in its environment The outcome of the evaluation of all -ac, -dc, and -sc options or corresponding values in qmon is passed to defined JSV instances as parameter with the name -ac.

  5. -ar ar_id 分配已提交作业,作为它的一部分,给已存在预约。ar=advance reservation qsub -ar 60 jobname #ai_di = unsigned integer

  6. -b y[es]|n[o] Gives the user the possibility to indicate explicitly whether command should be treated as binary or script.

  7. -binding 等待理解

  8. -c occasion_specifier(际符) 定义或者重定义作业是否要被检查,if是,在什么环境下。 n no checkpoint is performed. s checkpoint when batch server is shut down. m checkpoint at minimum CPU interval. x checkpoint when job gets suspended. checkpoint in the specified time interval. qsub -c n jobname

  9. -C prefix_string 前缀字符串定义一个在作业命令中的指令 qsub -C “#$” …/simplejob

  10. -ckpt ckpt_name 选择检查点环境来检查一个作业,同时声明这个作业是检查点作业。 qsub -ckpt allanckpt …/simplejob

  11. -clear 重置作业的所有元素为初始默认状态 qsub -clear …/simplejob

  12. -cwd =current working directory 从当前的目录开始执行作业。如果有相应的配置文件的话, 这个命令将启动网格引擎的路径别名设备。

  13. -dl date_time 设置作业在deadline之前执行完,格式为CC YYU MMDDHHMM.SS qsub -dl 201101131159.01 …/simplejob

  14. -e [[hostname]:]path,…定义或重新定义作业的标准错误流使用的路径 e=stderror

  15. -h | -h {u|s|o|n|U|O|S}… h=hold 暂停作业执行 ‘u’ …user hold. s' denotes a system hold. o’ denotes a operator hold. n' denotes no hold (requires manager privileges). U’ removes a user hold. S' removes a system hold. O’ removes a operator hold. qsub -h …/simplejob(qsub只能使用-h)

  16. -l resource=value,… l=launch 启动满足资源需求的作业 Launch the job in a Grid Engine queue meeting the given resource request list. In case of qalter the previous definition is replaced by the specified one. qsub -l s_core=5 …/simplejob

  17. -q wc_queue_list 定义或重定义可能用来执行作业的队列,包括群聚队列、队列域、队列实例。 qsub -q all.q …/simplejob

  18. -hard 表示该作业在安排执行之前,作业的资源需求必须满足。 qsub -hard …/simplejob

  19. -soft 表示该作业在安排执行之前,作业的资料需求可以有、但不必须有。 qsub -soft …/simplejob

  20. -help 获取帮助 qsub -help

  21. -hold_jid wc_job_listt 定义或重定义当前提交的作业对哪些作业有依赖,所依赖的作业使用通配符作业清单表示:wc_job_list qsub -hold_jid 63926 …/simplejob

  22. -hold_jid_ad wc_job_list ad=array dependency list of the submitted job 定义或者重定义组作业依赖列表。 qsub -hold_jid_ad 1-1200

  23. -t n[-m[]] 指定组作业的数量,将指示器与作业关联 qsub -t 1-1200 …/simplejob

  24. -i [[hostname]:]file,… 定义或重定义一个文件为作业的标准输入流 qsub -i stdin job

  25. -j y[es]|n[o] 指定作业的标准错误流是否合并到标准输出流,如果-j y 和-e都存在的话,SGE将忽略后者。 qsub -j y …/simplejob

  26. -js job_share 设置作业的对长期资源的相对股份 job_share is an unsigned integer value qsub -js 4 job

  27. -jsv jsv_url 定义一个本地jsv实例,在作业发送到qmaster之前,该jsv将执行验证作业规范。 qsub -jsv jsvurl job

  28. -m b|e|a|s|n,… 定义作业处在哪个阶段给作业主人发送邮件。m=mail. b' Mail is sent at the beginning of the job. e’ Mail is sent at the end of the job. a' Mail is sent when the job is aborted or rescheduled. s’ Mail is sent when the job is suspended. `n’ No mail is sent. qsub -m n …/simplejob

  29. -M user[@host],…定义由哪个主机账户给用户发送邮件 qsub -M root@ubuntu …/simplejob

  30. -masterq wc_queue_list 定义平行作业的主队列,这个队列可以是集群队列、队列域、队列实例。 qsub -masterq all.q job

  31. -N =name 定义作业名字 qsub -N jobname job

  32. -notify 该选项标示这——网格引擎先发送警告信号给运行中的作业,再发送信号本身。如果SIGSTOP在排队, 作业将收到一个SIGUSR1,之后几秒才收到SIGSTOP;如果SIGKILL在排队,作业将收到一个SIGUSR2,之后 几秒才收到SIGKILL。 qsub -notify job

  33. -o [[hostname]:]path,… 定义或重定义作业标准输出流o=output stream qsub -o jobname.jobid job

  34. -P Project_name 设置作业的项目 qsub -P projectname job

  35. -p priority 设置作业的相对优先权 qsub -p 10 job

  36. -pe parallel_environment n[-[m]]|[-]m,… 初始化并行程序化环境 qsub -pe 200-500 job

  37. -pty y[es]|n[o] 设置是否使用伪终端 pt=pseudo terminal qsub -pty y job

  38. -r y[es]|n[o] 设置作业是否可以重新运行 r=run qsub -r y job 39. -R y[es]|n[o] 指示作业的预约要不要实施 R=Reservation qsub -R y job 40. -S [[hostname]:]pathname,… 规定作业的Shell解释器 qsub -S ./ job

  39. -shell y[es]|n[o] 设置执行shell还是command line qsub -shell y job

  40. -sync y[es]|n[o] y导致qsub等待作业执行完成之后才退出 ,n导致qsub提交作业成功就退出

  41. -tc max_running_tasks 设置作业组中最大并行作业数量 同-t搭配使用 qsub -tc 800 -t 1-1600 job

  42. -terse Available for qsub only. 只输出刚刚提交作业的ID。

  43. -v variable[=value],…导出环境变量到作业执行上下文 qsub -v h_core=12 job

  44. -V 导出所以活动的环境变量到作业上下文 qsub -V job

  45. -verify 提交作业的同时,进行验证 qsub -verify job

  46. -w e|w|n|p|v 设置验证(级别)模式 e…error w…warning n…none p…poke v…verify

  47. -wd working_dir 工作目录 qsu -wd ./ job

你可能感兴趣的:(linux)