出问题了:qsub提交任务后一直处于Q状态

环境:在SLES10SP4环境下。torque-4.2.5+maui-3.3.1
问题描述1:qsub 提交任务后,任务状态一直为Q状态,死活切换不到R状态。
尝试使用qrun强行运行
····

qrun 33.node22
提示信息出现:
未授权的操作
原因是用户不是管理员账号,没有直接运行qrun的权限。

再后来,将用户添加到qmgr管理员后,

qmgr -c ' set server managers += user@*'
再次运行qrun,
命令可以正常运行了,但依然无法调用。

查看了日志文件
*/server_log/20220917
*/mom_log/20220917

依然没有找到问题所在。

在配置环境过程中,
./configure --prefix=/usr/local/torque --with-default-server=node22

因此torque的安装目录为/usr/local/torque/
而/usr/local/torque/bin/目录下存放着以下内容


image.png

默认情况下/var/spool/torque存在着以下目录内容


image.png

如果尝试了多种方法,依然解决不了qsub提交任务为Q状态,

最后考虑重装一下maui,或许就能解决(我的问题就是这样解决的), 在配置过程中,要注意一点,指定torque的安装目录:

./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque

make -j4

make install

更改之后,如果出现一下画面,说明pbs_server运行正常。


image.png

如果出现
pbsnodes没有node list ,让你检查server_priv/nodes文件。
但你确认nodes文件已经设置好了,说明没有读入内存,将
/etc/init.d/trqauthd
/etc/init.d/pbs_server
/etc/init.d/mom
重启一下,或许就可以了。

#######################
后记,写的有点乱。解决问题毫无章法。
总结起来就1点。
如果出现qsub提交任务为Q,一般是在集群异常停电,或者其他异常情况。问题在于maui与pbs_server和pbs_mom配合出现了问题。
如果是新装电脑,重点看qmgr -c 'print server'里面的配置,
如果之前正常,中间意外情况导致不正常,重装maui或许可以快速解决这个问题。

摸索尝试了2-3天才解决,感觉好笨。希望其他人可以少走点弯路吧。

你可能感兴趣的:(出问题了:qsub提交任务后一直处于Q状态)