LSF错误排查:为什么任务状态自动切换为PSUSP ?

用户向LSF提交了一个交互式任务,但任务状态自动变成PSUSP。

PSUSP状态通常是在提交任务时指定了 -H参数,即要求任务保持挂起状态,只有当用户恢复任务后才等候被LSF调度运行。

询问用户得知,用户提交时并未指定 -H 参数。

首先查看任务的历史信息,运行命令 bhist -l jobid,从输出信息中可以看到任务在初始化时失败。

LSF错误排查:为什么任务状态自动切换为PSUSP ?_第1张图片

LSF服务进程是以 root 身份运行的,任务初始化过程中最重要的一步就是从 root 身份切换到用户身份。因此排查的重点就是计算节点上的帐号系统是否正常,比如与帐号系统的通讯、系统参数设置如nsswitch.conf, resolve.conf, network等。

经过排查发现计算节点重启后自动启动了IPv6地址,导致与帐号系统连接出现错误。

禁止IPv6地址以后,恢复正常。

你可能感兴趣的:(LSF使用技巧,服务器,linux,运维)