SGE集群队列状态并清除队列错误状态

SGE集群可能出现独列错误状态。此时,使用命令 qstat -f 检测集群队列队列状态。最后一列stats若为空,则表示队列状态正常,可以用于任务提交。其它状态解释如下:

a: 负载超限了,开启警报alarm。
A: 超限暂替,开启警报Alarm。
E: 队列有错误,不能提供任务提交服务了。
au:主机和SGE系统连接中断,此时负载状态为-NA-。需要重启相应服务器的sgeexecd命令。

当出现状态 E 时,则需要使用root用户在对应的主机中重启sge计算服务:

/opt/sysoft/sge/default/common/sgeexecd restart

然后,清除队列中的错误信息:

qmod -c all.q

发表评论

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据