SGE集群队列状态并清除队列错误状态

SGE集群可能出现独列错误状态。此时,使用命令 qstat -f 检测集群队列队列状态。最后一列stats若为空,则表示队列状态正常,可以用于任务提交。其它状态解释如下:

a: 负载超限了,开启警报alarm。
A: 超限暂替,开启警报Alarm。
E: 队列有错误,不能提供任务提交服务了。
au:主机和SGE系统连接中断,此时负载状态为-NA-。需要重启相应服务器的sgeexecd命令。

当出现状态 E 时,则需要使用root用户在对应的主机中重启sge计算服务:

/opt/sysoft/sge/default/common/sgeexecd restart

然后,清除队列中的错误信息:

qmod -c all.q

服务器远程强制连接并重启

在服务器使用过程中,我遇到这样一种情况:服务器将网络上的文件系统挂载到了 /home 目录;当系统出现问题导致 /home 没有响应时,导致了 /home 目录下的普通用户无法登陆。

解决方法我于是使用了备用的不在 /home 目录下的其它普通用户登陆。此时则可以登陆到服务器中了。此时,可能遇到一种情况,能登陆到服务器,但是不会返还命令提示符。这可能依然是 /home 目录没有响应,而很多依赖该分区下数据运行的程序异常运行导致的。此时,按如下方式可以登陆到服务器中:

ssh -t chenlianfu@xx.xx.xx.xx "cd /; bash"

由于挂载的 /home 分区没有响应。此时,使用正常的重启命令,极可能关机失败,从而无法再次连接服务器。因为依赖 /home 分区数据运行的程序无法强行杀死导致系统无法关机。则需要直接通过硬件关机再开机。若无法直接接触服务器,则使用IPMI方法实现硬件上的强制关机或重启:

# 加载 ipmi 驱动,确认服务器支持IPMI
sudo modprobe ipmi_msghandler ipmi_devintf ipmi_si
sudo ls -l /dev/ipmi*

# 数显按照 ipmitool 软件
sudo yum install ipmitool

# 再使用 ipmitool 命令实现应硬件上强制重启
sudo ipmitool power reset