LSF_故障冗余

故障冗余及自动管理故障切换

LSF拥有健壮的架构设计,重要组件由另一个组件监视,并可以从故障中自动恢复。即便集群中的一些主机不可用,甚至是管理主机不可用,LSF集群仍可以通过候选管理主机保证集群整体的可用性。LSF可以冗余集群中的任何主机组,当主机变成不可用,主机上运行的JOB将被排队或丢失,这完全取决于此job在运行是否被配置为rerunnable。并不会影响其他正在运行或挂起的作业。

怎样实现故障冗余

故障冗余依赖event log filelsb.events,此文件被保存在基础文件服务器上。每一个系统的事件都被记录在这个文件中,包括所有作业提交以及作业和主机状态更改等信息。如果管理节点不可用,一个新的管理节点将会从候选管理主机列表中进行选择,在新管理节点上的sbatchd进程将会启动一个新的mbatchd进程,新的mbatchd进程从lsb.events文件获取系统状态信息来恢复。

多副本event log file

解决lsb.events单点故障,可以配置LSF保留lsb.events的副本到文件服务器上。当主文件不可用时通过副本lsb.events文件来恢复管理节点状态信息。当多副本lsb.events配置被启用之后,主lsb.events将会被保存在第一个管理节点的本地,当管理节点恢复时重新和副本lsb.events进行同步。

主机冗余

LSF管理主机是动态选择的。如果当前管理主机不可用,则自动切换其他主机。从lsf.conf文件(在安装中指定)中的LSF_MASTER_LIST参数中定义的列表中选择故障转移管理主机。安装时配置文件)。列表中第一个可用的主机充当管理主机。
运行中的作业由每个服务器主机上的sbatchd守护进程管理。当新的mbatchd守护进程启动时,它将轮询每台主机上的sbatchd守护进程,并查找其作业的状态。如果sbatchd守护进程失败,但主机仍在运行,则该主机上运行的作业不会丢失。当sbatchd守护进程重新启动时,它将重新获得对主机上运行的所有作业的控制。

作业冗余

作业可以作为可重新运行的对象提交,这样它们就可以从一开始自动重新运行,或者作为检查点提交,这样如果它们由于主机故障而丢失,它们就可以从另一个主机上的检查点重新开始。
如果集群中的所有主机都宕机,则所有正在运行的作业都会丢失。当管理候选主机重新启动并作为管理主机接管时,它读取lsb.event文件以获取所有批处理作业的状态。除非它们被标记为可重新运行,否则宕机时正在运行的作业被认为已退出,并向提交的用户发送电子邮件。

集群分区

如果集群因网络故障而分区,当每一集群分区的管理节点的主机从候选主机中选拔出来并恢复可用,管理主机LIM在接管每一边的分区。当每个主机仍然可以访问LSF可执行文件时,交互式负载共享仍然可用。

网络分区

如果对网络进行了分区,那么只有一个分区可以访问lsb。事件文件,因此LSF服务仅在分区的一侧可用。一个锁文件用于确保集群中只有一个mbatchd守护进程运行。

作业异常处理

您可以配置主机和队列,以便LSF在作业运行时检测异常情况,并自动采取适当的操作。您可以自定义检测到的异常以及相应的操作。例如,可以将LSF设置为在作业带特定错误码退出时自动重启作业。

你可能感兴趣的:(LSF_故障冗余)