下载并安装集成软件包以在 Cray Linux 系统上运行 LSF

程序
1、在 Cray Linux (在 Cray XT/XE/XC 上) 集成上下载 LSF 集成的安装包和分发 tar 文件。
例如,在 LSF V 10.1.0中,需要以下文件:

  • lsf10.1.0_lnx26-lib23-x64-cray.tar.Z
  • Intstaller 软件包:

lsf10.1.0_lsfinstall.tar.Z
这是标准安装程序软件包。 在具有除 x86-64 以外的混合系统 ( zLinux除外) 的异构集群中使用此软件包。 需要大约 1 GB 可用空间。

lsf10.1.0_lsfinstall_linux_x86_64.tar.Z
在同类 x86-64 集群中使用此较小的安装程序包。 如果添加其他非 x86-64 主机,那么必须使用标准安装程序软件包。 大约需要 100 MB 可用空间。

lsf10.1.0_no_jre_lsfinstall.tar.Z 对于不需要 JRE 的所有平台。 必须已在系统上安装 JRE V 1.4 或更高版本。 大约需要 1 MB 可用空间。

2、确认 Cray Linux 系统正在工作。
a.在 CLE 4.0 或更高版本上,确认是否存在 /opt/cray/rca/default/bin/rca-helper, /etc/xthostname 和 /etc/opt/cray/sdb/node_classes。 否则,请确认 xtuname 和 xthostname 命令存在并且位于 $PATH中。

b.确认所有计算 PE 都处于批处理方式。 如果没有,请将所有计算 PE 切换到批处理方式,然后在引导节点上重新启动 ALPS 服务:

  • xtprocadmin -k m batch
  • $/etc/init.d/alps restart(可选)
  • apstat -rn(可选)

3、遵循标准 LSF 安装过程在引导节点上安装 LSF 。
a.运行 xtopview 命令以切换到共享根文件系统。
b.将 Cray Linux 机器添加到现有集群。
有关更多详细信息,请参阅升级/迁移指示信息。

c.编辑 install.config 文件并设置以下安装参数:

  • LSF_TOP=/software/lsf
  • LSF_CLUSTER_NAME=
  • LSF_MASTER_LIST=<管理_host_candidates> (登录节点名或服务节点名的列表)
  • EGO_DAEMON_CONTROL=N
  • ENABLE_DYNAMIC_HOSTS=N
  • LSF_ADD_SERVERS=
  • CONFIGURATION_TEMPLATE=PARALLEL

LSF_MASTER_LIST 和 LSF_ADD_SERVERS 参数应仅包含登录节点或服务节点。

LSF 守护程序的启动和关闭脚本位于 $LSF_SERVERDIR/lsf_daemons中。

4、作为 LSF 管理员,创建并使用 LSF-HPC 服务。
a.将以下行添加到 /opt/xt-boot/default/etc/serv_cmd 文件:

  • service_cmd_info=‘LSF-HPC’,service_num=XXX,heartbeat=null
  • start_cmd=‘<$LSF_SERVERDIR>/lsf_daemons start’
  • stop_cmd=‘<$LSF_SERVERDIR>/lsf_daemons stop’
  • restart_cmd=‘<$LSF_SERVERDIR>/lsf_daemons restart’
  • fail_cmd=‘<$LSF_SERVERDIR>/lsf_daemons stop’

b.创建服务命令: xtservcmd2db -f /opt/xt-boot/default/etc/serv_cmd。
c.将 LSF-HPC 服务分配给 serv_cmd: xtservconfig -c login add LSF-HPC。
d.退出 xtopview 并访问登录节点。

  • 确保 /ufs 在所有登录/服务节点之间共享,并且 root 用户和 LSF 管理员具有写许可权。
  • 在 /ufs 下设置与 /opt/xt-lsfhpc/log 和 /opt/xt-lsfhpc/work 相同的子目录 (请参阅
    “文件结构” 部分以获取详细信息)。
  • 确保保留目录所有权和许可权方式 (可以使用 cp -r 命令) ,并且 root 用户和 LSF 管理员对
    /ufs/lsfhpc下的子目录具有写许可权。

5、使用 module 命令来设置 LSF 环境变量。
module load xt-lsfhpc

你可能感兴趣的:(LSF任务调度系统,计算资源管理,集群管理,linux,运维,服务器,集群管理,计算资源管理,高性能计算,任务调度系统)