管理 IBM Spectrum LSF

管理 IBM Spectrum LSF

了解如何管理 IBM® Spectrum LSF 集群,控制守护程序,更改集群配置以及使用主机和队列。 管理 LSF 作业和作业调度策略。 查看作业信息和控制作业。 了解如何配置资源并将其分配给 LSF 作业。 了解如何在 LSF 集群中提交,监视和控制高吞吐量和并行工作负载。 了解 LSF 错误和事件日志记录以及 LSF 如何处理作业异常。 调整 LSF 集群的性能和可伸缩性。

IBM Spectrum LSF 集群管理要点

了解如何管理 LSF 集群,控制守护程序,更改集群配置以及使用主机,队列和用户。

  • 使用集群
    了解 LSF 目录和文件,用于查看集群信息的命令,控制工作负载守护程序以及如何配置集群。
  • 使用主机
    检查集群中主机的状态,查看有关主机的信息,控制主机。 在集群中添加和除去主机。
  • 作业目录和数据
    作业将临时目录用于工作文件和临时输出。 缺省情况下, IBM Spectrum LSF 使用缺省操作系统临时目录。 使用 LSF 当前工作目录 (CWD) 功能部件可根据配置参数以及路径中包含的任何动态模式来动态创建和管理作业 CWD。 使用灵活的作业输出目录来根据配置参数动态创建和管理作业输出目录。
  • 作业通知
    缺省情况下,当批处理作业完成或退出时, LSF 会通过电子邮件向提交用户帐户发送作业报告。

监视 IBM Spectrum LSF 集群操作和运行状况

了解如何监视集群性能,作业资源使用情况以及有关队列,作业和用户的其他信息。

  • 监视集群性能
    使用 badmin perfmon 来监视集群性能。 使用 badmin diagnose 对集群问题进行故障诊断。
  • 监视作业信息
    使用 bjobs 和 bhist 来监视作业和作业阵列的当前和过去状态。 bjdepinfo 命令显示作业具有的任何依赖关系,这些依赖关系可以是依赖于作业的作业,也可以是依赖于作业的作业。 使用 bhosts -l 和 bqueues -l查看暂挂条件。 运行 bjobs -lp 以查看暂挂作业的原因。 运行 bjobs -l 以查看控制何时恢复作业的调度阈值。
  • 使用外部脚本监视应用程序
    使用看守程序功能来定期运行外部脚本,以检查应用程序信息并将作业信息作为通知传递。
  • 查看有关资源的信息
    使用 bhosts 命令可查看有关主机上的共享资源和主机上的装入的信息。 使用 bjobs 命令可查看作业资源使用情况。 使用 lsinfo 命令可查看总体集群资源,使用 lshosts 命令可查看基于主机的资源和按资源划分的主机负载。
  • 查看用户和用户组信息
    使用 busers 和 bugroup 命令可显示有关 LSF 用户和用户组的信息。
  • 查看队列信息
    bqueues 命令显示有关队列的信息。 bqueues -l 选项还提供有关特定队列中的作业的当前统计信息,例如队列中的作业总数,正在运行的作业数和已暂挂的作业数。

管理 IBM Spectrum LSF 作业执行
了解如何管理 LSF 作业和作业调度策略。 查看作业信息,控制作业以及管理作业依赖关系,作业优先级,作业数组,交互式作业,作业执行前和执行后以及作业启动者。

  • 管理作业执行
    了解 LSF 作业状态,如何查看有关作业的信息,以及通过暂挂,恢复,停止和发送信号来控制作业执行。
  • 作业文件假脱机
    LSF 通过创建用于缓冲作业输入和输出的目录和文件来启用作业输入,输出和命令文件的假脱机。 当作业完成时, LSF 将除去这些文件。
  • 作业数据管理
    LSF 提供了不同的选项来管理作业数据。
  • 作业调度和分派
    了解如何调度作业并将其分派给主机以供执行。
  • 控制作业执行
    使用资源使用限制来控制运行作业可耗用的资源量。 根据执行主机上的装入条件自动暂挂作业。 在作业完成之前和之后,使用执行前和执行后处理在执行主机上运行命令。 使用作业启动程序为作业设置运行时环境。 作业提交和执行控件使用特定于站点的外部可执行文件来验证,修改和拒绝作业,传输数据以及修改作业执行环境。
  • 交互式作业和远程任务
    使用 bsub -I, bsub -Is和 bsub -Ip 命令运行交互式作业,以利用资源密集型作业的批处理调度策略和主机选择功能。 使用非批处理实用程序 (例如 lsrun 和 lsgrun) 以交互方式远程运行任务。

配置和共享 IBM Spectrum LSF 作业资源
了解如何配置资源并将其分配给 LSF 作业。 在用户和项目之间公平共享计算资源。 将资源分配限制应用于作业,管理主机和用户组,保留资源以及指定作业的资源需求。

  • 关于 LSF 资源
    LSF 系统使用内置和配置的资源来跟踪作业资源需求,并根据各个主机上的可用资源来调度作业。
  • 在 LSF 中表示作业资源
    了解如何在 LSF中表示作业资源。
  • 基于计划的调度和预留
    基于计划的调度极大地改进了 LSF中的原始调度和预留功能。 调度程序可以在不久的将来规划作业布置,而不是仅查看当前资源可用性。 然后,将根据这些计划的分配进行预留。 基于计划的调度旨在替代旧的 LSF 预留策略。 启用 ALLOCATION_PLANNER 时,将忽略与旧预留功能部件相关的参数。
  • 将作业资源分发给 LSF 中的用户
    了解用户如何通过 LSF共享作业资源。
  • 全局资源
    全局资源是在所有已连接集群之间共享的资源。

GPU 资源
了解如何为 LSF 作业配置和使用 GPU 资源。

NVIDIA GPU 资源在 x64 和 IBM Power LE (Little Endian) 平台上受支持。
AMD GPU 资源在 x64 平台上受支持。

  • 启用 GPU 功能部件
    了解如何在 IBM Spectrum LSF中启用 GPU 功能部件。
  • 监视 GPU 资源
    了解如何在 IBM Spectrum LSF中监视 GPU 资源。
  • 提交和监视 GPU 作业
    了解如何在 IBM Spectrum LSF中提交和监视使用 GPU 资源的作业。
  • 旧的-使用 ELIM 的 GPU 功能
    了解如何手动使用旧的 ELIM 来使用 IBM Spectrum LSF中的 GPU 功能。

使用 LSF 配置容器

针对容器配置和使用 LSF 集成。
容器是基于 Linux 控制组 (cgroups) 和名称空间的轻量级操作系统级别虚拟化。 容器高效运行,并根据预定义的映像启动。 您可以打包应用程序并将其作为容器映像发布。 容器是可移植的,可以在任何映像的任何 Linux 发行版上运行。 LSF 支持 Docker,奇异性和 Shifter 容器运行时。

与 LSF GPU 调度配合使用时, LSF 可以使用 nvidia-docker 运行时使分配的 GPU 在容器中工作以实现应用程序加速。 LSF 为作业启动基于作业的容器,并且该容器的生命周期与作业的生命周期相同。 对于并行作业, LSF 将为作业启动一组容器。 作业完成后, LSF 将销毁所有容器。

LSF 在应用程序概要文件中配置容器运行时控件。 LSF 管理员负责在应用程序概要文件中配置容器运行时,最终用户无需考虑将哪些容器用于其作业。 最终用户将其作业提交到应用程序概要文件, LSF 会自动管理容器运行时控件。

  • IBM Spectrum LSF with Docker
    配置并使用 LSF 以根据需要在 Docker 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Shifter
    配置并使用 LSF 根据需要在 Shifter 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 具有奇异性的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在奇异性容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 带有 Podman的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在 Pod Manager (podman) OCI 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Enroot
    配置并使用 LSF 以根据需要在 Enroot 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。

管理 IBM Spectrum LSF 高吞吐量工作负载
了解如何在 LSF 集群中提交,监视和控制高吞吐量工作负载。 配置支持高效排队,分派和执行短时间运行的作业的调度策略。

  • 作业包
    使用 LSF 作业包来加速大量作业的提交。 通过作业包,您可以通过提交包含多个作业请求的单个文件来提交作业。
  • 作业数组
    作业数组是具有相同可执行文件和资源需求但不同输入文件的作业组。 可以将作业数组作为单个单元或作为单个作业或作业组进行提交,控制和监视。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 有保证的资源池
    有保证的资源池为一组用户或其他使用者提供最低限度的资源保证。
  • 保留内存和许可证资源
    使用 LSF 为高吞吐量工作负载保留内存和许可证资源。

管理 IBM Spectrum LSF 并行工作负载
了解如何在 LSF 集群中提交,监视和控制并行工作负载。 配置用于保留资源的调度策略,以支持高效执行大型并行作业。

  • 运行并行作业
    LSF 提供了并行编程包的通用接口,以便可以通过编写 shell 脚本或包装程序来支持任何并行包。
  • 提前预留
    提前预留可确保在指定时间内访问特定主机或插槽。 在提前预留处于活动状态的时间内,只有与预留关联的用户或组才有权在预留的主机或插槽上启动新作业。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 作业检查点并重新启动
    通过作业检查点优化资源使用情况,然后重新启动以停止作业,然后从作业停止的位置重新启动作业。
  • 可检查点和可重新运行的作业的作业迁移
    使用作业迁移将可检查点和可重新运行的作业从一个主机移至另一个主机。 作业迁移使用作业检查点并重新启动,以便已迁移的可检查点作业从作业在原始主机上停止的位置在新主机上重新启动。
  • 可处理作业
    可处理作业可以使用随时可用的任务数,并且可以在作业运行时通过请求额外任务 (如果需要) 或释放不再需要的任务来增大或缩小任务数。

你可能感兴趣的:(LSF任务调度系统,集群管理,网络,服务器,IBM,LSF,LSF,任务调度系统,集群管理,高性能计算,资源共享)