IBM Platform LSF(Load Sharing Facility)产品系列是强大的工作负载管理平台,用于要求苛刻的分布式关键业务型 HPC 环境。
IBM Platform LSF 拥有一系列可选附加组件,旨在帮助其实现工作负载管理、进而提升用户生产效率。
IBM Platform Application Center 提供一套可自定制化 Web 界面,帮助用户管理作业并分析集群资源利用状况。它还提供一套易用性出色的使用界面,能够在无需编程的前提下实现作业提交。用户可以查看作业状态及作业结果,对作业进行操作(例如挂起或恢复),并对作业输入、输出及错误文件实现可视化。
IBM Platform Application Center 还提供一套信息仪表板,其中包含大量细节信息——例如集群健康状况以及集群性能统计结果,还包括每台主机的资源使用情况报告。大家可以创建一套机架配置方案以代表当前环境,并通过 rackconfig 命令将设备分配至合适的机架。
最大支持能力: IBM Platform Application Center 能够支持的最大机架尺寸为42U(不可配置)。
该软件提供多种最为常用的应用程序模板,能够通过定制及发布实现解决方案的快速创建。除此之外,用户还可以针对具体需求创建属于自己的模板,从而使作业提交更简便、更快速、错误率更低。
该产品提供一系列内置集群分析报告功能。这些报告涵盖集群改进过程中所涉及的各种常见类型。用户也可以通过Web界面创建自定义报告以满足特定需求。
IBM Platform Application Center 还可以与 IBM Platform License Scheduler(简称LS)与 IBM Platform Process Manager(简称PPM)相集成。这种集成化方案能够帮助用户以可视化方式掌握整个集群的许可使用情况。大家可以通过一套Web界面对作业流程执行以及触发流程进行监控;也就是说,大家能够以集中化方式控制LSF集群的全局状态。
随着集群规模及工作负载的不断增长,集群管理员需要更为强大的工具以完成集群管理及监控任务,从而确定有可能对性能产生负面影响的各类问题。此外,管理员们还需要一款能够追踪集群各方面状态、同时又无需通过多种来源进行集群信息收集的工具。
IBM Platform RTM 通过为 IBM Platform LSF 环境提供一套综合性工作负载监控、报告以及管理工具以解决上述问题:
- 提供指向集群内工作负载与主机具体信息的访问途径;
- 允许用户创建警告及多种图形类型;
- 为服务器日志可视化提供一套界面,允许用户通过 GUI 执行常见管理任务(例如重启LSF集群进程并对作业进行操作)——全部工作都通过同一套集中式 Web 界面实现;
- 提供对多个集群进行监控的能力,从而帮助用户轻松对多种环境的管理并收集全局集群使用情况指标。
备注: IBM Platform RTM 利用 Cacti 作为功能丰富的图形化用户界面框架,旨在为用户提供面向特定 LSF 环境的监控、报告以及提示功能。Cacti 是一套完全基于 RRDTool 的图形解决方案,由Cacti Group 负责开发。LSF 功能当中还包括 Cacti 插入机制,因此大家可以将二者协同运用。IBM Platform RTM 除了提供特定 LSF 监控及报告功能之外,还包含开源 Cacti 工具包所具备的各类功能。如果大家熟悉 Cacti,那么对 IBM Platform RTM GUI 也一定不会感到陌生。
IBM Platform RTM 当中的报告机制与 IBM Platform Application Center 有所不同,区别在于前者会提供关于集群各个方面的细节信息。在 IBM Platform RTM 报告当中,用户可以深入掌握集群资源的使用情况以及工作负载流程。最显著的实例就是与作业相关的交付信息。在 IBM Platform RTM 当中,大家可以对作业提交信息进行可视化处理。在 IBM Platform RTM 中,大家能够查看关于作业执行环境、作业状态历史记录、作业图以及主机曲线图等各类信息,从而直观了解作业的整个执行流程。
IBM Platform RTM 能够帮助集群管理员处理以下任务:
- 确定问题
- 监控整个集群
- 通过识别闲置资源并消除瓶颈以实现性能优化
- 强化用户生产效率并改进服务水平
- 规划能力
- 降低成本
重要提示: IBM Platform RTM 8.3 尚不支持IBM通用并行文件系统(简称GPFS)监控。
IBM Platform Process Manager 是一款工作负载管理工具,用于帮助用户创建并管理流程定义,从而实 UNIX 及 Windows 环境下的业务流程自动化目标。所谓“流程定义”,其中包含作业、作业组、子流程及其彼此间的关系(反映工作项目及其相互依赖性)。除了创建作业流程定义之外,用户还可以利用 IBM Platform Manager 进行作业调度。该工具由以下几部分组成:
–Process Manager Designer
• Flow Editor
• Calendar Editor
–Flow Manager
大家可以利用故障转移主机为 Process Manager Server 提供冗余机制。
用户可以在 Process Manager Client 当中创建作业流程定义,而后将其提交至 Process Manager Server 当中。Process Manager Server 在流程当中管理作业依赖性并控制指向 IBM Platform LSF主节点主机的提交操作。IBM Platform LSF 主节点主机负责提供资源管理及负载平衡机制、运行作业并将作业状态返回至 Process Manager Server。用户可以通过 IBM Platform Process Manager 监控作业流程状态。
在 Flow Editor 当中,用户可以轻松实现对作业流程的图形化定义。在 Flow Editor 的帮助下,大家可以创建作业及其相互关系,并勾勒它们基于文件或者时间的依赖性。
在 Flow Editor 当中,大家还可以基于预定义应用程序模板进行作业创建。IBM Platform Process Manager 提供扩展功能,允许用户在无需进行大量编程的前提下向 LSF 环境之外的应用程序提交工作内容。大家也可以通过 XM L格式创建自己的应用程序模板,创建结果能够被转化为简单的用户界面、通过对作业进行可视化配置的方式促进作业提交。
该软件为用户提供多种模板。其中 zOS_Template.xml 模板位于安装目录的JS_HOME/8.3/examples 子目录之下。在被移动到 JS_HOME/work/templates 目录之下时,其就会以界面的形式为用户服务。
在 Calendar Editor(同样由Platform Process Manager提供)的帮助下,用户能够轻松进行日程计划定义。这些日程计划能够交由 Process Manager 使用,从而计算出哪些作业或者流程需要在哪些具体日期加以运行。此后,用户则能够利用 Flow Manager 查看并控制这些运行当中的流程,并在流程结束后获得历史信息记录。
IBM Platform License Scheduler 负责控制组织内部所共享的软件许可。它的作用在于帮助企业轻松实现更具灵活性的分层式许可共享策略。这些策略能够准确反映业务需求、带来理想的利用效率并贯彻企业的整个生产过程。
IBM Platform License Scheduler 与 FlexNet 产品协同运作,共同控制并监督许可使用情况。它能够与其它多台负责向不同集群提供许可的许可服务器相对接。
IBM Platform License Scheduler 管理许可令牌的调度工作,但它实际上也充当着负责提供许可的许可服务器。应用程序会不断从许可服务器处重新获取许可,而且这一过程并不涉及许可调度。IBM Platform License Scheduler 与 LSF 集群中的作业进行交互。
当作业需要许可以运行应用程序时,这套许可调度方案会提前为其提供令牌、从而支持应用程序的实际运行。LSF 当中的可用令牌数量与FlexNet所提供的数量保持一致。处于运行状态的作业所使用的许可数量永远不能超过可用许可数量。
许可令牌会根据由用户定义的一系列许可调度策略交付给作业。不过这些策略并不影响作业调度机制的优先级。作业仍然会依据 IBM Platform LSF 集群当中所定义的策略进行分配——也就是说,LSF 策略的优先级高于许可调度策略。
操作模式
IBM Platform License Scheduler支持两种操作模式:
- 集群模式
专注于最大限度提升许可利用率(这种模式在IBM Platform License Scheduler 8.0中刚刚出现)。用户可以对单一集群的许可储备及共享策略进行配置,而不必再涉及其它集群。每个集群也都会出现作业(以及许可)的抢占情况。
在集群模式下,许可令牌会在对应作业结束之后由LSF回收并重新使用(对于短期作业来说,这种方式能够带来更主的许可利用效率)。而在项目模式下,IBM Platform License Scheduler会在实际分配许可令牌之前检查各LSF集群上许可持有者的需求。这种对全部集群上全部项目进行信息收集与评估的方式会拖慢各个调度周期。
-项目模式
关注许可持有者所使用的许可。项目可以跨越多个集群存在。
分配策略
在IBM Platform License Scheduler当中,大家可以对不同项目或者集群之间的许可令牌共享策略进行配置。具体分配策略根据所采取的操作模式而有所不同:
-集群模式:
-静态分配策略:将一部分许可分配给集群,而且许可数量永远不会改变。
-动态分配策略:将一部分许可分配给集群,但许可数量能够根据集群的实际需求作出改变。具体数量由预先定义的缓冲方案决定。
项目模式:用户可以在集群模式下通过配置同时采取两种分配策略。
–公平共享分配策略:将一部分许可分配给每一个项目,但根据实际需求决定所使用的许可数量。如果需求超出了可用许可数量,也仍然只能使用可用范围内的许可。不存在抢占机制。如果需要对许可进行重新分配,作业会停止运行、直到许可重新分配过程结束。
–持有与抢占分配策略:将全部共享许可分配给每一个许可项目。所持有的共享许可也将得到分配。未使用的许可会被共享给任意需求。不过当实际需求超出可用许可数量时,持有共享会以抢占的方式得到回收。
–主动持有分配策略:主动持有允许持有方自动根据项目活动情况作出判断。活动项目所占用的持有许可以百分比形式表现。每个项目实际持有的许可数量会根据项目本身的活动情况发生改变,用户能够将持有百分比调整至100%以上以支持活动持有者的作业流程。
–非共享许可分布策略:一部分许可被指定为非共享类型。
在未被使用时,这部分许可会处于保留状态而不会归入共享范畴。
服务水平协议(简称SLA)保障调度
SLA保障调度机制允许站点保障作业组运行过程中所必需的资源供应。作业可以根据用户、公平共享组、项目、许可项目、队列、应用程序配置文件或者以上几种分类方式的其它组合进行分组。许可资源保障机制只能在IBM Platform License Scheduler处于集群模式下时才能正常起效。SLA保障调度的配置流程在IBM Platform LSF当中实现。
是否需要采用SLA保障调度机制取决于服务类以及资源池的配置情况。服务类允许作业访问受保障资源。作业可以在提交时明确被附加在某个服务类上,例如“bsub –sla服务类名称”。或者,作业也可以在特定条件下被自动附加到服务类当中。举例来说,如果某项作业由服务类定义,则在提交至特定项目时该作业将自动被附加至对应SLA。
用户可以对服务类进行配置,从而限制被附加到对应SLA中的作业——例如从属于项目1的作业。服务类所使用的资源来自资源池。
资源池为服务类中的作业提供最低资源保障。当用户对资源池进行配置时,用户在资源池内定义的共享资源会被分配给每一个经过定义的服务类。资源池能够为任意类型的资源提供保障机制。
服务类能够利用来自不同资源池的资源,而资源池可以向不同服务类分配资源。除了对服务类的共享资源进行配置之外,大家也能够以可选方式对未被使用的许可进行出借策略配置。出借机制可能被限制为只面向短期作业。大家还可以限制出借策略,从而确保保障性资源处于负载挂起状态。
您的 IBM® Spectrum LSF 集群性能如何?业务线 (LOB) 消耗哪个群集资源?您的项目的退款是多少?作为执行官、IT 经理、LOB 经理或项目主管,您应该了解群集环境中发生的情况。但是,您需要回答的具体问题因您的角色而异。
现在,有一种简单、快速有效的方法来获取所需的答案,无论您是检查一个特定作业还是整体群集运行状况。 IBM Spectrum LSF Explorer V10.1 使各种业务和技术用户能够使用单一解决方案快速创建和查看报告和仪表板。与以前依赖关系数据库的方法不同,IBM Spectrum LSF Explorer 利用开源 Elasticsearch 快速存储、索引和查询数据,使IBM Spectrum LSF Explorer 成为一个轻量级且功能强大的报告解决方案,有助于快速响应查询。
IBM Spectrum LSF Explorer 解决方案旨在快速轻松地部署在基于 x86 和基于 IBM POWER® 的 Linux 服务器上。对于单个群集,可以在单个 Linux 服务器上安装所有组件,以最大程度地减少解决方案占用空间并帮助降低成本。对于更大的环境,您可以横向扩展 Elasticsearch多个主机以提高性能。该解决方案几乎无需维护。