IBM Spectrum LSF RTM 是 IBM Spectrum LSF 环境的操作仪表板,提供全面的工作负载监视、报告和管理。它使集群管理员在日常活动中更加高效,并提供所需的信息和工具,提高集群效率,实现更好的用户生产力,并降低成本。与只关注集群监控其中一个方面的其他监控工具不同,IBM Spectrum LSF RTM 提供了专门为 IBM Spectrum LSF 环境设计的完整、集成的监控工具。它使您能够通过一个直观的界面轻松有效地监视多个集群。
● 为IBM®Spectrum LSF 环境提供集成的性能监控和报告框架
● 监控 FlexNet Publisher 和 Reprisebased 许可证的使用,提供详细和总结报告
● 通过多个级别(包括应用程序和组织)的报告来监控共享存储利用率
● 提供强大的生产力工具,包括操作仪表板
● 包括系统日志监控、自动警报和基于关键字的故障管理工具包
● 可以扩展到监控任何简单的网络管理协议(SNMP)或网络附加设备
与仅监视基础设施的竞争工具不同,IBM Spectrum LSF RTM 是工作负载和资源感知的,提供了对 IBMSpectrum LSF 集群的完全可见性。它监视工作负载调度的所有方面,包括全局集群、主机、作业、许可证、队列、用户和日志文件(图1)。
除了提供全面的监控外,IBM Spectrum LSF RTM 还包括一个灵活的警报工具,它可以快速通知管理员和管理人员任何问题,以便他们采取主动行动。凭借其广泛的功能,IBM Spectrum LSF RTM 可以用一个简单易用的监控工具替换典型 IBMSpectrum LSF 环境中的多个工具。这提高了管理员和用户的工作效率,降低了成本和复杂性。
如图:IBM SpectrumLSF RTM 仪表板显示了资源如何在用户和组之间分布的实时视图,包括多主机并行应用程序。
IBM Spectrum LSF RTM 提供全面的工作负载监控、报告和管理工具,以提高生产效率、降低成本并使您的员工更有效地工作
IBM Spectrum LSF RTM 允许单个管理员管理一个或多个 IBMSpectrum LSF 集群上的所有活动,通过更快地解决问题,提高工作效率。IBM SpectrumLSF RTM 仪表板使用可视指示器和向下展开等选项,显示集群主机运行状况和服务的实时视图。增强的监视功能允许管理员跟踪哪些用户或组正在使用任何文件系统上的数据和磁盘空间——按文件扩展名或应用程序对数据进行分组。
对于运行使用 FlexNet Publisher 和 Reprise License Manager 授权的商业应用程序的站点,IBM Spectrum LSF RTM 提供了按特性和供应商的许可证使用情况的洞察,以及包括许可证状态、版本、特性计数和到期日期等信息。通过监视许可证使用情况和工作负载,管理员可以快速检测和解决许可证相关的瓶颈,并通过更好地使用软件许可证来提高工作效率。您还可以通过将稀缺的许可证分配给最关键的项目和分析集群资源上下文中的许可证使用情况来降低成本。
IBM Spectrum LSF RTM 提供了一个分布式文件磁盘利用率和报告框架,该框架可以按用户、组、组织、应用程序和文件扩展名监视远程文件的利用率。它报告三类文件的期限,并允许随着时间的推移跟踪文件利用率。IBM Spectrum LSF RTM 提供了一个框架,可以使用分布式框架监视无限数量的文件。当组织选择导入其组织的层次结构时,IBM Spectrum LSF RTM 还将按组织组、单位或部门提供存储利用率。
可以使用数百个内置图表将关键指标绘制成图形并报告,因此管理员可以根据趋势调整调度策略,以提高效率,在小问题升级之前解决它们,并做出更好的容量规划决策。
为了跟踪集群性能,管理员可以启用 IBM Spectrum LSF RTM 动态收集性能数据或设置一个采样时间段。在每个采样周期结束时计算性能指标,帮助管理员识别系统减速的原因,并在它们变得严重之前采取纠正措施。
IBM Spectrum LSF RTM 支持基于用户、组或项目的作业级资源监控,为管理员提供关于基于主机的资源(如 cpu、内存和交换空间)如何被消耗的精确信息,以便他们可以进行调优,增加集群使用、提高作业吞吐量和减少等待时间。
为了帮助新管理员并指导他们完成设置、配置和监视任务,IBM Spectrum LSF RTM 主页在控制台选项卡中为每个链接提供了页面级帮助。
各种实时视图显示了在多主机并行应用程序中,资源如何在用户和组之间分布,以及可以在不同时间段运行的汇总统计报表。通过对资源共享(包括基于主机的资源使用)的可见性,管理员可以修改IBM Spectrum LSF 策略,以进一步提高分配效率和维护服务级别。
IBM Spectrum LSF RTM 中的集成警报和自动异常处理可以立即向管理员警告可能影响工作效率的问题。由于补救操作可以自动化,因此可以进一步减少管理员的工作负载,提高集群可用性。
与其他基于简单的阈值或条件(如服务启动或关闭)发送警报的监视解决方案不同,IBM Spectrum LSF RTM 可以基于直接影响用户工作效率的度量发出警报。例如,当等待时间超过一分钟的作业数量超过阈值水平时,管理员可能希望得到通知,因为等待时间直接影响服务水平和用户生产力。
随着每个集群的节点数量和集群数量的增加,组织需要监视和管理工具,使管理员能够在全球范围内扩展和管理多个集群。IBM Spectrum LSF RTM 为 IBM Spectrum LSF 云环境提供了最全面的工作负载监视和报告仪表板。它通过单一的 web 界面提供集群的监控、报告和管理,这使得管理员可以轻松地管理多个集群,同时为集群用户提供更好的服务质量。