IBM Spectrum LSF (“LSF“ ,简称为负载共享设施) 用户案例

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 用户案例

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。

LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。

IBM Spectrum LSF 被世界上30家最大的商业企业中的23家使用,包括众多基因组学、生物信息学、儿童医院、医药系统。

1、国内某制造企业使用 LSF 搭建高性能计算平台

挑战

  • HPC 场景复杂,机器资源利用率不高
  • 数据存储分散,有安全隐患
  • 商业许可证使用率不高,导致资源浪费。
  • 作业环境可靠性不高,导致作业出错或者突然停机等导致大量作业失效,浪费时间。

方案

  • 利用 Spectrum LSF 提高复杂计算环境的性能,依据业务优先级和策略,智能地为工作负载分配计算资源。
  • 同时结合 IBM Spectrum Scale 来提供高数据可用性,可靠性和安全性。
  • 使用License Scheduler 来调度商业许可证。
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能

结果

  • 此龙头企业借助LSF,在相同的硬件上,性能提高了10倍,开发周期缩短3~4倍。
  • 将作业运行在Spectrum Scale,数据高可靠性大大力高,消除了计划外停机时间。
  • 将许可证利用率从70%提高到几乎100%,显著节约成本
  • 提高对HPC集群的资源利用率,并确保高优先级任务快速完成。

2、Spectrum LSF 为跨国半导体公司每年节省了100 万美元的 TCO

全球重组项目背景

  • 由于并购和公司重组,客户的申请许可证和机器资源被孤立,导致下面问题:
    1) 机器和许可证资源利用率不足;
    2) 缺乏异地资源统一管理
    3)由于采购重复,业务费用飞涨。
  • 独立的工程团队只能访问他们自己的应用软件和集群
  • 超过10个集群需要作业调度和许可证权限,这些集群属于不同的业务单位和地域(美国、意大利、印度、日本、新加坡、中国上海)
  • 缺乏多集群的作业管理和监控能力

方案

  • LSF MultiCluster
  • LSF License Scheduler
  • LSF RTM

结果

  • 最小的开销实现LSF高性能作业调度
  • 缓解资源紧张问题,促进良好的资源共享机制
  • 根据业务优先级,仲裁Spectrum LSF集群、业务单元、项目和功能之间的license共享
  • 确保为关键项目和集群分配 license
  • 统一门户对多集群管理和监控,提高管理员的掌控能力

IBM Spectrum LSF (“LSF“ ,简称为负载共享设施) 用户案例_第1张图片

3、国内某工业仿真系统使用LSF做动态资源扩展

挑战

  • 国内某工业企业需要搭建复杂的仿真系统,已经采用了第三方的仿真软件。
  • 仿真作业的周期太长,最长可以达到三个月左右,而且作业容易出错,很难恢复。
  • 使用较为复杂,想通过前台的界面来提交作业。
  • 资源不够用的情况下,可以扩展到云端。

方案

  • 此研究机构采用了LSF来调度作业,工作效率大幅提升,原来需要三个月的作业,在数天之内就可以完成。
  • 使用LSF checkpoint之后,如果作业出问题,只需要从checkpoint去运行,无需从头开始,大大的节省了时间。
  • Application Center极大提高易用性,方便研发人员使用,极大提高工作效率
  • 使用License Scheduler来调度商业许可证。

结果

  • 部署IBM Spectrum LSF系列解决方案帮助此电子研究机构大幅提高了工作效率。
  • 借助于LSF,研究成果也大幅的提升,论文数量翻倍。
  • 使用人员借助于Application Center可以很好的完成了作业的提交、运行和监控。
  • 当作业量激增的情况下,LSF有效的将部分作业分发到了公有云端运行,大大提高了效率。
  • 云端资源共享的同时,采用许可证调度,使得许可证使用率从原有的40%提高到85%。

4、国内某超级计算中心使用LSF做作业调度

挑战

  • 集群规模庞大(2000个计算节点,2.5万个核)
  • 应用复杂(40多种商业软件,100多种科学计算程序)
  • 商业软件许可证管理
  • 资源租赁、计费

方案

  • Spectrum LSF统一管理集群所有软硬件资源和不同类型作业调度
  • Spectrum License Scheduler统一管理商业许可证分配和调度
  • Spectrum PAC提供一个易于使用且无缝的Web门户,用于可视化提交和管理工作负载
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能
  • Spectrum PA提供集群运行数据的报表、分析和挖掘功能

结果

  • 有效解决了多领域、复杂、大规模作业统一调度和管理
  • 作业运行效率提升20%-50%,运行时间大大缩短,每天作业吞吐量超过1000
  • 总体硬件资源利用率超过90%
  • 全面解决方案,易于监控和管理
  • 目前中国商业化运行最成功的超算中心

你可能感兴趣的:(LSF任务调度系统,数据安全,集群管理,工作负载管理,集群调度,集群虚拟化,HPC)