背 景
在当今数字化时代,人工智能(AI)已经渗透到各行各业,并成为企业取得竞争优势和创新的关键驱动力。然而,随着对AI技术的依赖程度不断增加,对计算能力的需求也日益紧迫。特别是在涉及大规模数据处理和复杂模型训练的AI应用中,AI算力成为提供高性能计算的核心。然而,使用传统的物理AI算力卡部署方式,很难实现业务的高可用,这给AI业务的连续性带来了巨大挑战。
在AI场景下,物理卡存在一些无法避免的限制和问题,用户在依赖物理卡进行AI计算时,不得不面对业务中断、性能下降和服务不可用等一系列风险带来的挑战。
因此,引入AI算力资源池化技术成为解决这些问题的关键。通过将多个物理AI算力卡集中管理,并以虚拟化的方式进行资源分配,不仅可以提供更高的可用性、灵活的资源调度和管理,而且可以提升AI业务运行过程中的连续性和稳定性。
应用场景
AI算力资源池化在确保AI应用的业务连续性方面能起到至关重要的作用。通过建立稳定可靠的AI算力资源池,能够满足业务高并发访问和业务连续性的需求,保证AI算法的高效运行和响应速度。无论是在金融、医疗、零售还是能源等行业,AI算力资源池化都能够提供稳定的计算能力,确保AI应用在复杂环境下的稳定性和可靠性。
金融
金融行业非常关注业务的连续性。金融机构需要实时地分析和处理大量交易数据、市场数据和风险数据,以做出准确的决策和预测。任何系统的中断或延迟都可能导致交易失败、业务损失或安全问题。
运营商
运营商需要实时监控和管理大量的网络数据流量、用户行为和服务质量,以确保网络的稳定运行和高质量的通信服务。任何系统的中断或延迟都可能导致网络故障、通信中断或用户投诉增加。
医疗
医疗机构需要实时分析和处理大量的医疗数据、影像数据和基因数据,以进行准确的诊断和治疗。任何系统的中断或延迟都可能导致诊断延误、治疗错误或患者风险增加。
零售
在零售行业,业务连续性对于销售和用户体验的重要性不言而喻。零售企业需要实时分析和处理大量的销售数据、用户行为和市场趋势,以做出准确的销售预测和个性化推荐。任何系统的中断或延迟都可能导致销售损失或用户流失。
能源
能源企业需要实时监测和分析能源生产、传输和消耗的数据,以优化能源分配和管理。任何系统的中断或延迟都可能导致能源供应中断或能源浪费。
AI算力资源池化是确保AI应用业务连续性的关键思路之一。通过建立一个稳定可靠的AI算力资源池,用户可以实现对AI算力资源的高效分配和管理,保证算法的实时响应和高性能运行。该方案不仅能够提高AI应用的业务连续性和可靠性,还能够提升用户体验和满足行业需求,推动AI技术在各个领域的应用和发展。
解决方案
AI算力资源池化技术是为业务提供高可用解决方案的理想选择;通过AI算力资源池化平台能够将多个AI算力资源设备整合为一个集中的资源池,为业务提供更高效的计算能力和更稳定的运行环境。即便AI算力节点在任何时间出现故障,系统都能够自动将AI算力任务迁移到其它的可用节点上,实现AI算力资源的自动切换,减少业务中断和故障处理延迟。
OrionX AI算力池化解决方案架构图
如上图所示,整个架构分为4层,从上到下分别为外部访问层、AI业务层、OrionX AI算力池化层和基础设施层。
外部访问层:
外部访问层是整个平台服务的核心,它既服务于对接的外部第三方系统,也服务于外部用户。为了确保外部用户的良好使用体验,整个平台需要持续不断地提供服务。
AI业务层:
AI业务层是整个架构的最上层,承载了各行业的AI应用或服务,它负责对外部的实际访问进行响应;随着外部业务访问压力地不断变大,AI业务应用的响应速度也会不断变慢;为了让AI业务能够随着外部业务访问压力自动弹性伸缩,提高响应速度;通常AI业务层的业务承载采用K8S平台,由K8S平台自动判断业务访问压力大小,并对AI业务运行的副本数进行增加或减少,以便应对外部的访问压力。
OrionX AI算力池化层:
OrionX AI算力池化层是整个架构的核心,实现了上层应用与下层基础设施解耦;向上承载各行业的AI应用,向下对接不同厂商和型号的AI算力设备;AI应用在运行过程中,通过AI算力池化层进行资源调度和使用,能够为AI业务分配不同大小和型号的AI算力资源,满足上层应用运行需求;当上层AI业务由于外部访问压力过大时,AI业务运行副本数自动扩展,OrionX AI算力资源池也随之为每个AI业务副本自动分配虚拟算力资源,从而满足AI业务的高可用和负载均衡运行需求,确保AI应用的业务连续性和可用性。
基础设施层:
基础设施层是整个架构的最底层,主要包括不同厂商的AI算力设备和服务器,承载了实际AI业务运行过程中的数据计算。
新特性介绍
以上是业务连续性的解决方案,它需要外部的业务访问压力、业务自身的弹性伸缩能力,以及AI算力池化能力相结合,来保障不同行业业务场景下应用的性能和连续性,以最大化提升用户的使用体验。
如果说上述的解决方案主要为优化用户的使用体验;那么以下这个新技术,就是在保障“外部”的基础上,最大化提升“内部”资源的利用率、均衡性、可维护性。
趋动科技凭借自身在AI算力池化领域的技术积累,推出了领先的“AI算力热迁移”能力。
AI算力热迁移能力示意图
AI算力热迁移是指将算力硬件上正在运行的计算任务和数据,从一个物理 算力设备无缝迁移到另一个物理算力设备的过程,这个过程不需要中断或停止当前正在进行的计算任务。热迁移的主要目的是在不影响服务可用性的情况下,实现对AI算力资源的动态管理和优化。
“热迁移”对需要长时间运行的AI计算任务,特别是对服务器端的 AI 模型推理、深度学习训练等工作负载,都具有非常重要的意义;以下是“热迁移”的三个主要应用场景:
负载均衡
在高性能计算、AI训练等场景下,由于工作负载不均衡,部分AI算力资源可能会过载,而另一部分资源处于空闲状态。通过AI算力资源热迁移技术,可以实现资源的动态负载均衡,将过载的AI算力资源上的工作负载迁移到空闲的AI算力资源上,从而提高整体的系统利用率和性能表现。
碎片整理
在长时间运行的AI应用中,由于内存分配和释放的不规则性,可能会导致内存碎片化,降低内存的利用效率。通过AI算力资源热迁移技术,可以实现对内存的动态整理和优化,将碎片化的内存重新整合,提高内存的利用效率,减少内存碎片对性能的影响,从而提升应用程序的性能和稳定性。
下线维护
在服务器集群运行过程中,有时需要对部分服务器进行维护、升级或下线操作。AI算力资源热迁移技术可以在这种情况下发挥作用,对AI算力资源进行动态迁移,将原本运行在需要维护的服务器上的工作负载迁移到其他正常运行的服务器上,在实现对目标服务器的下线维护操作的同时,不影响整体系统的稳定运行和服务质量。
方案优势与价值
1) 提高资源可用性
基于AI算力资源池化技术,AI业务在使用AI算力资源过程中,能够自动避开故障的AI算力节点或AI算力资源,保证AI业务随时有可用资源,从而减少了AI算力资源单点故障的风险。
2) 提高AI业务的连续性
AI算力资源池化可以根据业务需求动态分配AI算力资源。通过将所有可用的AI算力资源集中到一个池中,可以实现资源的共享和灵活分配。这意味着当某个AI任务运行中断时,用户只需要简单地重新启动AI任务,即可快速从AI算力资源池里获得可用的AI算力资源。即使资源池内的节点或AI算力设备出现故障,也能快速为AI任务分配新的资源,以便快速恢复业务,保障AI业务运行的连续性。
3) 提高AI业务的负载均衡
基于AI算力资源池化技术和K8S平台的业务弹性伸缩能力,可以有效提高AI业务对外提供服务的响应速度。通过监控AI业务的外部访问压力,动态扩展AI业务容器数量,OrionX AI算力资源池也能为每个AI业务实例匹配更多数量的虚拟算力资源,以便应对外部对AI业务的访问压力,从而提高业务的连续性和稳定性。
4) 更加灵活的资源调度和管理
使用AI算力资源池化技术可以实现对资源的细粒度管理和调度,从而更好地满足不同任务的需求。可以动态调整AI算力的数量、大小和分配方式,以适应不同的工作负载,从而提高系统的效率和性能。
5) 提高资源利用率和成本效益
通过AI算力资源池化技术,用户可以对资源进行按需分配和共享,最大限度地利用现有AI算力资源,降低IT设备的购置和运维成本,提高IT部门的效率和资源利用率。
综上所述,AI算力资源池化技术为企业提供了更高的可用性、灵活的资源调度和管理,提高了资源利用率和成本效益,同时还具有更好的可扩展性和可持续性。随着计算需求的不断增长和数据规模的不断扩大,AI算力资源池化技术将成为企业在数字化时代中取得成功和实现创新的关键支撑。