今天,能想到的或是想不到的领域,对容器和 Kubernetes 的需求都居高不减,使这项技术正在真正走向无处不在。
在 2023 云栖大会上,阿里云云原生产品线容器服务负责人易立关于容器服务 ACK 在本届亚运会上应用的介绍,让现场观众眼前一亮, “以杭州亚运会为例,作为云原生技术底座,为亚运一站通、亚运钉等众多核心应用提供了高弹性、高可用、异地多中心的架构支持,确保了赛事系统万无一失。”
阿里云容器服务 ACK 已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
在过去一年,阿里云容器产品能力持续受到业界的广泛认可。2023 年 9 月,在权威咨询机构 Gartner 发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。在 2022 年 4 季度,Forrester 公共云开发与基础设施平台 Q4/22 评测中,阿里云是中国云原生开发者的最佳选择。
智算时代已来,易立介绍了为助力企业构建现代化应用平台,阿里云容器服务在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构 5 大核心方向带来的产品能力全新升级。
更大规模:弹性算力池新突破
阿里云提供了丰富的弹性算力,包括 Intel/Amd/倚天 Arm 等多 CPU 架构,GPU/RDMA 等多种异构加速器,以及按量、Spot、节省计划等多样化的售卖形态。使用 ACK,客户能够最大化利用阿里云整体弹性算力池能力,根据自己的需求灵活选择,增效降本。
ACK 集群支持托管节点池、虚拟节点两种不同的数据面形态:
今年 ACK 集群通过与弹性计算调度相互感知,可以更好调度 ECI 实例,支持将 K8s 对集群资源调度能力扩展到整个弹性算力池,确保了 ECS 节点池与虚拟节点的调度统一和能力一致,用户无需修改现有 K8s 应用定义即可最大化使用云资源。
越来越多的客户基于 ACK 集群,构建大规模微服务架构应用和大规模数据计算任务。同时为了满足对集群规模增长的诉求,ACK 单集群最大支撑的节点从 10000 提升至 15000,ECI 实例从 20000 提升至 50000 实例。我们的控制面组件会根据数据面规模按需伸缩,保障稳定性。
更优性价比:倚天架构专属优化
越来越多的 ACK 客户选择倚天芯片作为新算力选择。客户选择倚天架构实例主要有如下三个原因:
为了支持容器应用向倚天架构平滑切换,ACR 提供了多架构镜像构建能力,支持一份源码构建出包含 x86、Arm 架构的应用镜像,同时 ACK 集群可以同时包含 Arm/x86 节点池或虚拟节点,让客户 K8s 应用在不同 CPU 架构下按需调度,逐步切换。
更高弹性:全新发布节点池即时弹性能力
最大化利用云的弹性能力是客户对容器产品的重要诉求,易立也带来了 ACK 的一项全新发布:“在阿里云上,容器服务每天有数百万核的算力资源按需扩缩容,帮助客户优化计算成本。今天,我们正式发布 ACK 节点池即时弹性能力”。
ACK 节点池即时弹性 Scaler 拥有以下特点:
即时弹性完全兼容现有节点池能力和使用习惯,可以配合托管节点池实现节点的自动化运维。
更简运维:ContainerOS 与全托管节点池结合
对于 K8s 集群,节点运维是保障系统稳定性与安全的重要日常工作,但是手工操作非常复杂繁琐。
ACK 托管节点池支持节点的全生命周期自动运维,包括 CVE 高危漏洞自动修复、节点故障自愈、OS/ 节点组件自动升级,其中节点自愈成功率 98%;集群节点运维时间减少 90%。
ContainerOS 是龙蜥社区发布的面向容器优化的操作系统,采用不可变基础设施理念构建,具备精简、安全、可编程等特点。千节点弹性时间 P90 55s,相比 CentOS 等节点弹性时间降低 50%。
ContainerOS 与全托管节点池可以完美结合,进一步优化了节点池的弹性和可运维性,让企业聚焦在自己的自身业务,而非 K8s 基础设施维护。
更丰富场景:Serverless 容器为 AI 场景增效降本
对 Serverless Container 的支持是 K8s 演进的重要方向,基于 ECI 的 ACK Serverless 在客户场景中得到了广泛的应用。ACK、ECI 不但帮助微博热搜,钉钉会议等在线应用的弹性伸缩,也在助力众多 AI 和大数据客户降本增效。
今年 ECI 弹性容器实例有四个重要发布:
全面支持灵骏集群,为大模型训练提效
过去一年,AIGC/ 大语言模型无疑是 AI 领域最重要的进展。随着大模型参数规模、训练数据和上下文长度的增长,训练大模型所消耗的计算量呈现指数级增长。
ACK 全面支持阿里云灵骏智算集群,为大规模分布式 AI 应用提供高性能、高效率的 Kubernetes 集群。ACK 提供了对灵骏高性能算力的全面支持,以及批量AI任务调度,数据集加速,GPU 可观测与自愈等能力。
通过软硬件协同设计与云原生架构优化,ACK 助力 PAI 灵骏智算方案高效利用强大的算力,为 AIGC、自动驾驶、金融、科研等众多智算业务场景提效。
ACK 云原生 AI 套件增强,构筑企业专属 AI 工程化平台
ACK 去年推出云原生 AI 套件,帮助用户基于 Kubernetes 充分利用阿里云上弹性算力,支持弹性训练与推理等场景。在此之上既服务了阿里云 PAI、灵骏智算、通义千问等 AI 平台与服务,也提供对开源 AI 框架和模型的容器化支持。
今年,针对大模型场景,AI套件新增了对开源大模型框架 DeepSpeed,Megatron-LM,TGI 的容器化支持与优化。通过云原生 AI 套件的调度优化与数据访问加速,AI训练速度提升 20%;大模型推理冷启动速度提升 80%,数据访问效率提升 30%。
ACK AI套件已被广泛应用于众多海内外企业,帮助客户构建自己专属的 AI 平台,显著提升 GPU 资源效率和 AI 工程效率。
ACK 集群调度器, 面向 AI /大数据负载优化扩展
ACK集群调度器基于 Koordinator 项目。它是基于阿里巴巴大规模混部实践孵化出的开源 Kubernetes 调度器实现,可以统一、高效地支持微服务、大数据、AI 应用等多样化的工作负载。其中我们针对 AI、大数据负载进行了如下优化和扩展:
在全面兼容 Kubernetes 现有调度能力基础上提供批量任务的调度元语,如 Gang Scheduling,弹性配额、优先级调度等,可以与 Kubeflow,KubeDL 等社区项目无缝集成。
支持拓扑感知性能优化,根据 PCIe、NVSwitch,以及 RDMA 网卡等互联链路的拓扑信息,自动选择能够提供最大通信带宽的 GPU 卡组合,有效提升模型训练效率。
支持对 GPU 的细粒度资源共享调度,有效提升模型推理场景 GPU 资源利用率。
近期我们与小红书在社区合作,将发布 Hadoop Yarn 任务与 Kubernetes 负载混部的能力,进一步提升 Kubernetes 集群的资源效率。相关工作帮助小红书 ACK 集群资源效率提升 10%。
我们也在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康的发展,也欢迎大家在社区共建。
ACK AIOps 智能产品助手,加速 K8s 问题定位与解决
Kubernetes 自身技术复杂性是阻碍企业客户采用的一个重要因素。一旦 K8s 集群发生故障,对应用、集群、OS、云资源的问题排查,即使对经验丰富的工程师也充满挑战。
ACK 全新升级容器 AIOps 套件,通过大模型结合专家系统的方式,让管理员可以通过智能产品助手,使用自然语言与系统进行交互,加速 Kubernetes 问题定位与解决。
当问题发生时,AIOps 套件会采集上下文相关的 Kubernetes 对象与云资源的定义,状态与拓扑信息。比如 Deployment,Pod 和关联的节点等。以及相关的可观测信息,如日志,监控,告警等。然后会基于大模型进行数据分析与归集,给出当前问题的可能原因与修复方案。ACK 背后的大模型方案面对云原生开发和运维知识库进行了调优,提升了问题分析的准确度。
用户可以进一步利用智能诊断中的专家经验系统,进行根因定位。现有 AIOps 套件包含 200+ 诊断项,覆盖 Pod,节点,网络等问题场景,可以对网络抖动,内核死锁、资源争抢等问题进行深入排查。
除了用户驱动的问题诊断,AIOps 套件也在加强对自动化巡检和异常事件自动化实时处理,为集群稳定性、安全提供更加全面的防护,防患于未然。
ACK FinOps 套件全面升级,精细场景化分析与分摊策略
ACK 去年发布了 FinOps 成本管理套件,为企业管理员对 K8s 集群现了成本的“可见,可控,可优化”。在过去的一年中,FinOps 套件支持了不同行业的上百家客户,其中:
今年,FinOps 套件全面升级,增加了更多场景化的分析与分摊策略,例如:在 AI 场景,可以基于 GPU 卡、显存等维度进行成本可视化。此外,FinOps 套件还发布了一键资源浪费检查功能,可以快速发现集群中空置的云盘、SLB 等未被使用的资源,让集群的整体资源利用率进一步提升。
可信化应用交付增强,ACK 与 ACR 提供 DevSecOps 软件供应链
软件供应链安全是企业落地云原生技术的最大关切,Gartner 预计到 2025 年,全球 45% 的组织都会遭受过软件供应链攻击。
阿里云 ACK 和 ACR 服务提供 DevSecOps 最佳实践,实现了从镜像构建、分发到运行的自动化风险识别、阻断与预防能力。帮助企业构建安全可信的软件供应链。
DevSecOps 的实践依赖研发、运维、安全团队的深入协同,今年,我们推出了集群容器安全概览,帮助企业安全管理员更好感知集群配置、应用镜像、容器运行时的安全风险,让供应链流程更加透明高效。
通过使用我们的 DevSecOps 供应链安全能力:著名的汽车制造商路特斯每月实现千次安全配置巡检,预防高危风险配置上线;招联金融基于供应链策略治理能力,在每日 CI/CD 流程中实现千次风险镜的拦截阻断,保障金融业务安全。
两全其美:Sidecarless 与 Sidecar 模式融合的服务网格新形态
服务网格已经成为云原生应用的网络基础设施。阿里云服务网格 ASM 产品进行了全新的升级,成为业界首个发布托管式 Istio Ambient Mesh 的产品,提供对 Sidecarless 模式与 Sidecar 模式的融合支持。
经典服务网格架构采用 Sidecar 模式,需要为每个 Pod 注入 Envoy Proxy Sidecar,实现流量拦截与转发。具备极高的灵活性,然而引入了额外的资源开源,增加了运维复杂性和与建联时延。在 Sidecarless 模式下,L4 代理的能力被移到节点上 CNI 组件中,可选 L7 代理独立于应用程序运行。应用程序无需重新部署即可享受服务网格带来的安全加密,流量控制和可观察性等功能。
在典型客户场景中, 采用 Sidecarless 模型服务网格,可以减少资源开销 60%,简化运维成本 50%,降低时延 40%。
托管式 Istio Ambient Mesh 有效地降低服务网格技术复杂度,推动零信任网络技术落地。
新推隐私增强型算力,护航可信 AI 应用构建
为解决企业对数据隐私日益关切,阿里云、达摩院操作系统实验室与Intel和龙蜥社区一起,推出基于可信执行环境(TEE)的机密计算容器(Confidential Containers,简称CoCo)在云上的参考架构,结合可信软件供应链、可信数据存储,实现端到端安全可信容器运行环境,帮助企业抵御来自外部应用、云平台,甚至企业内部的安全攻击。
ACK 基于阿里云八代 Intel 实例所提供的 Trust Domain Extension TDX 技术,全新推出对机密容器以及机密虚拟机节点池支持。使用 TDX 技术,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,为金融、医疗、大模型等数据应用,提供隐私增强型算力。
在AI时代,模型和数据成为企业核心业务资产。基于机密计算容器,阿里云基础软件、容器、以及英特尔团队提供了可信AI应用一个演示方案。在这个示例架构中。应用、AI 模型和微调数据集都被加密存储在云端服务中,在运行时由机密容器在 TEE 中对其进行解密后执行。
ACK One Fleet 为不同地域的多个 K8s 集群提供了统一的控制平面,我们可以对公共云集群、边缘云集群和本地数据中心集群,实现统一的集群管理,资源调度、应用交付以及备份恢复能力。
泛生子使用全托管 Argo 工作流集群在 12 小时内完成处理数千例肿瘤基因样本的处理,速度提升 50%,成本下降 30%。
正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,阿里云容器服务以为企业构筑现代化应用平台,最大化利用阿里云强大弹性算力为使命: