作者:易立
今天,能想到的或是想不到的领域,对容器和 Kubernetes 的需求都居高不减,使这项技术正在真正走向无处不在。
在 2023 云栖大会上,阿里云云原生产品线容器服务负责人易立关于容器服务 ACK 在本届亚运会上应用的介绍,让现场观众眼前一亮, “以杭州亚运会为例,作为云原生技术底座,为亚运一站通、亚运钉等众多核心应用提供了高弹性、高可用、异地多中心的架构支持,确保了赛事系统万无一失。”
阿里云容器服务 ACK 已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
在过去一年,阿里云容器产品能力持续受到业界的广泛认可。2023 年 9 月,在权威咨询机构 Gartner 发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。 在 2022 年 4 季度,Forrester 公共云开发与基础设施平台 Q4/22 评测中,阿里云是中国云原生开发者的最佳选择。
智算时代已来,易立介绍了为助力企业构建现代化应用平台,阿里云容器服务在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构 5 大核心方向带来的产品能力全新升级。
阿里云提供了丰富的弹性算力,包括 Intel/Amd/倚天 Arm 等多 CPU 架构,GPU/RDMA 等多种异构加速器,以及按量、Spot、节省计划等多样化的售卖形态。使用 ACK,客户能够最大化利用阿里云整体弹性算力池能力,根据自己的需求灵活选择,增效降本。
ACK 集群支持托管节点池、虚拟节点两种不同的数据面形态:
今年 ACK 集群通过与弹性计算调度相互感知,可以更好调度 ECI 实例,支持将 K8s 对集群资源调度能力扩展到整个弹性算力池,确保了 ECS 节点池与虚拟节点的调度统一和能力一致,用户无需修改现有 K8s 应用定义即可最大化使用云资源。
越来越多的客户基于 ACK 集群,构建大规模微服务架构应用和大规模数据计算任务。同时为了满足对集群规模增长的诉求,ACK 单集群最大支撑的节点从 10000 提升至 15000,ECI 实例从 20000 提升至 50000 实例。我们的控制面组件会根据数据面规模按需伸缩,保障稳定性。
越来越多的 ACK 客户选择倚天芯片作为新算力选择。客户选择倚天架构实例主要有如下三个原因:
为了支持容器应用向倚天架构平滑切换,ACR 提供了多架构镜像构建能力,支持一份源码构建出包含 x86、Arm 架构的应用镜像,同时 ACK 集群可以同时包含 Arm/x86 节点池或虚拟节点,让客户 K8s 应用在不同 CPU 架构下按需调度,逐步切换。
最大化利用云的弹性能力是客户对容器产品的重要诉求,易立也带来了 ACK 的一项全新发布:“在阿里云上,容器服务每天有数百万核的算力资源按需扩缩容,帮助客户优化计算成本。今天,我们正式发布 ACK 节点池即时弹性能力”。
ACK 节点池即时弹性 Scaler 拥有以下特点:
对于 K8s 集群,节点运维是保障系统稳定性与安全的重要日常工作,但是手工操作非常复杂繁琐。
ACK 托管节点池支持节点的全生命周期自动运维,包括 CVE 高危漏洞自动修复、节点故障自愈、OS/ 节点组件自动升级,其中节点自愈成功率 98%;集群节点运维时间减少 90%。
ContainerOS 是龙蜥社区发布的面向容器优化的操作系统,采用不可变基础设施理念构建,具备精简、安全、可编程等特点。千节点弹性时间 P90 55s,相比 CentOS 等节点弹性时间降低 50%。
ContainerOS 与全托管节点池可以完美结合,进一步优化了节点池的弹性和可运维性,让企业聚焦在自己的自身业务,而非 K8s 基础设施维护。
对 Serverless Container 的支持是 K8s 演进的重要方向,基于 ECI 的 ACK Serverless 在客户场景中得到了广泛的应用。ACK、ECI 不但帮助微博热搜,钉钉会议等在线应用的弹性伸缩,也在助力众多 AI 和大数据客户降本增效。
今年 ECI 弹性容器实例有四个重要发布:
过去一年,AIGC/ 大语言模型无疑是 AI 领域最重要的进展。随着大模型参数规模、训练数据和上下文长度的增长,训练大模型所消耗的计算量呈现指数级增长。
ACK 全面支持阿里云灵骏智算集群,为大规模分布式 AI 应用提供高性能、高效率的 Kubernetes 集群。ACK 提供了对灵骏高性能算力的全面支持,以及批量AI任务调度,数据集加速,GPU 可观测与自愈等能力。
通过软硬件协同设计与云原生架构优化,ACK 助力 PAI 灵骏智算方案高效利用强大的算力,为 AIGC、自动驾驶、金融、科研等众多智算业务场景提效。
ACK 去年推出云原生 AI 套件,帮助用户基于 Kubernetes 充分利用阿里云上弹性算力,支持弹性训练与推理等场景。在此之上既服务了阿里云 PAI、灵骏智算、通义千问等 AI 平台与服务,也提供对开源 AI 框架和模型的容器化支持。
今年,针对大模型场景,AI套件新增了对开源大模型框架 DeepSpeed,Megatron-LM,TGI 的容器化支持与优化。通过云原生 AI 套件的调度优化与数据访问加速,AI训练速度提升 20%;大模型推理冷启动速度提升 80%,数据访问效率提升 30%。
ACK AI套件已被广泛应用于众多海内外企业,帮助客户构建自己专属的 AI 平台,显著提升 GPU 资源效率和 AI 工程效率。
ACK集群调度器基于 Koordinator 项目。它是基于阿里巴巴大规模混部实践孵化出的开源 Kubernetes 调度器实现,可以统一、高效地支持微服务、大数据、AI 应用等多样化的工作负载。其中我们针对 AI、大数据负载进行了如下优化和扩展:
近期我们与小红书在社区合作,将发布 Hadoop Yarn 任务与 Kubernetes 负载混部的能力,进一步提升 Kubernetes 集群的资源效率。相关工作帮助小红书 ACK 集群资源效率提升 10%。
我们也在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康的发展,也欢迎大家在社区共建。
Kubernetes 自身技术复杂性是阻碍企业客户采用的一个重要因素。一旦 K8s 集群发生故障,对应用、集群、OS、云资源的问题排查,即使对经验丰富的工程师也充满挑战。
ACK 全新升级容器 AIOps 套件,通过大模型结合专家系统的方式,让管理员可以通过智能产品助手,使用自然语言与系统进行交互,加速 Kubernetes 问题定位与解决。
当问题发生时,AIOps 套件会采集上下文相关的 Kubernetes 对象与云资源的定义,状态与拓扑信息。比如 Deployment,Pod 和关联的节点等。以及相关的可观测信息,如日志,监控,告警等。然后会基于大模型进行数据分析与归集,给出当前问题的可能原因与修复方案。ACK 背后的大模型方案面对云原生开发和运维知识库进行了调优,提升了问题分析的准确度。
用户可以进一步利用智能诊断中的专家经验系统,进行根因定位。现有 AIOps 套件包含 200+ 诊断项,覆盖 Pod,节点,网络等问题场景,可以对网络抖动,内核死锁、资源争抢等问题进行深入排查。
除了用户驱动的问题诊断,AIOps 套件也在加强对自动化巡检和异常事件自动化实时处理,为集群稳定性、安全提供更加全面的防护,防患于未然。
ACK 去年发布了 FinOps 成本管理套件,为企业管理员对 K8s 集群现了成本的“可见,可控,可优化”。在过去的一年中,FinOps 套件支持了不同行业的上百家客户,其中:
今年,FinOps 套件全面升级,增加了更多场景化的分析与分摊策略,例如:在 AI 场景,可以基于 GPU 卡、显存等维度进行成本可视化。此外,FinOps 套件还发布了一键资源浪费检查功能,可以快速发现集群中空置的云盘、SLB 等未被使用的资源,让集群的整体资源利用率进一步提升。
软件供应链安全是企业落地云原生技术的最大关切,Gartner 预计到 2025 年,全球 45% 的组织都会遭受过软件供应链攻击。
阿里云 ACK 和 ACR 服务提供 DevSecOps 最佳实践,实现了从镜像构建、分发到运行的自动化风险识别、阻断与预防能力。帮助企业构建安全可信的软件供应链。
DevSecOps 的实践依赖研发、运维、安全团队的深入协同,今年,我们推出了集群容器安全概览,帮助企业安全管理员更好感知集群配置、应用镜像、容器运行时的安全风险,让供应链流程更加透明高效。
通过使用我们的 DevSecOps 供应链安全能力:著名的汽车制造商路特斯每月实现千次安全配置巡检,预防高危风险配置上线;招联金融基于供应链策略治理能力,在每日 CI/CD 流程中实现千次风险镜的拦截阻断,保障金融业务安全。
服务网格已经成为云原生应用的网络基础设施。阿里云服务网格 ASM 产品进行了全新的升级,成为业界首个发布托管式 Istio Ambient Mesh 的产品,提供对 Sidecarless 模式与 Sidecar 模式的融合支持。
经典服务网格架构采用 Sidecar 模式,需要为每个 Pod 注入 Envoy Proxy Sidecar,实现流量拦截与转发。具备极高的灵活性,然而引入了额外的资源开源,增加了运维复杂性和与建联时延。在 Sidecarless 模式下,L4 代理的能力被移到节点上 CNI 组件中,可选 L7 代理独立于应用程序运行。应用程序无需重新部署即可享受服务网格带来的安全加密,流量控制和可观察性等功能。
在典型客户场景中, 采用 Sidecarless 模型服务网格,可以减少资源开销 60%,简化运维成本 50%,降低时延 40%。
托管式 Istio Ambient Mesh 有效地降低服务网格技术复杂度,推动零信任网络技术落地。
为解决企业对数据隐私日益关切,阿里云、达摩院操作系统实验室与Intel和龙蜥社区一起,推出基于可信执行环境(TEE)的机密计算容器(Confidential Containers,简称CoCo)在云上的参考架构,结合可信软件供应链、可信数据存储,实现端到端安全可信容器运行环境,帮助企业抵御来自外部应用、云平台,甚至企业内部的安全攻击。
ACK 基于阿里云八代 Intel 实例所提供的 Trust Domain Extension TDX 技术,全新推出对机密容器以及机密虚拟机节点池支持。使用 TDX 技术,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,为金融、医疗、大模型等数据应用,提供隐私增强型算力。
在AI时代,模型和数据成为企业核心业务资产。基于机密计算容器,阿里云基础软件、容器、以及英特尔团队提供了可信AI应用一个演示方案。在这个示例架构中。应用、AI 模型和微调数据集都被加密存储在云端服务中,在运行时由机密容器在 TEE 中对其进行解密后执行。
ACK One Fleet 为不同地域的多个 K8s 集群提供了统一的控制平面,我们可以对公共云集群、边缘云集群和本地数据中心集群,实现统一的集群管理,资源调度、应用交付以及备份恢复能力。
在模拟仿真、科学计算等大规模数据计算工作流场景中,一个批次的计算可能需要数万,甚至数十万核算力,超出单地域的弹性供给能力,需要依赖跨地域的计算供给。在 IoT 以及医疗等场景中,海量数据分散在不同地域,需要具备就近计算能力。为此,ACK 推出全托管 Argo 工作流集群,具备事件驱动,大规模、免运维、低成本、跨地域等特点。
泛生子使用全托管 Argo 工作流集群在 12 小时内完成处理数千例肿瘤基因样本的处理,速度提升 50%,成本下降 30%。
正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,阿里云容器服务以为企业构筑现代化应用平台,最大化利用阿里云强大弹性算力为使命: