作者:阿里云云原生团队
受访嘉宾:
阿里云智能 云原生 应用平台负责人:丁宇
阿里云智能容器服务负责人:易立
阿里云智能云原生应用平台产品负责人:李国强
阿里云智能中间件技术负责人:胡伟琪
阿里云智能Serverless研发负责人:杨皓然
Question1:云原生技术今年的发展情况如何?
首先来看容器技术。Kubernetes 技术生态持续成熟,Kubernetes成 为云时代操作系统。在CNCF 2021调查报告中,全球有1/3的后端开发者在使用 Kubernetes 技术。在中国开发者调查报告中,阿里云容器服务成为中国开发者首选,有52% 的开发者在使用阿里云。2022年1季度,在权威咨询机构 Forrester 发布的全球公共云容器平台分析师报告中,ACK 成为比肩 Google 的全球领导者,这也是首次有中国科技公司进入容器服务领导者象限。
Kubernetes上运行的工作负载越来越丰富。The Data on Kubernetes Community 2022调查报告,90%的受访者认为Kubernetes已经可以很好支持有状态应用,其中70%的受访者已经将其运行在生产环境。越来越多的数据库、AI、大数据分析类型的工作负载将运行在 Kubernetes 之上。通过K8s可以不同类型的工作负载实现统一的基础设施管理,统一的资源调度,并更好利用弹性能力。
阿里云今年开源了云原生混部项目 Koordinator,它在 K8s 之上提供了对编排调度能力的增强,支持针对不同类型的工作负载,实现差异化 SLO 保障,提供面向QoS感知的调度和重调度能力,以及对任务调度能力。通过混部调度,可以有效提升资源利用率,并让低优先级的任务对延迟敏感型任务的影响 < 5% 。
在后疫情时代,如何上好云、用好云成为了企业 IT 信息化转型中的核心关注点,降本增效成为企业云原生上云的一致性共识。FinOps与云原生相结合已经成为新的趋势。阿里云结合业财一体化实践和 FinOps 理念,推出 ACK FinOps 套件,通过数字化手段和智能化方法,帮助企业实现成本可视化、可优化、可控制。其中包含了智能化的弹性伸缩能力,混部等多种成本优化手段。
在服务网格领域, 在今年 4 月,谷歌提议将 Istio 捐赠给 CNCF,9月 Istio 正式成为 CNCF 孵化项目。更加开放的Istio社区治理模式,将会得到更多企业和开发者的支持,推动更多的创新和技术成熟。今年,Istio 宣布引入全新的无 sidecar 数据平面模式Ambient Mesh,通过将数据平面功能从 sidecar 容器转移到网络基础设施来解决常见的操作挑战。Istio 的发展未来可期。阿里云服务网格ASM产品,是业内首个全托管 Istio 兼容的服务网格产品,自发布以来,持续通过软硬一体化技术优化性能,完善零信任安全体系,提升对大规模生产环境的支持能力。ASM产品获得了首批通过可信云服务网格性能测评先进级认证、排名第一、全项满分。
在开源社区领域,自 2017 年以来,阿里云持续在云原生开源技术领域投入巨大力量,深度参与了 etcd、Kubernetes、ContainerD、Dapr、Knative、Istio 等多个 CNCF 顶级开源项目的开发与维护当中。并坚持开源和商业双引擎发展模式,践行“三位一体”开源策略,积极参与打造一个开放、标准、健康良性的云原生技术生态。截至 2020 年底,阿里巴巴发起并捐赠了 KubeVela、OpenYurt、Fluid、OpenKruise、Sealer、Chaosblade、ServerlessDevs、OCM等多个项目进入 CNCF,覆盖应用交付管理领域,边缘计算领域,多云混合云、混部等多个领域。
在 Serverless领域, Serverless 是业界公认的,构建下一代云原生应用最重要的范式。2022 年,我们看到 Serverless 的蓬勃发展,达到了3个重大里程碑:云产品全面 Serverless 化,Serverless 驱动研发模式升级为组装式研发,应用架构全面 Serverless 化。
云产品全面 Serverless 化。Serverless 不只是计算,而是涵盖计算、存储、中间件、数据库、大数据等多个领域的服务。2022 年,业界领导厂商正在以前所未有的广度和深度推进 Serverless。阿里云已有20+核心服务实现了 Serverless 化,未来将全面推进整个产品体系的 Serverless 化。阿里云数据库通过计算、内存、存储资源解耦,高性能多节点横向扩展能力突破,实现了 PolarDB,RDS 等核心数据库产品的 Serverless 化,为 Serverles 架构的广泛流行奠定了基础。阿里云函数计算是业界首个支持 GPU 的 Serverless 计算服务,客户能够按需使用 GPU 资源,实现秒级弹性。
AWS 也多年来一直在 Serverless 领域投入重注,在大数据,应用集成,存储,人工智能等各个领域不断扩大 Serverless 产品组合。今年推出了 OpenSearch Serverless 版,实现了所有数据分析服务的 Serverless 化。AWS 也重磅发布了 SnapStart 技术,通过对操作系统,语言运行时,基础库的全栈整合优化,将 Java 类应用的冷启动时间从几十秒降低到几百毫秒。该技术的缺点是需要应用进行适配,否则在一些情况下会有正确性问题。
不只是云厂商,几乎所有知名商业 PaaS/BaaS 产品,也采用了 Serverless 模式,包括 Confluent Cloud,MongoDB Atlas,Snowflake,Databricks 等等。
Serverless 驱动研发模式升级。每一个 Serverless 服务都是厂商领域能力的输出,通过服务 API 透出功能,开箱即用,并承诺可靠性,弹性,性能等能力指标。Serverless 云服务和客户基于开源软件自建的系统相比,在弹性,可靠性等方面有明显的优势,因此他们是高质量的应用构建块(building blocks)。当云厂商不断丰富 Serverless 产品组合,并通过事件驱动等方式良好集成,云就变成了应用构建和运行的超级平台,应用的研发模式也升级为组装式研发。组装式研发的核心理念是采用 Serverless 计算实现业务逻辑,组合其他云服务构建应用。云厂商也在不断丰富组装式研发工具服务,例如 AWS 今年推出了专为 Serverless 应用而生的 Application Composer,让客户直观的呈现应用架构和配置,并为应用。组装式研发模式实现了开发效率的飞跃,能做到按小时交付。
应用架构全面 Serverless 化。Datadog 2022 年的调查报告显示 Serverless 技术已成为主流,被超过 50% 的客户采用,用于构建关键链路上内外部应用。阿里巴巴等头部企业也在全面实践 Serverless 技术。2022 年,Serverless 架构已经从单点场景应用拓展到一些业务场景的全链条覆盖。例如高德的业务投放平台,从前端业务逻辑层(BFF),到后端服务,到离线任务,全部采用了 Serverless 架构。 目前函数计算承载了高德百万 QPS 的业务,功能交付从原来的数天降低到数小时,整体成本降低了 38%。淘宝首页今年也实现了 100% Serverless,应用部署时长显著降低。这些标志性的案例,代表应用架构正在迈向全面 Serverless 化。
展望下一年,Serverless 发展将继续沿着产品体系 Serverless 化,研发模式升级为组装式研发,应用架构全面 Serverless 化3大趋势前进。
Question2:中间件技术在今年有哪些发展势头?
在 Kubernetes 重塑运维体系的云原生时代,越来越多的企业开始选择微服务架构来开发自己的业务应用,同时,企业的微服务建设在安全、降本提效、高可用、精细化管理等方面也有了更高的要求,过去一年我们在推进云原生微服务架构发展的过程中,最重要的两个方向是高度集成的云原生网关和微服务治理体系建设。
1、云原生网关: 传统网关产品和项目在云原生时代已经开始显得力不从心,它们欠缺发现容器服务的能力,在架构上已经无法满足容器化应用高弹性、高安全、高稳定性的要求,这些关键短板阻碍着云原生架构的大规模落地,在这样的背景下,今年10月份阿里云开源了新一代云原生网关 Higress,Higress 基于阿里巴巴内部电商、交易等核心生产场景的实践沉淀,遵循 Ingress/Gateway API 标准,将流量网关、微服务网关、安全网关三合一,并在此基础上扩展了服务管理插件、安全类插件和自定义插件,高度集成 K8s 和微服务生态,包括 Nacos 注册和配置、Sentinel 限流降级等能力,并支持规则变更毫秒级生效等热更新能力。
2、微服务治理: 软件架构的核心挑战是解决业务快速增长带来的系统复杂性问题,通过微服务架构将业务进行解耦的过程中,微服务应用的数量会逐步增多,调用的链路也变得越来越长,服务之间的依赖关系也变得愈加复杂,微服务的精细化管理成为了当前各企业的发展痛点,但是,业界对微服务治理存在概念不统一、配置形式不统一、能力不统一,要实现多框架统一管控极为复杂,所以今年4月份,阿里巴巴和B站、字节跳动等企业共同发起并开源了 OpenSergo 项目。OpenSergo 是开放通用的,覆盖微服务及上下游关联组件的微服务治理项目,从微服务的角度出发,涵盖流量治理、服务容错、服务元信息治理、安全治理等关键治理领域,提供一系列的治理能力与标准、生态适配与最佳实践,支持 Java, Go, Rust 等多语言生态。
Question3:今年企业的发展面临着哪些问题?对于云原生落地有什么影响吗?
今天,泛互联网行业提到最多的话题还是降本增效,一方面反映了这些企业随着用云的深度逐步增加,开始更多的考虑用好云。同时今年不少互联网企业也面临了比较增长压力,必然会有降本增效的诉求。这也恰恰给云原生的落地带来了机会。云原生领域的几个核心领域都聚焦在帮助用户降本增效。比如容器化之后带来的部署密度的提升,以及标准化的交付以及运维方式也能大大提高用户在交付以及运维阶段的效率。今年被越来越多提到的 Serverless,目标也是降低客户用云成本,让用户回归最能创造业务价值的业务逻辑本身,将 IT 复杂性交给云厂商。
整个云原生技术的成熟和普及有一个过程。再结合到每个行业对应用架构的诉求,每个行业是不同的。
当前互联网企业是最早一批使用云原生架构。因为在互联网企业中,往往没有历史包袱,新建应用多,而且往往是互联网特征的业务,高并发,增速快,对效率要求高等。所以天然的他们会是第一批使用云原生架构,接下来是对IT技术比较依赖的行业在进行如火如荼的云原生架构改造,比如零售,金融。这些行业的特征就是IT技术的变化往往能够带来巨大的业务变化,他们往往有比较多的存量系统。但他们同时也非常愿意引入新的技术能力,甚至做一些颠覆性的架构改造。
比如零售这几年一直在做业务中台、数据中台的数字化转型,O2O模式的探索,新物流。支撑这些业务变化的技术层面都是云原生相关的技术。金融行业也是一样,银行,证券,包括金融服务开始大面积的上线云原生架构。
而更传统一些的行业,比如政府,央国企,物流交通,工业,制造业等,他们往往业务复杂,遗留系统多,改造难度大,技术实力偏弱。但这2年我们也看到很明显的趋势是这类企业也开始关注云原生。因为需要更好的服务社会,To C 属性变多,以及一定的竞争压力之下,这些行业借助云原生技术进行数字化转型的动力也越来越足,比如阿里云服务的国家电网、个税系统、医保、宝钢、杭钢等等都比较好的落地了云原生的技术和架构。我相信这个趋势已经形成,各个行业也在逐步的落地中,只是因为业务属性,技术积累,现状等等导致落地有先后。
Question4: “降本增效”成为很多企业今年的主旋律。云成本管理的难点在什么地方?
后疫情时代,降本增效是众多企业的关切。上云和云原生化是帮助企业实现降本增效的重要手段。云成本管理的难点首先在于,云计算是将IT的固定成本转化成为可变成本,这改变了企业传统的IT成本管理方法与组织、流程。如何让云上成本看得清、分的明、控的住是当下云成本管理的重点。
为了解决云成本管理的挑战,FinOps理念应运而生。FinOps 是一种不断发展的云财务管理科学与实践,通过数据驱动的支出决策帮助工程、财务、技术和业务团队进行协作,使组织能够获得最大的业务价值。FinOps 是“Finance”和“DevOps”的综合体,强调业务团队和工程团队之间的沟通与协同。在FinOps实施过程中我们可以将其划分为:成本洞察,成本优化,与成本运营三个维度。
在成本优化方面,如果采用Cloud hosting方式上云,要关注基础设施资源的合理规划:用法 – 选择合适的算力适配工作负载,比如对高性能计算等计算场景,选择计算型实例,或者利用GPU,RDMA等加速设备实现降本提效。
用量 – 根据工作负载的特征,进行合理的容量规划,充分利用云的弹性能力。
价格 – 选择包年包月,按量付费,节省计划, Spot等不同计费方法,在资源的确定性、成本之间进行合理取舍。
更近一步,企业可以通过Cloud Native方式最大化云价值。比如利用容器服务,提升资源利用率,最大化应用弹性,简化运维。利用Serverless技术重塑整个软件研发流程,聚焦自身业务价值,而让安全、可伸缩性、运维等复杂性下沉到云基础设施。
Question5:增效方面,有哪些原因会造成企业资源利用率低下?
由于企业缺乏相应的技术手段与组织管理流程,在云上会发生资源闲置,过度分配、规格错配等问题,导致整体资源利用率低下。
阿里云容器服务 FinOps 套件,通过数字化手段和智能化方法,帮助企业实现成本可视化、可优化、可控制。比如,通过成本可视化,可以帮助企业更好地了解成本构成,定位资源利用率问题,预测成本趋势。通过应用资源画像,可以实现自动化地资源调节,有效提升资源利用率。
此外很多业务应用都存在波峰波谷,如果根据业务峰值预留资源会造成较大的资源浪费。充分利用云的弹性能力,能够帮助企业大幅降低计算成本。
以阿里云容器服务的智能弹性 AHPA,可以根据历史资源画像,对应用弹性周期和用量进行预测,提前扩容来保障服务质量。避免了 HPA 中存在的弹性滞后的问题。AHPA 已经获得顶会 IAAI 2023的人工智能创新应用奖。识货团队通过AHPA弹性技术优化,整体降低计算成本20%以上。
进一步,我们还可以根据不同应用负载之间的消峰填谷效应,通过合理的资源调度,让工作负载以更稳定、更高效、更低成本的方式去使用资源。这也是大家常说的“混部”能力。比如阿里云的 EMR on ACK,可以将大数据业务与其他应用运行在一个K8s集群中,可以更好共享计算资源,优化弹性,简化运维,实现云原生的数据湖架构,降低存储、计算成本的同时又30%运行效率提升。这背后大量应用了Koordinator的混部能力,通过对不同SLO等级的工作负载的调度优化,大幅提高集群的部署密度和资源利用率。
Question6:未来,企业还会延续“降本增效”主题吗?
在Forrester对明年的预测中,云成本控制对企业而言依然会是高优先级的任务。这里,我们希望大家思考如何利用云原生技术实现精益用云,通过提升资源效率、研发效率,IT管理效率,以增效促降本。
1.在基础设施层,利用面向云原生优化的新算力,提升计算效率。阿里云推出了倚天710CPU,基于 ARM v9架构,面向云原生优化,每个vCPU采用独立物理核,没有超线程架构中的性能争抢。可以提供更加确定性的性能。阿里云容器平台对倚天芯片进行了调度优化,天猫双11核心交易系统平滑迁移至倚天710云实例,算力性价比提升30%。
2.在容器编排层,我们会看到越来越多通过智能化、数字化手段,提升资源利用率和运维效率。比如通过 AIOps 能力,简化问题诊断,提升系统稳定性。根据用户应用资源画像和业务波动,提供智能化的水平和垂直弹性伸缩能力;通过 QoS 感知调度,提升混部场景的业务稳定性等等。
3.Serverless持续发展,依托于云提供的Serverless化服务,企业用户可以聚焦于自身业务,无需关注基础设施的管理与运维、可以从容应对业务峰谷,按需使用云资源,最大化云红利。例如阿里云近期发布的首款Serverless数据库,可以有效帮助用户将使用数据库成本最高降低70%以上。
4.在应用研发领域,Serverless与低代码相结合将充分提升研发效率;采用事件驱动、服务网格等分布式应用新架构,将进一步提升应用的敏捷性、弹性与韧性。
盘点云原生领域阿里云大事件
2022年1月
阿里云容器服务进入 Forrester 领导者象限
阿里云凭借领先的容器服务产品、成熟的大规模集群实践、卓越的开源贡献及开发者友好度,成为国内唯一挺进该报告“领导者”象限的服务商,且在产品综合能力维度评分最高。
业内首个应用多活项目AppActive 开源
继高可用架构团队的 Sentinel、Chaosblade 开源后,第三个重磅高可用产品:应用多活 AppActive 正式开源,形成高可用的三架马车,帮助企业构建稳定可靠的企业级生产系统,提高企业面对容灾、容错、容量等问题的稳态系统建设能力。
2022年2月
阿里云支撑2022年冬奥会,打造成了史上首个核心系统百分之百上云的奥运会
2022年4月
阿里巴巴云原生混部系统 Koordinator 开源
脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator正式开源。通过开源希望将更好的混部能力、调度能力开放到整个行业,帮助企业客户改进云原生工作负载运行的效率、稳定性和计算成本。
阿里云发布 ACK FinOps 方案,助力企业IT成本治理
阿里云容器服务 ACK 正式发布 ACK FinOps 方案,为云原生云上企业提供 IT 成本管理、IT 成本可视化、 IT 成本优化等功能。凭借在云上成本管理的产品能力,以满分的成绩通过了《可信云•云成本优化工具能力要求 - 第 1 部分 原生工具》标准全部 33 个能力指标,成为国内首家通过该项评估的云服务商。
OpenSergo 开源,多家厂商共建微服务治理规范和实现
由阿里云、bilibili、字节跳动,以及 Spring Cloud Alibaba、Nacos、Apache Dubbo 社区共同维护,旨在构建一个和语言无关、和技术形态无关,但贴近业务的统一服务治理规范和实现。
2022年5月
Sealer 进入 CNCF Sandbox
sealer 项目旨在解决分布式软件的打包、分发与运行的标准化问题。
2022年6月
阿里云发布云原生可观测套件 ACOS
围绕 Prometheus 服务、Grafana 服务和链路追踪服务, 形成指标存储分析、链路存储分析、异构构数据源集成的可观测数据层,同时通过标准的 PromQL 和 SQL,提供数据大盘展示,告警和数据探索能力。为 IT 成本管理、企业风险治理、智能运维、业务连续性保障等不同场景赋予数据价值,让可观测数据真正做到不止于观测。
阿里云推出 ACK One、云原生 AI 套件
ACK One 是一款企业级多地域/多集群容器管理平台,大幅简化了集群管理界面,无论是基于公共云、专有云、自有IDC还是边缘节点,都可以提供一致的管理、交付、运维体验;ACK云原生AI套件具备弹性伸缩、数据编排和加速AI作业生命周期管理等核心能力,所有组件开箱即用,可灵活组合和扩展,可以使AI工程效率提升50%,AI数据访问加速35%,分布式训练效率提高20%。
2022年8月
RocketMQ 5.0商业化版本发布
在功能、弹性、易用性和运维便捷性等方面进行了全面增强,同时定价相比上一代实例最高 降低50%,助力企业降本增效,以更低的门槛实现业务开发和集成。
2022年9月
国内唯一|阿里云入选 Gartner 应用性能监控与可观测魔力象限
Gartner 发布的《2022 Gartner 应用性能监控与可观测魔力象限》(Magic Quadrant for Application Performance Monitoring and Observability )报告中显示,阿里云入选该象限,这是中国唯一入选厂商。
Serverless Devs 进入 CNCF 沙箱,成 CNCF 首个 Serverless Tool 项目!
Serverless Devs 开源近两年,致力于打造无厂商锁定的 Serverless 应用全生命周期管理工具。目前已经支持包括宝马、沃尔沃、德基集团、Unity3D、得力、支付宝、人人视频、米哈游等众多企业客户在生产环境下使用。
2022年11月
阿里云推进核心产品全面 Serverless 化
2022 杭州·云栖大会上,阿里云智能总裁张建锋表示,以云为核心的新型计算体系正在形成,软件研发范式正在发生新的变革,Serverless 是其中最重要的趋势之一,阿里云将坚定推进核心产品全面 Serverless 化,帮助客户更好地实现敏捷创新。
Koordinator 1.0 正式发布:生产可用、面向规模场景的开源混部系统
Koordinator 从 2022 年 4 月发布以来,迄今一共迭代发布了 8 个版本,社区吸纳了包括阿里巴巴、小米、小红书、爱奇艺、360 在内企业。
云原生网关 Higress 开源:基于 Envoy,支持 Nginx Ingress 零成本快速迁移
Higress 是一款标准化、高集成、易扩展、热更新的云原生网关,源自阿里巴巴内部电商、交易等核心生产场景的实践沉淀,遵循 Ingress/Gateway API 标准,将流量网关、微服务网关、安全网关三合一,并在此基础上扩展了服务管理插件、安全类插件和自定义插件,高度集成 K8s 和微服务生态,包括 Nacos 注册和配置、Sentinel 限流降级等能力,并支持规则变更毫秒级生效等热更新能力。
阿里云函数计算 FC 宣布全面降价,最大幅度达 37.5%
2022 杭州 · 云栖大会上,阿里云宣布函数计算 FC 开启全面降价,vCPU 单价降幅 11%,其他的各个独立计费项最高降幅达 37.5%。用户可随用随取,按量计费,用更低成本采用 Serverless 架构。