作者 | 许晓斌 阿里云高级技术专家
导读:如何借助云原生技术来提升交付速度?云原生时代背景下,研发的关注点又会有哪些转变?阿里云高级技术专家许晓斌通过本文分享从 IaaS 上云时代到 PaaS 上云时代的应用架构演进方向,以及云原生技术与应用架构演进的关系。
阿里巴巴已经经历了 IaaS 上云的阶段,迈进到了 PaaS 上云的时代。在去年的“双11”,阿里巴巴就已经实现了电商核心系统的全面上云,这里的上云主要是在 IaaS 层。所谓 IaaS 主要就是对计算、网络、存储的虚拟化,经过了这个阶段,阿里巴巴就进入了 PaaS 上云的阶段。在 PaaS 上云这个阶段就需要使用更多的云产品,包括中间件、存储、缓存甚至是应用托管平台等。
IaaS 阶段和 PaaS 阶段其实存在很大的差别。在 IaaS 阶段,对于应用研发来说,所关心的往往就是基础设施和资源,通俗来讲就是虚拟机或者容器等,这些对应用架构几乎没有任何侵入。但是在 PaaS 上云阶段,当你使用云产品,比如云 Redis、云 RDS、云 OSS、云 RabbitMQ 等的时候,都会对于应用架构产生比较强的侵入。那么,这样的侵入会对应用架构产生什么样的影响,是所有研发架构师所需要思考的一个问题。
如果大家尝试去搜索云原生技术,就会看到 Google Cloud 的定义、CNCF 的定义以及其他很多的云厂商以及开源软件的定义,而这些定义看法都各有不同。简单归纳可以分为如下图所示的几类,纵向来看,分为应用架构、生命周期管理、流量管理,以及基础设施及依赖四个维度;横向来看,又分为微服务、12 Factor Apps、容器、BaaS、GitOps/IaC 以及 Service Mesh 几个维度。
今天,大家都会谈到基于微服务架构做云原生,而不是基于巨石应用架构或者简单的 CS 架构。Quarkus 提出了 12 Factor Apps,意思就是说如果在今天想要让应用跑在 Quarkus 等这些应用托管平台上,对于应用具有一定的要求,大概是 12 条原则,比如配置和代码分离等,当然后续还有很多的扩展。这些原则中的很多条目的意思都是说只要你符合这些原则,那么应用托管平台就能够为你提供更多的能力,比如免运维等。容器的核心是使用一种标准的交互方式让平台能够管理应用的生命周期,包括发布、扩容以及自愈等。
BaaS——Backend as a Service,能够尽量使用现有的服务来构建应用程序。Service Mesh 的本质是管理流量,今天的应用程序都在接收流量,提供服务时流量又需要出去,在这个过程中如何管理服务发现、流量路由规则等都需要 Service Mesh 技术。最后需要重点介绍的就是 GitOps 和 IaC(Infrastructure as Code),这些技术如今在行业里面得到了越来越多的关注,尽管还没有事实上的标准,但是很多云计算公司正在不断努力。其含义是说今天在使用基础设施的时候,可以用代码去声明这些基础设施的需求。总而言之,上述这些内容都是围绕应用架构、生命周期管理、流量管理,以及基础设施及依赖这四个维度的。
对于业务而言,最关心的往往是交付速度。如果你和业务总监或者 CTO 去聊,他们就会问你,拥有这么多的技术对于业务有什么好处?可能会谈到成本的优势、管理的优势,但是对于几乎所有业务而言,最核心的是研发效率的提升。所以我们应该思考云原生技术如何才能帮助实现更快的交付。
借助云原生技术来提升交付服务的速度可以大致分为三个步骤。
将平台/服务和应用之间的协议进行标准化。如果 IaaS 层用云的话协议就是机器,就是虚拟机、容器等,对于业务应用而言,看到的就是一个操作系统,这样应用就可以使用操作系统上的各种资源,这样做的好处在于不需要关心物理机以及机器的故障等问题。
对于业务应用而言,看到的就不是一个操作系统了,会给到一个更加上层的协议,让平台帮助应用实现自动伸缩以及自愈等,还可以帮助应用实现自动腾挪,当底层基础设施发生故障的时候,可以将应用从一台机器迁移到另外一台机器,也就是生命周期管理。基于上述协议,平台的很多能力就能够下沉,比如原本需要手工管理的事情只需要通过代码声明就可以很好地实现了,有了这些协议之后,业务应用就能够将相关的生命周期管理托管给平台。
除了上述两点之外,第三步就是让应用架构需要通过升级来适应,这样才能让相关能力下沉到云平台。
进一步细化就会发现,在原来的 IaaS 上云阶段,除了需要关心业务逻辑之外,还需要关心业务应用的生命周期管理、流量管理,还需要自己进行搭建和配置中间件,比如在云环境中搭建 Redis、kafka 等,也就是说花费了大量时间在应用依赖管理的事情上,无法让云平台进行管理。今天,在 PaaS 上云或者云原生上云的阶段,想要做到的就是尽量使用云平台提供的能力,将更多的精力集中在业务本身,而将业务无关的通用技术能力都交给云来管理。
核心问题:
以前在 IaaS 上云阶段,应用和操作系统进行交互存在标准的协议,而今天在 PaaS 上云阶段,这样的协议应该是什么,需要被重新定义。此外,基于这样的协议如何实现能力下沉,也是很多包括阿里云在内的很多云厂商所做的事情,比如阿里云基于 RocketMQ 做了 RocketMQ Service,基于容器的一些协议提供容器服务等等。当然,现在只是一个开始,未来这部分内容将会更加丰富和完整。
与此同时,应用架构也需要去适应。这里以 Service Mesh 为例,之前在应用内部的流量是 SDK 的形式,那么在演进的过程中如何将服务发现和流量等从业务 SDK 中剥离出来放到 Sidecar 里面去,进而交给云平台处理,这就是应用架构演进的一个例子。
以前在做日志采集的时候,需要在各个虚拟机中开启一个日志采集进程,并将采集到的日志传输到日志采集平台,并通过可视化界面进行分析。而今天,在云原生时代,更好的做法是让容器服务从 stdout 来抓取日志,也可以通过配置的方式去特定日志目录获取日志数据。但是采集这个事情需要搬到 Sidecar 里面去实现 Agent 的升级。所以轻量化容器把日志采集从业务中剥离也是一个架构演进的例子。
生命周期管理对于应用架构的要求就是原来的应用程序启动之后是健康的还是不健康的,都是应用程序的运维或者研发需要负责和关心的。而在云原生时代,希望将这种协议固定住,通过业务提供探针,来判断应用程序是健康的还是不健康的,这就需要在应用内部通过 HTTP 协议或者 Shell 来提供健康信息,这样才能够应用生命周期管理落到平台中去。
统筹来看,协议就是 API+配置。对于 API 而言,如果大家使用缓存,那么基本会将开源的协议当做 API,这样的协议通常会比闭源的协议更加友好。对于 RPC 协议,开源的 GRPC 和 DUBBO 会优于私有的 HSF。此外还有对于基础设施的协议,比如 Terraform、Pulumi 这些其实是在定义一种开源的配置语言,这些配置语言能够帮助声明所需要的基础设施,比如容器、磁盘、网络、存储等,虽然现在的配置语言种类比较多,但是未来最终会形成 1 到 2 种语言,就像是 Java 的 SDK 一样,未来使用云资源必然会呈现出一套 SDK 来,这个 SDK 必然是根据一套配置代码化语言来构建的。进一步的,GitOps 等将发布流程、发布策略也定义成了一套语言,而这在未来将会应用程序与云之间的标准协议。
原来的时候,应用程序所需要关心的东西太多,比如各种 SDK、各种运维事件,但是这些东西实际上都可以被抽象成一种模型,并且使用一种新的语言来定义,这也是整个云产业所关心的事情。
之所以一直强调新语言和新协议,是因为定义了新的语言或者协议之后,应用程序所需要关心的就是这些了。对于开发者而言,最关心的就是代码,那么如果能够用代码来描述应用对于基础设施、运维、托管的需求,那么就会对应用程序非常友好。应用程序只需要能够对接这个协议,那么就能够在专有云、公有云、阿里云上同时运行。
未来,云上的资源会越来越丰富,在基础设施之上,云平台提供了更多的 PaaS 能力,就像是操作系统在提供了进程这些能力之上,还有很多的 SDK。但是,这些能力目前在使用上还非常低效和不标准,使用过程也比较麻烦。今天我们在以类似汇编的形式使用云,云原生则在重新定义应用程序与云平台之间的契约,并围绕这个契约来构建更高级的编程语言和工具。这就是云原生时代背景下,应用架构演进非常重要的一个方向。
点击即可查看云原生架构白皮书:https://developer.aliyun.com/topic/cn-architecture-paper
“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的公众号。”