Kubernetes是典型的主从分布式架构,由集中式管理节点(Master Node),分布式的工作节点(Worker Node)组成以及辅助工具组成。其中ETCD是管理节点的核心组件,主要负责集群状态集中式存储,功能架构与Zookeeper类似。本篇主要是详细讲解ETCD架构及核心技术。
ETCD是用Go语言编写,通过Raft一致性算法,实现的一个高可用的分布式键值(key-value)数据库,核心里程碑如下:
2013年6月,由CoreOS团队于发布的开源。
2014年6月,作为Kubernetes核心元数据的存储服务一起发布,自此ETCD社区得到飞速发展。
2015年2月,发布了第一个正式稳定版本2.0,重构了Raft一致性算法,提供了用户树形数据视图,支持每秒超过1000次的写入性能。
2017年1月,发布了3.1版本,提供了一套全新的API,同时提供了gRPC接口,通过gRPC的proxy扩展并极大地提高ETCD的读取性能,支持每秒超过10000次的写入。
2018年11月,项目进入CNCF的孵化项目。
2019年8月,发布了3.4版本,该版本由Google、Alibaba等公司联合打造,进一步改进etcd的性能及稳定性。
2021年7月,发布了3.5版本,支持Go Module版本号语义及模块化,提升了性能及稳定性,增强了集群运维能力。
ETCD经过长时间的持续演进已趋于成熟,性能及稳定顶得到了极大的提升。当前针对kubernetes集群中List Pod等expensive request导致OOM等不稳定的问题,以及Range Stream,QoS特性,计划在ETCD 3.6版本实现,拭目以待。
用户读请求会经由HTTP Server,转发给Store进行具体的事务处理;如果涉及到节点的修改请求,则交给Raft模块进行状态的变更,日志记录,同步提交给集群其他节点并等待确认,最后完成数据的提交并再次同步。ETCD整体架构主要分为四个模块:
HTTP Server:用于处理用户发送的API请求,以及其它ETCD节点同步与心跳信息的请求。
Store:用于处理ETCD支持的各类功能的事务,包括数据索引、节点状态变更、监控与反馈、事件处理与执行等等,是ETCD对用户提供的大多数API功能的具体实现。
Raft:Raft强一致性算法的具体实现,是ETCD的核心。
WAL:Write Ahead Log(预写式日志),是ETCD的数据存储方式。除了在内存中存有所有数据的状态以及节点的索引外,ETCD就通过WAL进行持久化存储。WAL中所有的数据提交前都会事先记录日志。Entry表示存储的具体日志内容。Snapshot是为了防止数据过多而进行的状态快照;
通常一个ETCD集群是由3个或者5个节点组成,多个节点之间通过Raft一致性算法完成协同;其中会有一个节点作为Leader主节点,负责数据的同步与分发。当Leader主节点出现故障时会自动选举另一节点为Leader主节点。
在ETCD架构中,有一个非常关键的概念quorum,quorum的定义是(n+1)/2,即超过集群中半数节点的临界值;只要确保quorum数量的节点正常工作, 那么整个集群就能正常工作并对外提供服务;
为了保障部分节点故障之后,依然能继续提供服务,就需要解决一个非常复杂分布式一致性的问题。ETCD是采用Raft一致性算法来实现,通过一套数据同步机制,在Leader切换后能够重新同步所有提交的数据,保证整个集群数据一致。
客户端在多个节点中,任意选择其中的一个就可以完成数据的读写,内部的状态及数据协同由ETCD自身完成。ETCD内部的机制比较复杂,但是面向用户提供的接口非常简单,可以通过客户端或者通过HTTP的方式连接集群并操作数据,可以大致将接口分为了5组:
Put(key,value)/Delete(key):Put向集群中写入数据,Delete删除集群中的数据。
Get(key)/Get(keyFrom,keyEnd):支持两种查询方式,指定单个key的查询与指定的一个key的范围的查询。
Watch(key)/Watch(keyPrefix):支持Watch机制实现增量数据更新监听,支持指定单个key与一个key前缀,实际应用中的建议使用key前缀。
Transactions(if/then/else ops).Commit():支持简单的事务,可以通过指定一组条件满足时执行某些动作,当条件不成立的时候执行另一组操作。
Leases: Grant/Revoke/KeepAlive:支持租约机制,通常情况下在分布式系统中需要去检测一个节点是否存活的场景,就需要租约机制。
Paxos算法是1990年Leslie提出的,是一个经典且完备的分布式一致性算法。其目标是在不同的节点间,对一个key的取值达成共识(同一个值)。在Paxos中一个决策过程(Round、Phase)分为两个阶段:
准备阶段 phase1:Proposer向超过半数(n/2+1)的Acceptor发起prepare消息(发送编号);如果Acceptor收到一个编号为N的Prepare请求,且N大于该Acceptor已经响应过的所有Prepare请求的编号,那么就将N作为响应反馈给Proposer,同时该Acceptor承诺不再接受任何编号小于N的提案,否则拒绝返回。
投票阶段 phase2:如果超过半数Acceptor回复promise,Proposer向Acceptor发送accept消息。Acceptor检查accept消息是否符合规则,只要该Acceptor没有对编号大于N的Prepare请求做出过响应,它就接受该提案。
在实际发展中,Paxos算法也演化出了一系列的变种:PBFT算法是一种共识算法,较高效地解决了拜占庭将军问题;Multi-Paxos算法优化了prepare阶段的效率,同时允许多个Leader并发提议;以及FastPaxos、EPaxos等,这些演变是针对某些问题进行的优化,内核思想还是依托于Paxos思想。
Paxos从被提出一直是分布式一致性算法的标准协议,但是它不易理解并且实现起来非常复杂,以至于到目前为止都没有一个完整的实现方案,很多实现都是都是Paxos-like。Raft算法是斯坦福大学2017年提出,Raft通过分治思想把算法流程分为三个子问题,分别是选举(Leader election)、日志复制(Log replication)、安全性(Safety)。
以“hello=world”为例,从Client提交提案到接收响应的整个流程为例,展示Raft日志全流程,通过一下8步Leader同步日志条目给各个Follower,保证etcd集群的数据一致性:
ETCD使用Raft协议来维护集群内各个节点状态的一致性,多个分布式节点相互通信构成整体对外服务,每个节点都存储了完整的数据,并且通过Raft协议保证每个节点维护的数据是一致的。每个ETCD节点都维护了一个状态机,并且任意时刻至多存在一个有效的主节点。主节点处理所有来自客户端写操作,通过Raft协议保证写操作对状态机的改动会可靠的同步到其他节点。
ETCD是使用boltdb来持久化存储KV核心的元数据,boltdb整个数据库就一个db文件,基于B+树的索引,读效率高效且稳定;读事务可多个并发,写事务只能串行,并且开销较大不能并发,只能靠批量操作来缓解性能问题。
boltdb存储的管理单元是page,每个page都由header+ data组成,page的类型有以下几种:
meta page:元数据信息。包含存储B+树root buck位置,可用块的数量freelist,当前最大块的offset等。分为metaA与metaB, 用来控制进行中的事务与已完成的事务(写事务只有一个进行中). 根据meta中的txid的值的大小来判断当前生效的是哪个meta。(txid会根据事务操作递增)
bucket page:存储bucket名称数据,bucket名称也是采用B+树结构存储。根root bucket的pageid由meat的root字段指定
branch page:存储分支数据内容。分支数据结构中只有key信息,没有value信息。指向的都是下一级节点的pageid信息
leaf page:存储叶子数据内容。
freelist page:Freelist用于管理当前可用的pageid列表。由Meta元数据信息中的freelist字段来定位所在的pageid位置。
其中Bucket本质上是命名空间,是一些key/value的集合,不同的Bucket可以有同名的key/value ;node是B+树节点的抽象封装,page是磁盘物理的概念,node则是逻辑上的抽象;在boltdb中,Bucket是可以嵌套的,boltdb天生就有一个Bucket,这个是自动生成的,由meta指向,不是用户创建的,后续创建的Bucket都是这个Bucket的sub bucket。
boltdb实现事务的方式非常简单,就是绝对不覆盖更新数据。其中meta是通过两个互为备份的page页轮转写实现的,每次都写新的地方,最后更改路径引用,具体步骤如下:。
ETCD通过term标识集群Leader的任期,当集群发生Leader切换,term的值就会+1。通过revision标识全局数据的版本,当数据发生变更(创建、修改、删除),revision都会+1。在相同集群多Leader任期时,revision依然会保持全局单调递增,使得集群任意一次的修改都对应一个唯一的revision,以此来实现数据的MVCC多版本及数据的Watch机制。
ETCD是在ZooKeeper与doozer之后的项目,深度借鉴了前两个项目的精华,同时也解决了前两个项目的问题。使用场景都相差不大,主要是分布式协同协调场景,包含集群监控,集群选主,服务发现,消息分布与订阅,负载均衡,分布式通知与协调,分布式锁及分布式队列等。
同时ETCD在kubernetes生态体系的带领下,快速发展至稳定,无论是整体架构设计,性能,稳定性及用户体验都是远远超越了ZooKeeper与doozer;不仅在kubernetes生态有大量产品集成依赖,非kubernetes体系的也有越来越多的产品集成使用。
关注“巨子嘉”,巨子出品,必属精品