zookeeper协作方式
很多协作的原语是在很多应用之间共享的,假设需要设计一个用于协作的服务,要么需要提供一份尽可能完整的原语列表并提供每个原语的调用方式,要么需要提供一定的扩展性,以便新增不同的原语。很明显,这样的方式太死板了,所以zookepeer选择了另辟蹊径。
zookeeper并没有直接暴露原语,而是提供了一组操作维护了一个类似文件系统的层级结果,系统中的每一级节点被称为一个znode,node的叶子结点用来储存信息。如图1
master znode没有储存任何信息,表示还没有选举出主节点。
worker znode下的每个节点保存的是一个可用的从节点信息。
task节点作为父节点,其下的每个节点代表等待从节点执行的一个任务
assign作为父节点,其下的每个节点代表分配到某个从节点的一个任务信息,当主节点为某个从节点指派一项任务,就会再assign下新增一个节点。
API
create/path data
创建一个名为/path的znode,并包含数据data
delete/path
删除名为/path的znode
exist/path
检查是否存在名为/path的节点
setData/path data
设置名为/path的znode的数据为data
getData/path
返回名为/path节点的数据信息
getChildren/path
返回所有/path节点的所有子节点列表
注意
- zk不允许局部读取或者写入znode信息,只能全部读取或者替换。
- zk设计只适合读取小规模的数据,因此不适合做数据存储。
znode类型
znode还拥有四种类型,需要在新建时指定,他们是持久节点、临时节点、持久有序节点、临时有序节点。
持久节点
只能通过delete删除,不会因为会话过期或创建该节点的客户端崩溃而失效。
临时借点
和持久节点相反,随着会话过期或者创建者的失效而失效。一般可以用来存储应用状态方面的信息。临时借点也可以被客户端主动删除。临时节点不能有子节点。
有序节点
当客户端创建一个有序节点,zk会在其名称后增加一个单调递增的序号,例如/task/task-1。通过有序节点可以创建具有唯一名称的zode,同时也可以看出其创建顺序。
监视与通知
如果客户端需要轮询访问服务端来发现znode的数据变化青康,这样就恨不高效,而且没有必要。像下图那样,多次请求返回的都是空集。所以需要通过通知机制来告知客户端数据的变化。
通知机制是单次触发操作,客户端在接受变化时需要重新设置监听器,否则会错过之后的变更。另外需要在设置新的监听器前获取节点的状态,否则有可能在设置新的watcher之前数据已经被别的客户端修改,从而错失变更。
zk会保证对同一个znode的操作总是先通知客户端再变更数据,如果客户端对一个节点设置了watcher,然后连续发生了两次更新。那么第一次更新后客户端会在观察第二次变更前就收到通知。
版本
每个znode都有一个版本号,在数据发生变化是时会自增,用来防止并发操作可能带来的不一致性。例如下图中的例子,如果c1写入数据时另一个客户端同时对数据做出了改变,那么c1的版本号就会过期,设置也就不会成功。
zookeeper架构
zk服务端运行与两种模式下,独立模式与仲裁模式。独立模式无法进行状态复制,只有一台单独的服务器。仲裁模式下有一组服务器,他们之间可能进行状态的复制,并同时服务于客户端的请求。下图表示看zk服务端和客户端之间的关系。
zookeeper仲裁
在仲裁模式下,集群间会进行状态复制,如果让客户端等待每个服务器复制完成会产生比较高的延迟,所以zookeeper保证只要完成的服务数量达到一个允许运行的最小数目即可。其他的服务器最终也会同步完成,不影响客户端继续进行。
然而如何确定这个最小数目呢,一般来说需要符合多数原则,就是允许崩溃的服务数量f小于服务器数量的一半。比如一共有5台服务器,最多允许2台崩溃,那这个最小数目就是5-2=3。所以服务器的数量最好是个奇数,否则会使集群更加脆弱。比如一共有4台服务器,那最多允许1台发送故障,最小数目是3,这就导致数据可能无法持久化,就需要更多的确认操作。
会话
客户端提交给zk的所有操作都建立在一个会话上,当一个会话终止,这个会话创建的临时节点也会消失。
zk客户端初始连接到集群中的一个服务器货一个单独的服务器,通过TCP进行通信,如果这个节点因为崩溃等原因无法继续通信,会话就可能转移到另一台服务器上,这个过程对客户端来说是透明的。
会话提供顺序保证,同一个会话以FIFO方式顺序执行,但是加入一个客户端拥有多个并发的会话,跨会话间的FIFO未必能够保持。例如:
客户端建立一个会话,异步创建了/task和/worker
第一个会话过期
客户端新建另一个会话,创建/assign
以上的情况可能只有task和assign执行成功,因为异步调用时跨会话未必能够按照FIFO的顺序执行。