zookeeper是一个分布式的协调系统协调系统。zookeeper保证了数据在ZK之间数据的事务性的一致性。其中zookeeper提供了分布式的锁服务,用于协调分布式应用程序。zookeeper的应用主要有储存元数据信息和选举机制。例如在hadoop中可以利用zookeeper选取namenode的active状态,可以在znode下储存对应的信息,来决定哪台nameNode是active状态的。在HBase中,zookeeper负责储存region的信息以及Master的选取。在Storm中负责储存数据的元数据信息。
我们知道要写一个分布式应用是非常困难的,主要原因就是局部故障。一个消息通过网络在两个节点之间传递时,网络如果发生故障,发送方并不知道接收方是否接收到了这个消息。也可能在网络故障收到了此消息,也可能没有收到,又或者可能接收方的进程死了。发送方了解情况的唯一方法就是再次连接发送方,并向他进行询问。这就是局部故障:根本不知道操作是否失败。因此,大部分分布式应用需要一个主控、协调控制器来管理物理分布的子进程。目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制。协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器。协调服务非常容易出错,并很难从故障中恢复。例如:协调服务很容易处于“脑裂”甚至死锁。Zookeeper的设计目的,是为了减轻分布式应用程序所承担的协调任务。
zookeeper并不能阻止局部故障的发生,以为它的本质就是分布式系统,当然也不会隐藏局部故障。zookeeepr的目的就是提供一些工具集,用来建立安全处理局部故障的分布式引用。
zookeeper是一个分布式小文件系统,并且被设计为高可用性。通过选举算法和集群复制可以避免单点故障,由于是文件系统,因此即使所有的zookeeper节点挂掉也不会影响数据的丢失,只要将重启服务器之后数据又被加载恢复。另外zookeeper的更新是原子性的。也就是说更新不是成功就是失败。通过版本号,zookeeper又实现了更新的乐观锁,当版本号不相符时,则表示需要跟新的节点已经被其他客户端更新过了。而当前的更新操作将全部失败,这些故障zookeeper提供了保障。我们需要做的只是调用API。与此同时,随着分布式应用的的不断深入,需要对集群管理逐步透明化监控集群和作业状态,可以充分利ZK的独有特性。
在zookeeper集群当中,集群中的服务器角色分为leader和learner,Learner又分为observer和flollwer,具体功能如下:
为客户端提供读和写的功能,负责投票的发起和决议,负责系统的状态。
follower(跟随者)为客户端提供读服务,如果是写的服务则转发给leader。在选举过程中进行投票。
为客户端提供读服务,如果是写服务就转发个leader。不参与leader的选举投票。也不参与写的过半原则机制。在不影响写的前提下,提高集群读的性能,此角色于zookeeper3.3系列新增的角色。
连接zookeeper集群的使用者,请求的发起者,独立于zookeeper集群的角色。
1.zookeeper的核心是原子广播,这个机制保证了各个server之间的数据同步。实现这个机制的协议是Zab协议,Zab协议有两种分别是恢复模式(选主)和广播模式(同步),当服务器启动或者领导者奔溃之后Zab就进入了恢复模式,当leader领导者选举出来之后且大多数server和leadr完成状态同步之后。恢复模式就关闭了。恢复模式保证了leader和server之间的状态同步。
2.为了保证顺序的一致性。zookeeper采用了递增的事务id(zxid)来标志事务,所有的提议在被提出的时候就加上了zxid,具体实现中是通过64位的数组,高32位是epoch用来表示与leader关系是否改变,每次一个leader选举出来且大多数Server都会产生一个新的epoch,标识当前属于哪个leader的统治时期,低32位是用来用来递增计数。
(zxid(64位数字)=高32+低32位=leader统治时期+计数器)
3.每个server的工作过程中有三种状态
(1)looking,当前server不知道leader是谁?正在搜寻
(2)leading:选举出来的leader
(3)following:leader已经选举出来了,当前server与leader进行同步。当前是server角色是learner学习者。
2.zookeeper的读写机制
zookeeper是由一个server或者多个server组成的。一个集群中zookeeper通过自己的选举投票机制保证只有一个leader和多个follower。每个server保存一分数据副本。全局的数据副本一致,分布式读写。更新请求转发,有leader实时。
1、客户端通过TCP协议与独立服务器或者一个集群中的某个服务器建立会话连接。
2、会话提供顺序保障,即同一个会话中的请求以FIFO的顺序执行。如果客户端有多个并发会话,FIFO顺序在多个会话之间未必能够保持。
3、如果连接的Server出现问题,在没有超过Timeout时间时,可以连接其他节点。zookeeper客户端透明地转移一个会话到不同的服务器。
4、同一session期内的特性不变
5、当一个会话因某种原因终止,在这个会话期间创建的临时节点将会消失。
Session是由谁来创建的?
Leader:产生一个唯一的session,放到消息队列,让所有server知道
过半机制:保证session创建成功或者失败
数据模型Znode:
znode有两种类型,瞬时的(ephemeral)和持久的(persistent)
znode支持序列SEQUENTIAL:leader
短暂znode的客户端会话结束时,zookeeper会将该短暂znode删除,短暂znode不可以有子节点
持久znode不依赖于客户端会话,只有当客户端明确要删除该持久znode时才会被删除
znode的类型在创建时确定并且之后不能再修改
有序znode节点被分配唯一单调递增的整数。
比如:客户端创建有序znode,路径为/task/task-,则zookeeper为其分配序号1,并追加到znode节点:
/task/task-1。有序znode节点唯一,同时也可根据该序号查看znode创建顺序。
znode有四种形式的目录节点
PERSISTENT
EPHEMERAL
PERSISTENT_SEQUENTIAL
EPHEMERAL_SEQUENTIAL