【都0202年了,你确定还不学一波Zookeeper?】
Zookeeper这个词语相信大家已经或多或少听过了,不知道大家对它了解多少呢?这一篇通过数据模型Znode、Watcher机制 、读写数据流程、leader 选举(脑裂问题等)、数据一致性与paxos 算法以及各种应用场景等几方面来系统性的让你快速学习Zookeeper!
Zookeeper是一个分布式系统的可靠协调系统 。先来跟湿兄看张图:
在Hadoop(一个大数据处理框架)的生态体系中,存在很多的服务或组件(比如hive、pig等),每个服务和组件之间的协调处理是一件很麻烦的事情,需要高性能的一致性协调框架,于是Zookeeper诞生了。
1、介绍ZooKeeper
ZooKeeper到底是什么?我们先来看官网介绍:
简单概括下:
了解下ZooKeeper名字:
关于“ZooKeeper”这个项目的名字,其实也有一段趣闻。在立项初期,考虑到之前内部很多项目都是使用动物的名字来命名的(例如著名的Pig项目),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家 RaghuRamakrishnan 开玩笑地说:“再这样下去,我们这儿就变成动物园了!”此话一出,大家纷纷表示就叫动物园管理员吧一一一因为各个以动物命名的分布式组件放在一起,雅虎的整个分布式系统看上去就像一个大型的动物园了,而 Zookeeper 正好要用来进行分布式环境的协调一一于是,Zookeeper 的名字也就由此诞生了。
2、数据模型Znode
先跟湿兄理解ZooKeeper的空间结构:
ZooKeeper拥有一个层次的命名空间,这个和标准的文件系统非常相似,都是采用树形层次结构,ZooKeeper树中的每个节点被称为Znode。Znode分为两种类型:
接着来看下Znode结构:
Znode,兼具文件和目录两种特点。既像文件一样维护着元数据等信息,又像目录一样可以作为路径标识的一部分,上图中的每个节点都为一个Znode。每个Znode由3部分组成:
Znode存储数据的时候每个Znode最多存储1M的数据,平时使用中一般远小于此值;当创建Znode的时候,用户可以请求在ZooKeeper的路径结尾添加一个递增的计数。这个计数对于此节点的父节点来说是唯一的,它的格式为”%10d”(10位数字,没有数值的数位用0补充,例如”0000000001″)。当计数值大于2的32次幂-1时,计数器将溢出。
常用命令介绍:
connect host:port:如connect 127.0.0.1:2181,连接zk服务端,与close命令配合使用可以连接或者断开zk服务端。
create [-s] [-e] path data acl:-s参数为顺序节点,-e参数为临时节点。
stat path [watch]:查看节点状态信息,watch参数为加上监视器为这个节点。
set path data [version]:设置节点的数据,如set /zookeeper “hello world”。同时为这个节点加监视器。
ls path [watch]:获取路径下的节点信息,注意此路径为绝对路径,类似于linux的ls命令,如ls /zookeeper。watch参数加监视器。
ls2 path [watch]:ls2为ls命令的扩展,比ls命令多输出本节点信息。
get path [watch]:获取节点信息,注意节点的路径皆为绝对路径,也就是说必要要从/(根路径)开始。watch参数为是否加监视器(下面讲解)。
delete path [version]:删除节点命令,如delete /zknode 。
rmr path:删除节点命令,此命令与delete命令不同的是delete不可删除有子节点的节点,但是rmr命令可以删除,注意路径为绝对路径。如rmr /zookeeper/znode。
printwatches on|off:设置和显示监视状态,on或者off。如printwatches on
history :显示命令历史;
close :断开连接;
quit:退出客户端;
节点不仅可以存储信息,还可以利用Watcher机制同时监视该节点的状态,来达到动态感知的效果。
3、Watcher机制
ZooKeeper采用了Watcher机制实现数据的发布/订阅功能,该机制在被订阅对象发生变化时会异步通知客户端,因此客户端不必在Watcher注册后轮询阻塞,从而减轻了客户端压力。Watcher机制实际上和观察者模式类似,也可以看作是观察者模式在分布式下的实现。
我们可以在Znode上注册Watcher,在该节点发生变化或者其子节点发生变化时触发监听事件,服务器通知到客户端。
实现原理:
Watcher实现由三个部分组成:
客户端首先将Watcher注册到服务端,同时将Watcher对象保存到客户端的Watcher管理器中。当ZooKeeper服务端监听的数据状态发生变化时,服务端会主动通知客户端,接着客户端的Watch管理器会触发相关Watcher来回调相应处理逻辑,从而完成整体的数据发布/订阅流程。
ZooKeeper的监听机制常应用于两个场景:监听Znode节点的数据变化以及监听子节点的增减变化。
4、读写数据流程
介绍读写流程之前,需要先介绍ZooKeeper集群中的角色扮演(Leader、Follower、Observer):
Leader角色
Follower角色
Observer角色
Observer 是 zookeeper3.3 开始引入的一个全新的服务器角色,观察 zookeeper 集群中的最新状态变化并将这些状态变化同步到 observer 服务器上。Observer 的工作原理与 follower 角色基本一致,而它和 follower 角色唯一的不同在于 observer 不参与任何形式的投票。
为何引入Observer角色?
很简单,思考下,随着zk集群的server增加,集群的写性能逐渐下降(因为Znode的变更需要半数投票通过),Observer是一种新型的Zookeeper节点,可以帮助解决上述问题,提供Zookeeper的可扩展性。Observer不参与投票,只是简单的接收投票结果,因此我们增加再多的Observer,也不会影响集群的写性能。
Observer的一大优势:
因为Observer不参与投票,所以他们不属于Zookeeper集群的关键部位,即使他们Failed,或者从集群中断开,也不会影响集群的可用性。
根据Observer的特点,我们可以使用Observer作跨数据中心部署。如果将Leader和Follower分割到多个数据中心的话,因为数据中心之间的网络延迟,会导致集群性能的下降。使用Observer则可以解决这个问题,将Observer跨机房部署,而Leader和Follower部署在同一个数据中心,这样更新操作便会由一个中心来解决处理,并将数据发送到其它数据中心。
当然使用Observer并非会完全消除网络延迟,因为Observer还是需要接收Leader的同步结果,以及自身的更新请求也需要发送给Leader上,优势就是本地的读请求会非常快。
在对应的配置文件加peerType=observer即可。
读写数据流程
我们以三台zookeeper服务器的集群为例,一个Leader,两个follower:
写流程:
当我们需要增加ZK服务中Client数量时,那我们就需要增加Server的数量,增加了之后对上述中的投票过程造成压力,随着ZK集群变大,写操作的吞吐量下降。于是我们就有了Observer这一不参与投票的服务器, Observer可以接受客户端的连接,并将写请求转发给Leader节点。但是,Leader节点不会要求 Observer参加投票,仅像上述第三步收到投票结果,更新数据。
读流程:
ZooKeeper服务中的每个Server可服务于多个Client,并且Client可连接到ZK服务中的任一台Server来提交请求。若是读请求,则由每台Server的本地副本数据库直接响应。
5、leader 选举
写流程中涉及到了投票机制去决定一个Leader发起的一个提议,但是如果Leader在ZK集群挂掉怎么办?或者说集群初始化的leader如何选举出来?
在介绍选举之前先看几个概念:
leader 选举分为两种:服务器启动时的leader选举和服务器运行时期的leader选举;
服务器启动时:
当集群初始化时,有一台服务器Server1启动时,是无法进行Leader选举的,当第二台Server2启动后,两台服务器可以相互通信,都试图找到Leader,进入选举过程:
服务器运行时期(Leader宕机):
在ZK集群中,非Leader的服务器宕机或者新加入的时候,是不会影响集群中的Leader的,也就是不会选举新Leader。但是一旦Leader挂了呢,那么整个集群将暂停对外服务,进行新一轮的Leader选举,和启动时Leader选举基本一致。(下面五个步骤的后四个和启动选举基本一致,不再多说)
其实选举过程还是很好理解的,不理解的去挠个头,就明白了
ZK集群节点为什么要部署成奇数:
ZK集群有这么一个特性:集群中只要有过半的机器正常工作,那么整个集群对外是可用的。 先说结论:这样是为了在最大容错服务器个数的条件下,能够节省资源。 接下来我们来分析,一个集群有5个zookeeper节点机器最多宕掉2台,还可以继续使用,因为剩下3台大于5/2。比如要求最大容错服务器是2的情况下,对应的集群是5时满足条件,对应的集群节点是6时也是2(宕机3个的时候,剩余节点无法过半,集群崩溃),所以从节约资源的角度看,没必要部署6(偶数)个zookeeper服务节点。
分布式系统中的脑裂问题:
在机房1中部署Server1、2、3,机房2中部署Server4、5、6,6台Server组成一个集群,正常情况下这个集群存在一个Leader,但是如果机房之间的网络断掉,但是机房内的网络还是通的,如果不考虑过半机制,那么便会成为两个集群,选举出两个Leader,即为“脑裂”。此时机房1和2恢复连接,问题出现了,两个集群刚刚都对外提供服务了,数据该怎么合并,数据冲突怎么解决等等问题。
如何避免脑裂?
为何集群一定要过半:
因为这样不需要等待所有Server都投了同一个Server就可以选举出来一个Leader了,这样比较快,即快速领导者选举算法,而且也可以提高集群的容错性。
6、数据一致性与paxos 算法
数据一致性问题
数据一致性问题,是指数据在多个副本之间保持一致的特性。分布式环境里,多个副本处于不同的节点上,如果对副本A的更新操作,未同步到副本B上,外界获取数据时,A与B的返回结果会不一样,这是典型的分布式数据不一致情况。而强一致性,是指分布式系统中,如果某个数据更新成功,则所有用户都能读取到最新的值。最终一致性,则要求不那么严格,保证数据最终更新到每一个Server即可。
paxos 算法
Paxos算法是一种基于消息传递的一致性算法。Paxos有一个前提:没有 拜占庭将军问题。就是说Paxos只有在一个可信的计算环境中才能成立,这个环境是不会被入侵所破坏的。
Paxos算法需要解决的问题就是如何在一个可能发生诸如机器宕机或网络异常等问题的分布式系统中,快速且正确地在集群内部对某个数据的值达成一致。也可以理解成分布式系统中达成状态的一致性。
这个算法很有深度,感兴趣的可以自己去研究,湿兄在这里不介绍了。推荐书籍:《从Paxos到Zookeeper分布式一致性原理与实践》
ZAB
Zookeeper并未完全采用Paxos算法,而是采用了一种ZAB的协议,该协议是为分布式协调服务 ZooKeeper 专门设计的一种支持崩溃恢复的原子广播协议。在 ZooKeeper 中,主要依赖 ZAB 协议来实现分布式数据一致性,基于该协议,ZooKeeper 实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性,同时其崩溃恢复过程也确保看zk集群的高可用性(HA)。
ZAB 协议包括两种基本的模式:
7、应用场景
Zookeeper的应用场景有很多,下面会分别介配置中心、命名服务、集群管理、分布式锁、分布式队列等场景
配置中心
比如现在我们有A、B、C三个系统,它们三个系统的配置文件分别是A.yml、B.yml和C.yml,然后,这三份配置又非常类似,很多的配置项几乎都一样。此时我们想改修改其中一份配置项信息,可能其余两个配置文件也要修改,并且,改变了配置项的信息很可能就要重启系统。
改进:我们将三个配置文件的公共部分抽取出来comon.yml,把这个配置文件放在Zookeeper的Znode中,系统A、B、C同时监听这个节点,一旦变更,及时响应即可。
命名服务
统一命名服务的理解其实跟域名一样,是我们为这某一部分的资源给它取一个名字,别人通过这个名字就可以拿到对应的资源,类似于一种Key-Value的映射关系。比如说,现在我有一个域名www.dashixiong.com,但我这个域名下有多台机器:
于是使用者访问www.dashixiong.com即可访问到我的机器,而不是通过IP去访问。
集群管理
分布式环境中,我们需要实时掌握每个节点的状态,可以将信息写入到临时顺序节点中去,并监听该节点,一旦节点崩溃,便可以感知到变化。(和下面分布式锁一样道理)
分布式锁
分布式锁可以说是很重要的功能了,也是面试热点。我们可以使用ZooKeeper来实现分布式锁,那是怎么做的呢?
系统A、B、C都去访问/locks节点,访问的时候都创建顺序的临时节点,类似上图所示,系统A创建了id_000000节点,系统B创建了id_000002节点,系统C创建了id_000001节点。紧接着,再拿到/locks下的所有子节点信息(id_000000,id_000001,id_000002),判断自己是否是最小的子节点。
举个例子:
分布式队列
如果大家理解队列的话,也很容易理解分布式队列的实现了。道理和上面的分布式锁一个道理,都是通过临时顺序节点来创建,不再一一赘述。
总结:zookeeper是通过Znode的节点类型和监听机制实现了很多功能,这是zookeeper的基础,同时也是重点。
本文介绍了分布式系统协调组件ZooKeeper,后续会出更多的具体操作以及实战经验,欢迎大家阅读,本人见识有限,写的博客难免有错误或者疏忽的地方,还望各位大佬指点,感激不尽。
你知道的越多,你不知道的也越多。keep hungry keep foolish!