Zookeeper基本功能和应用场景

1. 简介

Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。是大数据Hadoop生态体系中用的非常广泛的基础组件

2. Zookeeper基本功能和应用场景

2.1 基本功能

  • 文件系统:zookeeper可以为客户端管理状态信息,虽然存储的数量较小(每个节点默认不可超过1M)
  (k - v): 
  /aa/bb "hello"  
  /aa    "word"
  /cc    "hadoop"
  • 通知机制:可以为客户端监听指定数据节点的状态,并在数据节点发生改变时,通知客户端

    总上所述,我们可以认为 zookeeper = 文件系统 + 通知机制

2.3 Zookeeper应用场景

2.3.1 数据发布和订阅

数据发布/订阅系统,需要发布者将数据发布到zk的节点上,供订阅者进行数据订阅,进而达到动态获取数据的目的,实现配置信息的集中式管理和数据的动态更新。

发布/订阅一般有两种设计模式:推模式和拉模式,服务端主动将数据更新发送给所有的订阅的客户端称为推模式;客户端注册请求获取最新数据称为拉模式,zk采用了推拉相结合的模式,客户端将服务器注册自己需要关注的节点,一旦节点数据发生变更,那么服务器就会向相应的客户端推送Watcher事件通知,客户端接收到此通知后,主动到服务端获取最新的数据。

注意:对于像Dubbo这样的RPC框架来说,zk将作为注册中心,客户端第一次通过向zk集群获取服务的地址,然后会存储到本地,下一次进行调用时就不会再去zk集群查询了,而是直接使用本地存储的地址,只要当服务地址发生变更时,才会通知客户端再次获取。

在平时开发中,经常会碰到这样的需求:系统中需要使用一些通用的配置信息,例如:机器列表信息,数据的配置信息(比如:要实现数据库切换的应用场景),运行时的开关配置等。这些全局配置信息通常有3个特性:数据量通常比较小数据内容在运行时会发生动态变化集群中各机器共享、配置一致。假设,我们的集群规模很大,且配置信息经常变更,所以通过存储本地配置文件或内存变量的形式实现都很困难,这时就需要zk来做一个全局配置信息管理。

2.3.2 负载均衡

负载均衡是一种相当常见的计算机网络技术,用来对多个计算机、网络连接、CPU、磁盘驱动或其他资源进行分配负载,已达到优化资源使用最大化吞吐量最小化响应时间避免过载的目的。

通常负载均衡可以分为硬件(F5)和软件(Nginx)负载均衡两类。Zookeeper也可以作为实现软负载的一种形式。

分布式系统为保证可用性,通常通过副本的方式对数据和服务进行部署,而对于客户端来说,只需要在这样对等的服务提供方中选择一个执行相关的业务逻辑,怎么选,这就是负载均衡的应用。

比如,典型的需要负载均衡的DNS(Domain Name System)服务,我们可以用zookeeper实现动态的DNS方案(具体可自行百度)

zk实现负载均衡就是通过 watcher 机制临时节点判断哪些节点宕机来获取可用的节点来实现的:
zk会维护一个树形的数据结构,类似于window的资源管理器目录,其中 EPHEMERAL(临时)节点会随着创建它的客户端端口而被删除,利用这个特性很容易实现软负载均衡。

基本原理:每个应用的Server启动时创建一个 EPHEMERAL 节点,应用客户端通过读取节点列表获得可用服务器列表,并订阅节点事件,有Server宕机断开时触发事件,客户端监测到后把Server从可用列表中删除。

消息中间件中发布者和订阅者的负载均衡,linkedin开源的KafkaMQ和阿里开源的MetaQ都是通过Zookeeper来做生产者、消费者负载均衡的。

2.3.3 命名服务

命名服务是分布式系统中较为常见的一类场景,分布式系统中,被命名的实体通常可以是集群中的机器、提供的服务地址或远程对象等。通过命名服务,客户端可以根据指定名字来获取资源的实体、服务地址和提供者信息,最为创建的就是RPC框架的服务地址列表命名。

zk也可帮助应用系统通过资源引用的方式来实现对象资源的定位和使用,广义上的命名服务的资源定位都不是真正意义的实体资源,在分布式环境中,上层应用仅仅需要一个全局唯一的名字。zk可以实现一套分布式全局唯一ID的分配机制。(用UUID的方式问题在于生成的字符串过长,浪费存储空间且字符串无规律不利于开发调试)通过调用zk节点创建API接口就可以创建一个顺序节点,并且在API返回值中返回这个节点的完整名称,利用此特性,可以生成全局ID,其步骤如下:

1. 客户端根据任务类型,在指定类型的任务下通过调用接口创建一个顺序节点,如"job-".
2. 创建完成后,会返回一个完整的节点名,如"job-0000001".
3. 客户端拼接type类型和返回值后,就可以作为全局唯一的ID 了,如"type2-job-0000001".

阿里开源分布式服务框架Dubbo中使用zookeeper来作为其命名服务,维护全局的服务列表。在Dubbo实现中:

  • 服务提供者:启动的时候,向zk的指定节点 /dubbo/${serverName}/providers 目录下写入自己的URL地址,这个操作完成了服务的发布。
  • 服务消费者:启动的时候,订阅 /dubbo/${serverName}/providers 目录下的提供者URL地址,并向 /dubbo/${serverName}/consumers 目录下写入自己的URL地址。
    注意:所有向ZK上注册的地址都是临时节点,这样就能保证服务提供者和消费者能够自动感应资源的变化。另外,Dubbo还有针对服务粒度的监控,方法是订阅/dubbo/${serverName}目录下的所有提供者和消费者信息。

2.3.4 分布式协调通知

zk中特有的 Watcher注册于异步通知机制,能够很好地实现分布式环境下不同机器,甚至不同系统之间的协调和通知,从而实现对数据变更的实时处理。通常的做法是不同的客户端对zk上同一个数据节点进行Watcher注册,监听数据节点的变化(包括节点本身和子节点),若数据节点发生变化,那么所有订阅的客户端都能够接受到相应的Watcher通知,并作出相应的处理。

在绝大多数分布式系统中,系统机器间的通信无外乎心跳检测、工作进度汇报和系统调度。这三种类型的机器通信方式都可以使用zookeeper来实现:

  1. 心跳检测:不同机器间需要检测到彼此知否在正常运行,可以使用zk实现机器间的心跳检测,基于其临时节点特性(临时节点的生存周期是客户端会话,客户端若宕机后,其临时节点自然不再存在),可以让不同机器都在zookeeper的指定节点下创建临时子节点,不同的机器之间可以根据这个临时自己点来判断对应的客户端机器是否存活。通过zookeeper可以大大减少系统耦合。
  2. 工作进度汇报:通常任务被分发到不同的机器后,需要实时的将自己的任务执行进度汇报给分发系统,可以在zookeeper上选择一个节点,每个任务客户端都在这个节点下面创建临时子节点,这不仅可以判断机器是否存活,同时各个机器可以将自己的任务执行进度写到该临时子节点中去,以便中心系统能够实时获取任务的执行进度。
  3. 系统调度:zookeeper能够实现如下系统调度模式:分布式系统有控制台和一些客户端系统两部分构成,控制台的职责就是需要将一些指令信息发送给所有的客户端,以控制他们进行相应的业务逻辑,后台管理人员在控制台上做一些操作,实际上就是修改zookeeper上某个节点的数据,zookeeper可以把数据变更以时间通知的形式发送给订阅客户端。

2.3.5 集群管理

zookeeper的两大特性:节点特性watcher机制

  • 对在zookeeper上创建的临时节点,一旦客户端与服务器之间的会话失效,那么临时节点就会被自动删除。

  • 客户端如果对zookeeper的数据节点注册watcher监听,那么当该数据节点内容或是其子节点列表发生变更时,zookeeper服务器就会向订阅的客户端发送变更通知。

机器在线率有较高要求的场景,能够快速对集群中机器变化做出响应。这样的场景中,往往有一个监控系统,实时监测集群机器是否存活。过去的做法通常是:监控系统通过某种手段(比如ping)定时监测每个机器,或者每个机器自己定时向监控系统汇报“我还活着”。这种做法可行,但是存在两个比较明显的问题:

  1. 集群机器有变动的时候,牵连修改的东西比较多。
  2. 有一定的延时。

利用zookeeper的两个特性,就可以实现另一种集群机器存活性监控系统。若监控系统在 /clusterServers 节点上注册一个 watcher监听,那么但凡进行动态添加机器的操作,就会在 /clusterServices 节点下创建一个临时节点:/clusterService/[Hostname],这样,监控系统就能够实时监测机器的变动情况。

下面通过分布式日志收集系统的典型应用来学习zookeeper如何实现集群管理。

分布式日志收集系统的核心工作就是收集分布在不同机器上的系统日志,在典型的日志系统架构设计中,整个日志系统会把所有需要收集的日志机器分为多个组别,每个组别对应一个收集器,这个收集器其实就是一个后台机器,用于收集日志,对于大规模的分布式日志收集系统场景,通常需要解决两个问题:

  • 变化的日志源机器
  • 变化的收集器机器

无论是日志源机器还是收集器机器的变更,最终都可以归结为如何快速、合理、动态地为每个收集器分配对应的日志源机器。

  1. 注册收集器机器,在zookeeper上创建一个节点作为收集器的根节点,例如 /logs/collector 的收集器节点,每个收集器机器启动时都会在收集器节点上创建自己的子节点,如/logs/collector/[Hostname]
  1. 任务分发,所有的收集器机器都创建完对应的节点后,系统根据收集器节点下子节点的个数,将所有的日志源机器分成对应的若干组,然后将分组后的机器列表分别写到这些收集器创建的子节点,如 /logs/collector/host1(持久节点)上去。这样,收集器机器就能够根据自己对应的收集器节点上获取日志源机器列表,进而开始进行日志的收集工作。

  2. 状态汇报,完成分发后,机器随时会宕机,所以需要一个收集器的状态汇报机制,每个收集器机器上创建完节点后,还需要在对应的子节点上创建一个状态子节点,如/logs/collector/host/status(临时节点),每个收集器机器都需要定期向该节点写入自己的状态信息,这可看做是心跳检测机制,通常收集器机器都会写入日志收集状态信息,日志系统通过判断状态子节点最后的变更时间,一旦有机器停止汇报或有新机器加入,就开始进行任务的重新分配,此时通常有两种做法:

    • 全局动态分配,当收集器宕机或有新的机器加入,系统根据新的收集器列表,立即对所有的日志源机器重新进行一次分组,然后将其分配给剩下的收集器机器。
    • 局部动态分配,每个收集器机器在汇报自己日志收集状态的同时,也会把自己的负载汇报上去,如果一个机器宕机了,那么日志系统会把之前分配给这个机器的任务重新分配给那些负载较低的机器,同样,如果有新的机器加入,会从那些负载较高的机器上转移一部分任务给新机器。

2.3.6 Master选举

在分布式系统中,Master往往用来协调集群中其他系统单元,具有对分布式系统状态变更的决定权,如在读写分离的应用场景中,客户端的写请求往往是有Master来处理,或者其常常处理一些复杂的逻辑并将其处理结果同步给其他系统单元。利用zookeeper的一致性,能够很好的保证在分布式高并发情况下节点的创建一定能够保证全局唯一性,即zookeeper将会保证客户端无法重复创建一个已经存在的数据节点(由其保证分布式数据的一致性)。

首先,创建/master_election/2019-10-09节点,客户端集群每天会定时往该节点写创建临时节点,如/master_election/2019-10-09/binding,这个过程中,只有一个客户端能够创建成功,此时其变成master,其他节点都会在节点/master_election/2019-10-09上注册一个节点变更的Watcher,用于监控当前的Master机器是否存活,一旦发现当前Master挂了,其余客户端将会重新进行Master选举。

另外,这种场景演化一下,就是动态Master选举。这就要用到 EPHEMERAL_SEQUENTIAL 类型节点的特性了。

上面提到,所有客户端创建请求,最终只有一个创建成功。在这里稍微变化下,就是允许所有请求都创建成功,但是的有个创建顺序,于是所有的请求最终在zk上创建结果的一种情况是这样的:/currentMaster/{sessionId}-1,/currentMaster/{sessionId}-2,/currentMaster/{sessionId}-3.....,每次选取序列号最小的那个机器作为Master,如果这个机器挂了,由于他创建的节点会马上消失,那么之后的最小那个机器就是Master了。

其在实际中应用有:

  • 在搜索系统中,如果集群中每个机器都生产一份全量索引,不仅耗时,而且不能保证彼此之间索引数据的一致。因此让集群中的Master来进行全局索引的生成,然后通过到集群中的其他机器。
  • 在Hbase中,也是使用zookeeper来实现动态HMaster选举。在Hbase实现中,会在zk上存储一些ROOT表的地址和HMaster的地址,HRegionServer也会把即的以临时节点(Ephemeral)的方式注册在zk中,使得HMaster可以随时感知到各个HRegionServer的存活状态,同时,一旦HMaster出现问题,会重新选举出一个HMaster来运行,从而避免了HMaster的单点问题。

2.3.7 分布式锁

分布式锁用于控制分布式系统之间同步访问共享资源的一种方式,可以保证不同系统访问一个或一组资源时的一致性,主要分为排它锁共享锁

  • 排它锁又称写锁或独占锁,若事务T1对数据对象01加上了排它锁,那么整个加锁期间,只允许事务T1对01进行读取或更新操作,其他事务都不能再对整个数据对象进行任何类型的操作,直到T1释放了排它锁。

      1. 获取锁,在需要获取排它锁时,所有客户端通过调用接口,在 /exclusive_lock 节点下创建临时子节点 /exclusive_lock/lock。zookeeper可以保证只有一个客户端能够创建成功,没有成功的客户端需要注册 /exclusive_lock节点监听。
      1. 释放锁,当获取锁的客户端宕机或者正常完成业务逻辑都会导致临时节点删除,此时,所有在/exclusive_lock节点上注册监听的客户端都会收到通知,可以重新发起分布式锁获取。
  • 共享锁又称读锁,若事务T1对数据对象O1加了共享锁,那么当前事务是能对01进行读操作,其他事务只能对整个数据对象加共享锁,知道该数据对象上所有共享锁都被释放。

    • 获取锁,当需要获取共享锁是,所有客户端都会到 /shared_lock 下面创建一个临时顺序节点,如果是读请求,那么就创建如:/shared_lock/host-1-R0000001的节点,如果是写请求就创建例如:/shared_lock/host-2-W-0000002的节点,以此类推。


    • 判断读写顺序,不同事务可以同时对一个数据对象进行读操作,而更新操作必须在当前没有任何事务进行读写情况下进行,通过zookeeper来确定分布式读写顺序,大致分为四步:

      1. 创建完节点后,获取/shared_lock 节点下所有子节点,并对该节点变更注册监听。
      2. 确定自己的节点序号在所有子节点中的顺序。
      3. 对于读请求:若没有比自己序号小或所有比自己序号小的请求都是读请求,那么表明自己已经成功获取到共享锁,同时开始执行读取逻辑,若有写请求,则需要等待。对于写请求:若自己不是序号最小的子节点,那么需要等待。
      4. 接受到Watcher通知后,重复步骤1.
    • 释放锁,其释放锁的流程和独占锁一致。

上述共享锁的实现方案,可以满足一般分布式集群竞争锁的需求,但是如果机器规模扩大会出现一些问题,下面着重分析判断读写顺序的步骤3:
针对如上图所示的情况进行分析:
1. host1首先进行读操作,完成后将节点/shared_lock/host1-R-0000001删除。
2. 余下几台机器收到这个节点移除的通知,然后重新从/shared_lock节点上获取一份新的节点列表。
3. 每台机器判断自己的读写顺序,其中host2检测到自己的序号最小,于是进行写操作,余下机器则继续等待。
4. 继续......

可以看到,host1客户端在移除自己的共享锁后,zookeeper发送子节点变更Watcher通知给所有的机器,然后除了给host2产生影响外,对其他机器并没有任何作用。大量的Watcher通知和子节点列表获取连个操作会重复执行,这样会造成系统性能影响和网络开销,更为严重的是,如果同一时间点有多个节点对应的客户端完成了事务或事务终端引起节点的消失,zookeeper服务器就会在短时间内向其他所有的客户端发送大量的事件通知,这就是所谓的羊群效应

可以有如下改动来避免羊群效应:
1. 客户端调用create接口创建类似于/shared_lock/[Hostname]- 请求类型-序号的临时顺序节点。
2. 客户端调用getChildren接口获取所有已经创建的子节点列表(不注册任何watcher)。
3. 如果无法获取共享锁,就调用exist接口来对比自己小的节点注册Watcher。对于读请求:向比自己序号小的最后一个写请求节点注册Watcher监听。对于写请求:向比自己序号小的最后一个节点注册watcher监听。
4. 等待watcher通知,继续进入步骤2.
此方案改动主要在于:每个锁竞争者,只需要关注/shared_lock节点下序号比自己小的那个节点是否存在即可。

2.3.8 分布式队列

分布式队列可以简单分为 先入先出队列模式等待队列元素聚集后统一安排处理执行的Barrier模型

  • **FIFO先入先出,先进入队列的请求操作先完成后,才会开始后面的请求。FIFO队列类似于全写的共享模式,所有客户端都会到/queue_fifo这个节点下创建临时节点,如/queue_fifo/host1-0000001。


创建节点后,按照如下步骤执行:
1. 通过调用getChildren接口来获取/queue_fifo节点的所有子节点,即获取队列中的所有元素。
2. 确定字节的节点序号在所有子节点中的顺序。
3. 如果自己的序号不是最小的,那么需要等待,同时向比自己小的最后一个节点注册Watcher监听。
4. 接受到Watcher通知后,重复步骤1

  • Barrier分布式屏障,最终的合并计算需要基于很多并行计算的子结果来进行,开始时,/queue_barrier节点已经默认存在,并且将结点数据内容覆盖为数字n来代表Barrier值,之后,所有客户端都会到/queue_barrier节点下创建一个临时节点,例如/queue_barrier/host1。

创建完成后,按照如下步骤执行:
1. 通过调用getData接口获取/queue_barrier节点的数据内容,如10。
2. 通过调用getChildren接口获取/queue_barrier节点下的所有子节点,同时注册对子节点变更的Watcher监听。
3. 统计子节点的个数。
4. 如果子节点个数还不足10个,那么需要等待。
5. 接受到Wacher通知后,重复步骤3

3. 总结

上边我们介绍了Zookeeper的典型的应用场景。zookeeper已经被广泛应用于越来越多的大型分布式系统中了,其中包括:Dubbo的注册中心,HDFS的namenode和YARN框架的ResourceManager的HA(用zookeeper解决单点问题实现HA),HBase,Kafka等大数据和分布式系统框架中。我们可以学习这些内容时,注意一下Zookeeper的具体的应用实现。

你可能感兴趣的:(Zookeeper基本功能和应用场景)