【Zookeeper学习】集群选举机制

【Zookeeper学习】集群选举机制

  • 一、基本概念
    • 1.集群机器 ID
    • 2.事务 ID
    • 3.Zookeeper 服务器角色
      • 3.1 Leader
      • 3.2 Follower
      • 3.3 Observer
    • 4. Zookeeper 服务器工作状态
  • 二、选举前提条件
  • 三、选举时机
    • 1.服务器启动初始化的Leader选举
    • 2.服务器运行期间的Leader选举
      • 2.1 变更状态
      • 2.2 每个服务器发起投票
      • 2.3 接受来自各个服务器的投票
      • 2.4 处理投票
      • 2.5 统计投票
      • 2.6 改变服务器状态

zookeeper选举发生时机有以下两种情况:

  • 服务器启动初始化
  • 服务器运行期间Leader挂掉

一、基本概念

1.集群机器 ID

是指 myid,它是每一个集群机器中的编号文件,代表 ZooKeeper 集群服务器的标识,手动生成,全局全一。

2.事务 ID

是指 ZXID,Zookeeper 会给每个更新请求分配一个事务 ID,它是一个 64 位的数字,由 Leader 统一进行分配,全局唯一,不断递增,在一个节点的状态信息中可以查看到最新的事务 ID 信息。
【Zookeeper学习】集群选举机制_第1张图片
ZXID有两部分组成:

  • 任期:完成本次选举后,直到下次选举前,由同一Leader负责协调写入;
  • 事务计数器:单调递增,每生效一次写入,计数器加一。

ZXID的低32位是计数器,所以同一任期内,ZXID是连续的,每个结点又都保存着自身最新生效的ZXID,通过对比新提案的ZXID与自身最新ZXID是否相差“1”,来保证事务严格按照顺序生效的。

3.Zookeeper 服务器角色

3.1 Leader

领导者,整个Zookeeper集群工作机制中的核心,主要工作:

  • 事务请求的唯一调度和处理者,保证集群事务处理的顺序性
  • 集群内部各服务的调度者

3.2 Follower

追随者,主要工作:

  • 处理客户端非事务请求,转发事务请求给Leader服务器
  • 参与事务请求Proposal的投票
  • 参与Leader选举投票

3.3 Observer

Observer是3.3.0 版本开始引入的一个服务器角色,它充当一个观察者角色——观察ZooKeeper集群的最新状态变化并将这些状态变更同步过来。其工作:

  • 处理客户端的非事务请求,转发事务请求给 Leader 服务器
  • 不计入集群可用状态数目
  • 不参与任何形式的投票

4. Zookeeper 服务器工作状态

四种:LOOKING、FOLLOWING、LEADING、OBSERVING。

  • LOOKING:寻找Leader状态。当服务器处于该状态时,它会认为当前集群中没有 Leader,因此需要进入 Leader 选举状态。
  • FOLLOWING:跟随者状态。表明当前服务器角色是Follower。
  • LEADING:领导者状态。表明当前服务器角色是Leader。
  • OBSERVING:观察者状态。表明当前服务器角色是Observer。

二、选举前提条件

  • Zookeeper 服务器处于 LOOKING 竞选状态
    此时说明 Zookeeper 服务器集群处于群龙无首状态,另外,观察者状态不能参与竞选投票。

  • Zookeeper 集群规模至少要 3 台机器或以上
    集群规则为:2N + 1台,N > 0,即最少需要 3 台,因为 ZK 集群的机制是只要超过半数的节点正常,集群就能正常提供服务。只有在 ZK 节点挂得太多,只剩一半或不到一半节点能工作时,集群才会失效。

三、选举时机

1.服务器启动初始化的Leader选举

假设现有5台Zookeeper服务器,myid分别为1、2、3、4、5,如图:
【Zookeeper学习】集群选举机制_第2张图片
【Zookeeper学习】集群选举机制_第3张图片

依次启动:

  • 服务器1启动,当前只有一台服务器,无法完成选举工作;
  • 服务器2启动,此时已有两台服务器,开始进入Leader选举阶段
  • 每个服务器发出一个投票,都将自己作为Leader服务器进行投票,投票元素有myid和ZXID,以(myid和ZXID)形式表示。这样,服务器1和服务器2由于都投的是自己,可表示为(1,0)和(2,0),然后将各自的投票发给集群中的其他机器。(注:初始阶段ZXID均一样,假设为0)
  • 接收并校验投票。每个服务器都会接受来自其他服务器的投票,同时,服务器会校验投票的有效性,包括:是否本轮投票、是否来自LOOKING状态的服务器。
  • 处理投票。收到其他服务器的投票后,根据PK规则处理投票,即:
    1)优先检查ZXID。ZXID较大的服务器优先作为Leader;
    2)若ZXID一样,则比较myid,myid较大者作为Leader。这里服务器1和2PK后的结果为服务器2优先作为Leader,此时服务器1和2的选票均为(2,0);
  • 统计投票。每次投票后,服务器会统计所有投票,判断是否有过半的机器接受到相同的投票信息。服务器2收到两票,少于3(n/2+1,n为总服务器5),所以继续保持LOOKING状态;
  • 服务器3(myid=3)启动,继续进入Leader选举阶段。跟前面流程一致,服务器1和2先投自己一票,因为服务器3的myid最大,所以大家把票改投给它。此时,服务器为3票(大于等于n/2+1),所以服务器3当选为Leader。服务器1,2更改状态为FOLLOWING,服务器3更改状态为LEADING;
  • 服务器4启动,发起一次选举。此时服务器1,2,3已经不是LOOKING状态,不会更改选票信息。选票信息结果:服务器3为3票,服务器4为1票。服务器4并更改状态为FOLLOWING;
  • 服务器5启动,发起一次选举。同理,服务器也是把票投给服务器3,服务器5并更改状态为FOLLOWING;
  • 投票结束,服务器3当选为Leader。

2.服务器运行期间的Leader选举

Zookeeper集群的五台服务器(myid=1-5)正在运行中,突然某个瞬间,Leader服务器3挂了,这时候便开始Leader选举~
【Zookeeper学习】集群选举机制_第4张图片

2.1 变更状态

Leader 服务器挂了之后,余下的非Observer服务器都会把自己的服务器状态更改为LOOKING,然后开始进入Leader选举流程。

2.2 每个服务器发起投票

每个服务器都把票投给自己,因为是运行期间,所以每台服务器的ZXID可能不相同。假设服务1,2,4,5的zxid分别为333,666,999,888,则分别产生投票(1,333),(2,666),(4,999)和(5,888),然后各自将这个投票发给集群中的其他所有机器。

2.3 接受来自各个服务器的投票

2.4 处理投票

投票规则是跟Zookeeper集群启动期间一致的,优先检查ZXID,大的优先作为Leader,所以显然服务器zxid=999具有优先权。

2.5 统计投票

2.6 改变服务器状态

你可能感兴趣的:(java-zookeeper,zookeeper,学习)