zk源码阅读39:Leader和Follower服务器启动期交互概述

摘要

之前讲解了leader选举,选举完了之后,leader与learner的角色明确了,要先完成一些启动期的交互,主要是数据同步过程,这里大概介绍一下各步骤所对应的源码在哪,后续对类进行详细的分析

启动期交互步骤

步骤可参考源码分析26的,启动概述

image.png

0.创建Leader服务器和Follower服务器

在选举出leader时,服务器角色明确了
QuorumPeer#run

不同服务器角色的创建

1.Leader服务器启动Follower接收器LearnerCnxAcceptor(leader端)

运行期间,Leader服务器需要和所有其余的服务器(统称为Learner)保持连接以确集群的机器存活情况,LearnerCnxAcceptor负责接收所有非Leader服务器的连接请求。

Leader#lead

cnxAcceptor = new LearnerCnxAcceptor();//等待learner的连接
cnxAcceptor.start();

2.Learner服务器开始和Leader建立连接。(learner端)

所有Learner会找到Leader服务器,并与其建立连接。

以Follower为例

Follower#followLeader
Learner#connectToLeader

3.Leader服务器创建LearnerHandler(leader端)

Leader接收到来自其他机器连接创建请求后,会创建一个LearnerHandler实例,每个LearnerHandler实例都对应一个Leader与Learner服务器之间的连接,其负责Leader和Learner服务器之间几乎所有的消息通信和数据同步。

Leader.LearnerCnxAcceptor#run
LearnerHandler#run

4.向Leader注册(learner端)

Learner完成和Leader的连接后,会向Leader进行注册,即将Learner服务器的基本信息(LearnerInfo),包括SID和ZXID,发送给Leader服务器。

Follower#followLeader
Learner#registerWithLeader

5.Leader解析Learner信息,计算新的epoch(leader端)

Leader接收到Learner服务器基本信息后,会解析出该Learner的SID和ZXID,然后根据ZXID解析出对应的epoch_of_learner,并和当前Leader服务器的epoch_of_leader进行比较,如果该Learner的epoch_of_learner更大,则更新Leader的epoch_of_leader = epoch_of_learner + 1。然后LearnHandler进行等待,直到过半Learner已经向Leader进行了注册,同时更新了epoch_of_leader后,Leader就可以确定当前集群的epoch了。

LearnerHandler#run
Leader#getEpochToPropose

6.发送Leader状态。(leader端)

计算出新的epoch后,Leader会将该信息以一个LEADERINFO消息的形式发送给Learner,并等待Learner的响应。

LearnerHandler#run

QuorumPacket newEpochPacket = new QuorumPacket(Leader.LEADERINFO, ZxidUtils.makeZxid(newEpoch, 0), ver, null); //发送leader状态,以LEADERINFO的形式

7.Learner发送ACK消息。(learner端)

Learner接收到LEADERINFO后,会解析出epoch和ZXID,然后向Leader反馈一个ACKEPOCH响应。

Learner#registerWithLeader

if (qp.getType() == Leader.LEADERINFO)
...
QuorumPacket ackNewEpoch = new QuorumPacket(Leader.ACKEPOCH, lastLoggedZxid, epochBytes, null);//8.接受完了leader状态之后,要发送ACK消息

8.数据同步(leader,learner端)

Leader收到Learner的ACKEPOCH后,即可进行数据同步。
这个后面源码详细讲,涉及DIFF,SNAP,TRUNC等操作

learner端

Follower#followLeader
Learner#syncWithLeader

leader端

LearnerHandler#run

9.启动Leader和Learner服务器。(learner和leader)

当有过半Learner已经完成了数据同步,那么Leader和Learner服务器实例就可以启动了。

leader端

Leader#lead
Leader#startZkServer

learner
Learner#syncWithLeader

zk.startup();

问题

什么时候出现第5步中的learner的epoch比leader高的情况

何时出现该情况,执行 epoch_of_leader = epoch_of_learner + 1
其中epoch_of_learner 是learner的 acceptedEpoch

因为选举的时候是按currentEpoch来的,大部分情况currentEpoch是acceptedEpoch相等的
什么时候会出现learner的leader的acceptedEpoch高???

refer

http://blog.csdn.net/xhh198781/article/details/6587558
http://www.aboutyun.com/thread-10286-1-1.html
http://ju.outofmemory.cn/entry/138169

你可能感兴趣的:(zk源码阅读39:Leader和Follower服务器启动期交互概述)