摘要
之前讲解了leader选举,选举完了之后,leader与learner的角色明确了,要先完成一些启动期的交互,主要是数据同步过程,这里大概介绍一下各步骤所对应的源码在哪,后续对类进行详细的分析
启动期交互步骤
步骤可参考源码分析26的,启动概述
0.创建Leader服务器和Follower服务器
在选举出leader时,服务器角色明确了
QuorumPeer#run
1.Leader服务器启动Follower接收器LearnerCnxAcceptor(leader端)
运行期间,Leader服务器需要和所有其余的服务器(统称为Learner)保持连接以确集群的机器存活情况,LearnerCnxAcceptor负责接收所有非Leader服务器的连接请求。
Leader#lead
cnxAcceptor = new LearnerCnxAcceptor();//等待learner的连接
cnxAcceptor.start();
2.Learner服务器开始和Leader建立连接。(learner端)
所有Learner会找到Leader服务器,并与其建立连接。
以Follower为例
Follower#followLeader
Learner#connectToLeader
3.Leader服务器创建LearnerHandler(leader端)
Leader接收到来自其他机器连接创建请求后,会创建一个LearnerHandler实例,每个LearnerHandler实例都对应一个Leader与Learner服务器之间的连接,其负责Leader和Learner服务器之间几乎所有的消息通信和数据同步。
Leader.LearnerCnxAcceptor#run
LearnerHandler#run
4.向Leader注册(learner端)
Learner完成和Leader的连接后,会向Leader进行注册,即将Learner服务器的基本信息(LearnerInfo),包括SID和ZXID,发送给Leader服务器。
Follower#followLeader
Learner#registerWithLeader
5.Leader解析Learner信息,计算新的epoch(leader端)
Leader接收到Learner服务器基本信息后,会解析出该Learner的SID和ZXID,然后根据ZXID解析出对应的epoch_of_learner,并和当前Leader服务器的epoch_of_leader进行比较,如果该Learner的epoch_of_learner更大,则更新Leader的epoch_of_leader = epoch_of_learner + 1。然后LearnHandler进行等待,直到过半Learner已经向Leader进行了注册,同时更新了epoch_of_leader后,Leader就可以确定当前集群的epoch了。
LearnerHandler#run
Leader#getEpochToPropose
6.发送Leader状态。(leader端)
计算出新的epoch后,Leader会将该信息以一个LEADERINFO消息的形式发送给Learner,并等待Learner的响应。
LearnerHandler#run
QuorumPacket newEpochPacket = new QuorumPacket(Leader.LEADERINFO, ZxidUtils.makeZxid(newEpoch, 0), ver, null); //发送leader状态,以LEADERINFO的形式
7.Learner发送ACK消息。(learner端)
Learner接收到LEADERINFO后,会解析出epoch和ZXID,然后向Leader反馈一个ACKEPOCH响应。
Learner#registerWithLeader
if (qp.getType() == Leader.LEADERINFO)
...
QuorumPacket ackNewEpoch = new QuorumPacket(Leader.ACKEPOCH, lastLoggedZxid, epochBytes, null);//8.接受完了leader状态之后,要发送ACK消息
8.数据同步(leader,learner端)
Leader收到Learner的ACKEPOCH后,即可进行数据同步。
这个后面源码详细讲,涉及DIFF,SNAP,TRUNC等操作
learner端
Follower#followLeader
Learner#syncWithLeader
leader端
LearnerHandler#run
9.启动Leader和Learner服务器。(learner和leader)
当有过半Learner已经完成了数据同步,那么Leader和Learner服务器实例就可以启动了。
leader端
Leader#lead
Leader#startZkServer
learner
Learner#syncWithLeader
zk.startup();
问题
什么时候出现第5步中的learner的epoch比leader高的情况
何时出现该情况,执行 epoch_of_leader = epoch_of_learner + 1
其中epoch_of_learner 是learner的 acceptedEpoch
因为选举的时候是按currentEpoch来的,大部分情况currentEpoch是acceptedEpoch相等的
什么时候会出现learner的leader的acceptedEpoch高???
refer
http://blog.csdn.net/xhh198781/article/details/6587558
http://www.aboutyun.com/thread-10286-1-1.html
http://ju.outofmemory.cn/entry/138169