Zookeeper之Leader选举

Zookeeper是采用的zab协议进行实现的，而不是完全Paxos实现的。在主备系统架构模式下，采用zab协议来保证集群中所有副本的数据一致性。主系统接受处理所有的事务性请求，然后将数据变更状态以proposal提案的形式同步给所有的副本进程。所以在这个过程中，Leader机器显得格外重要。

Leader选举就是在集群中选举出一个主进程，用来接收处理所有客户端的事务性请求。有个隐式条件就是集群中的服务器大于等于2台才能开始Leader选举。

Leader选举时机：

服务器启动时期的Leader选举
服务器运行期间的Leader选举

选举流程：

发送当前自己机器的选票信息给集群中的其它机器
接收集群中其它机器发送过来的选票信息
处理接收到的投票信息
统计投票信息
改变当前服务器的状态

选票PK规则：

首先比对zxId
再比对sid

Zookeeper中leader选举的实现

zookeeper中的leader选举由FastLeaderElection具体实现。其中有几个重要的类：

Notification：代表收到的投票信息类
ToSend：发送给其它服务器的投票信息
WorkerReceiver和WorkerSender以及Messager

protected class Messenger {
        // 选票发送器
        WorkerSender ws;
        // 选票接收器
        WorkerReceiver wr;
    }

recvqueue：收票队列
sendqueue：发送选票队列

WorkerReceiver和WorkerSender不停地从QuorumCnxManager中获取收到的选票信息，以及向集群中所有其它looking机器发送选票信息。

FastLeaderElection继承自Election，实现了其中的选举leader的方法

public Vote lookForLeader() throws InterruptedException {

            try {
                //TODO 所有收到的选票集合
                Map recvset = new HashMap();

                synchronized (this) {
                    //TODO 逻辑时钟++
                    logicalclock.incrementAndGet();
                    //TODO 更新选票 推选的leaderId、zxId 和 选举周期
                    updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
                }

                //TODO 给集群中的其它服务器发送当前服务器的投票信息
                sendNotifications();

                SyncedLearnerTracker voteSet;

                //当前服务器是选举状态
                while ((self.getPeerState() == QuorumPeer.ServerState.LOOKING) && (!stop)) {
                    //TODO 从QuorumCnxManager中获取收到的外部 投票信息
                    FastLeaderElection.Notification n = recvqueue.poll(notTimeout, TimeUnit.MILLISECONDS);

                    //TODO 收到的外部投票信息为空
                    if (n == null) {
                        //TODO 当前服务器选票信息是否发送完
                        if (manager.haveDelivered()) {
                            //TODO 发送完了继续发送当前服务器的选票信息给集群中的其它服务器
                            sendNotifications();
                        } else {
                            //TODO 没有发送完就当前服务器建立和其它服务器的链接信息
                            manager.connectAll();
                        }
                    } else if (validVoter(n.sid) && validVoter(n.leader)) {
                        //TODO 收到的选票中，投票者和被推选者都是 属于投票集合中

                        //TODO 查看收到的选票的状态
                        switch (n.state) {
                            case LOOKING:
                                if (getInitLastLoggedZxid() == -1) {
                                    LOG.debug("Ignoring notification as our zxid is -1");
                                    break;
                                }
                                if (n.zxid == -1) {
                                    LOG.debug("Ignoring notification from member with -1 zxid {}", n.sid);
                                    break;
                                }
                                // If notification > current, replace and send messages out
                                //TODO 如果收到的投票选举周期大于当前机器的时钟周期
                                if (n.electionEpoch > logicalclock.get()) {
                                    //TODO 更新当前机器的时钟周期
                                    logicalclock.set(n.electionEpoch);
                                    //TODO 清空所有收到的投票信息
                                    recvset.clear();
                                    //TODO 如果收到的选票信息优于当前服务器选票信息，变更当前服务器的投票信息
                                    if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, getInitId(), getInitLastLoggedZxid(), getPeerEpoch())) {
                                        updateProposal(n.leader, n.zxid, n.peerEpoch);
                                    } else {
                                        //TODO 更新选票为自己当前服务器的选票信息
                                        updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
                                    }
                                    //TODO 发送选票信息
                                    sendNotifications();
                                } else if (n.electionEpoch < logicalclock.get()) {
                                    //TODO 如果逻辑时钟小于当前逻辑时钟，忽略
                                    LOG.debug(
                                            "Notification election epoch is smaller than logicalclock. n.electionEpoch = 0x{}, logicalclock=0x{}",
                                            Long.toHexString(n.electionEpoch),
                                            Long.toHexString(logicalclock.get()));
                                    break;
                                } else if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                                    //TODO 选举周期相同，但是收到的选票更优，更新选票信息
                                    updateProposal(n.leader, n.zxid, n.peerEpoch);
                                    //TODO 发送选票信息
                                    sendNotifications();
                                }

                                //TODO 收到的选票信息放入集合中
                                recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch));

                                //TODO 投票归档，查看是否已leader选举完成
                                voteSet = getVoteTracker(recvset, new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch));

                                if (voteSet.hasAllQuorums()) {

                                    while ((n = recvqueue.poll(finalizeWait, TimeUnit.MILLISECONDS)) != null) {
                                        if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                                            recvqueue.put(n);
                                            break;
                                        }
                                    }

                                    if (n == null) {
                                        setPeerState(proposedLeader, voteSet);
                                        Vote endVote = new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch);
                                        leaveInstance(endVote);
                                        return endVote;
                                    }
                                }
                                break;
                            case OBSERVING:
                                LOG.debug("Notification from observer: {}", n.sid);
                                break;
                            case FOLLOWING:
                            case LEADING:

                                if (n.electionEpoch == logicalclock.get()) {
                                    recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                    voteSet = getVoteTracker(recvset, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                    if (voteSet.hasAllQuorums() && checkLeader(recvset, n.leader, n.electionEpoch)) {
                                        setPeerState(n.leader, voteSet);
                                        Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                                        leaveInstance(endVote);
                                        return endVote;
                                    }
                                }

                                outofelection.put(n.sid, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                voteSet = getVoteTracker(outofelection, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));

                                if (voteSet.hasAllQuorums() && checkLeader(outofelection, n.leader, n.electionEpoch)) {
                                    synchronized (this) {
                                        logicalclock.set(n.electionEpoch);
                                        setPeerState(n.leader, voteSet);
                                    }
                                    Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                                    leaveInstance(endVote);
                                    return endVote;
                                }
                                break;
                            default:
                                LOG.warn("Notification state unrecognized: {} (n.state), {}(n.sid)", n.state, n.sid);
                                break;
                        }
                    } else {
                        if (!validVoter(n.leader)) {
                            LOG.warn("Ignoring notification for non-cluster member sid {} from sid {}", n.leader, n.sid);
                        }
                        if (!validVoter(n.sid)) {
                            LOG.warn("Ignoring notification for sid {} from non-quorum member sid {}", n.leader, n.sid);
                        }
                    }
                }
                return null;
            } finally {
                try {
                    if (self.jmxLeaderElectionBean != null) {
                        MBeanRegistry.getInstance().unregister(self.jmxLeaderElectionBean);
                    }
                } catch (Exception e) {
                    LOG.warn("Failed to unregister with JMX", e);
                }
                self.jmxLeaderElectionBean = null;
                LOG.debug("Number of connection processing threads: {}", manager.getConnectionThreadCount());
            }
        }

Zookeeper之Leader选举

Leader选举时机：

选举流程：

选票PK规则：

Zookeeper中leader选举的实现

你可能感兴趣的:(Zookeeper之Leader选举)