zookeeper原理

zookeeper原理
zookeeper为了保证可靠性,不能用一台机器,而应该是一个集群
 
为了保证zookeeper集群数据能够一致,必须有一个拍板说了算的人,这就是leader,其他的是follower。
某一时刻集群里只能有且仅有一个leader。
leader可以执行增删改和查询操作,而follower只能进行查询操作。
所有的更新操作都会被转交给leader来处理,leader批准的任务,再发送给follower去执行来保证和leader的一致性。
由于网络是不稳定的,为了保证执行顺序的一致,所有的任务都会被赋予一个唯一的顺序的编号,一定是按照这个编号来执行任务,保证任务顺序的一致性。
 
那么什么时候leader可以认为一个客户端的请求可以算是处理成功了呢?
如果只有leader或少数机器来认可这个任务,则leader和这些少量机器如果挂掉,则选出来的新的leader并不知道之前批准过的这个任务,最终会违反数据的可靠性。
所以要求leader在批准一个任务之前应该保证集群里大部分的机器应该是知道这个提案的,这样即使自己挂掉,根据过半同意选出来的leader肯定是知道这个提案的。
而如果leader一定要等到所有follower都同一才执行提案也不好,因为知道有一个机器挂掉,leader就无法工作,也相当于单节点了,无法保证集群可靠性。
所以,只要过半同一leader就可以认为一个提案通过。
 
所以,
leader在收到客户端提交过来的任务后,会向集群中所有的follower发送提案等待follower的投票,follower们收到这个提议后,会进行投票,同意或者不同意,
leader会回收follower的投票,一旦受到过半的投票表示同意,则leader认为这个提案通过,再发送命令要求所有的follower都进行这个提案中的任务。
 
由于需要过半的机器同一才能执行任务,所以一旦集群中过半的机器挂掉,整个集群就无法工作了。
 
从而可以推导出:
zookeeper集群必须保证过半存活才能工作
zookeeper的集群中的机器数量最好应该是奇数个,因为需要过半存活集群才能工作,所以偶数个机器提供的集群可靠性其实和偶数-1个机器提供的集群可靠性是一样的。
 
leader选举的问题:
最开始集群启动时,会选择zid最小的机器作为leader。
当leader挂掉后,会通过过半投票选出具有最高任务编号的称为新的leader。

你可能感兴趣的:(zookeeper原理)