第12章 拜占庭容错

在讲这个问题前,我们先回顾我们已经有的容错。我们可以使用RSM来容错,在2F+1最多可以有F个节点挂掉。
参与PAXOS的协议的机子被攻击了,或者代码写错了。这样这台机器可能会违背协议。


第12章 拜占庭容错_第1张图片
image.png

拜占庭将军问题:
https://zh.wikipedia.org/wiki/%E6%8B%9C%E5%8D%A0%E5%BA%AD%E5%B0%86%E5%86%9B%E9%97%AE%E9%A2%98

拜占庭问题的目标是,共识发生在好人里,少数的坏人不可以影响好人去接受一个坏计划。
本身控制不了坏人,坏人可以不遵守好人的计划,也可以发送不同的消息

如何让好人达成一致呢?
关键是让好人得到相同的正确的消息。


第12章 拜占庭容错_第2张图片
image.png

假设前面5个人,前面4个都是好的,最后一个是叛徒。如果进行投票,2个好的进攻,2个好的撤退。叛徒无论说进攻还是撤退看上去都是叛徒决定。但这个不是拜占庭将军要解决的问题。拜占庭将军问题是要让这4个好人步调不一致,有人进攻有人撤退。当好人2边结果很接近,叛徒的决定是可以影响最终结果这个无法避免。实际情况,5个人是无法当面投票的,所以他们只能互相发消息来代表自己的投票。如果都是好人,每个人都会收到别人的结果,最终他们能收到一致的结果。这个时候叛徒就出来了起作用。他可以向一部分发送进攻,一部分发送撤退。造成4个好的分裂。使得共识被破坏。

上面2个条件。每个好人都会向其他人投一致的票(一个好人不会一半投进攻,一半投撤退),并且他们投出去的票被别人看到的都是对的。同时要求通过一些交互可以把叛徒发现出来使得坏人不能发挥作用。他们可以把自己收到的票再转发一次。这个时候他们4个好人一通气发现叛徒有的说进攻有的说撤退,就能把叛徒找出来。

这个问题被转化另一个问题,
对一个人来说他是主将,其他人是副官。叛徒如果做了副官,可以在转发的时候捣乱。如果叛徒做了主将可以给不同的副官发不同的消息。


第12章 拜占庭容错_第3张图片
image.png

所以在3个人的时候,有1个叛徒。是分辨不出来的,如下图。


第12章 拜占庭容错_第4张图片
image.png

通信是基于可以篡改的环境3个人的时候,有1个叛徒。是分辨不出来的

那我们看4个人能不能容忍一个坏蛋。
我们看看如何做


第12章 拜占庭容错_第5张图片
image.png

消息在路中不会被篡改,知道谁发的,知道消息缺席的情况。
1和2,保证叛徒不能中途截获信息。3保证坏蛋不发消息也没事。

基本思想就是转发,每个人收到消息就向剩下其他人转发。副官会收到一系列的VALUE。
我们来看一个具体例子。现在4个人,假设坏蛋是副官。


第12章 拜占庭容错_第6张图片
image.png

那么大多数的是好人发的。


第12章 拜占庭容错_第7张图片
image.png

如果坏蛋是CMD会如何,最优策略是发3个不一样(最可能达不成一致)


第12章 拜占庭容错_第8张图片
image.png

好人经过转发,发现3个消息不一致,那么他们就知道CMD是坏人,就可以不执行了。

那么时间复杂度是多少呢?


第12章 拜占庭容错_第9张图片
image.png

复杂度会比较高。纯ORAL的方式DETECT的代价非常大。
最简单的方法是不让他篡改MESSAGE。(这里如何解读,也就是好比将军都是用自己专属的笔迹写的指令,当叛徒收到后,是无法篡改后转发给别人。所以叛徒能做的只有当自己做COMMANDER的时候,发送混乱的消息。)
在这是非对称的签名可以用上了,就达到了上述的效果。


第12章 拜占庭容错_第10张图片
image.png

这样复杂度就降低了。当不存在机器挂掉的时候,只需要有2F+1个机器就可以容忍F个坏蛋。

如果在DS里有些系统被攻击,那么就可以用拜占庭问题来解决。


第12章 拜占庭容错_第11张图片
image.png

又有人会捣乱,又有人会不参加,怎么在一起WORK,也就是说结合PAXOS和BFT来实现一个RSM。RSM就是初始状态一致,操作一致,结束状态就会一致。

第12章 拜占庭容错_第12张图片
image.png
第12章 拜占庭容错_第13张图片
image.png

上述的分析就表示如果有坏蛋,那么PAXOS就不能用。如果消息是加密的,要解决这个问题,我们首先要限制住如果坏蛋是PRIMARY的情况,因为坏蛋是BACKUP时,由于消息是加密的,它不能做什么事情,最多只能让自己挂掉。
那么整个问题就变成如何发现错误当坏蛋是PRIMARY的时候,当有机器挂了应该怎么做?

我们首先来看下为什么PAXOS在拜占庭问题下会不WORK?

第12章 拜占庭容错_第14张图片
image.png

第12章 拜占庭容错_第15张图片
image.png

第12章 拜占庭容错_第16张图片
image.png

第12章 拜占庭容错_第17张图片
image.png

在这里既有机器会挂掉,又有机器是坏蛋,那么3f+1里需要有2F+1达成一致。
也就是说可以容忍F个坏蛋和F个机器挂掉。


第12章 拜占庭容错_第18张图片
image.png

轮流做PRIMARY , 有F+1个人达成一致可以要求替换PRIMARY。(因为最多F个坏蛋,坏蛋团结不管用)


第12章 拜占庭容错_第19张图片
image.png

第12章 拜占庭容错_第20张图片
image.png

第12章 拜占庭容错_第21张图片
image.png

第12章 拜占庭容错_第22张图片
image.png

第12章 拜占庭容错_第23张图片
image.png
第12章 拜占庭容错_第24张图片
image.png

当PRIMARY 是好人,坏蛋能不能阻止PRIMARY 继续做下去?因为好人有2F+1个,即使有F个挂了,还有F+1个,那么当F个坏人都在捣乱。其他的REPLICA好人也知道有F+1的消息一致,所以知道PRIMARY是好人。

当PRIMARY时坏人,好人能不能阻止? 当PRIMARY时坏人,有F+1个好人,会彼此交互PRIMARY给他们发的消息看是不是一致,而坏人一定不一致。而必定有至少F+1个混乱的消息。那么就知道PRIMARY是坏人。所以可以按顺序继续让下一个人来做PRIMARY。

你可能感兴趣的:(第12章 拜占庭容错)