共识算法 PBFT浅析

PBFT是PracticalByzantine Fault Tolerance的缩写,意为实用拜占庭容错算法。该算法是Miguel
Castro (卡斯特罗)和Barbara Liskov(利斯科夫)在1999年提出来的,解决了原始拜占庭容错算法效率不高的问题,将算法复杂度由指数级降低到多项式级,使得拜占庭容错算法在实际系统应用中变得可行。该论文发表在1999年的操作系统设计与实现国际会议上(OSDI99)。没错,这个Loskov就是提出著名的里氏替换原则(LSP)的人,2008年图灵奖得主。

那么问题来了,什么是拜占庭问题呢?拜占庭位于如今的土耳其的伊斯坦布尔,是古代东罗马帝国的首都。拜占庭罗马帝国国土辽阔,为了达到防御目的,每块封地都驻扎一支由将军统领的军队,每个军队都分隔很远,将军与将军之间只能靠信差传递消息。
在战争的时候,拜占庭军队内所有将军必需达成一致的共识,决定是否有赢的机会才去攻打敌人的阵营。但是,在军队内有可能存有叛徒和敌军的间谍,左右将军们的决定影响将军们达成一致共识。在已知有将军是叛徒的情况下,其余忠诚的将军如何达成一致协议的问题,这就是拜占庭将军问题。

首先要介绍的是为什么 pbft 算法的最大容错节点数量是(n-1)/3?

*假设正确节点为N,错误节点为E,总节点为P,投票结果有两个,P1和P2,有:
P=N+E
设通过投票的最小节点数为X
为保证投票能在E全部不参与投票的情况下顺利通过选举,则有:
X 对于E来说,为保证自己的利益,最优解为对N/2的人投P1,对另外N/2的人投P2,为避免E同时投两个的策略(即避免同时产生两个结果),则有:
X>N/2+E
联立:
P=N+E
XN/2+E
则有:
N>X>N/2+E
有:
P=N+E
1.5N>N+E
3/2N>P
即E

所以要保证共识正常达成,必须要P>=3E+1,即3f+1<=n ,所以最大容错节点为(n-1)/3。
3f+1<=n 这个结论会在等下的讲解中经常提到,请读者们认真推导下
以上证明。

在pbft算法下有一个叫视图view的概念,在一个视图里*,有一个主节点,其余的都叫备份节点。每当主节点更换后,视图编号v也会随着变化。主节点负责将来自客户端的请求给排好序,然后按序发送给备份节点们。但是主节点可能会是拜占庭的:它可能会给不同的请求编上相同的序号,或者不去分配序号,或者让相邻的序号不连续。备份节点应当有职责来主动检查这些序号的合法性,当主节点挂了(超时无响应)或者从节点集体认为主节点是问题节点时,这些备份节点就会触发视图更换view change协议来选举出新的主节点。

视图是连续编号的整数。主节点由公式p = v mod
|R|计算得到,这里v是视图编号,p是副本编号,|R|是副本集合的个数。当主节点失效的时候就需要启动视图更换(view change)过程。等下还会简单介绍一下view change

算法基本流程

pbft 算法的基本流程主要有以下四步:

  1. 客户端发送请求给主节点
  2. 主节点广播请求给其它节点,节点执行 pbft 算法的三阶段共识流程。
  3. 节点处理完三阶段流程后,返回消息给客户端。
  4. 客户端收到来自 f+1 个节点的相同消息后,代表共识已经正确完成。

下面说说详细pbft三段共识流程
三阶段分别是re-prepare 阶段(预准备阶段),prepare 阶段(准备阶段), commit 阶段(提交阶段)
首先,客户端向主节点发起请求,主节点 0 收到客户端请求,会向其它节点发送 pre-prepare 消息,其它节点就收到了pre-prepare 消息,就开始了这个核心三阶段共识过程了。

Pre-prepare

首先客户端c向主节点p发送请求。o: 请求的具体操作,t: 请求时客户端追加的时间戳,c:客户端标识。REQUEST: 包含消息内容m,以及消息摘要d(m)。主节点接收到客户端的请求后,会分配一个序列号给这个请求,然后向所有备份节点群发预准备消息,预准备消息的格式为<,m>,这里v是视图编号,m是客户端发送的请求消息,d是请求消息m的摘要。节点收到 pre-prepare 消息后,会有两种选择,一种是接受,一种是不接受。什么时候才不接受主节点发来的 pre-prepare 消息呢?

只有满足以下条件,各个备份节点才会接受一个预准备消息:

  1. 客户端请求消息签名正确,并且d与m的摘要一致。
  2. 当前视图编号是v。
  3. 该备份节点从未在视图v中接受过序号为n但是摘要d不同的消息m。
  4. 预准备消息的序号n必须在水线(watermark)上下限h和H之间。(n 要在低水位 h 和高水位 H 之间,保证垃圾回收机制和防止出错的主节点随意选择序号。)

如果备份节点i接受了预准备消息,则进入准备阶段。如果不接受预准备信息,就结束。

Prepare

在准备阶段的同时,该节点向所有备份节点和主节点发送准备消息 v, n, d, m与上述pre-prepare消息内容相同,i是当前副本节点编号。,并且将预准备消息和准备消息写入自己的消息日志。在这时,也有很多备份节点在进行这个过程,因此节点是有可能收到其它备份节点发送的 prepare 消息的。当接收到其他备份节点发来的准备消息后,也要判断该消息是否合法。

  1. Pre-prepare消息的签名是否正确。
  2. 视图编号是否与当前主节点一致。
  3. 序号n是否在水线(watermark)上下限h和H之间。

如果消息验证为合法,则将这个消息日志里,否则,结束。在一定时间范围内,如果收到超过
2f 个不同节点(不包括自己)的 prepare 消息并且通过检验再加上自己,就代表 prepare 阶段已经完成。

Commit

进入该状态后,备份节点将向其他节点广播,并等待2f+1个节点确认。判断是否合法条件为。

  1. prepare消息的签名是否正确;
  2. 视图编号是否与当前主节点一致。
  3. 序号n是否在水线(watermark)上下限h和H之间。

一旦确认消息为合法,则该备份节点将确认消息写入消息日志中。当收到 2f+1 个 commit 消息后(包括自己),表明这一阶段已经达成共识,于是节点就会执行请求,写入数据。并且备份节点会把时间戳比已回复时间戳更小的请求丢弃,以保证请求只会被执行一次。

Replay

节点执行完请求后,返回给客户端,r:是请求操作结果,客户端如果收到f+1个相同的REPLY消息,说明客户端发起的请求已经达成全网共识,否则客户端需要判断是否重新发送请求给主节点。

这就是pbft算法的流程了,再附上一幅流程图以供参考

共识算法 PBFT浅析_第1张图片

更换视图

如果主节点作恶,它可能会给不同的请求编上相同的序号,或者不去分配序号,或者让相邻的序号不连续。备份节点应当有职责来主动检查这些序号的合法性。如果主节点掉线或者作恶不广播客户端的请求,客户端设置超时机制,超时的话,向所有副本节点广播请求消息。副本节点检测出主节点作恶或者下线,发起View Change协议。

备份节点向其他节点广播 i>消息。n是最新的stable checkpoint的编号,C是2f+1验证过的CheckPoint消息集合,P是当前副本节点未完成的请求的PRE-PREPARE和PREPARE消息集合,这就是为什么要执行pre—prepare和prepare步骤的原因了。

当主节点p = v + 1 mod |R|收到2f个有效的VIEW-CHANGE消息后,向其他节点广播消息。V是有效的VIEW-CHANGE消息集合。O是主节点重新发起的未经完成的PRE-PREPARE消息集合。PRE-PREPARE消息集合的选取规则:1. 选取V中最小的stable checkpoint编号min-s,选取V中prepare消息的最大编号max-s。2. 在min-s和max-s之间,如果存在P消息集合,则创建<, m>消息。否则创建一个空的PRE-PREPARE消息,即:<, m(null)>, m(null)空消息,d(null)空消息摘要。

副本节点收到主节点的NEW-VIEW消息,验证有效性,有效的话,进入v+1状态,并且开始O中的PRE-PREPARE消息处理流程。

以下是view-change正常情况下的流程示意图
共识算法 PBFT浅析_第2张图片

清除垃圾

在上述算法流程中,为了确保在View Change的过程中,能够恢复先前的请求,每一个备份节点都记录一些消息到本地的消息日志中,当执行请求后备份节点需要把之前该请求的记录消息清除掉。最简单的做法是在Reply消息后,再执行一次当前状态的共识同步,这样做的成本比较高,因此可以在执行完多条请求K(例如:100条)后执行一次状态同步。这个状态同步消息就是CheckPoint消息。备份节点i发送给其他节点,n是当前节点所保留的最后一个视图请求编号,d是对当前状态的一个摘要,该CheckPoint消息记录到消息日志中。如果备份节点i收到了2f+1个验证过的CheckPoint消息,则清除先前日志中的消息,并以n作为当前一个stable checkpoint。
这是理想情况,实际上当备份节点i向其他节点发出CheckPoint消息后,其他节点还没有完成K条请求,所以不会立即对i的请求作出响应,它还会按照自己的节奏,向前行进,但此时发出的CheckPoint并未形成stable,为了防止i的处理请求过快,设置一个上文提到的高低水位区间[h, H]来解决这个问题。低水位h等于上一个stable checkpoint的编号,高水位H = h + L,其中L是我们指定的数值,等于checkpoint周期处理请求数K的整数倍,可以设置为L = 2K。当备份节点i处理请求超过高水位H时,此时就会停止脚步,等待stable checkpoint发生变化,再继续前进。

参考

更换视图和清除垃圾部分参考以下博客:
https://blog.csdn.net/jfkidear/article/details/81275974

你可能感兴趣的:(共识算法 PBFT浅析)