『学概念找员外』FLP 不可能原理

「力场 lichang.io」公链挖矿第一社区!

比特币是全球性的,在整个世界存在多个时区,每个时区之间都存在时间差,如果没有一个绝对统一的时间,这就给共识协议带来了许多限制。也正是因为这些限制因素,导致许多专家学者都对是否能够达成共识持有悲观态度,而且还有许多对于达成共识具备的不可能性结论也已经被证实。其中一个最最经典的案例就是拜占庭将军问题,想必大家对这个问题都不陌生,大概意思是:

拜占庭是东罗马帝国的首都,它的军队分成多个师,每个师都由一个将军统领。这些将军通过信使进行交流,来达成一个共同作战方案,有些将军可能是叛徒,想故意破坏这个过程,这会造成那些忠诚的将军也无法达成一个统一的作战计划。解决这个难题的办法就是让那些忠诚的将军在这样的情况下达成统一作战方案,而避免那些叛徒对作战方案的误导。事实证明,如果叛徒数量超过1/3时,这个难题将无法克服,那些忠臣的计划终会被叛徒们破坏。

还有一个更为微妙的关于不可能性的结论,就是著名的“Fischer-Lynch-Paterson(FLP)不可能原理”,该名称以最初的三位作者而命名。大意是在网络可靠,但允许节点失效(即便只有一个)的最小化异步模型系统中,不存在一个可以解决一致性问题的确定性共识算法。FLP 不可能原理告诉我们,不要浪费时间,去试图为异步分布式系统设计面向任意场景的共识算法。尽管有这些“不可能性结论”,还是有文献谈到了一些共识协议,比较著名的就是Paxos算法协议。Paxos算法做了一些妥协,一方面,Paxos算法能做到不产生不一致的结果;另一方面,Paxos算法所做的妥协是,在一定条件下(虽然是不常见的情形),该协议会死机卡住,从而无法继续运行。

如何理解

要正确理解 FLP 不可能原理,首先要弄清楚“异步”的含义。在分布式系统中,同步和异步这两个术语存在特殊的含义。

同步:是指系统中的各个节点的时钟误差存在上限,并且消息传递必须在一定时间内完成,否则认为失败;同时各个节点完成处理消息的时间是一定的。因此同步系统中可以很容易地判断消息是否丢失。
异步:意味着系统中各个节点可能存在较大的时钟差异,同时消息传输时间是任意长的,各节点对消息进行处理的时间也可能是任意长的。这就造成无法判断某个消息迟迟没有被响应是哪里出了问题(节点故障还是传输故障?)。不幸地是,现实生活中的系统往往都是异步系统。

想要理解FLP 不可能性基本原理并不复杂,员外给大家举个例子:

三个人在不同房间,进行投票(投票结果是 0 或者 1)。彼此可以通过电话进行沟通,但经常有人会时不时睡着。比如某个时候,A 投票 0,B 投票 1,C 收到了两人的投票,然后 C 睡着了。此时,A 和 B 将永远无法在有限时间内获知最终的结果,究竟是 C 没有应答还是应答的时间过长。如果可以重新投票,则类似情形可以在每次取得结果前发生,这将导致共识过程永远无法完成。

FLP 原理实际上说明对于允许节点失效情况下,纯粹异步系统无法确保共识在有限时间内完成。即便对于非拜占庭错误的前提下,包括 Paxos、Raft 等算法也都存在无法达成共识的极端情况,只是在工程实践中这种情况出现的概率很小。

那么,这是否意味着研究共识算法压根没有意义?其实对于上面描述的例子应该是最坏的情况了,在现实应用中发生的概率是无限小的。毕竟在学术研究中,就要做到尽可能的严密,为的就是以防万一。实际应用中如果某次共识失败,再尝试几次,很大可能就成功了。

理论会告诉你什么是不可能的;现实中则告诉你,付出一些代价,可以把它变成可行。FLP 不可能原理告诉大家不必浪费时间去追求完美的共识方案,而要根据实际情况设计可行的工程方案。

你可能感兴趣的:(『学概念找员外』FLP 不可能原理)