容错性是一个非常重要的概念,比如说disk里的东西丢了有没有什么办法恢复呢?有几种办法。 比如说同样的数据存在好几个disk里,虽然有点浪费,但是起码保证可以恢复。
只靠RAID 并不一定就能保护所有的突发情况。比如说如果有人write a bad write, 这样直接就备份了不好的东西。
这边又回到了database里的概念。 比如说用Lock,来保证谁先谁后。用2PL 来保证可以Roll Back...用Log, undo, redo来处理crash.
分布式系统有好多机器一起处理东西。
用分布式系统的好处是: 蛮简单造一大堆simple computers。
Flow Control: 为了处理发信息的人频率太快,收信息的收不了那么快。加一个Buffer在receiver, 还没来得及收的信息先存buffer里。
General's Paradox, 红色的为将军们, 中间蓝色的为敌人。 两个将军可以传信,但是有可能被中间的敌人拦截。 如果两个将军没能同时攻击敌人,俩都死。 如果能够默契的同时进攻,将军获胜。
问题: 在一个不可信赖的网络中,传输的信息能够保证两方同时做一件什么事情吗?答案:不行。即便信息成功的发送。
Two Phase Commit [不是2PL哦]
有一个log 来跟踪commit 发生没有。如果一个机器炸了,当他重新启动的时候,他会先check log to recover state of world at time of crash.
Prepare Phase:
全局coordinator 要求所有的参与者保证要么commit,要么rollback。当一个人投票说abort, 全局coordinator 写'abort'进log, 然后告诉大家都abort吧。每个人的log里这时候都会写一个"Abort".
Commit Phase:
当所有人都说准备好啦,coordinator 将"Commit"写入log。 然后告诉大家可以commit了。 所有人恢复一个ACK。 当coordinator 收到ACKs,代表所有人表示收到了叫他们可以commit的信息了,这时候coordinator 写"got commit" to Log.
Coordinator在等待回复的时候,等固定的多少时间,到时间没收到全员的信息,send "Global-Abort".
每一个distributed nodes 使用stable Storage 来保存current state。A working在等待Global decision的时候,可以问问身边的同学他们处在什么state。如果旁边的人爆炸了, 或者commit了。那么久表示coordinator肯定发了一个Global message,只是自己没收到。这个时候跟着旁边哥们爆炸或者commit就好了。
Blocking问题:如果其他所有worker都处于ready 状态,但是这个人自己是处于waiting for global decision的状态。那么会Block, 因为不知道其他人的ready是等着爆炸还是等着commit。
Paxos 不会有Blocking的问题。
RPC:
Paxos: 摘自知乎大神 GRAYLAMB
reference: http://blog.brucefeng.info/post/what-is-rpc
ZooKeeper 参考文章:http://cailin.iteye.com/blog/2014486/
Paxors: http://blog.csdn.net/chdhust/article/details/50539545 这篇最好!
https://www.quora.com/Distributed-Systems-What-is-a-simple-explanation-of-the-Paxos-algorithm Quora上这篇也不错
数据库到底是要异步还是强行同步
我粗浅的理解是,为了解决数据备份的瞬时性,采用分布式Paxos。 当大部分节点同意这个node的值应该是这样,代表少数node可能miss存了updated 的值。所以最后还是全体update成新的value。
2PC解决此类问题的不足。node只能同意或者否决另一个node propose的东西,如果他自己想要建议一个别的solution,得重新发起一个2PC。
3PC的不足:
Paxos:
跟2PC最大的不同在于,Paxos不需要所有node都同意才ok。只要多数派同意,proposal 就通过。
当然,Leader Node自己也可能会fail。所以Paxos 不是Single Leader制度。 每秒钟都可能有node抢着当Leader。