IPFS协议层深入分析4 —Kademlia路由树的生成过程

首先k-buckets路由信息是以二叉树的形式存储的，二叉树的生成是动态的，根据发现的节点的ID来动态调整二叉树的数据结构。下面以空的二叉树，节点编号为0000为例，讲解这个动态生成过程。

情况1，当最新发现的第一个节点的ID编号的第一个比特位是1开头，那么就生成2个k-buckets,一个存储以第一位为1的节点id的信息。另一个以0为第一位的ID，这个k-bucket覆盖的ID的空间包含了当前的节点0000。

情况2，当最新发现的第一个节点的ID的编号，第一个比特位为0，与当前节点的ID的编号0000的第一个比特位相同，第二个比特位为1，与当前的节点ID比特位的第二个值不同，那么生成2个k-bucket,他们分表表示00开头和01开头的ID信息。

以上以简单的2个例子来说明，这个二叉树在生成的过程中，主要判断新加入的节点与当前节点编号，从第几位开始不同，如果新加入的节点的ID与覆盖当前节点ID的k-bucket在一个范围内，则将当前节点ID所在的区域拆分成2个k-bucket，然后分别按照原来的规矩加入到新的k-bucket的组内。如果新增加的节点的ID与当前节点的ID所处的k-bucket空间不同，那么根据二叉树寻找属于自己的k-bucket，如果队列已经满，则按照之前的逻辑加入或者舍弃。

上图给出了简单的，按照一定顺序，分别加入3个节点时，二叉树的动态生成过程，其中斜线的k-bucket表示本节点ID不在的ID空间，网格的k-bucket表示的是本节点ID所处的ID空间，如果新节点的ID在加入之前与当前ID所处的ID空间重合了，则分裂本节点的ID空间为2个叶节点。

如果在一个网络中，所有的节点的ID都是以001开始的，此时如果加入000这个节点，那么其二叉树的原有结构，如果按照原来的逻辑应该舍弃掉，因为他很可能超过k-bucket中，每个分组节点总数不能超过K个的设计原则，如上图中，对于节点0000来说，红色方框内的节点应该是一个k-bucket统一来表示，并且应该舍弃掉几个节点以满足一个bucket不能超过k个节点的限制，但是这样会导致路由信息的丢失。为了解决这个问题，kademlia在设计中，将原来的，先与新节点生成的二叉树结构直接接入到了新的二叉树中，这样可以保留在新节点加入之前的路由结构。

为了保证key-value这些数据存储的有效性和长期性，节点需要定期的广播key的信息，因为如果不定期更新这些信息，那么当接受key-value的节点存储信息之后，节点下线，或者新的节点上线并且其ID值与数据发布者之间的距离比当前的K个节点还近，但是他没有该数据的信息，以上两种情况可能会导致查找数据失败。

为了解决这个问题，可以采用一种比较愚蠢的方案，就是每间隔1小时，关于该数据的存储的K个节点都执行一下查找指令，以便从其他的k-1个节点中得到最新的在线状态，这是个巨大的消息消耗。以此简单的模型，进行深度的优化，可以使得这个过程消耗变小很多。当一个节点收到查找指令之后，默认的认为其他k-1个节点也收到了同样的指令，这样收到指令的节点更新一下自己的时间，重新开始计时，以便在下一个小时，没有收到查找指令的情况下，自己主动发出查找指令，这样实际上在同一个小时内，关于某一数据对的查找指令，只有一个节点在发出。这样大大缓解了系统的消息数量。

另一个机制是，当k-bucket在分裂的时候，需要重新整理和更新关于某个ID值的最近k个节点的路由信息，这个过程一定程度上缓解了定时查找的指令压力。

IPFS协议层深入分析4 —Kademlia路由树的生成过程

你可能感兴趣的:(IPFS协议层深入分析4 —Kademlia路由树的生成过程)