IPFS数据结构Merkle DAG

本文的提纲:

一、Hash(哈希)

二、Hash List(哈希列表)

三、Merkle Tree(默克尔树)

四、Merkle DAG(Merkle directed acyclic graph,默克尔有向无环图)

 

一、Hash(哈希)

Hash是一个函数,它把任意长度的数据作为输入,映射成固定长度的输出。例如,对于数据完整性校验,最简单的方法是对整个数据做Hash运算得到固定长度的Hash值,然后把得到的Hash值公布在网上,这样用户下载到数据之后,对数据再次进行Hash运算,比较运算结果和网上公布的Hash值进行比较,如果两个Hash值相等,说明下载的数据没有损坏。之所以可以这样做,是因为哈希函数的两个重要特征:一是输入数据的微小改变就会引起Hash运算结果的重大改变,二是根据Hash输出反推原始输入数据是非常困难的。

二、Hash List(哈希列表)

在点对点网络中作数据传输的时候,会同时从多个机器上下载数据,而且很多机器可以认为是不稳定或者不可信的。为了校验数据的完整性,更好的办法是把大的文件分割成小的数据块(例如,把分割成256K为单位的数据块)。这样的好处是,如果小块数据在传输过程中损坏了,那么只要重新下载这一快数据就行了,不用重新下载整个文件。

怎么确定小的数据块没有损坏呢?只需要为每个数据块做Hash。BT下载的时候,在下载到真正的完整数据之前,我们会先下载一个Hash列表。那么问题又来了,怎么确定这个Hash列表本身是正确的哪?答案是把每个小块数据的Hash值拼到一起,然后对这个长字符串再作一次Hash运算,这样就得到Hash列表的根Hash(Top Hash or Root Hash)。下载数据的时候,首先从可信的数据源得到正确的根Hash,就可以用它来校验Hash列表了,然后通过校验后的Hash列表校验数据块。下图的第一行和第二行就组成了一个Hash List。

IPFS数据结构Merkle DAG_第1张图片

三、Merkle Tree(默克尔树)

Merkle tree是由美国计算机学家merkle于1979年申请的专利,可以看做Hash List的泛化(Hash List可以看作一种特殊的Merkle Tree,即树高为2的多叉Merkle Tree)。

IPFS数据结构Merkle DAG_第2张图片

在最底层,和哈希列表一样,我们把数据分成小的数据块,有相应地哈希和它对应。但是往上走,并不是直接去运算根哈希,而是把相邻的两个哈希合并成一个字符串,然后运算这个字符串的哈希,这样每两个哈希就结婚生子,得到了一个”子哈希“。如果最底层的哈希总数是单数,那到最后必然出现一个单身哈希,这种情况就直接对它进行哈希运算,所以也能得到它的子哈希。于是往上推,依然是一样的方式,可以得到数目更少的新一级哈希,最终必然形成一棵倒挂的树,到了树根的这个位置,这一代就剩下一个根哈希了,我们把它叫做 Merkle Root。

在p2p网络下载资料之前,先从可信的源获得文件的Merkle Tree树根。一旦获得了树根,就可以从其他从不可信的源获取Merkle tree。通过可信的树根来检查接受到的Merkle Tree。如果Merkle Tree是损坏的或者虚假的,就从其他源获得另一个Merkle Tree,直到获得一个与可信树根匹配的Merkle Tree。

Merkle Tree和Hash List的主要区别是,可以直接下载并立即验证Merkle Tree的一个分支。因为可以将文件切分成小的数据块,这样如果有一块数据损坏,仅仅重新下载这个数据块就行了。如果文件非常大,那么Merkle tree和Hash list都很大,但是Merkle tree可以一次下载一个分支,然后立即验证这个分支,如果分支验证通过,就可以下载数据了。而Hash list只有等下载完整个hash list后才能验证。

 

四、Merkle DAG(Merkle directed acyclic graph,默克尔有向无环图)

Merkle DAG是ipfs开发团队在Merkle tree的基础上构建的,是ipfs中的一种数据结构。它跟Merkle tree很相似,但不完全一样,比如:第一,Merkle DAG不需要进行树的平衡操作,DAG可以存在单身节点;第二,非叶子节点允许包含数据,有时候小数据直接存在非叶子节点上。

DAG的格式如下:

type IPFSLink struct {
  Name string             // link 的名字
  Hash Multihash        // 数据的加密哈希
  Size int                    // 数据大小
}

type IPFSObject struct {
  links []IPFSLink             // link数组
  data []byte        // 数据内容
}

这样的话,允许开发者可以完全控制对象的数据字段,也就是说应用可以随意定义自己的data类型和结构,理论上来说,任何一种数据结构都是可以的,比如我们的以太坊等其他公链数据,此处非常具有想象空间。。。

我们可以用ipfs object命令操作DAG对象,具体可以看https://zhuanlan.zhihu.com/p/37742782

你可能感兴趣的:(ipfs,区块链)