以太坊中的Merkle Patricia Tree(3):源码分析

Merkle Patricia Trie是完全确定性的,这意味着具有相同(键,值)绑定的Patricia trie具有相同的根hash,具有O(log(n) )插入查找和删除的效率,而且比基于比较的查找方法如红黑树更容易理解和编码。

1 基本的radix trie

基本的radix trie像下面这样(节点类型只有一种:分支节点):

[i0, i1 ... in, value]  //前面存放索引, 后面存放value(可选)

比如key='dog', 转换为16进制是64 6f 67。
在底层key/value数据库中,先找到根节点hash, 根节点就是一个其他节点hash的list, 然后在list的索引=6取出i5,是下一级节点的hash值, 在底层数据库中根据该hash值找到该节点的list, 这样一级一级往下找,最后找到对应的value.

root → 6 → 4 → 6 → 15 → 6 → 7

这个和底层扁平数据库查询不一样, 扁平数据库对key查找一次就行,在trie中要在底层数据库中查找多次才能找到value, 为了消除歧义,让我们将后者称为 **路径**

代码实现大致如下:

# node: 节点数据
# path/value 数据对
def update(node,path,value): #插入一个空path, 表示新建一个trie树
 if path == '': 
    #新建扩展节点或者使用传入的节点数据
   curnode = db.get(node) if node else [ NULL ] * 17 
   newnode = curnode.copy()
   newnode[-1] = value #保存该path的value
 else: # path非空
    #新建扩展节点或者使用传入的节点数据
   curnode = db.get(node) if node else [ NULL ] * 17
   newnode = curnode.copy()
  #创建下一级节点
   newindex = update(curnode[path[0]],path[1:],value)
   newnode[path[0]] = newindex
   db.put(hash(newnode),newnode)
 return hash(newnode)

def delete(node,path):
 if node is NULL:
   return NULL
 else:
   curnode = db.get(node)
   newnode = curnode.copy()
 if path == '':
   newnode[-1] = NULL
 else: 
   newindex = delete(curnode[path[0]],path[1:])
   newnode[path[0]] = newindex

 if len(filter(x -> x is not NULL, newnode)) == 0:
   return NULL
 else:
   db.put(hash(newnode),newnode)
 return hash(newnode)

可见上述代码没有考虑数据存储空间和查找性能, Patricia Trie是压缩trie树, 更适合工程上使用.

2 radix trie结合merkle

merkle出现在: 指向下一级节点的指针是使用 节点的确定性加密hash ** ** (对于key/value型数据库,每次查询 key == sha3(rlp(value)) , 而不是传统意义上下一级节点地址的指针(C语言实现)。
这为数据结构提供了一种密码认证;
如果给定的trie的根哈希是公开的,则任何人都可以 通过给出给定path上的所有节点, 来证明在给定path上存在一个给定值 ,对于攻击者,不可能提供一个不存在的(path,value)对的证明, 因为根哈希最终基于它下面的所有哈希,所以任何修改都会改变根哈希。

在如上所述一次遍历一个半字节的path中,大多数节点是包含17个元素的数组。 前16个索引代表path中的下一个十六进制字符(半字节)所保持的每个可能值,以及在路径已经完全遍历的情况下保存的最终目标值。 这17个元素的数组节点被称为 分支节点 ** ** 。

3 Merkle Trie 结合Patricia

radix tries 从查找性能和空间占用方面效率都比较低, Patricia 树通过扩展节点解决该问题.

扩展节点的形式是 [ encodedPath, key ] , encodepath是压缩路径编码, 通过第一个半字节标识和叶子结点进行区分.

当以半字节遍历路径时,我们可能会以 奇数 个半字节来遍历,但是因为所有的数据都是以 字节格式 存储的,所以不可能区分例如 半字节1和半字节01 (都是 必须保存为<01>)。 要指定奇数长度,部分路径前面加上一个 标志 。如下:

以太坊中的Merkle Patricia Tree(3):源码分析_第1张图片
image

odd是奇数长度, 不需要附加一个0, even是偶数长度,需要附加一个0

def compact_encode(hexarray):
  term = 1 if hexarray[-1] == 16 else 0 # 16表示结束符
  if term: hexarray = hexarray[:-1] # 将结束符去掉
     oddlen = len(hexarray) % 2 # 计算是否是奇数长度
     flags = 2 * term + oddlen # 奇数长度带16=>3 不带16=>1 偶数长度带16=>2 不带16=>0
  if oddlen: # 奇数长度 
     hexarray = [flags] + hexarray
  else: #偶数长度需要补0
     hexarray = [flags] + [0] + hexarray
 # hexarray 现在有一个奇数长度, 第一个 nibble 是 flags.
 o = ''
 for i in range(0,len(hexarray),2):
     o += chr(16 * hexarray[i] + hexarray[i+1])
 return o

> [ 1, 2, 3, 4, 5, ...]
'11 23 45'
> [ 0, 1, 2, 3, 4, 5, ...]
'00 01 23 45'
> [ 0, f, 1, c, b, 8, 16]
'20 0f 1c b8'
> [ f, 1, c, b, 8, 16]
'3f 1c b8'

Merkle Patricia trie中获取节点的代码(待验证):

# path格式是半字节的list
# node是节点数据的hash值
def get_helper(node,path):
   if path == []: return node
   if node = '': return ''
     curnode = rlp.decode(node if len(node) < 32 else db.get(node))
   if len(curnode) == 2: # 表示是叶子节点或扩展节点
     (k2, v2) = curnode
     k2 = compact_decode(k2) #将半子节数据组装为字节,并加上flag,去掉16
  if k2 == path[:len(k2)]: # curnode是扩展节点
     return get(v2, path[len(k2):]) # 去掉部分路径
   else:
     return ''
   elif len(curnode) == 17: # 表示是分支节点
 return get_helper(curnode[path[0]],path[1:])

# path是正常key的字符串
def get(node,path):
   path2 = []
   for i in range(len(path)):
     path2.push(int(ord(path[i]) / 16)) # 压入前半个字节
     path2.push(ord(path[i]) % 16) # 压入后半个字节
     path2.push(16) # 再压入结束符16, 表示是叶子节点
 return get_helper(node,path2) # 格式如: [ f, 1, c, b, 8, 16]

4 例子

4个path/value pairs :

('do', 'verb'), 
('dog', 'puppy'),
('doge', 'coin'),
('horse', 'stallion') .

将path和value转换为bytes类型,<>表示bytes, value实际上还是也是,方便理解还是写成字符串:

<64 6f> : 'verb' <64 6f 67> : 'puppy' <64 6f 67 65> : 'coin' <68 6f 72 73 65> : 'stallion'

在底层数据库中存储的key/value对: 一个trie树


以太坊中的Merkle Patricia Tree(3):源码分析_第2张图片
image

一个节点被另一个节点引用时, 引用方式是H(rlp.encode(x)), 其中 H(n) = sha3(n) if len(n) ≥ 32 else n ; rlp.encode表示rlp编码

上述:

  1. 根节点中<16>: 1表示扩展奇数节点, 6表示公共的key
  2. hashA是分支节点: hashB和hashC的位置表示key=4, key=8
  3. hashC中: 20表示叶子偶数节点,6f 72 73 65表示剩余的key
  4. hashD是分支节点: 'verb'表示上一级扩展节点的value

6 以太坊block中的默克尔-帕特里夏树

有3种类型的树:

  1. 状态树 stateRoot

是全局的树

path = sha3(ethereumAddress) 以太坊账户地址

value = rlp([nonce,balance,storageRoot,codeHash]) 交易次数, 账户余额,存储树,合约代码hash

其中storageRoot是另一个trie树,存储合约的所有数据,每个账户都有各自的树独立存储

  1. 交易树 transactionsRoot

每个block都有一个交易树

path = rlp(transactionIndex) 该交易在block中的索引, 顺序由矿工决定

value = 交易记录

该树生成后永远不会被修改

  1. 凭证树 receiptsRoot

同上

你可能感兴趣的:(以太坊中的Merkle Patricia Tree(3):源码分析)