比特币被称为加密货币crypto-currency。区块链上内容都是公开的,包括区块的地址,转账的金额。比特币主要用到了密码学中的两个功能: 1. 哈希 2.签名
密码学中用到的哈希函数被称为cryptographic hash function,它有两个重要的性质:
(1)collision(这里指哈希碰撞) resistance :例如x≠y H(x)=H(y) 两个不同的输入,输出却是相等的,这就称哈希碰撞。它是不可避免的,因为输入空间总大于输出空间。给出x,很难找到y,除非蛮力求解(brute-force)。
(2)hiding:哈希函数的计算过程是单向的,不可逆的。(从H(x)无法推导出x) hiding性质前提是输入空间足够大,分布比较均匀。如果不是足够大,一般在x后面拼接一个随机数,如H(x||nonce)。该性质的作用:和collision resistance(耐碰撞) 结合在一起,用来实现digital commitment(数字承诺)(又称为digital equivalent of a sealed envelope数字等效的密封信封)把预测结果作为输入x,算出一个哈希值,将哈希值公布,hiding让人们知道哈希值而不知道预测值,最后再将x公布,因为有collision resistance的性质,预测结果是不可篡改的。
除了密码学中要求的这两个性质外,比特币中用到的哈希函数还有第三个性质:
(3)puzzle friendly 指哈希值的预算事先是不可预测的。假如哈希值是00…0XX…X,一样事先无法知道哪个值更容易算出这个结果,还是要一个一个带入。
(1)在比特币系统中开账户:在本地创立一个公私钥匙对(public key ,private key),这就是一个账户。公私钥匙对是来自于非对称的加密技术(asymmetric encryption algorithm)。什么叫做非对称加密,先让我们来了解一下对称加密。两人之间信息的交流可以利用密钥(encryption key),A将信息加密后发给B,B收到后用密钥解密,因为加密和解密用的是同一个密钥,所以叫对称加密。前提是有渠道可以安全地把密钥分发给通讯的双方。因此对称加密的缺点就是密钥的分发不方便,因为在网络上很容易被窃听。非对称密钥是用一对密钥而不是一个,加密用公钥,解密用私钥,加密和解密用的都是接收方的公钥和私钥。公钥是不用保密的,私钥要保密但是私钥只要保存在本地就行,不用传给对方。公钥相当于银行账号,别人转账只要知道公钥就行,私钥相当于账户密码,知道私钥可以把账户上钱转走。公钥用来验证,私钥是用来签名。如下图:
注意:在比特币区块链中,私钥代表了对比特币的控制权。交易发起方用私钥对交易(包括转账金额何转账地址)签名,并将签名后的交易和公钥公布,各节点接收到交易后可以用公钥验证交易是否合法。在这个过程中,交易发起方无需暴露自己的私钥,从而实现保密目的。
(2)假如A想向B转10个比特币,A把交易放在区块链上,别人怎么知道这笔交易是A发起的呢?这就需要A要用自己的私钥给交易签名,其他人收到这笔交易后,要用A的公钥去验证签名。签名用私钥,验证用公钥,用的仍然是同一个人的。创建账户产生相同公私钥的可能性微乎其微,所以大量创建账户来窃取其他人账户是不可行的。
(3)我们假设产生公私钥时有一个好的随机源(a good source of randomness),产生公私钥是随机的,如果随机源不好,就有可能产生相同的公私钥。比特币中用的签名算法,不仅是生成公私钥的时候要有好的随机源,之后每一次签名时也要有好的随机源。只要有一次签名用的随机源不好的话,就有可能泄露私钥。
(1)普通指针存储的是某个结构体在内存中的地址。假如P是指向一结构体的指针,那么P里面存放的就是该结构体在内存中的起始位置。而哈希指针除了要存地址之外,还要保存该结构体的哈希值H()。好处是:从哈希值这个哈希指针,不仅可以找到该结构体的位置,同时还能够检测出该结构体的内容有没有被篡改,因为我们保存了它的哈希值。如下图:
(2)比特币中最基本的结构就是区块链,区块链就是一个一个区块组成的链表。那么区块链和普通的链表相比有什么区别:
(1)比特币中的另外一个结构是:Merkle tree,如下图。其中最下面一层是数据块(data blocks),上面三层内部节点都是哈希指针(hash pointers),第一层是根节点,根节点的区块也可以取个哈希,叫根哈希(root hash)。这里我们提一个另外一个概念:binary tree(二叉树),学过数据结构的人都知道,这里不做赘述。这种Merkle tree结构的好处:只要记住根哈希值,就能检测出对树中任何部位的修改。
注意:它们的区别:①用哈希指针代替了普通指针。
注:上图中TX为transaction(交易),H()为取哈希。
(2)比特币当中各区块之间用哈希指针连接在一起,每个区块所包含的交易组织成merkle tree的形式,最下面一行data blocks每个区块实际上是一个交易,每个区块分为两部分,分别是块头和块身(block header ,block body)。块头里面有根哈希值,每个区块所包含的所有交易组成的merkle tree的根哈希值存在于区块的块头里面,但是,块头里没有交易的具体内容,只有一个根哈希值,块身里面是有交易的列表的。
(3)merkle tree 的作用:①提供merkle proof ,比特币中的节点分为两类:全节点(保存整个区块的内容,即块头块身都有,有交易的具体信息)和轻节点(例如手机上的比特币钱包,只有块头)。这时存在一个问题:如何向一个轻节点证明某个交易是写入区块链的?
这时需要用到merkle proof :找到交易所在的位置(最底行的其中一个区块),这时该区块一直往上到根节点的路径就叫merkle proof。
实例如下图:最上面一行是小型的区块链,该图展现的是一个区块的merkle tree,最下面一行是包含的交易。假设某个轻节点想知道图中黄色的交易,是否包含在了merkle tree里面。该轻节点没有包含交易列表,没有这颗merkle tree的具体内容,只有一个根哈希值。这时轻节点向一个全节点发出请求,请求证明黄色的交易被包含在这颗merkle tree里面的merkle proof。全节点收到这个请求之后,只需要将图中标为红色的这三个哈希值发给轻节点即可。有了这些哈希值之后,轻节点可以在本地计算出图中标为绿色三个哈希值。首先算出黄色交易的哈希值,即它正上方的那个绿的哈希值,然后跟旁边红色的哈希值拼接起来,可以算出上层节点绿色的哈希值。然后再拼接,再算出上层绿色哈希值,再拼接,就可以算出整棵树的根哈希值。轻节点把这个根哈希值和block header里的根哈希值比较一下,就能知道黄色的交易是否在这颗merkle tree里。
全节点在merkle proof里提供的这几个哈希值,就是从黄色的交易所在的节点的位置到树根的路径上用到的这些哈希值。轻节点收到这样一个merkle proof之后,只要从下往上验证,沿途的哈希值都是正确的即可。(验证时只能验证该路径的哈希值,其他路径是验证不了的,即该图中红色的哈希值是验证不了的)
(4)这样是否不安全呢?假如黄色交易被篡改,它的哈希值发生了变化,那能不能调整旁边红色的哈希值,使得它们拼接起来的哈希值是不变的呢?
(5)如何证明merkle tree里面没有包含某个交易?即proof of non-membership。
可以把整棵树传给轻节点,轻节点收到后验证树的构造都是对的,每一层用到的哈希值都是正确的,说明树里只有这些叶节点,要找的交易不在里面,就证明了proof of non-membership。问题在于,它的复杂度是线性的θ(n),是比较笨的方法。
如果对叶节点的排列顺序做一些要求,比如按照交易的哈希值排序。每一个叶节点都是一次交易,对交易的内容取一次哈希,按照哈希值从小到大排列。要查的交易先算出一个哈希值,看看如果它在里面该是哪个位置。比如说在第三个第四个之间,这时提供的proof是第三个第四个叶节点都要往上到根节点。如果其中哈希值都是正确的,最后根节点算出的哈希值也是没有被改过的,说明第三、四个节点在原来的merkle tree里面,确实是相邻的点。要找的交易如果存在的话,应该在这两个节点中间。但是它没有出现,所以就不存在。其复杂度也是log形式,代价是要排序。排好序的叫作sorted merkle tree。比特币中没有用到这种排好序的merkle tree,因为比特币中不需要做不存在证明。
(6)小结:这节讲了比特币中两种最基本的结构:区块链和merkle tree,都是用哈希指针来构造的。除了这两种之外,哈希指针还能用于另一个方面。只要一个数据结构是无环的(非循环链表),都能用哈希指针代替普通指针。有环的话存在一个问题,他们的哈希值没法计算,没法确定一个哈希值固定的区块。
(1)首先我们引入一个问题,央行CB如何发行数字货币?
方案一:asymmetric encryption algorithm(非对称加密算法),央行发行一张货币如下,发行的货币都有央行的私钥签名,央行的公钥是公开的,任何人都可以通过公钥来认证数字货币的真伪。
方案二:在方案一的基础上,加一张表,记录每一张货币目前在谁手中,在交易前验证这张数字货币是否是支付者的。这种方式是中心化的,每次交易都要经过央行验证。所谓去中心化,即将这种验证的职责,从由央行承担改为由大众来承担。
(2)由上面分析我们可以知道,数字货币和纸质货币区别是,数字货币可以复制并且被多次花费,叫作双花攻击 即double spending attack。那么去中心化货币要解决两个问题:①数字货币的发行②怎么验证交易的有效性,防止double spending attack。回答如下:
比特币的发行者A拥有铸币权(createcoin) 假如发行10个比特币 A(10)分别给B和C各五个B(5)C(5) 该交易需要有A的签名,证明经A同意(Signed by A)。同时还要说明花掉的10个比特币从哪来的。图中第二个方框中的钱是从第一个框内铸币交易中来的。
比特币系统中每个交易都包含输入(input)和输出(output)两部分。输入部分要说明币的来源以及支付者公钥,输出部分要给出收款人公钥的哈希。有的交易部分比较复杂,如C的货币来源是第二个框和第三个方框,要标识清楚。
上图就构成了一个小型的区块链,这里有两种哈希指针,一种哈希指针是连接在各个区块之间的,把它们串起来构成一个链表,前面学的就是这种哈希指针。而在该图中还有第二种哈希指针,是指向前面某个交易的指针,用来指明币的来源。为什么要说明币的来源:证明币不是凭空捏造的是有记录的,同时也是防范double spending。
现在来看第二个方框里A向B的转账,该交易需要A的签名和B的地址。比特币系统里收款的地址是通过公钥推算出来的。比如B的地址就是B的公钥取哈希然后经过一些转换得到的。
关于上图的一些问题
①A如何知道B的地址?
----比特币系统中没有查询对方地址的功能,必须通过其他渠道。比如某个电商网站,接受比特币支付,就可以公开它的地址或公钥。
②A需要知道B的地址,B需要知道A的什么信息吗?
----B其实也要知道A的公钥,这代表A的身份。不仅是B,所有节点都需要知道A的公钥。而签名是用私钥签名,公钥验证(注意不要跟前面知识弄混了,加密是用接收人的公钥加密私钥解密),所以区块链上每个节点都要独立验证。
③那如何才能知道A的公钥?
----实际上交易里就包含了。输入时不仅要输入币的来源,还要输入公钥。那就存在了安全漏洞,假如B的同伙伪造了这次交易呢?其实第一个方框里铸币交易的输出就有A的公钥的哈希,所以第二个方框交易里A的公钥要跟前面哈希对的上。
④如果有个B’宣称自己是A,使用A的公钥发起交易,如何防范?
----前面我们讲到了,比特币系统中每个交易都包含输入(input)和输出(output)两部分。输入部分要说明币的来源以及支付者公钥,输出部分是要给出收款人公钥的哈希,即第一个框中A的铸币交易(coinbase tx)输出有A公钥的哈希,如果B’发起转账交易,那么交易中使用的A的公钥要和前面A的公钥的哈希要对的上,否则就说明这比交易非法。
在比特币系统当中,前面这些验证过程,是通过执行脚本来实现的。每个交易的输入是一段脚本,包括给出公钥的过程,公钥也是在输入的脚本里指定的。每个交易的输出也是一段脚本,验证其的合法性,就需要把当前交易的输入脚本跟前面交易(提供币来源的交易)的输出脚本拼在一起,然后看看能不能顺利执行,如果能执行说明是合法的。比特币脚本(BitCoin Script),后面详细说明。
该图对交易系统进行了简化,实际上每个区块(对应图中的每个方框)可以有很多交易,这些交易就组成merkle tree。每个区块分为块头和块身。块头包含的是区块的宏观信息,比如:用的是比特币哪个版本(version)的协议,区块链当中指向前一个区块的指针(hash of previous block header),整颗merkle tree 的根哈希值(merkle root hash),还有两个域是跟挖矿相关的,一个是挖矿的难度目标预值(target),另一个是随机数nonce。这里的target,就是前面讲到的,整个块头的哈希要小于这个预值,即H(block header)≤target。block header里存的就是这个目标预值的编码(nBits)。这里需要注意,前一个区块的哈希只算的是前一个区块的块头,所以前面画的,一个区块引出一个箭头指向另一个区块中间,是不正确的,所以有的书箭头是指向前一个区块的上面。取哈希时是把块头的所有部分都取哈希,这是因为只有block header才有哈希指针篡改权。如下图,其中块身(block body)里面有交易列表(transaction list),块头中的Merkel root hash就已经能够保证block body里面的transaction list不被篡改。
(3)前面我们提到,每个节点都需要验证所有的交易,实际上系统中的节点分全节点(full node)和轻节点(light node),全节点是保存区块链所有的信息的,验证每一个交易,所以全节点又叫fully validating node。轻节点只保存block header的信息,一般来说轻节点没法独立验证交易的合法性。
区块链里的内容是如何写到区块链里面的呢?
下面的内容是有关分布式的,帮助更好理解区块链。
①分布式的共识一个简单的例子就是分布式的哈希表(distributed hash table),比如系统里有很多台机器,共同维护一个全局的哈希表。
- 这里需要取得共识的内容是什么?
哈希表中包含了哪些键值对(key valve pair)。假如有人在自己电脑上插入一个键值对,'xiao’这个pair对应的是12345,即’xiao’→12345。那么别人在另一台读的时候也要能把这个读出来,这就叫一个全局的哈希表。
②关于分布式系统有很多不可能结论(impossibility result),其中最著名的是FLP。这三个字母是三个专家的名字缩写,他们的结论是:在一个异步的(asynchronous)系统里,(网络传输迟延没有上限就叫异步系统),即使只有一个成员是有问题的(faulty),也不可能取得共识。
③还有一个著名结论:CAP Theorem。(CAP是指分布式系统的三个我们想要的性质,Consistency【系统状态的一致性】 Availability【别人都可以用】 Partition tolerance【分区容错性】)。该理论内容是:任何一个分布式系统,比如分布式哈希表,这三个性质中,最多只能满足两个,假如想要前两个性质,那么就不会得到第三个性质。
④分布式共识一个著名的协议是Paxos,该协议能够保证一致性,即第一个性质。如果该协议打成了共识,那么这个共识一定是一致的,即每个成员所认为的共识都是相同的。但是,某些情况下,该协议可能永远无法达成共识,这种可能性比较小但是客观存在的。
比特币中的共识协议(consensus in BitCoin):比特币中共识要解决的一个问题是,有些节点可能是有恶意的。我们假设系统中大多数节点是好的,那么该如何设计一个共识协议?
(1)第一种方案是投票,首先应该确定哪些区块有投票权,有些membership是有严格要求的,这种情况下基于投票的方案是可行的。但比特币系统创建账户是很容易的,甚至一个人产生了公私钥对别人都无法得知,只有转账时别人才知道。所以有些人可以不停的创建账户,当超过账户总数的一半时就有了控制权,这种称为女巫攻击(sybil attack)。因此简单的直接投票方法不可取。
(2)比特币账户巧妙的解决了这个问题,不是按照账户数目投票,而是按照计算力来投票。每个节点都可以在本地组装出一个候选区块,把它认为合法的交易放在里面,然后开始尝试各种nonce值(占4 byte),看哪一个能满足不等式H(block header)≤target的要求。如果某个节点找到了符合要求的nonce,它就获得了记账权。
(3)假如生成了一个新区块,怎么知道新区块插在了哪里呢?
根据前一个区块的指针便可知,可根据hash of prev block header。有可能就存在一个问题,如下图,这两个交易指A转账给B,以及A转账给自己。这种情况不是double spending,判断一个交易是不是double spending ,是看从当前区块到币的来源之间,中间这些区块有没有花过这些币。如图,从1号区块到3号和3’区块,币都没有花过,所以这个交易是合法的。虽然该交易是合法的,但是它不在最长合法链(longest valid chain)上。这种称为分叉攻击(forking attack)。所以接收的区块应该是扩展最长合法链。
(4)区块链在正常情况下也可能出现分岔:两个节点同时获得记账权。每个节点在本地自己组装一个它认为合适的区块,然后去试各种nonce,如果两个节点在差不多同一个时间找到了符合要求的nonce,就都可以把区块发布,这时会出现两个等长的分岔。这两条都是最长合法链,那该接受那条呢?比特币协议当中,在缺省(默认的意思)情况下,每个节点是接受它最早收到的那个。所以不同节点根据在网络上的位置不同,有的节点先听到新生成的其中一个区块,那就接受这个区块;有些节点先听到另一个区块,那就接受另一个区块。
(5)如何判断接收了一个区块?
比特币协议中用到了implicit consign,如果沿着这个区块往下继续扩展,就算认可了这个发布的区块。比如在新生成的其中一个区块后面又拓展一个区块,表明就认可了这个新区块。区块链会出现分叉,等长的临时性的分岔会维持一段时间,直到一个分岔胜出。也就是哪一个链抢先一步生成了新的区块,哪一条就是最长合法链。另一个作废的就叫orphan block。这两个新区块有可能会各自拉拢,两个区块链看谁的算力强,有时候也是看谁的运气好,就会胜出。
(6)竞争记账权的好处:首先获得记账权的节点本身有一定的权力,可以决定哪些交易写到下一个区块里。但这些不应该被设定为竞争记账权的动力,所以巧妙地建立了一个机制:出块奖励(block reward)。比特币协议中规定获得记账权的节点在发布的区块里可以有一个特殊的交易:铸币交易。在这个交易里可以发布一定数量的比特币。
这里要回到前面的问题,谁来决定货币的发行?
coinbase transaction铸币交易是比特币系统中发行新的比特币的唯一方法,后面的交易都是比特币的转移。这个交易不用指出币的来源。
那么能造多少币呢?
开始时比特币刚上线的时候,每一个发布的区块可以产生50BTC(BTC就是比特币的符号)。协议中规定,21万个区块以后,初块奖励就要减半,就变成了25BTC。再过21万个区块,又要减半。
如果出现了分叉,因此当一个区块胜出后,另一个作废的区块(orphan block)得到的出块奖励是没有作用的,大多数诚实的结点是不会承认的。
(7)本章小结: