区块链快速入门


版权声明:可以转载,但请备注原文链接:shuwoom.com/?p=403!

关键字:区块链、比特币、共识算法、P2P、密码学、公有链、挖矿

一、区块链是什么

区块链是一种在对等网络环境下,通过透明和可信规则,构建不可伪造、不可篡改和可追溯的块链式数据结构,实现和管理事务处理的模式[1]。这是一个比较正式的定义,简单的理解就是它是一个特殊的分布式数据库,通过在区块链网络上的共识算法,每个节点共享数据,保证了区块链的一致性以及安全性。

区块链技术经历了如下的发展:

(1)区块链1.0

以比特币为代表的加密货币。

(2)区块链2.0

以智能合约为依托的以太坊作为典型代表,也就是可编程区块链。

(3)区块链3.0

到目前为止,区块链3.0还是有争议的,又说是DAG技术,也有说是超越货币和金融范围的其他应用。

对于这些区块链技术,可以用下图的架构模型抽象表示,自底向上分为数据层、网络层、共识层、激励层、合约层和最后的应用层[2]。


二、区块链技术出现的背景

任何事物的发展,都是有来龙去脉的,不会一蹴而就,那么区块链技术它是在一个怎样的背景下诞生的呢。这就不得不从我们所熟知的一个事物说起-货币。

货币是人们为了提高交易效益,对一种媒介达成的共识,它是用做交易媒介、储藏价值和记账单位的一种工具。它的形式从古代的贝壳、粮食、铜钱发展到近代的金属(黄金、白银)、纸币,以及现在的数字加密货币(比特币、以太币等)[3]。

而如今,印发这些货币的机构就是每个国家的央行,他们印发货币的数量会根据自己国家经济的发展情况来进行调节,经济过热就会减少货币的印发,让市面上流通的货币减少来给经济降热,而如果经济发展出现萎靡、通缩,那央行就会启动印钞机大量印发货币,提高市面上流通的货币来提振国家的经济。

而货币的发展也从早期的金本位发展到现在的信用本位。金本位就是说,国家的货币跟黄金是挂钩的。而由于黄金的数量有限,这在一定程度上限制货币的发行数量,也就不会出现通胀的局面,然而这也在一定程度上不利于经济的发展,因为市面上流通的货币少了。于是,各国逐步废除金本位,取而代之的是以政府、国家信用背书的纸币,从此世界也就进入了信用本位的时代。我们现在看到的各国货币的价值高低,很重要的一个原因就是跟该国强弱、信用相关的。像津巴布韦这种弱国,货币就很不值钱,而像美国、英国等这些强国,货币就值钱多了,大家用的也放心。

而信用本位同时也赋予了各个国家央行一个很大的权利,也就是印发钞票,因为不用再跟黄金等额挂钩了,那么需要印多少钞票,完全就根据自己的需求来进行。而且,很多国家的央行发现,大量印发钞票,对解决通货紧缩、应对金融危机、刺激经济发展很有效。这也就让很多国家越来越依赖于通过印发大量钞票来解决各种经济问题,最终也就导致通货膨胀,出现诸如物价上涨、工资缩水、财富缩水的情况。如下图,从中国2000年到2017发行的货币趋势可以看到,国家印发货币的总量是越来越高的。

而在2008年爆发的金融危机后,美国政府依然向华尔街等金融公司注入大笔资金,美联储也推出”量化宽松”的政策,也就是大量印发美钞刺激经济。 当时政府和银行管理经济的能力遭到各方质疑,信用降入谷底。而在同一年10月31日,中本聪在密码学邮件组列表中发布了比特币白皮书:《比特币:一种点对点的现金支付系统》[3],而在第二年也就是2009年1月3日,中本聪发布开源了第一版本比特币客户端,从此比特币网络就诞生了。而比特币这种数字加密货币从诞生起就设定了其发行货币的总量为2100万枚,不会出现滥印发货币的现象。而比特币网络中的挖矿机制也充当了央行发行货币的角色,如今比特币网络每10分钟生成一个区块,同时产生相应数额的比特币。

比较有意思的是,在比特币网络的第一个区块,也就是创世区块,中本聪把当天一条颇具讽刺意义的报道永久记录在区块里:“The Times 03/Jan/2009 Chancellor on brink of second bailout for banks.”,这句话正是泰晤士报当天的头版文章报道。当时正是英国的财政大臣达林被迫考虑第二次出手纾解银行危机的时刻。中本聪引用这句话,即是对区块产生时间的说明,又是对当时金融危急中旧有脆弱银行系统的嘲讽,同时也可能是对自身身份的隐藏。

中本聪发表比特币白皮书,正是区块链技术和加密数字货币发明的基础。而在随后的发展中,越来越多人开始重视比特币的底层区块链技术。区块链也作为一种革命性的技术吸引越来越多人的注意,基于区块链的应用创新也越来越多。到目前为止,除了比特币以外,并没有见到区块链一个很好的落地应用。


三、区块链的优缺点

1.优点:

(1)分布式的去中心化

目前我们看到的绝大部分网络应用都是中心化网络,而这种过于集中的中心化网络有一个致命的缺陷,就是一旦出现故障,会导致整个系统都受到影响破坏。

而区块链网络是基于P2P技术实现的,并不存在中央服务器的概念,网络中每个节点都是对等的,都可以提供独立的服务。这样即使一部分节点出现故障,也不会影响到整个区块链网络的运行。

(2)无须信任系统

在一个中心化的网络中,我们是通过信任一个作为中介的第三方机构(如银行、支付宝、淘宝等),由它来背书保证,然后我们才可以放心进行各种交易。而区块链则通过现代密码学技术和共识算法(POW工作量证明),让我们可以实现去中心化,将信任从第三方机构转移到区块链网络。

(3)不可篡改

区块链是一个基于密码学的分布式账本,每个区块按照时间线性顺序推进。同时通过共识算法,节点之间最终会对共享账本达成一致性。要想要篡改区块链网络中的数据,就需要掌握全网50%以上的算力才可以控制整个网络,也就是我们常说的”51%攻击”。而在区块链网络中,要想掌握全网50%以上的算力是要付出巨大的成本的,区块链中每个区块的产生是需要付出算力成本,而且随着区块链的高度越来越高,巨大的算力成本使得篡改的可能性就几乎为零。


2.缺点

(1)交易账本必须公开

在公有链上,每个节点都可以存储一份完整的账本数据,同时交易数据也是公开透明,账本中的每一笔交易都可以进行追随。虽然接收和发送的地址是一串数字,但是已有研究表示可以通过追踪整个交易账本中的数据可以追踪到用户的一些信息,由此还是在一定程度上会暴露用户隐私。因此,除了比特币、以太坊这种公有链的发展,还发展出了私有链、联盟链这类区块链。

(2)延迟性

区块链的交易是存在一定的延迟性的,以比特币为例。它是每10分钟将自上一个区块以后的交易打包生成一个新区块,也就是说我们进行一笔比特币交易后,需要大概10分钟进行确认。而由于考虑到可能存在一些节点可能篡改区块数据,最好是在生成6个区块后以后才可以确认数据几乎不会被篡改,也就是要将近一个小时。当然小额的交易是不需要这么长时间的,因为被骗的可能性低而且即时被骗损失也很小,而对于大额的交易则建议要在交易一个小时以后确认无误后才能放心。

而比特币考虑到将区块生成的时间设为10分钟,是在更快速的交易确认和更低的分叉概率之间做出的一个妥协。因为更短的区块产生间隔虽然能让交易更快被确认,但是同时也导致更加频繁地区块链分叉(后面会讲解)。与之相对的,更长的时间间隔能减少区块链发生分叉,但是却会导致更长的交易确认时间。

(3)浪费能源

第一代的区块链技术是基于POW的共识算法,也就是基于工作量证明的机制。每产生一个区块的代价是付出相应的算力成本,这会造成大量的算力、能源浪费。而随后发展的其他共识算法,如POS、DPOS等,主要就是解决POW共识算法的能源浪费问题,但是具体的安全性还是有待考证。虽然比特币使用的POW算法浪费能源,但是其运行了至少8年保证没出问题还是得到了时间的考证。

(4)占用空间

我们知道区块链网络中,每一个节点都可以存储共享一份全网的账本数据,但是随着交易数量的增加,每个节点存储的数据就会非常大。目前比特币要想同步完整的账本数据,需要至少上百G的空间。

(5)修复时间长

由于区块链网络是一个去中心化的网络,不存在一个中央统一的服务器。那么,区块链网络在出现代码漏洞需要修复的时候,就需要网络中每一个节点都采取措施更新才能最终完成漏洞修复。从发布漏洞补丁开始到区块链网络中每个节点都完成修复是需要耗费很长时间的,而且还不能保证每一个节点都及时修复。而中心化的网络则可以通过同步下发给所有子节点进行快速修复。


四、区块链关键技术

1.密码学技术

(1)哈希算法

哈希算法就是将任意长度的数据转变为一个定长的数据(也叫哈希或者摘要)。常见的哈希算法有CRC32、MD5、SHA1等。

哈希算法具有以下特点:

  • 不可逆性,想要通过哈希值逆推出原来的数据,只有通过暴力破解的方法实现,但这几乎无法做到,除非使用量子计算机。

  • 确定性,就是如果通过哈希算法对两个数据进行哈希运算得到两个不同的哈希值,则可以100%确定原来这两个数据是不同的。

  • 细微变化影响,原始数据任何微小的变动都会导致哈希值完全不一样

(2)非对称加密技术

非对称加密算法有一对秘钥,分别是公钥和私钥,这两者是成对的,公钥是可以公开的,而私钥则是用户自己保留。用私钥加密的数据只有公钥才可以解密。公钥和私钥之间的这种数学关系,使得私钥可以用于生成特定消息的签名。而这个签名可以在不暴露私钥的前提下通过公钥进行验证。

也就是说我对一段消息用私钥进行签名(也就是加密),然后把这个数据连同签名和我的公钥发送给对方,对方就可以通过公钥对签名进行验证(解密)对比数据从而验证数据的有效性。

在比特币系统中,公钥用于接收比特币,而私钥则用户比特币支付时的交易签名。

在支付比特币时,比特币的所有者需要在交易中提交自己的公钥和该交易的签名。而比特币网络中所有节点可以通过所提交的公钥和签名进行验证,从而确认支付者对交易的比特币的所有权。

(3)数字签名

数字签名,就是只有信息发送者才能产生的别人无法伪造的一段数字串,这段数字串同时也是对信息发送者信息真实性的一个有效证明。

作用:保证信息传输的完整性、发送者的身份认证、防止交易中的抵赖发生

原理:数字签名是基于非对称加密技术和数字摘要技术的应用。我们知道非对称加密技术会产生一对密钥:公钥和私钥,私钥加密的数据,要公钥才能解密,反之亦然。数字签名技术基于该特性实现,分为两个过程:一个用于签名(加密过程),另一个用于验证(解密过程),如下图所示。


  • 签名过程:首先获取通过哈希算法获取原文的摘要信息,然后用私钥加密,并将原文一起发送给接受者。
  • 验证过程:接收者只有使用发送者的公钥才能解密被加密的摘要信息,同样通过哈希算法获取原文的摘要信息,并与解密后的摘要信息做对比。如果相同则说明信息完整,确实是对方本人的签名(因为公钥和私钥是一对的)。



2.区块结构+链式结构

区块链中每一个区块的结构如下图所示,由区块头和区块体构成。

区块头中包含以下信息:

  • 版本号:用于跟踪软件/协议的更新

  • 父区块的哈希:引用区块链中父区块的哈希值

  • 时间戳:该区块产生的时间

  • 目标哈希:当前区块的哈希值

  • 随机数(Nonce):用于工作量证明算法的技术器

  • Merkle根:该区块中交易的merkle树根的哈希值

  • 区块高度:记录该区块在区块链中位置

区块体中保存的是自上一个区块以来的交易数据。

然后每个区块通过连接上一个区块,最终形成一条长链,如下图所示:

3.Merkle树

区块链中每个区块都包含了该区块的所有交易数据,并且以如下图所示的Merkle树表示。

Merkle树,也叫哈希树,是一种二叉树,它是一种用做快速归纳和校验大规模数据完整性的数据结构。

Merkle树由一个根节点、一组中间节点和一组叶节点组成。最下面的叶子节点可以存储哈希值或者数据,每个中间节点是两个子节点的内容的哈希值,而根节点同样也是由两个子节点的内容的哈希值组成。

我们可以发现,只要存储数据的叶子节点有任何的变动,都会传递到相应的父节点,最终其Merkle树的根节点都会发生变化。

如下图的,如果需要证明区块上是否存在一笔交易C,那么我们只需要N3和N4的哈希值就可以证明,过程如下:

Step1:获取交易C的哈希值,N2=Hash(交易C)

Step2:通过N2和N3的哈希值,得到父节点的哈希值:N5=Hash(N2+N3)

Step3:同上,通过N4和N5的哈希值,得到根节点的哈希值:Root=Hash(N4+N5)

Step4:然后将上一步得到的根哈希值对比区块头中MerkleTree的根哈希值,如果相同,则证明该区块中存在交易C,否则说明不存在



4.P2P网络

区块链作为分布式网络,其实现的关键就是基于P2P网络。P2P技术发展到现在,已经经历了3代的发展。

  • 第1代:采用中央服务器的模式,每个节点都需要先连接中央服务器才能知道其他节点的位置,这种技术有个致命缺陷---单点故障。典型代表是:Napster。

  • 第2代:采用广播的模式,每个节点在定位资源或节点的时候,会向自己相连的所有节点进行询问,被问到的节点如果不知道结果也执行同样操作,直到找到资源或节点位置。这种技术的一个问题是会引发”广播风暴”并严重占用网络带宽。典型代表是:Gnutella的早期版本。

  • 第3代:也是目前广泛使用的分布式哈希表(简称DHT)技术,解决了前两代中出现的单点故障问题和广播风暴问题。

目前实现了DHT协议的算法有Kademlia[6](简称Kad)和Chord[7]等,其中Kad算法由于其简单易用而被广泛使用,比特币网络和以太坊网络中P2P网络使用的就是Kad算法。

DHT主要是用来存储大量的数据。它存储数据的key、value键值对,其中key值是数据的哈希值,value就是数据本身。下面我们简单介绍下Kad算法。

(1)节点的距离

节点间的距离通过节点ID之间的异或操作得到。这里所说的距离是逻辑上的距离,与地理位置无关,所以有可能两个节点之间计算得到的逻辑距离很近,但实际上地理上的距离缺很远。

例如:节点A的ID(011)和节点B的ID(101)距离:011 XOR 101 = 110=6。

(2)协议消息

  • PING 检查节点是否在线

  • STORE 在某个节点中存储一个键值对

  • FIND_NODE 返回对方节点桶中离请求键值最近的 K 个节点

  • FIND_VALUE 与 FIND_NODE 一样,不过当请求的接收者存有请求者所请求的键的时候,它将返回相应键的值

(3)路由表

Kad算法中使用了K-桶的概念来存储其他邻近节点的状态信息(节点ID、IP和端口),例如,对于160bit的节点ID,就有160个K-桶,对于每一个K-桶i,它会存储与自己距离在区间[2^i, 2^(i+1)) 范围内的K个节点的信息,如下图所示。每个K-桶i中存储有K个其他节点信息,在BitTorrent中K取8。当然每一个K-桶i不可能把所有相关的节点都存储,这样表根本存储不下。它是距离自己越近的节点存储的越多,离自己越远存储的越少(只取距离自己最近的K个节点),如下图所示。

这里,K-桶实就是一个路由表。对于每一个节点(以自己为视角),都会维护一个这样的路由表。

我们知道Kad有4种协议消息,分别是:PING、STORE、FIND_NODE和FIND_VALUE。我们可以将Kad算法的路由机制分为以下几种情况:

  • 主动收集节点

对应FIND_NODE消息,每次从对方节点返回距离KEY值最近的K个节点后,刷新对应K-桶中的节点信息。

  • 被动收集节点

如果某个节点收到其他节点FIND_NODE的请求,当前节点会把对方节点信息加入到自己的对应K-桶中

  • 探测节点

对应PING消息,判断某个节点ID是否在线,把不在线的节点从对应的K-桶中剔除出去,从而保证K-桶中保存的节点都是在线的。

备注:确定对应的K-桶是通过上表中每个节点存储的距离范围确定。

5.挖矿与共识

在区块链网络中,每一笔交易的产生都会广播到网络中其他节点。挖矿实际上是对当前节点上所接收到的交易进行验证打包,并将产生的区块通过区块链网络广播出去,同时奖励产生该区块的矿工一定的奖励(加密货币)。然后区块链网络通过共识算法最终会决定是否将该区块的数据写入到共享账本中。而区块链网络中,区块产生的速度是一个常量,例如比特币是每10分钟产生一个区块。

那么,这里面有4个关键问题:

  • 为什么需要挖矿这个过程?

  • 如何挖矿,也就是挖矿过程是怎样的?

  • 如何调整区块的产生速度,例如比特币如何保证每10分钟产生一个区块?

  • 如何达成共识,区块链网络中如何对新产生的区块进行确认?

下面我们一个个来分析。

(1)为什么需要挖矿这个过程?

大家可能会有一个疑问,为什么要设定一个挖矿的过程。

挖矿在区块链网络中不仅能增加货币,同时它还能保障区块链安全。挖矿会对区块中的每一笔交易进行校验,防止出现欺诈交易。

挖矿中每产生的一个区块,都对对应奖励矿工一定的货币,这实际上就类似于央行的发行货币的功能。同时,在该区块上产生的交易需要支付一定的交易费用给产生该区块的矿工(这也是后期货币发行完以后,矿工的主要收入),这会激励更多的矿工参与挖矿,从而保证了区块链网络中产生的交易能被记录到共享账本中。

同时,挖矿产生一个有效区块是需要工作量证明,也就是需要付出一定的算力成本。如果某个黑客想要篡改某个交易,它不仅要重新计算该交易所在区块之后所有区块的Hash数据,同时还需要保证全网50%以上的算力才能保证自己篡改的数据可以被全网接收。这使得对攻击者来需要付出巨大的经济成本,通过经济惩罚来保障区块链的安全。


(2)如何挖矿

区块链网络中,每个节点时刻监听着网络中产生的新的交易和区块。同时,每个节点会接收区块链网络中产生的交易,并对这些交易数据进行各种校验,防止出现欺诈交易出现。并把这些有效的交易打包成一个候选区块。

在得到一个候选区块之后,接下来要做的事情就是通过工作量证明机制(POW)证明这个区块有效。简单地说就是重复计算区块头的哈希值,通过不断修区块头中的参数(nonce),直到产生一个哈希值小于某一个目标值为止。由此证明了该区块的有效性,之后就可以将该区块广播出去,告诉其它节点一个新的区块已经产生了,其它节点在得知当前高度的区块已经被挖掘出来以后,就结束当前正在挖掘的区块,开始进入下一个区块的挖掘。


(3)如何调整区块的产生速度

我们知道比特币是每10分钟产生一个区块,即使全网算力增加或者减少,它也能保证产生一个区块的时间在10分钟左右,那它是怎么做到的呢?

在比特币网络中,每个区块头都会包含一个难度系数。在(2)中我们提到,挖矿证明一个区块有效,实际上就是不停地对区块头进行哈希,直到找到某一个哈希值小于目标值为止。

这里目标值就根这个难度系数是有关联的。

在区块链协议中,规定使用一个常量除以难度系数就可以得到目标值。可见,难度系数越大,则相应目标值就越小,那么挖矿需要运算的次数更多。

target = target_max/difficulty

而比特币怎么知道自己的算力是提高了还是降低了呢?

比特币每发现2016个区块时,会根据前2016个区块完成的时间对难度进行调整,如果之前2016个区块所花时间变少了,也就是全网算力提升了,则提高难度系数,则目标值变小;如果所花时间变多,则就是出现全网算力下降了,则降低难度系数,则目标值变大。


(4)如何达成共识

共识机制在区块链中扮演者核心的地位,共识机制决定了谁拥有记账的权利。

POW,工作量证明机制,通过一个竞争机制(计算猜测一个nonce随机值,得以解决规定的哈希问题),让计算工作完成最出色的节点获得记账的权利。这样可以保证一段时间内,只会出现少数几个同一高度的合法区块。而POW通过这种算力消耗的经济惩罚限制了恶意的参与,因为它需要付出大量的经济成本。

同时,这些合法的区块会在区块链网络中进行广播,收到的节点会将区块添加到自己维护的最长链上。所以这时候有可能当前节点同时收到两个同一高度的合法区块,也就会出现分叉,但是最终随着挖矿的继续运行,最终会有一条链成为最长链。


到这里,区块链技术的相关知识已经介绍完了,当然这里并没有深入地介绍各个知识点。如果要拓展开每个知识点讲,每一个知识点都需要大篇幅去介绍分析。后面,我后面也会针对区块链的各个相关技术展开篇幅单独写文章详细介绍。同时也会去跟踪热点,分析区块链的一些应用,并分析各个应用的技术特点和方案。


参考:

[1] 区块链+数据格式规范。www.cesi.ac.cn/images/edit…

[2] 区块链技术发展现状与展望。html.rhhz.net/ZDHXBZWB/ht…

[3] Bitcoin: A Peer-to-Peer Electronic Cash System. bitcoin.org/bitcoin.pdf

[4] 当我们说“区块链是无需信任的”,意思是什么?36kr.com/p/5118147.h…

[5] 区块链指南 yeasy.gitbooks.io/blockchain_…

[6] Kademlia:A Peer-to-peer Information System Based on the XOR Metric pdos.csail.mit.edu/~petar/pape…

[7] Chord: A Scalable Peer-to-Peer Lookup Service for Internet Applications pdos.csail.mit.edu/papers/chor…

[8] 数字签名是什么。www.ruanyifeng.com/blog/2011/0…

[9] 《区块链原理、设计与应用》

[10] 《区块链核心算法解析》

[11] 《精通比特币》









你可能感兴趣的:(区块链,密码学,数据结构与算法)