以太坊是一个交易驱动的账户状态机模型,所以咱们先从账户开始讲的。
以太坊账户又分为外部拥有账户和合约账户,账户状态含4个属性:Nonce、 Balance、StorageRoot、CodeHash。
其中Nonce是序列号,表示这个账户发出了多少笔交易或创建了多少个合约,每交易或创建一次,序列化就加1,可以有效防止重放攻击。
Balance就是账户有多少余额。
StorageRoot和CodeHash只对合约账户有效,其中StorageRoot是一棵MPT树的根哈希,这棵树将合约存储的数据以树型结构组织起来,便于存在性证明和寻址。
CodeHash存储的是合约的EVM(以太坊虚拟机)代码的哈希值。
除了CodeHash,其它我们都细讲过了,所以本篇就讲讲CodeHash。根据定义,了解CodeHash主要就是要了解EVM(以太坊虚拟机)。首先声明一下,因为咱们目的不是编程,所以咱们对EVM的学习是浅尝辄止(关键是我了解得也不深。。。)。
虚拟机就是虚拟计算机,以太坊用软件的形式实现了一个虚拟机分布在每个节点。每个节点上的虚拟机都是一样的,也就是说,相同的指令进入虚拟机,出来的结果都是一样的。所以可以说,以太坊是一台用区块链实现的世界计算机。
当然,为了安全起见,这台虚拟机在节点上是完全隔离的,它是一个完全独立的“沙盒”。 虚拟机的作用就是用来执行以太坊智能合约,它是智能合约运行的环境。
对于整个以太坊系统来说,EVM其实也就是一个函数。智能合约的部署和调用都是由交易驱动,当有这类需求时,交易就会调用EVM这个函数,然后EVM一条条地执行相关指令。
EVM跟比特币的脚本系统一样,也是用堆栈方式实现的,关于堆栈可参考0627的文章。EVM的堆栈深度限制在1024层,也就是说最多往堆栈里叠加1024个数据,而且每个堆栈项的数据长度是32字节,与我们上篇说的合约账户的数据存储长度对得上,所以,大家都把以太坊虚拟机称之为一个图灵完备的256位虚拟机。
EVM有自己的字节码,而且每个指令都是一个字节。当然,我们编写智能合约的时候,不会直接使用字节码,因为对于人来说,太难读了,我们通常使用类似于solidity的高级语言,然后再通过编译器把高级语言转换为EVM能读懂的字节码。
最后我们一个最简单的指令来看看EVM如何执行。
这个指令的高级语言形式是这样的:
uint256 x = 1
这句指令的意思是定义一个uint256类型的数据x,并且给它赋值1,就是这么简单一件事。
但这条指令经过编译后,到了EVM这里就变成了一堆指令(方框内为注释):
push(0x1)
将1压入栈中,这个1就是要赋值的1
push(0x0)
将0压入栈中,这个0是指x这个数据将要存储到合约账户数据存储(见上篇)的0号位置。这两句执行完后,堆栈里从顶往下,就有了0和1两个数据
dup2
复制堆栈中从顶往下数的第二项,所以这时堆栈从顶往上就有了1、0、1三个数据
swap1
交换栈顶的两项数据,这时堆栈从顶往下存储的是0、1、1
sstore
从栈顶往下数,将第二项数据存储到第一项标识的位置上,同时将这两项弹出堆栈。这里便是将数据1存储到0号位置,前面因为已经将x与0号位置做了绑定,所以就完成了x=1的赋值。这时堆栈里就只剩一层数据:1
pop
丢弃栈顶数据,这时堆栈变成空的了,等待下一条指令的执行
其实仔细看看,发现可以完全不要dup2,swap1,pop这三条指令,效果是一样的。不清楚为什么编译后会用这种多余的方式,可能也其他原因吧。