机器码是CPU可以识别,并执行的二进制数据。
通常使用高级语言,如C/C++编写的代码,经过编译之后,生成的可执行文件中,就包含了机器码,可以被CPU执行。
如果你熟悉X86机器码,具体的定义,那么你可以在文件中,徒手直接编写机器码,这样也可以被CPU执行,只不过难度很大,没有我们使用高级语言编写,然后编译为机器码,来的简单。
机器码,是我们通俗的叫法。在X86架构下,机器码就是指一条一条的X86指令,这些指令的集合,就叫做X86指令集。
所有的X86架构指令编码,都是基于一个基本指令格式来构成的。
基本指令,由以下组成:
X86指令集中的指令前缀(Instruction Prefix)是一种特殊的标记,用于指示紧随其后的指令应该如何被解释。指令前缀并不会改变指令的本质,但可能会改变指令的操作。
指令前缀分为四组:封锁和重复执行前缀、段前缀、修改操作数默认长度、修改默认地址长度,每组都有一组允许的前缀代码。
对于每条指令,可以从每一组中使用一个前缀,并以任意顺序放置。冗余前缀(来自一组的多个前缀)的影响是未定义的,并且可能因处理器而异。
在32位汇编中,有8个段寄存器:ES、CS、SS、DS、FS、GS、LDTR、TR(顺序固定),不再用段寄存器寻址而只做权限控制。前缀和寄存器对应如下:
使用前缀修饰后,指令(opcode)的默认段寄存器会被修改,如默认的MOV操作从DS段拿数据,加上36前缀后会基于SS段地址取数据。
66H,用来“反转”默认的16位或32位操作数宽度。例如,当默认的操作数宽度是32位时,可以用这个前缀选择16位宽度的操作数,或者反之。如下指令码和汇编对照:
50: PUSH EAX
6650: PUSH AX
当一个66前缀出现在指令的开始处时,它告诉CPU,接下来的指令应该被视为一个16位指令,而不是32位指令。
67H,用来“反转”默认的16位或32位地址宽度。例如,当默认的地址宽度是32位时,可以用这个前缀选择16位宽度的地址,或者反之。如下指令码和汇编对照:
8801: MOV DS:[ECX],AL
678801: MOV DS:[BX+DI], AL
67H前缀是X86指令集中的一个指令前缀,用于改变指令的地址空间。
当67H前缀出现在一个指令前面时,它会告诉CPU,该指令的操作数应该被视为在16位地址空间中,而不是32位地址空间中。这个前缀通常用于在32位和16位模式之间切换。
Opcode主操作码为1或2字节。此外在ModR/M字节中,还有额外的3位操作码字段,可以在主操作码中定义较小的编码字段。这些字段定义了操作的方向、位移的大小、寄存器编码、条件码或符号扩展。操作码中字段的编码根据操作的类别而变化。
如果主操作码是0x0f开头则需要取第二字节,如果主操作码开头是0x0f38,0x0f3a开头则再取第三字节。
大多数引用内存中操作数的指令,在主操作码后面都有一个寻址形式说明符字节(称为ModR/M字节)。ModR/M字节包含三个信息字段:
ModR/M字节的某些编码需要第二个寻址字节,即SIB字节,以完全指定寻址形式。32位寻址的base-plus-index(基本加索引)和scale-plus-index(缩放加索引)形式需要SIB字节。SIB字节包括以下字段:
一些寻址形式包括紧跟在ModR/M或SIB字节之后的位移。如果需要一个位移,它可以是1、2或4字节。如果指令指定了一个直接操作数,则该操作数总是跟随任何位移字节。直接操作数可以是1、2或4字节。
在X86指令集中,立即数(Immediate)是指直接在指令中给出的常数或者立即值。这些值直接嵌入到指令中,不需要从内存中读取,也不需要计算。
例如,以下是一条ADD指令,它将寄存器A中的值与立即数5相加:
ADD A, 5
在这个例子中,5就是立即数。这条指令将寄存器A中的值与5相加,并将结果存回寄存器A。立即数在指令编码中直接给出,不需要在执行时从内存中读取。
立即数可以用在各种需要固定数值的指令中,例如算术运算、逻辑运算、位移等。