X86指令基本格式

X86指令基本格式

  • 1 什么是机器码
  • 2 X86指令基本格式
  • 3 指令前缀
    • 3.1 第一组:封锁和重复执行前缀
    • 3.2 第二组:段前缀
    • 3.3 第三组:修改操作数默认长度
    • 3.4 第四组:修改默认地址长度
  • 4 操作码
  • 5 ModR/M与SIB
    • 5.1 ModR/M字节
    • 5.2 SIB字节
  • 6 地址位移
  • 7 立即数

本文属于《 X86指令基础系列教程》之一,欢迎查看其它文章。

1 什么是机器码

机器码是CPU可以识别,并执行的二进制数据。
通常使用高级语言,如C/C++编写的代码,经过编译之后,生成的可执行文件中,就包含了机器码,可以被CPU执行。
如果你熟悉X86机器码,具体的定义,那么你可以在文件中,徒手直接编写机器码,这样也可以被CPU执行,只不过难度很大,没有我们使用高级语言编写,然后编译为机器码,来的简单。

机器码,是我们通俗的叫法。在X86架构下,机器码就是指一条一条的X86指令,这些指令的集合,就叫做X86指令集

2 X86指令基本格式

所有的X86架构指令编码,都是基于一个基本指令格式来构成的。
基本指令,由以下组成:

  • Instruction Prefixes(指令前缀),可选,最多四个前缀,每个前缀1字节。
  • Opcode(操作码),必须,1或2字节。
  • ModR/M与SIB(地址形式说明符),可选,由ModR/M字节和SIB(Scale-Index-Base)字节组成。Mod R/M 字段指定寻址模式和操作数,符号 “R/M” (register/memory) 代表的是寄存器和模式。伸缩索引字节(scale index byte, SIB)用于计算数组索引偏移量。
  • Displacement(地址位移),可选,地址位移为1、2、4字节或无。地址位移字段保存了操作数的偏移量,在 “基址-偏移量” 或 “基址-变址-偏移量” 寻址模式中,该字段还可以与 “基址或变址寄存器” 相加。
  • Immediate(立即数),可选,立即数为1、2、4字节或无。立即数字段保存了常量操作数。
    X86指令基本格式_第1张图片

3 指令前缀

X86指令集中的指令前缀(Instruction Prefix)是一种特殊的标记,用于指示紧随其后的指令应该如何被解释。指令前缀并不会改变指令的本质,但可能会改变指令的操作。
指令前缀分为四组:封锁和重复执行前缀、段前缀、修改操作数默认长度、修改默认地址长度,每组都有一组允许的前缀代码。
对于每条指令,可以从每一组中使用一个前缀,并以任意顺序放置。冗余前缀(来自一组的多个前缀)的影响是未定义的,并且可能因处理器而异。

3.1 第一组:封锁和重复执行前缀

  • F0H: LOCK前缀,封锁总线。在有数的指令(如ADD,ADC)前方时,使指令变为原子操作,并与被修饰的指令一起提供内存屏障效果。
  • F2H:REPNE/REPNZ前缀(只位于字符串指令前)。
  • F3H:REP前缀(只位于字符串指令前)。
  • F3H:REPE/REPZ前缀(与REP前缀同码)。

3.2 第二组:段前缀

在32位汇编中,有8个段寄存器:ES、CS、SS、DS、FS、GS、LDTR、TR(顺序固定),不再用段寄存器寻址而只做权限控制。前缀和寄存器对应如下:

  • 2EH:CS段覆盖前缀
  • 36H:SS段覆盖前缀
  • 3EH:DS段覆盖前缀
  • 26H:ES段覆盖前缀
  • 64H:FS段覆盖前缀
  • 65H:GS段覆盖前缀

使用前缀修饰后,指令(opcode)的默认段寄存器会被修改,如默认的MOV操作从DS段拿数据,加上36前缀后会基于SS段地址取数据。

3.3 第三组:修改操作数默认长度

66H,用来“反转”默认的16位或32位操作数宽度。例如,当默认的操作数宽度是32位时,可以用这个前缀选择16位宽度的操作数,或者反之。如下指令码和汇编对照:

50:  PUSH EAX
6650: PUSH AX

当一个66前缀出现在指令的开始处时,它告诉CPU,接下来的指令应该被视为一个16位指令,而不是32位指令。

3.4 第四组:修改默认地址长度

67H,用来“反转”默认的16位或32位地址宽度。例如,当默认的地址宽度是32位时,可以用这个前缀选择16位宽度的地址,或者反之。如下指令码和汇编对照:

8801:   MOV DS:[ECX],AL
678801: MOV DS:[BX+DI], AL

67H前缀是X86指令集中的一个指令前缀,用于改变指令的地址空间。
当67H前缀出现在一个指令前面时,它会告诉CPU,该指令的操作数应该被视为在16位地址空间中,而不是32位地址空间中。这个前缀通常用于在32位和16位模式之间切换。

4 操作码

Opcode主操作码为1或2字节。此外在ModR/M字节中,还有额外的3位操作码字段,可以在主操作码中定义较小的编码字段。这些字段定义了操作的方向、位移的大小、寄存器编码、条件码或符号扩展。操作码中字段的编码根据操作的类别而变化。
如果主操作码是0x0f开头则需要取第二字节,如果主操作码开头是0x0f38,0x0f3a开头则再取第三字节。

5 ModR/M与SIB

X86指令基本格式_第2张图片

5.1 ModR/M字节

大多数引用内存中操作数的指令,在主操作码后面都有一个寻址形式说明符字节(称为ModR/M字节)。ModR/M字节包含三个信息字段:

  • Mod字段与R/M字段组合形成32个可能的值:8个寄存器和24种寻址模式。
  • Reg/Opcode字段指定一个寄存器号或三个以上的操作码信息。Reg/Opcode字段的目的在主操作码中指定。
  • R/M字段可以指定一个寄存器作为操作数,或者可以与Mod字段组合以编码寻址模式。

5.2 SIB字节

ModR/M字节的某些编码需要第二个寻址字节,即SIB字节,以完全指定寻址形式。32位寻址的base-plus-index(基本加索引)和scale-plus-index(缩放加索引)形式需要SIB字节。SIB字节包括以下字段:

  • Scale字段指定比例因子。
  • Index字段指定index register的寄存器号。
  • Base字段指定base register的寄存器号。

6 地址位移

一些寻址形式包括紧跟在ModR/M或SIB字节之后的位移。如果需要一个位移,它可以是1、2或4字节。如果指令指定了一个直接操作数,则该操作数总是跟随任何位移字节。直接操作数可以是1、2或4字节。

7 立即数

在X86指令集中,立即数(Immediate)是指直接在指令中给出的常数或者立即值。这些值直接嵌入到指令中,不需要从内存中读取,也不需要计算。
例如,以下是一条ADD指令,它将寄存器A中的值与立即数5相加:

ADD A, 5

在这个例子中,5就是立即数。这条指令将寄存器A中的值与5相加,并将结果存回寄存器A。立即数在指令编码中直接给出,不需要在执行时从内存中读取。
立即数可以用在各种需要固定数值的指令中,例如算术运算、逻辑运算、位移等。

你可能感兴趣的:(X86指令集,汇编,X86指令,机器码,CPU指令集)