转载连接:
1 ARM汇编以及汇编语言基础介绍
2 ARM汇编中的数据类型
3 ARM汇编常用指令集
4 ARM汇编内存访问相关指令
5 ARM汇编之连续存取
6 ARM汇编之条件执行与分支
7 ARM汇编之栈与函数
英文原文链接:
https://azeria-labs.com/arm-data-types-and-registers-part-2/
本文只是转载部分内容,具体请参考原文。
ARM处理器Intel处理器有很多不同,但是最主要的不同怕是指令集了。Intel属于复杂指令集(CISC)处理器,有很多特性丰富的访问内存的复杂指令集。因此它拥有更多指令代码以及取址都是,但是寄存器比ARM的要少。复杂指令集处理器主要被应用在PC机,工作站以及服务器上。
ARM属于简单指令集(RISC)处理器,所以与复杂指令集先比,只有简单的差不多100条指令集,但会有更多的寄存器。与Intel不同,ARM的指令集仅仅操作寄存器或者是用于从内存的加载/储存过程,这也就是说,简单的加载/存储指令即可访问到内存。这意味着在ARM中,要对特定地址中存储的的32位值加一的话,仅仅需要从内存中加载到寄存器,加一,再从寄存器储存到内存即可。
简单的指令集既有好处也有坏处。一个好处就是代码的执行变得更快了。(RISC指令集允许通过缩短时钟周期来加速代码执行)。坏处就是更少的指令集也要求了编写代码时要更加注意指令间使用的关系以及约束。还有重要的一点,ARM架构有两种模式,ARM模式和Thumb模式。Thumb模式的代码只有2或者4字节。
ARM与X86的不同还体现在:
除了以上这些ARM与Intel间的差异,ARM自身也有很多版本。本系列教程旨在尽力保持通用性的情况下来讲讲ARM的工作流程。而且当你懂得了这个形式,学习其他版本的也很容易了。在系列教程中使用的样例都是在32位的ARMv6下运行的,所以相关解释也是主要依赖这个版本的。
不同版本的ARM命名也是有些复杂:
ARM 家族 | ARM 架构 |
---|---|
ARM7 | ARM v4 |
ARM9 | ARM v5 |
ARM11 | ARM v6 |
Cortex-A | ARM v7-A |
Cortex-R | ARM v7-R |
Cortex-M | ARM v7-M |
ARM汇编,是一种更容易被人们接受的汇编语言。当然我们的计算机也不能直接运行汇编代码,还是需要编译成机器码的。通过编译工具链中as程序来将文件后缀为".s"的汇编代码编译成机器码。写完汇编代码后,一般保存后缀为".s"的文件,然后你需要用as编译以及用ld链接程序:
汇编语言本质
让我们来看看汇编语言的底层本质。在最底层,只有电路的电信号。信号被格式化成可以变化的高低电平0V(off)或者5V(on)。但是通过电压变化来表述电路状态是繁琐的,所以用0和1来代替高低电平,也就有了二进制格式。由二进制序列组成的组合便是最小的计算机处理器工作单元了。
我们还是不能记住这些组合的含义。所以,我们需要用助记符和缩写来帮助我们记住这些二进制组合。这些助记符一般是连续的三个字母,我们可以用这些助记符作为指令来编写程序。**这种程序就叫做汇编语言程序。用以代表一种计算机的机器码的助记符集合就叫做这种计算机汇编语言。**因此,汇编语言是人们用来编写程序的最底层语言。
现在我们知道了汇编程序是助记符的文本信息集合,我们需要将其转换成机器码。就像之前的,在GNU Binutils工程中提供了叫做as的工具。使用汇编工具去将汇编语言转换成机器码的过程叫做汇编(assembling)。
被加载或者存储的数据类型可以是无符号(有符号)的字(words,四字节),半字(halfwords,两字节),或者字节(bytes)。这些数据类型在汇编语言中的扩展后缀为-h或者-sh对应着半字,-b或者-sb对应着字节,但是对于字并没有对应的扩展。
ldr = 加载字,宽度四字节
ldrh = 加载无符号的半字,宽度两字节
ldrsh = 加载有符号的半字,宽度两字节
ldrb = 加载无符号的字节
ldrsb = 加载有符号的字节
str = 存储字,宽度四字节
strh = 存储无符号的半字,宽度两字节
strsh = 存储有符号的半字,宽度两字节
strb = 存储无符号的字节
strsb = 存储有符号的字节
在内存中有两种字节排布顺序,大端序(BE)或者小端序(LE)。两者的主要不同是对象中的每个字节在内存中的存储顺序存在差异。一般X86中是小端序
,最低的字节存储在最低的地址上。在大端机中最高的字节存储在最低的地址上。
在样例代码所在的ARMv6中,指令代码是以小端序排列对齐。但是数据访问时采取大端序还是小端序使用程序状态寄存器(CPSR)的第9比特位来决定的。
寄存器的数量由ARM版本决定。根据ARM参考手册,在ARMv6-M与ARMv7-M的处理器中有30个32bit位宽度的通用寄存器。前16个寄存器是用户层可访问控制的,其他的寄存器在高权限进程中可以访问(但ARMv6-M与ARMv7-M除外)。我们仅介绍可以在任何权限模式下访问的16个寄存器。这16个寄存器分为两组:通用寄存器与有特殊含义的寄存器。
# | 别名 | 用途 |
---|---|---|
R0 | - | 通用寄存器 |
R1 | - | 通用寄存器 |
R2 | - | 通用寄存器 |
R3 | - | 通用寄存器 |
R4 | - | 通用寄存器 |
R5 | - | 通用寄存器 |
R6 | - | 通用寄存器 |
R7 | - | 一般放系统调用号 |
R8 | - | 通用寄存器 |
R9 | - | 通用寄存器 |
R10 | - | 通用寄存器 |
R11 | FP | 栈帧指针 |
R12 | IP | 内部程序调用 |
R13 | SP | 栈指针 |
R14 | LR | 链接寄存器(一般存放函数返回地址) |
R15 | PC | 程序计数寄存器 |
CPSR | - | 当前程序状态寄存器 |
下面这张表是ARM架构与寄存器与Intel架构寄存器的关系:
ARM | 描述 | X86 |
---|---|---|
R0 | 通用寄存器 | EAX |
R1-R5 | 通用寄存器 | EBX,ECX,EDX,ESI,EDI |
R6-R10 | 通用寄存器 | - |
R11(FP) | 栈帧指针 | EBP |
R12 | 内部程序调用 | - |
R13(SP) | 栈指针 | ESP |
R14(LR) | 链接寄存器 | - |
R14(LR) | <-程序计数器/机器码指针-> | EIP |
CPSR | 程序状态寄存器 | EFLAGS |
R0-R12:用来在通用操作中存储临时的值,指针等。R0被用来存储函数调用的返回值。R7经常被用作存储系统调用号,R11存放着帮助我们找到栈帧边界的指针(之后会讲)。以及,在ARM的函数调用约定中,前四个参数按顺序存放在R0-R3中。
R13:SP(栈指针)。栈指针寄存器用来指向当前的栈顶。栈是一片来存储函数调用中相关数据的内存,在函数返回时会被修改为对应的栈指针。栈指针用来帮助在栈上申请数据空间。比如说你要申请一个字的大小,就会将栈指针减4,再将数据放入之前所指向的位置。
R14:LR(链接寄存器)。当一个函数调用发生,链接寄存器就被用来记录函数调用发生所在位置的下一条指令的地址。这么做允许我们快速的从子函数返回到父函数。
R15:PC(程序计数器)。程序计数器是一个在程序指令执行时自增的计数器。它的大小在ARM模式下总是4字节对齐,在Thumb模式下总是两字节对齐。当执行一个分支指令时,PC存储目的地址。在程序执行中,ARM模式下的PC存储着当前指令加8(两条ARM指令后)的位置,Thumb(v1)模式下的PC存储着当前指令加4(两条Thumb指令后)的位置。这也是X86与ARM在PC上的主要不同之处。
当前程序状态寄存器(CPSR)
寄存器$CSPR显示了当前状态寄存器的值,Flags里面出现的thumb,fast,interrupt,overflow,carry,zero,negative就是来源于CSPR寄存器中对应比特位的值。ARM架构的N,Z,C,V与X86架构EFLAG中的SF,ZF,CF,OF相对应。这些比特位在汇编级别的条件执行或者循环的跳出时,被用作判断的依据。
上图展示了32位的CPSR寄存器的比特位含义,左边是最大比特位,右边是最小比特位。每个单元代表一个比特。这一个个比特的含义都很丰富:
标记 | 含义 |
---|---|
N(Negative) | 指令结果为负值时置1 |
Z(Zero) | 指令结果为零值时置1 |
C(Carry) | 对于加法有进位则置1,对于减法有借位则置0 |
V(Overflow) | 指令结果不能用32位的二进制补码存储,即发生了溢出时置1 |
E(Endian) | 小端序置0,大端序置1 |
A(Abort) | 异常中断禁止位 |
I(IRQ) | 中断禁止位 |
F(FIQ) | 快速中断禁止位 |
T(Thumb) | 当为Thumb模式时置1,ARM模式置0 |
M(Mode) | 当前的权限模式(用户态,内核态) |
J(Jazelle) | 允许ARM处理器去以硬件执行java字节码的状态标示 |
ARM处理器有两个主要的操作状态,ARM模式以及Thumb模式(Jazelle模式先不考虑)。这些模式与特权模式并不冲突。SVC模式既可以在ARM下调用也可以在Thumb下调用。只不过两种状态的主要不同是指令集的不同,ARM模式的指令集宽度是32位而Thumb是16位宽度(但也可以是32位)。知道何时以及如何使用Thumb模式对于ARM漏洞利用的开发尤其重要。当我们写ARM的shellcode时候,我们需要尽可能的少用NULL以及使用16位宽度的Thumb指令以精简代码。
不同版本ARM,其调用约定不完全相同,而且支持的Thumb指令集也是不完全相同。在某些版本山,ARM提出了扩展型Thumb指令集(也叫Thumbv2),允许执行32位宽的Thumb指令以及之前版本不支持的条件执行。为了在Thumb模式下使用条件执行指令,Thumb提出了"IT"分支指令。然而,这条指令在之后的版本又被更改移除了,说是为了让一些事情变得更加简单方便。我并不清楚各个版本的ARM架构所支持的具体的ARM/Thumb指令集,而且我也的确不想知道。我觉得你也应该不用深究这个问题。因为你只需要知道你设备上的关键ARM版本所支持的Thumb指令集就可以了。以及ARM信息中心可以帮你弄清楚你的ARM版本到底是多少。
就像之前说到的,Thumb也有很多不同的版本。不过不同的名字仅仅是为了区分不同版本的Thumb指令集而已(也就是对于处理器来说,这些指令永远都是Thumb指令)。
ARM与Thumb的不同之处在于:
对于条件执行指令(不是条件跳转指令):所有的ARM状态指令都支持条件执行。一些版本的ARM处理器上允许在Thumb模式下通过IT汇编指令进行条件执行。条件执行减少了要被执行的指令数量,以及用来做分支跳转的语句,所以具有更高的代码密度。
ARM模式与Thumb模式的32位指令:Thumb的32位汇编指令都有类似于a.w的扩展后缀。
桶型移位是另一种独特的ARM模式特性。它可以被用来减少指令数量。比如说,为了减少使用乘法所需的两条指令(乘法操作需要先乘2然后再把结果用MOV存储到另一个寄存器中),就可以使用在MOV中自带移位乘法操作的左移指令(Mov R1, R0, LSL #1)。
在ARM模式与Thumb模式间切换的话,以下两个条件之一必须满足:
这一节的目的是简要的介绍ARM的通用指令集。知道每一句汇编指令是怎么操作使用,相互关联,最终组成程序是很重要的。之前说过,汇编语言是由构建机器码块的指令组成。所以ARM指令通常由助记符外加一到两个跟在后面的操作符组成,如下面的模板所示:
MNEMONIC{
S}{
condition} {
Rd}, Operand1, Operand2
助记符{
是否使用CPSR}{
是否条件执行以及条件} {
目的寄存器}, 操作符1, 操作符2
由于ARM指令的灵活性,不是全部的指令都满足这个模板,不过大部分都满足了。下面来说说模板中的含义:
MNEMONIC - 指令的助记符如ADD
{
S} - 可选的扩展位,如果指令后加了S,则需要依据计算结果更新CPSR寄存器中的条件跳转相关的FLAG
{
condition} - 如果机器码要被条件执行,那它需要满足的条件标示
{
Rd} - 存储结果的目的寄存器
Operand1 - 第一个操作数,寄存器或者是一个立即数
Operand2 - 第二个(可变的)操作数,可以是一个立即数或者寄存器或者有偏移量的寄存器
指令 | 含义 | 指令 | 含义 |
---|---|---|---|
MOV | 移动数据 | EOR | 比特位异或 |
MVN | 取反码移动数据 | LDR | 加载数据 |
ADD | 数据相加 | STR | 存储数据 |
SUB | 数据相减 | LDM | 多次加载 |
MUL | 数据相乘 | STM | 多次存储 |
LSL | 逻辑左移 | PUSH | 压栈 |
LSR | 逻辑右移 | POP | 出栈 |
ASR | 算术右移 | B | 分支跳转 |
ROR | 循环右移 | BL | 链接分支跳转 |
CMP | 比较操作 | BX | 分支跳转切换 |
AND | 比特位与 | BLX | 链接分支跳转切换 |
ORR | 比特位或 | SWI/SVC | 系统调用 |
ARM使用加载-存储模式控制对内存的访问,这意味着只有加载/存储(LDR或者STR)才能访问内存。尽管X86中允许很多指令直接操作在内存中的数据,但ARM中依然要求在操作数据前,必须先从内存中将数据取出来。这就意味着如果要增加一个32位的在内存中的值,需要做三种类型的操作(加载,加一,存储)将数据从内存中取到寄存器,对寄存器中的值加一,再将结果放回到内存中。
第一种偏移形式:立即数作为偏移
第二种偏移形式:寄存器作为偏移
第三种偏移形式:寄存器缩放值作为偏移
通常,LDR被用来从内存中加载数据到寄存器,STR被用作将寄存器的值存放到内存中.
LDR R2, [R0] @ [R0] - 数据源地址来自于R0指向的内存地址
@ LDR操作:从R0指向的地址中取值放到R2中
STR R2, [R1] @ [R1] - 目的地址来自于R1在内存中指向的地址
@ STR操作:将R2中的值放到R1指向的地址中
LDR/STR的三种偏移模式:
立即数作为偏移: ldr r3, [r1, #4]
寄存器作为偏移: ldr r3, [r1, r2]
寄存器缩放值作为偏移: ldr r3, [r1, r2, LSL#2]
如何区分取址模式:
如果有一个叹号!,那就是索引前置取址模式,即使用计算后的地址,之后更新基址寄存器。
ldr r3, [r1, #4]!
ldr r3, [r1, r2]!
ldr r3, [r1, r2, LSL#2]!
如果在[]外有一个寄存器,那就是索引后置取址模式,即使用原有基址寄存器重的地址,之后再更新基址寄存器
ldr r3, [r1], #4
ldr r3, [r1], r2
ldr r3, [r1], r2, LSL#2
除此之外,就都是偏移取址模式了
ldr r3, [r1, #4]
ldr r3, [r1, r2]
ldr r3, [r1, r2, LSL#2]
地址模式:用作偏移
地址模式:前向索引
地址模式:后向索引
#5.1 连续加载/存储。
有时连续加载(存储)会显得更加高效。因为我们可以使用LDM(load multiple)以及STM(store multiple)。这些指令基于起始地址的不同,有不同的形式。
如不特定指定,LDM与STM指令操作的最小单位都是一个字(四字节)。
之前说过LDM和STM有多种形式。不同形式的扩展字符和含义都不同:
这些扩展划分的主要依据是,作为源地址或者目的地址的指针是在访问内存前增减,还是访问内存后增减。以及,LDM与LDMIA功能相同,都是在加载操作完成后访问对地址增加的。通过这种方式,我们可以序列化的向前或者向后从一个指针指向的内存加载数据到寄存器,或者存放数据到内存。
在内存中存在一块进程相关的区域叫做栈。栈指针寄存器SP在正常情形下指向这篇区域。应用经常通过栈做临时的数据存储。X86使用PUSH和POP来访问存取栈上数据。在ARM中我们也可以用这两条指令:
当PUSH压栈时,会发生以下事情:
当POP出栈时,会发生以下事情:
在之前讨论CPSR寄存器那部分时,我们大概提了一下条件执行这个词。条件执行用来控制程序执行跳转,或者满足条件下的特定指令的执行。相关条件在CPSR寄存器中描述。寄存器中的比特位的变化决定着不同的条件。比如说当我们比较两个数是否相同时,我们使用的Zero比特位(Z=1),因为这种情况下发生的运算是a-b=0。在这种情况下我们就满足了EQual的条件。如果第一个数更大些,我们就满足了更大的条件Grater Than或者相反的较小Lower Than。条件缩写都是英文首字母缩写,比如小于等于Lower Than(LE),大于等于Greater Equal(GE)等。
下面列表是各个条件的含义以及其检测的状态位(条件指令都是其英文含义的缩写,为了便于记忆不翻译了):
在指令集那篇文章中我们谈到了不同的指令集,对于Thumb中,其实也有条件执的(Thumb-2中有)。有些ARM处理器版本支持IT指令,允许在Thumb模式下条件执行最多四条指令。
相关引用:http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dui0552a/BABIJDIC.html
指令格式:Syntax: IT{x{y{z}}} cond
cond 代表在IT指令后第一条条件执行执行指令的需要满足的条件。
IT指令的含义是“IF-Then-(Else)”,跟这个形式类似的还有:
在IT块中的每一条条件执行指令必须是相同逻辑条件或者相反逻辑条件。比如说ITE指令,第一条和第二条指令必须使用相同的条件,而第三条必须是与前两条逻辑上相反的条件。
下图是条件指令后缀含义以及他们的逻辑相反指令:
让我们试试下面这段代码:
.syntax unified @ 这很重要!
.text
.global _start
_start:
.code 32
add r3, pc, #1 @ R3=pc+1
bx r3 @ 分支跳转到R3并且切换到Thumb模式下由于最低比特位为1
.code 16 @ Thumb模式
cmp r0, #10
ite eq @ if R0 == 10
addeq r1, #2 @ then R1 = R1 + 2
addne r1, #3 @ else R1 = R1 + 3
bkpt
.code32
是指代码在ARM模式下执行。第一条机器码将PC地址加一并且送给了R3。在之后的跳转中就切换到了Thumb模式。这也是bx与b指令的区别,前者会切换状态而后者不会。、
.code16
是在Thumb模式下执行的代码。这段代码中的条件执行前提是R0等于10。ADDEQ指令代表了如果条件满足,那么就执行R1=R1+2,ADDNE代表了不满足时候的情况。
分支指令(也叫分支跳转)允许我们在代码中跳转到别的段。当我们需要跳到一些函数上执行或者跳过一些代码块时很有用。这部分的最佳例子就是条件跳转IF以及循环。先来看看IF分支。
.global main
main:
mov r1, #2 /* 初始化 a */
mov r2, #3 /* 初始化 b */
cmp r1, r2 /* 比较谁更大些 */
blt r1_lower /* 如果R2更大跳转到r1_lower */
mov r0, r1 /* 如果分支跳转没有发生,将R1的值放到到R0 */
b end /* 跳转到结束 */
r1_lower:
mov r0, r2 /* 将R2的值放到R0 */
b end /* 跳转到结束 */
end:
bx lr /* THE END */
再来看看循环中的条件分支:
.global main
main:
mov r0, #0 /* 初始化 a */
loop:
cmp r0, #4 /* 检查 a==4 */
beq end /* 如果是则结束 */
add r0, r0, #1 /* 如果不是则加1 */
b loop /* 重复循环 */
end:
bx lr /* THE END */
有三种类型的分支指令:
Branch(B) : 简单的跳转到一个函数
Branch link(BL) : 将下一条指令的入口(PC+4)保存到LR,跳转到函数
Branch exchange(BX) 以及 Branch link exchange(BLX) :
BX/BLX指令被用来从ARM模式切换到Thumb模式。
例子参考源文档。
条件分支指令是指在满足某种特定条件下的跳转指令。指令模式是跳转指令后加上条件后缀。
例子参考源文档。
一般来说,栈是一片在程序/进程中的内存区域。这部分内存是在进程创建的时候被创建的。我们利用栈来存储一些临时数据比如说函数的局部变量,环境变量等。在之前的文章中,我们讲了操作栈的相关指令PUSH和POP。
在我们开始之前,还是了解一下栈的相关知识以及其实现方式吧。首先谈谈栈的增长,即当我们把32位的数据放到栈上时候它的变化。栈可以向上增长(当栈的实现是负向增长时),或者向下增长(当栈的实现是正向增长时)。具体的关于下一个32位的数据被放到哪里是由栈指针来决定的,更精确的说是由SP寄存器决定。不过这里面所指向的位置,可能是当前(也就是上一次)存储的数据,也可能是下一次存储时的位置。如果SP当前指向上一次存放的数据在栈中的位置(满栈实现),SP将会递减(降序栈)或者递增(升序栈),然后再对指向的内容进行操作。而如果SP指向的是下一次要操作的数据的空闲位置(空栈实现),数据会先被存放,而后SP会被递减(降序栈)或递增(升序栈)。
不同的栈实现,可以用不同情形下的多次存取指令来表示(这里很绕…):
栈类型 | 压栈(存储) | 弹栈(加载) |
---|---|---|
满栈降序(FD,Full descending) | STMFD(等价于STMDB,操作之前递减) | LDMFD(等价于LDM,操作之后递加) |
满栈增序(FA,Full ascending) | STMFA(等价于STMIB,操作之前递加) | LDMFA(等价于LDMDA,操作之后递减) |
空栈降序(ED,Empty descending) | STMED(等价于STMDA,操作之后递减) | LDMED(等价于LDMIB,操作之前递加) |
空栈增序(EA,Empty ascending) | STMEA(等价于STM,操作之后递加) | LDMEA(等价于LDMDB,操作之前递减) |
在开始学习ARM下的函数前,我们需要先明白一个函数的结构:
序言的目的是为了保存之前程序的执行状态(通过存储LR以及R11到栈上)以及设定栈以及局部函数变量。这些的步骤的实现可能根据编译器的不同有差异。通常来说是用PUSH/ADD/SUB这些指令。
push {r11, lr} /* 保存R11与LR */
add r11, sp, #4 /* 设置栈帧底部,PUSH两个寄存器,SP加4后指向栈帧底部元素 */
sub sp, sp, #16 /* 在栈上申请相应空间 */
函数体部分就是函数本身要完成的任务了。这部分包括了函数自身的指令,或者跳转到其它函数等。下面这个是函数体的例子。
mov r0, #1 /* 设置局部变量(a=1),同时也是为函数max准备参数a */
mov r1, #2 /* 设置局部变量(b=2),同时也是为函数max准备参数b */
bl max /* 分支跳转调用函数max */
上面的代码也展示了调用函数前需要如何准备局部变量,以为函数调用设定参数。一般情况下,前四个参数通过R0-R3来传递,而多出来的参数则需要通过栈来传递了。函数调用结束后,返回值存放在R0寄存器中。所以不管max函数如何运作,我们都可以通过R0来得知返回值。而且当返回值位64位值时,使用的是R0与R1寄存器一同存储64位的值。
函数的最后一部分即结束收尾,这一部分主要是用来恢复程序寄存器以及回到函数调用发生之前的状态。我们需要先恢复SP栈指针,这个可以通过之前保存的栈帧指针寄存器外加一些加减操作做到(保证回到FP,LR的出栈位置)。而当我们重新调整了栈指针后,我们就可以通过出栈操作恢复之前保存的寄存器的值。基于函数类型的不同,POP指令有可能是结束收尾的最后一条指令。然而,在恢复后我们可能还需要通过BX指令离开函数。一个收尾的样例代码是这样的。
sub sp, r11, #4 /* 收尾操作开始,调整栈指针,有两个寄存器要POP,所以从栈帧底部元素再减4 */
pop {r11, pc} /* 收尾操作结束。恢复之前函数的栈帧指针,以及通过之前保存的LR来恢复PC。 */
总结一下:
关于函数,有一个关键点我们要知道,函数的类型分为叶函数以及非叶函数。叶函数是指函数中没有分支跳转到其他函数指令的函数。非叶函数指包含有跳转到其他函数的分支跳转指令的函数。这两种函数的实现都很类似,当然也有一些小不同。