ARM汇编器的规则和预处理指令

现在最新的32位的ARM/THUMB汇编语言叫做UAL(Unified Assembler Language，统一的汇编语言)，已经取代了早期版本的ARM/THUMB汇编语言。用UAL编写的代码可以被汇编为 ARM, Thumb/Thumb-2指令。最新的一些工具反汇编你的代码之后可能都是用UAL来表示了，但是仍然有大量的代码是用旧格式来编写。

汇编语法规则

汇编文件中源码行的一般格式如下：

{label} {instruction|directive|pseudo-instruction} {;comment}

大括号内的每个字段都是可选的。

label其实是对内存中的一个地址的命名，最终会转化为一个数字值，在编码时你只需在代码中用label即可剩下的交给编译器来处理。

注意：label在代码中只能定义一次，并且需要从行首顶格开始（当然也有一些编译器支持在任意位置放置label，这种需要用分隔符进行分隔，比如冒号）

{instruction|directive|pseudo-instruction}跟在label之后，和label之间要有一个或者多个空格或者有tab键隔开（就算前面没有label的话也要这样，否则会被认为是label，一个新手ARM汇编程序员常犯的错误就是没有label时把instruction|directive|pseudo-instruction顶格写）
instruction是具体的ARM汇编指令，例如ARM7TDMI的ARM指令集如下图所示：

image.png

对大多数的instruction语句（也有一些是例外）一般的格式如下：

instruction destination, source, source

source有多种格式，可以包括数字，寄存器，寄存器旋转等等

directive（英文翻译过来也是指令的意思，有的书把它翻译为保留字），从功能上来说其实有点像编译器的预处理命令，不同编译器的directive并不一样。比如下面的ARM官方的keil（使用的是armasm编译器）和TI 的CSS常用的directive。

image.png

pseudo-instruction，直白翻译过来就是伪指令，它可以像instruction出现在汇编源码行中，但编译器在遇到pseudo-instruction会进一步进行转化和解释把它用其他的instruction进行代替，为什么要这么麻烦呢，主要的目的是减轻汇编编写者的负担，通过汇编器自动去处理而不是手动去处理，从而提高编程效率和降低编程犯错空间。
comment，注释，以分号';'开始到行结束

常用的directive

这里以armasm编译器中常用的directive进行说明。

AREA

功能：定义一个数据块/代码块
语法格式如下：
AREA sectionname{,attr}{,attr}…
sectionname是该段的名称。名字可以随便取，但是如果名字是以数字开头的话需要用一对竖线把名字括起来，比如， |1_DataArea|; 不这样会语法报错。

常用的一些attr（属性）

ALIGN = expr 让该段以2的expr次方的边界对齐。比如， expr = 10，则该段以1K为对齐边界。
CODE 该字段是机器代码(默认是READONLY)
DATA该字段是数据 (默认是READWRITE)
READONLY 该字段放在只读内存 ( CODE段的默认值)
READWRITE 该字段放在可读可写内存 (DATA段的默认值)

例子：

AREA Example,CODE,READONLY ; 一个example代码段.
; code

功能：可以理解为为寄存器定义一个符号别名
语法格式如下：
name RN expr
expr取值范围：0～15

例子：

dest RN 0 ;

功能：为常量指定符号名称或者说把符号和常量等同起来（类似C语言的#define预处理命令）
语法格式：
name EQU expr{,type}

其中name是该分配给该值的符号名称，expr可以是一个寄存器相关的地址，程序相关的地址，绝对的地址，32位的整数常量都可以。type是可选的，可以是下面的任意一个：
ARM
THUMB
CODE16
CODE32
DATA

例子：

xyz EQU label+8;把（label+8）这个地址分配给符号xyz
fiq EQU 0x1C, CODE32 ;把0X1C这个绝对地址分配给fiq，并把它标记为code

ENTRY

功能：为程序声明一个入口点，你的程序至少含有一个ENTRY点，否则在链接时会发出警告。
语法格式：
ENTRY

例子：

AREA ARMex, CODE, READONLY
ENTRY ; 应用程序的入口点

DCB, DCW, DCD

功能：分配内存并指定初始值，DCB以字节为单位进行存储， DCW{U}以半字（2字节）为单位，DCD{U}以字为单位（4字节），DCW{U}/DCD{U}带U表示不考虑内存对齐，用DCW需对齐到半字，DCD对齐到字，其他没有差别。

语法格式：
{label} DCB expr{,expr}…
{label} DCW{U} expr{,expr}…
{label} DCD{U} expr{,expr}...

其中expr是一个数值表达式或带引号的字符串（字符串的字符连续的存储在内存中），如果是数值的话DCB的取值范围是−128～255，DCW是 −32768～65535。上面说的对齐，比如DCD可在第一个定义的字前面最多填充3个字节以实现4字节对齐，如果不需要对齐就使用DCDU。DCB是以字节为对齐的，如果后面有跟汇编指令的话最好在后面用ALIGN来对齐一下，确保汇编指令对齐到正确的内存位置。

例子1：

与C中的字符串不同，ARM汇编器字符串不是NULL终止的。您可以使用DCB构造一个以NULL结尾的字符串，如下所示：

C_string DCB "C_string",0

如果这个字符串从内存中的地址0x4000开始，它在内存中应该是这样

0x4000 43 C
0x4001 5F _
0x4002 73 s
0x4003 74 t
0x4004 72 r
0x4005 69 i
0x4006 6E n
0x4007 67 g
0x4008 00

例子2

coeff DCW 0xFE37, 0x8ECC ;定义了两个半字
DATA1 DCD 1,2,3;定义了3个字1，2，3
DATA2 DCD DATA1+4；定义了一个字包含DATA1地址+4

AREA mydata,DATA,READWRITE
DCB 255;现在未对齐
DATA3 DCDU 3,4,5;定义了3个字包含3，4，5未对齐到字

ALIGN

功能：把当前位置数据/代码通过填充0对齐到特定的内存边界
语法格式：
ALIGN {expr{,offset}}

当前的位置被对齐到下一个地址的方式如下：
offset + n * expr

其中offset可以是任何数值表达式，n是汇编器为了最小化填充而选择的任何整数，expr可以是数值表达式但算出的结果必须是一个2的次幂，最小为2的零次方，最大为2的31次方。
如果未指定expr这些的话，ALIGN是把当前位置设置到下一个字（4字节）边界处。

例子1：

AREA OffsetExample, CODE

;下面两字节是在同一个字内，字的第一个字节和第4个字节，n=0，
;第二个DCB距第一个DCB的偏移offset是3

DCB 1
ALIGN 4,3
DCB 1

例子2：

start LDR r6, = label1

; code
MOV pc,lr
label1 DCB 1 ; pc现在不是对齐的
ALIGN ; 确保subroutine1能正确寻址到下面的指令
subroutine1 MOV r5, #0x5

SPACE

功能：预留特定大小的零值内存块。一般用来为子程序预留变量，表，存储数据空间等。

语法格式：
{label} SPACE expr
其中expr表达式的结果为要预留的总字节数。

例子：

AREA MyData, DATA, READWRITE
data1 SPACE 255 ; 定义了255个字节的零值存储空间

MACRO和MEND

功能：这两个组合用来一起定义一个宏。
语法格式：
MACRO
{$label} macroname{$cond} {$parameter{,$parameter}…}
; code
MEND

其中label参数一般用来做标签的替换符号，在宏被调用时进行替换。macroname是宏的名字。cond是一个特殊的参数被设计用来包含一个条件码，然而他也允许使用有效条件码以外的值。parameter参数在宏被调用时进行对应的参数替换，可以用$parameter="default value"来给该参数赋值默认值。

你可以把这些参数理解为变量，在宏内部你可以像变量一样的使用$label，$cond，$parameter，但是你必须使用$作为开头来引用这些变量以区分普通符号。当然这些参数都是可选的。

例子：

; 宏的定义
MACRO
$label xmac $p1,$p2
; code
$label.loop1 ; code
; code
BGE $label.loop1
$label.loop2 ; code
BL $p1
BGT $label.loop2
; code
ADR $p2
; code
MEND

; 宏的调用
abc xmac subr1,de

下面是宏展开的样子

; code
abcloop1 ; code
; code
BGE abcloop1
abcloop2 ; code
BL subr1
BGT abcloop2
; code
ADR de
; code

LTORG

功能：指示汇编器立即汇编当前的文字池。
语法格式：
LTORG

汇编器会在每个代码段的末尾汇编当前的文字池。何为代码段的末尾，即以AREA（作为下一代码段开始）或者END作为分割点。为什么需要LTORG，因为有时代码太长了，如果有些伪指令（比如LDR）使用默认的文字池（放在代码段末尾）会超出查找范围而出错。使用LTORG就可以确保文字池在有效的范围内被汇编。需要注意的是LTORG必须放在无条件的分支跳转或者子程序还回汇编指令之后。这样处理器就不会把文字池的常量当作汇编指令来执行。汇编器会按字对齐文字池中的数据。

例子：

AREA Example, CODE, READONLY
start BL func1
func1 ; 函数体
; code
LDR r1,=0x55555555 ; 伪指令转化为汇编=> LDR R1, [pc, #相对文字池1的偏移量]
; code
MOV pc,lr ; 函数结束

LTORG ; 文字池1包含文字 &55555555.

data SPACE 4200 ; 预留了4200个零值的内存空间
END ; 默认的文字池，现在是空的.

备注：如果注释掉LTORG，编译出错，提示文字池太远了，因为用SPACE分配了4200的空间导致末尾的默认文字池离LDR超过了4K的访问，所以需要用LTORG来立即生成一个文字池来存放对应的常量。

功能：告诉汇编器，你已经在文件的末尾了。
语法格式：
END

armasm汇编器常用的运算符

A:MOD:B	A对B取模
A:ROL:B	对A循环左移B位
A:ROR:B	对A循环右移B位
A:SHL:B 或者 A << B	对A左移B位
A:SHR:B or A >> B	对A右移B位
A + B	把A加到B
A - B	把B从A中减去
A:AND:B	对A和B执行按位与
A:EOR:B	对A和B执行按位异或
A:OR:B	对A和B执行按位或

例子：

MOV r0,#1:SHL:33
MOV R1,#1:SHR:1
MOV R2,#1:ROL:33
MOV R3,#1:ROR:1
MOV R4,#5:MOD:3
MOV R5,#0XFF:EOR:0XF0
MOV R6,#0XF0:OR:0X0F

参考文献

【1】ARM Assembly Language Fundamentals and Techniques (2nd ed.)
【2】DUI0801I_armasm_user_guide

ARM汇编器的规则和预处理指令

汇编语法规则

常用的directive

armasm汇编器常用的运算符

参考文献

你可能感兴趣的:(ARM汇编器的规则和预处理指令)