与ARM指令集相比较,Thumb指令集中的数据处理指令的操作数仍然是32位,指令地址也为32位,但Thumb指令集为实现16位的指令长度,舍弃了ARM指令集的一些特性,如大多数的Thumb指令是无条件执行的,而几乎所有的ARM指令都是有条件执行的;大多数的Thumb数据处理指令的目的寄存器与其中一个源寄存器相同。
由于Thumb指令的长度为16位,即只用ARM指令一半的位数来实现同样的功能,所以,要实现特定的程序功能,所需的Thumb指令的条数较ARM指令多。在一般的情况下,Thumb指令与ARM指令的时间效率和空间效率关系为: — Thumb代码所需的存储空间约为ARM代码的60%~70% — Thumb代码使用的指令数比ARM代码多约30%~40% — 若使用32位的存储器,ARM代码比Thumb代码快约40% — 若使用16位的存储器,Thumb代码比ARM代码快约40%~50% — 与ARM代码相比较,使用Thumb代码,存储器的功耗会降低约30%
显然,ARM指令集和Thumb指令集各有其优点,若对系统的性能有较高要求,应使用32位的存储系统和ARM指令集,若对系统的成本及功耗有较高要求,则应使用16位的存储系统和Thumb指令集。当然,若两者结合使用,充分发挥其各自的优点,会取得更好的效果。 |
--------------------------------------------
|
---------------------------------------
大多数ARM数据处理指令采用的是3地址格式(除了64位乘法指令外)。
所有异常都会使微处理器返回到ARM模式状态,并在ARM的编程模式中处理。由于ARM微处理器字传送地址必须可被4整除(即字对准),半字传送地址必须可被2整除(即半字对准)。而Thumb指令是2个字节长,而不是4个字节,所以,由Thumb执行状态进入异常时其自然偏移与ARM不同。
16位Thumb指令集是从32位ARM指令集提取指令格式的,每条Thumb指令有相同处理器模型所对应的32位ARM指令。
---------------------------------------
只要遵循ATPCS调用规则,Thumb子程序和ARM子程序就可以互相调用。在这种嵌入式系统软件开发中,为了增强系统的灵活性以及提高系统的整体性能经常需要使用16位的Thumb指令。如何有效、准确地使用ARM/Thumb状态切换(Interworking)是关系到整个系统成败的关键环节,也是在具体项目开发过程中相对比较难掌握的内容。本文主要介绍ARM体系结构中的ARM/Thumb状态切换(Interworking)。
1. ARM/Thumb 指令的性能比较
在ARM处理器中,内核同时支持32位的ARM指令和16位的Thumb令。对于ARM指令来说,所有的指令长度都是32位,并且执行周期大多为单周期,指令都是有条件执行的。而THUMB指令的特点如下:
也就是说16位的Thumb指令一般可以完成和32位ARM相同的任务。当用户使用C程序来处理应用时,如果编译为Thumb指令,那么它的目标代码大小只有编译为ARM指令时的65%左右,这样就增加了指令密度。从另一方面来看,处理器在这两种状态下的性能是依赖于指令执行的存储器的宽度的。下面的图一具体说明二者的性能比较。可以看出,在存储器是32位的情况下,ARM性能较好,这时因为同样的代码编译的结果Thumb指令将会比ARM多,Thumb指令仍旧花费指令周期来从32-bit块内存预取。在16-bit内存上,即使有比ARM多的代码,这时Thumb性能也较好,因为Thumb每一条指令预取需要一个周期而每条ARM指令需要两个周期。另外在16-bit内存上,Thumb的性能降低了;这是因为数据去操作和特殊的堆栈操作,即使在Thumb下,堆栈操作仍是32-bit操作,导致低的性能在16-bit内存架构上。一个改进的方法是提供32-bit的内存来放置堆栈。在这种情况下的性能提高到了32-bit内存架构的水平。主要的差别是因为使用的整型的(32-bit)全局数据将仍被存储在16-bit内存上。
另外,与ARM代码相比较,使用Thumb代码,存储器的功耗会降低约30%。
图一
显然,ARM指令集和Thumb指令集各有其优点,若对系统的执行效率有较高的要求,应使用32位的存储系统和ARM指令集,若对系统的成本及功耗有较高的要求,则应使用16为的存储系统和Thumb指令集。当然,若两者结合使用,充分发挥其各自的优点,会取得更好的效果。
2.切换(Interwoking)的基本概念及切换时的子函数调用
在我们的实际系统应用中,因为ARM/Thumb指令具有不同的特点,所以不同的场合开发人员会有不同的选择。Thumb指令低密度及在窄存储器时性能高的特点使得它在大多数基于C代码的系统中有非常广泛的应用,但是有些场合中系统只能使用ARM指令,比如:
所以在实际系统中,内核状态需要经常的切换(Interworking)来满足系统性能需求。具体的切换是通过Branch Exchange—即BX 指令来实现的。指令格式为:
Thumb状态 BX Rn
ARM状态 BX
其中Rn可以是寄存器R0—R15中的任意一个。指令可以通过将寄存器Rn的内容拷贝到程序计数器PC来完成在4Gbyte地址空间中的绝对跳转,而状态切换是由寄存器Rn的最低位来指定的,如果操作数寄存器的状态位Bit0=0,则进入ARM状态,如果Bit0=1,则进入Thumb状态,图二给出了具体得切换过程。
图二
下面是某系统中使用的程序切换实例。
CODE32 //ARM状态下的代码
LDR R0, =Into_Thumb+1
//产生跳转地址并且设置最低位
BX R0
//Branch Exchange 进入Thumb状态
…
CODE16 //Thumb状态下的子函数
…
LDR R3, =Back_to_ARM
//产生字对齐的跳转地址,最低位被清除
BX R3
//Branch Exchange 返回到ARM状态
CODE32 //ARM状态下的子函数
Bach_to_ARM
…
在上面的程序中,CODE16/CODE32伪指令告诉汇编编译器后面的指令序列分别为Thumb/ARM指令。
在非Interworking函数调用中,调用函数使用BL(Branch with Link)指令,即将返回地址保存在连接寄存器LR中,同时跳转到被调用的子函数程序入口。从子函数返回时执行指令 MOV PC, LR(当然也可能是其他形式的指令,如出栈指令)将LR值直接放入PC中,从而返回到调用函数中的下一条指令的地址,然后继续执行程序。
在Interworking函数的调用中,需要在编译时对此函数所在的源程序指定编译开关选项:-apcs / interwork ,即保证程序遵守ARM/Thumb程序混合使用的ATPCS规则。一般来说,这时生成的目标代码会增加2%左右。这样在编译器(compiler)处理这个函数时就会用BX 指令取代MOV PC,LR指令,而且连接器(linker)会自动的产生一小段代码(veneers)来改变处理器状态(ARM/Thumb),具体过程如图3所示。
图三
编译/连接命令为:
armcc -apcs/interwork arm_code.c –o arm_code.o
tcc -apcs/interwork thumb_code.c –o thumb_code.o
armlink arm_code.o thumb_code.o
对于C/C++程序来说,当编译时如果增加 –apcs/interwork 选项,那就是告诉连接器自动增加一小段代码(veneer)来实现函数调用时ARM/Thumb的状态切换。但是对于使用C程序中的Interwork选项,需要注意的是:
下面的图四显示了C/C++程序在增加编译选项-apcs/interwork时将代码分别编译为ARM/THUMB指令时的情况。由于在Thumb状态下不能直接使用POP LR,所以使用了暂时寄存器R3。
对于汇编程序来说,如果本代码是被调用的函数,则需按照以下步骤处理:
如果本代码是调用函数,那就只需要用BL指令来实现子函数的调用即可,也就是正常的处理。当然,用户也可以自己来编写这些状态切换程序,这样执行代码的效率会更高些。
对于C/C++程序和汇编程序的相互调用同样需要遵守以上的规则。另外,在实际应用中,如果要在ARM/Thumb状态间来切换程序,最好的办法是所有的函数在编译时都增加 –apcs/interwork选项。
图四
其中Thumb状态下因为不能直接使用POP 、LR指令,所以使用了暂时存储器r3。
3.V5TE架构中的扩展
前面所提到的内容是针对ARM微处理器内核为V4T架构时的切换情况,而对于V5TE架构的ARM内核,除了完全支持V4T架构的代码(具有veneers)外,代码在连接时不再增加veneers,而是使用新的指令BLX(Branch and Link with Exchang)来实现状态切换。这条指令完成完成的任务是:在跳转时将返回的指令地址保存在LR寄存器中,同时将PC中的最低位的值拷贝到CPSR寄存器中的T位,从而改变处理器状态(Exchange)。一般来说,对于调用函数使用BLX指令即可,被调用函数则与V4T架构相同,也是使用BX指令来返回。
-------------------------------------------
源:http://blog.csdn.net/denlee/archive/2008/05/14/2444318.aspx
在使用T版本的ARM内核的处理器时,经常要使用ARM/Thum交互工作,总结了一些需要注意的问题:编写汇编被调过程、编译时应该注意的问题、ARM/Thumb间的相互调用。
一.编写汇编被调过程
如果需要交互工作,则所编写的函数应该遵循ATPCS标准。
1.叶函数(函数内不包括函数的调用)
使用BX LR返回。
2.非叶函数
(1)在入口处保护返回地址(lr)以及寄存器(r0-r7,r8-r12(ARM))
(2)返回前恢复保护的寄存器
(3)使用BX返回
二.编译时应该注意的问题
1.编译用于交互工作的ARM汇编代码: armasm -32 -apcs /interwork
2.编译用户交互工作的Thumb汇编代码: armasm -16 -apcs /interwork
***说明:
(1)关于汇编代码,也可在程序中使用CODE32或CODE16命令明确告知汇编程序下面的代码是ARM代码还是Thumb代码,这样在汇编时则无需使用-32、-16选项
(2)当然也可在单个汇编原文件中混合使用ARM以及Thumb代码,这是需要使用CODE32以及CODE16命令,并且需要注意状态的切换,使用BX Rn,根据Rn的Bit[0]来确定目标是ARM代码还是Thumb代码
3.编译用于交互工作的ARM C代码: armcc -apcs /interwork
4.编译用于交互工作的Thumb C代码: tcc -apcs /interwork
***说明:基于ADS1.2
三.ARM/Thumb之间的相互调用
交互的调用遵循以下原则: