第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)

文章目录

  • Thumb 汇编指令集
    • 16 位 Thumb 指令编码
    • 16 位 Thumb 指令格式解析
    • 32 位 Thumb 指令编码
    • 32 位 Thumb 指令格式解析

Thumb 汇编指令集

  • 作为 ARM 指令集的一个子集,针对代码密度问题提出,具有 16 位的指令宽度
  • 与 ARM 指令的 32 位宽度相比,Thumb 指令集在保留 32 位宽度优势的同时大大节省了系统的存储空间
  • Thumb 不是一个完整的体系结构,包含的指令集十分有限,常与 ARM 指令搭配使用
  • 第一代 Thumb 指令集更新到 ARMv6T2 后,引入了第二代 Thumb 指令集,使用与 ARM 指令相同的 32 位指令,不仅性能与 32 位 ARM 指令相当,还保留了第一代指令的简洁特性
  • Thumb 指令和 ARM 指令除了长度不同,寄存器的使用也不同。Thumb 指令集中,R11 ~ R15 寄存器使用 FP、IP、SP、LR、PC 等命名,新的命名方式直接在名称上体现了寄存器的用途,使用上也有限制和差异(相较 ARM 指令)
  • 第一代 Thumb 指令的宽度只有 16 位,在地址读取范围上比 ARM 指令小很多,在进行一些大范围的指令跳转操作时只能切换到 ARM 模式,执行 ARM 指令

16 位 Thumb 指令编码

  • 16 位的 Thumb 指令称第一代 Thumb 指令
  • 格式:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第1张图片
  • 可看到,第一代 Thumb 指令设计十分简洁,只用了一个 bits[15:10] 的 Opcode 域来确定指令及其分类
  • 第一代 Thumb 指令的所有指令及分类方法(Opcode 域中的 x 表示取值可为 0 或 1):
Opcode 指令或指令类别
00xxxx 移位、加、减、移动与比较指令
010000 数据处理指令
010001 特殊数据指令,分支与交换指令
01001x 常量池加载指令,LDR 指令
0101xx 加载/存储单个数据指令
011xxx 加载/存储单个数据指令
100xxx 加载/存储单个数据指令
10100x 相对于 PC 寄存器的加法指令,ADR 指令
10101x 相对于 SP 寄存器的加法指令,ADD 指令
1011xx 杂项指令
11000x 多寄存器存储指令,STM、STMIA、STMEA 指令
11001x 多寄存器加载指令,LDM、LDMIA、LDMFD 指令
1101xx 条件分支与中断指令
11100x 无条件分支指令,B 指令
  • 在用 Android NDK 编译代码时,若想默认生成 Thumb 指令而非 ARM 指令,可在编译代码时指定 -mthumb 参数:
    $CC app.c -fPIE -S -mthumb -march=armv5te
  • 在生成的汇编代码中,子程序会的开头会自动添加 .thumb_func 伪指令

16 位 Thumb 指令格式解析

  • 以十六进制值 0x4611 为例,分析其指令编码,找出其对应的 Thumb 指令
  • 用计算器查看其二进制编码:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第2张图片
  • bits[15:10] 的 Opcode 域的值为 0b010001,对应指令分类中的特殊数据指令、分支与交换指令系列,具体的指令格式:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第3张图片
  • bits[9:6] 的 Opcode 域的值为 0b1000,对应 MOV 低位寄存器指令,格式:
    MOV ,
  • 对应的指令的位域分布:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第4张图片
  • 指令伪代码描述:
d = UInt(D:Rd);
m = UInt(Rm);
setflags = FALSE;
if d == 15 && InitBlock() && !LastInitBlock()
    then UNPREDICTABLE;
  • d 等于 15 被定义为不可预知行为,所以,bits[7:3] 不能为 0b10101。Rm 寄存器为源寄存器,取值为 0b0010(表示 R2 寄存器)。Rd 为目标寄存器,取值为 0b001(表示 R1 寄存器)
  • 综上,这条指令的完整格式为 MOV R1, R2
  • 验证(此处为大端序):
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第5张图片

32 位 Thumb 指令编码

  • 32 位的 Thumb 指令又称 Thumb-2 指令
  • Thumb 指令分为 16 位和 32 位两个版本,如何区分?若一段汇编代码中包含 Thumb、Thumb-2、ARM 三种类型的指令,处理器在执行代码时要用什么方法正确区分它们?Thumb 与 ARM 间的切换采用 CPSR 的 T 标志位,在执行 BXBLX 指令时,处理器模式的切换依赖于执行地址的最低位(bit[0])。Thumb 与 Thumb-2 间的指令识别依赖于指令编码格式的设计准则
  • ARM 规定:一条 Thumb 指令的 bits[15:11](高五位)有如下取值时,表示这是一条 Thumb-2 指令:
    • 0b11101:高三位全为 1,当第四位为 0 时,第五位必须为 1(因为 0b11100 在 16 位 Thumb 指令中被无条件分支指令占用)
    • 0b11110:高四位全为 1
    • 0b11111:高四位全为 1
  • 32 位的 Thumb 指令用两个 16 位表示:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第6张图片
  • 第一个 16 位的高三位永远是 1,然后依次是第一个 16 位的 bits[12:11] 的 op1 域、bits[10:4] 的 op2 域,及第二个 16 位的 bit[15] 的 op 域,它们组合后的不同值表示不同的 32 位 Thumb 指令。完整的指令类别定义:
op1 op2 op 指令类别
01 00xx0xx 多寄存器加载与存储指令
01 00xx1xx 寄存器加载与存储指令
01 01xxxxx 数据处理(寄存器移位)指令
01 1xxxxxx 协处理器指令
10 x0xxxxx 0 数据处理(立即数修改)指令
10 x1xxxxx 0 数据处理(二进制立即数)指令
10 1 分支与杂项指令
11 000xxx0 存储单数据指令
11 001xxx0 高级 SIMD 与结构化加载存储指令
11 00xx001 字节加载指令
11 00xx011 半字加载指令
11 00xx101 字加载指令
11 00xx111 未定义
11 010xxxx 数据处理(寄存器)指令
11 0110xxx 乘法、乘积与绝对差指令
11 0111xxx 长型乘法、长型乘积与除法指令
11 1xxxxxx 协处理器指令
  • 可看出,32 位的 Thumb 指令比 16 位的丰富很多。在用 armeabiv7-a 及以上版本的指令集时,要想编译生成 32 位的 Thumb 代码,要指定 -mthumb 参数。在生成的代码中,编译器会根据场景选择用 16 位或 32 位指令,结果通常是在一段 Thumb 指令的汇编代码中同时包含 16 位与 32 位的 Thumb 指令
  • 执行如下命令,可为 app2.c 生成 Thumb-2 汇编指令:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第7张图片
  • 用 IDA Pro 打开生成的 app2,定位到 main() 处,会看到生成的代码中有 MOVT.WLDRD.W 这种带 .W 后缀的指令,这种指令格式 Thumb-2 特有
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第8张图片

32 位 Thumb 指令格式解析

  • 以十六进制数 0xF0814100 为例,分析其指令编码,找到其对应的 Thumb-2 指令
  • 用计算器查看其二进制编码:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第9张图片
  • bits[12:11] 的 op1 域值为 0b10,bits[10:4] 的 op2 域值为 0b0001000,对应的指令类别为数据处理(立即数修改)指令。其指令格式:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第10张图片
  • 第一个 16 位的 bits[8:5] 的 op 域值为 0b0100,第二个 16 位的 bits[11:8] 的 Rd 域值为 0b0001,对应的指令为 EOR(立即数指令)。EOR 指令格式:
    EOR , , #
  • 对应的指令二进制位域分布:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第11张图片
  • 可看到,此指令的格式较复杂。Rd 的值为 0b0001,表示 R1 寄存器;Rn 的值为 0b001,表示也是 R1 寄存器。这里重要的是如何计算 const 的值
  • EOR 的伪代码描述:
if Rd == '1111' && S == '1'
    then SEE TEQ (immediate);
d = UInt(Rd);
n = UInt(Rn);
setflags = (S == '1');
(imm32, carry) = ThumbExpandImm_C(i:imm3:imm8, APSR.C);
if BadReg(n)
    then UNPREDICTABLE;

  • imm32 的值就是 const 的值,它的计算由 ThumbExpandImm_C() 完成。传入的参数有两个,一个是由 i、imm3、imm8 三个域组成的 12 位的值,另一个是 APSR 的 C 标志。这里主要看前一个参数的取值。i 的值为 0,imm3 域为第二个 16 位的 bits[14:12],值为 0b100,imm8 域为第二个 16 位的 bits[7:0],值为 0b00000000,合起来就是 0b010000000000
  • ARM 指令参考手册中,ThumbExpandImm_C() 的伪代码:
// ThumbExpandImm_C()
// ==================

(bits(32), bit) ThumbExpandImm_C(bits(12) imm12, bit carry_in)

if imm12<11:10> == '00' then
    case imm12<9:8> of
        when '00'
            imm32 = ZeroExtend(imm12<7:0>, 32);
        when '01'
            if imm12<7:0> == '00000000'
                then UNPREDICTABLE;
            imm32 = '00000000' : imm12<7:0> : '00000000' : imm12<7:0>;
        when '10'
            if imm12<7:0> == '00000000'
                then UNPREDICTABLE;
            imm32 = imm12<7:0> : '00000000' : imm12<7:0> : '00000000';
        when '11'
            if imm12<7:0> == '00000000'
                then UNPREDICTABLE;
            imm32 = imm12<7:0> : imm12<7:0> : imm12<7:0> : imm12<7:0>;
    carry_out = carry_in;
else
    unrotated_value = ZeroExtend('1':imm12<6:0>, 32);
    (imm32, carry_out) = ROR_C(unrotated_value, UInt(imm12<11:7>));
return (imm32, carry_out);

  • 根据 imm12 的高两位判断,其值为 0b01,会执行 else 语句处的指令,ZeroExtend() 将 1 与 imm12 的低七位组合后,扩展到 32 位,即 unrotated_value 的值是一个 32 位的整数且只有第八位为 1,其他位均为 0。接着,ROR_C() 进行循环右移,伪代码:
// ROR_C()
// =======

(bits(N), bit) ROR_C(bits(N) x, integer shift)
    assert shift != 0;
    m = shift MOD N;
    result = LSR(x, m) OR LSL(x, N-m);
    carry_out = result;
    return (result, carry_out);
  • 将 unrotated_value 的值循环右移 shift 位。shift 的值为 imm12 的高五位,为 0b01000,即 8。循环右移 8 位后,第八位的 1 到了最高位(第三十一位),其他全部为 0,结果为 0x80000000
  • 综上,0xF0814100 对应的 Thumb-2 指令为 EOR R1, R1, #0x80000000
  • rasm2 命令不支持对 Thumb-2 指令数据进行汇编,但支持对 Thumb-2 指令反汇编,可执行如下命令验证上述结果:
    第七章 ARM 反汇编基础(六)(Thumb 汇编指令集)_第12张图片
  • 之所以传入 0x81F00041 而非 0xF0814100,是因为 Thumb-2 虽是 32 位,但读取和解析仍以 16 位进行,对应的小端字节序的数据与 32 位的情况有所不同

你可能感兴趣的:(《Android,软件安全权威指南》学习笔记,android,ubuntu,安全)