RE4B(Reverse Engineering for Beginner)是一本免费的在线教程,可以从这里获取。RE4B在讲解过程中略去了具体的操作,本系列是我学习RE4B的读书笔记,记录了我根据教程实践的过程,希望对同行者有所助益。
RE4B的第一部分叫做“Code Pattern(代码模式)”,这里的模式指的是c语言编译成汇编语言的转换模式。我们知道gcc编译c源代码分为四个步骤:预处理、编译、汇编和链接,分别对应如下四个编译选项:
-E Preprocess only; do not compile, assemble or link.
-S Compile only; do not assemble or link.
-c Compile and assemble, but do not link.
-o Place the output into .
在第二阶段将经过预处理的c语言源代码编译为汇编代码,这个过程编译器是遵循一定的模式的,比如通过寄存器和栈处理参数传递,通过栈帧处理函数的调用等。这一步对于逆向工程至关重要。因为机器码可以比较简单的转换成汇编语言,预处理过程也比较简单,高级语言到二进制文件变化最大的就是这一阶段。如果能够很好的掌握“Code Pattern”,那么就拥有了扎实的逆向基础,才有能力去学习漏洞挖掘、漏洞分析、恶意代码分析等更高级的技能。
需要指出的是,RE4B讲解“Code Pattern”时,同时覆盖了x86/x64、arm、和MIPS三大指令集,所以要想要编译书中的例子,需要安装支持这些指令集的编译器。我在“kali rolling”通过“apt search”命令,找到了下面这几个安装包:
# arm32和arm64的交叉编译器
sudo apt install gcc-6-arm-linux-gnueabi gcc-6-aarch64-linux-gnu
# mips和mips64的交叉编译器
sudo apt install gcc-6-mips-linux-gnu gcc-6-mips64-linux-gnuabi64
我们以书中最简单的例子,“empty function”为例,测试一下这些编译器能否给出我们期待的输出。
// empty.c
void func() {
return;
}
由于涉及多个平台,编译时需要重复使用多个相似的命令,我编写了如下Makefile来避免重复劳动:
empty: empty.c
if [ -d "asm/$@" ]; then continue; else mkdir "asm/$@"; fi
gcc -m32 -S $< -o asm/$@/[email protected]
gcc -S $< -o asm/$@/[email protected]
gcc-arm -S $< -o asm/$@/[email protected]
gcc-arm64 -S $< -o asm/$@/[email protected]
gcc-mips -S $< -o asm/$@/[email protected]
gcc-mips64 -S $< -o asm/$@/[email protected]
clean:
find . -name "*.s" | xargs rm -rf
使用“tree”命令查看编译后的目录结构,如下所示:
$ tree .
.
│── asm
│ └── empty
│ │── empty-arm64.s
│ │── empty-arm.s
│ │── empty-mips64.s
│ │── empty-mips.s
│ │── empty-x64.s
│ └── empty-x86.s
└── empty.c
查看以下empty-x86.s文件,如下所示:
.file "empty.c"
.text
.globl func
.type func, @function
func:
.LFB0:
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
call __x86.get_pc_thunk.ax
addl $_GLOBAL_OFFSET_TABLE_, %eax
nop
popl %ebp
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
.LFE0:
.size func, .-func
.section
.text.__x86.get_pc_thunk.ax,"axG",@progbits,__x86.get_pc_thunk.ax,comdat
.globl __x86.get_pc_thunk.ax
.hidden __x86.get_pc_thunk.ax
.type __x86.get_pc_thunk.ax, @function__x86.get_pc_thunk.ax:
.LFB1:
.cfi_startproc
movl (%esp), %eax
ret
.cfi_endproc
.LFE1:
.ident "GCC: (Debian 6.3.0-18) 6.3.0 20170516"
.section .note.GNU-stack,"",@progbits
代码中大量以“.”起始的行是链接时需要的信息,对我们阅读汇编代码没有作用,反而产生干扰。我们可以用下面这个python脚本来过滤这些干扰项:
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import sys
if len(sys.argv) != 3:
print "Usage: python clean.py [sample name] [platform]"
exit(0)
sample = sys.argv[1]
platform = sys.argv[2]
with open(sample + "/" + sample + "-" + platform + ".s", "r") as f:
for line in f:
if not line.strip().startswith("."):
sys.stdout.write(line)
过滤链接信息后的输出,如下所示:
$ python clean.py empty x86
func:
pushl %ebp
movl %esp, %ebp
call __x86.get_pc_thunk.ax
addl $_GLOBAL_OFFSET_TABLE_, %eax
nop
popl %ebp
ret
__x86.get_pc_thunk.ax:
movl (%esp), %eax
ret
在arm的在汇编代码中还存在以“@”符号起始的行,只要稍稍修改上面的python脚本就能解决问题。这个修改这里就不再详述了。
至此,我们的准备工作基本完成,如果要编译书中其它的例子,只要稍稍修改Makefile就可以了。