在 iOS 上,Objective-C runtime 提供了一系列函数,可以很容易地 hook Objective-C 的方法。因为 Objective-C 的动态性很高,每个 Objective-C 的方法(SEL
)都是对应一个匿名 C 函数的实现(IMP
),只要去修改这个 Objective-C 方法 与 C 实现的映射关系,就可以很容易地做到 hook 的功能。但是对于 C 函数本身,就不是那么简单的事情了。
Mach-O 的映像结构
要想了解如何 hook C 函数,需要先了解下 iOS 下 Mach-O 可执行文件载入的过程。一个 iOS app 进程可以包含多个映像(image),可执行文件自己的代码是一个 image,它所链接的每个动态库也各分配了一个 image。每个映像分为三个区域,mach header, load commands 和 data,图示如下(以下说明都以 64 位架构为准,32 位也是差不多的):
(图片来自 seriot.ch - Hello Mach-O)
Mach header 用来记录映像的元信息,比如 CPU 架构等,具体细节我们不关心。load commands 区域是由若干个长度不等的 load command 排在一起,每个 load command 用来告诉加载器进行一些加载工作,其中最主要的 load command 类型是 segment command,目前我们只关心这一种命令,该命令让加载器在把指定的数据(由文件偏移量fileoff
和大小filesize
决定)加载到指定的地址里,地址为 vmaddr+slide
,slide 后文再说。知道了地址,就能对指定段和节的数据进行操作了。
struct segment_command_64 { /* for 64-bit architectures */
uint32_t cmd; /* LC_SEGMENT_64 */
uint32_t cmdsize; /* includes sizeof section_64 structs */
char segname[16]; /* segment name */
uint64_t vmaddr; /* memory address of this segment */
uint64_t vmsize; /* memory size of this segment */
uint64_t fileoff; /* file offset of this segment */
uint64_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};
一个 segment 可以有0或多个 section,从 nsects
里可以获得,这些 section 就是紧接着 segment 后面指定。load commands 后面就是实际的数据了。
遍历方法
由于这三个部分是紧密地排在一起的,因此只要知道映像的首址和每个部分的大小,就可以通过指针算数获取每个区块的内容。比如我们通过 _dyld_get_image_header
可以获得映像的 header 的地址,然后加上一个偏移量sizeof(struct mach_header_64)
,就是 load commands 区域的首址,header 中会有一个名为ncmds
的字段记录该区域有几条 load command,每个 load command 最前面必定是有两个字段:
struct load_command {
uint32_t cmd; /* type of load command */
uint32_t cmdsize; /* total size of command in bytes */
};
cmd 用来表示 load command 的类型,cmdsize 表示该命令所占的空间大小,这样结合前面 header 提供的命令数和计算出来的 load commands 区域的首址,就可以遍历该区域的所有 load command 了。
ASLR
ASLR 是 Address Space Layout Randomization 的缩写,这个概念在业界由来已久,并非苹果原创。由于 vmaddr 是链接器链接的时候写入 Mach-O 文件的,对于一个进程来说是静态不变的,因此给黑客攻击带来了便利,iOS 4.3 以后引入了 ASLR,给每个 image 在 vmaddr 的基础上再加一个随机的偏移量 slide,因此每段数据的真实的虚拟地址是 vmaddr + slide。
开始 hook
两个函数表
在__DATA
段有两个特殊的节:__nl_symbol_ptr
和__la_symbol_ptr
,这两个节都是一个函数数组,前者存储非懒加载解析的 C 函数地址,后者存储懒加载存储的函数地址。
对于以非懒加载的动态库,加载动态库映像的时候,将所有的符号全部解析出来填入该表,而对于懒加载的动态库,则默认用一个特殊的函数 dyld_stub_helper
填充之,懒加载的函数第一次调用的时候,从映像中解析出地址,然后填充调用之。因此只要我们修改这两个表的内容,就可以替换原先函数的实现了。但问题是,这两个节存储的都是函数地址,没有函数名,那么我们怎样通过函数名找到对应的函数地址呢?
__LINKEDIT 段
Mach-O 文件里另有一个特殊的段,这个段存储了很多符号信息,与我们 hook C 函数有关的有三个数组:
- 间接符号表
- 符号表
- 字符串表
间接符号表记录了前面函数表里的函数所对应的符号表下标,比如说某个函数表里分别表示的是 A, B, C, D 四个函数的地址,而对应的符号表里四个函数的顺序为 B, D, C, A,那么这个函数表所对应的间接符号表的元素就是 3, 0, 2, 1。我们通过间接符号表就从函数地址查到函数在符号表的索引,然后通过这个索引再查符号表,符号表的每个表项是struct nlist_64
struct nlist_64 {
union {
uint32_t n_strx; /* index into the string table */
} n_un;
uint8_t n_type; /* type flag, see below */
uint8_t n_sect; /* section number or NO_SECT */
uint16_t n_desc; /* see */
uint64_t n_value; /* value of this symbol (or stab offset) */
};
这个结构体的 n_un.n_strx
就是该函数的名字在字符串表中的索引,通过这个索引查字符串表就能得到函数名字。流程总结一下:
- 从间接地址表得到符号表索引
- 通过符号表和符号表索引得到函数对应的符号表表项
- 通过符号表表项得到函数名在字符串表的索引
- 通过字符串表和字符串表索引找到函数名
然后比较函数名是否是要 hook 的函数,是的话,就用新的函数替换原先的表项,当然在替换之前最好把原先的地址拿出来,供新函数使用。
Facebook 的开源库 fishhook
以上的流程实际上编码起来是很繁琐的,好在 Facebook 已经帮我们做好了一个库:fishhook,这个库进行 hook 的原理就是上面所说的这些,Facebook 自己的循环引用检测库 FBRetainCycleDetector 就基于 fishhook 实现的。