如何在 iOS 上 hook 一个 C 函数

在 iOS 上,Objective-C runtime 提供了一系列函数,可以很容易地 hook Objective-C 的方法。因为 Objective-C 的动态性很高,每个 Objective-C 的方法(SEL)都是对应一个匿名 C 函数的实现(IMP),只要去修改这个 Objective-C 方法 与 C 实现的映射关系,就可以很容易地做到 hook 的功能。但是对于 C 函数本身,就不是那么简单的事情了。

Mach-O 的映像结构

要想了解如何 hook C 函数,需要先了解下 iOS 下 Mach-O 可执行文件载入的过程。一个 iOS app 进程可以包含多个映像(image),可执行文件自己的代码是一个 image,它所链接的每个动态库也各分配了一个 image。每个映像分为三个区域,mach header, load commands 和 data,图示如下(以下说明都以 64 位架构为准,32 位也是差不多的):

如何在 iOS 上 hook 一个 C 函数_第1张图片
Mach-O 的映像结构

(图片来自 seriot.ch - Hello Mach-O)

Mach header 用来记录映像的元信息,比如 CPU 架构等,具体细节我们不关心。load commands 区域是由若干个长度不等的 load command 排在一起,每个 load command 用来告诉加载器进行一些加载工作,其中最主要的 load command 类型是 segment command,目前我们只关心这一种命令,该命令让加载器在把指定的数据(由文件偏移量fileoff和大小filesize决定)加载到指定的地址里,地址为 vmaddr+slide,slide 后文再说。知道了地址,就能对指定段和节的数据进行操作了。

struct segment_command_64 { /* for 64-bit architectures */
    uint32_t    cmd;        /* LC_SEGMENT_64 */
    uint32_t    cmdsize;    /* includes sizeof section_64 structs */
    char        segname[16];    /* segment name */
    uint64_t    vmaddr;     /* memory address of this segment */
    uint64_t    vmsize;     /* memory size of this segment */
    uint64_t    fileoff;    /* file offset of this segment */
    uint64_t    filesize;   /* amount to map from the file */
    vm_prot_t   maxprot;    /* maximum VM protection */
    vm_prot_t   initprot;   /* initial VM protection */
    uint32_t    nsects;     /* number of sections in segment */
    uint32_t    flags;      /* flags */
};

一个 segment 可以有0或多个 section,从 nsects里可以获得,这些 section 就是紧接着 segment 后面指定。load commands 后面就是实际的数据了。

遍历方法

由于这三个部分是紧密地排在一起的,因此只要知道映像的首址和每个部分的大小,就可以通过指针算数获取每个区块的内容。比如我们通过 _dyld_get_image_header 可以获得映像的 header 的地址,然后加上一个偏移量sizeof(struct mach_header_64),就是 load commands 区域的首址,header 中会有一个名为ncmds的字段记录该区域有几条 load command,每个 load command 最前面必定是有两个字段:

struct load_command {
    uint32_t cmd;       /* type of load command */
    uint32_t cmdsize;   /* total size of command in bytes */
};

cmd 用来表示 load command 的类型,cmdsize 表示该命令所占的空间大小,这样结合前面 header 提供的命令数和计算出来的 load commands 区域的首址,就可以遍历该区域的所有 load command 了。

ASLR

ASLR 是 Address Space Layout Randomization 的缩写,这个概念在业界由来已久,并非苹果原创。由于 vmaddr 是链接器链接的时候写入 Mach-O 文件的,对于一个进程来说是静态不变的,因此给黑客攻击带来了便利,iOS 4.3 以后引入了 ASLR,给每个 image 在 vmaddr 的基础上再加一个随机的偏移量 slide,因此每段数据的真实的虚拟地址是 vmaddr + slide。

开始 hook

两个函数表

__DATA 段有两个特殊的节:__nl_symbol_ptr__la_symbol_ptr,这两个节都是一个函数数组,前者存储非懒加载解析的 C 函数地址,后者存储懒加载存储的函数地址。

对于以非懒加载的动态库,加载动态库映像的时候,将所有的符号全部解析出来填入该表,而对于懒加载的动态库,则默认用一个特殊的函数 dyld_stub_helper填充之,懒加载的函数第一次调用的时候,从映像中解析出地址,然后填充调用之。因此只要我们修改这两个表的内容,就可以替换原先函数的实现了。但问题是,这两个节存储的都是函数地址,没有函数名,那么我们怎样通过函数名找到对应的函数地址呢?

__LINKEDIT 段

Mach-O 文件里另有一个特殊的段,这个段存储了很多符号信息,与我们 hook C 函数有关的有三个数组:

  1. 间接符号表
  2. 符号表
  3. 字符串表
    间接符号表记录了前面函数表里的函数所对应的符号表下标,比如说某个函数表里分别表示的是 A, B, C, D 四个函数的地址,而对应的符号表里四个函数的顺序为 B, D, C, A,那么这个函数表所对应的间接符号表的元素就是 3, 0, 2, 1。我们通过间接符号表就从函数地址查到函数在符号表的索引,然后通过这个索引再查符号表,符号表的每个表项是 struct nlist_64
struct nlist_64 {
    union {
        uint32_t  n_strx; /* index into the string table */
    } n_un;
    uint8_t n_type;        /* type flag, see below */
    uint8_t n_sect;        /* section number or NO_SECT */
    uint16_t n_desc;       /* see  */
    uint64_t n_value;      /* value of this symbol (or stab offset) */
};

这个结构体的 n_un.n_strx 就是该函数的名字在字符串表中的索引,通过这个索引查字符串表就能得到函数名字。流程总结一下:

  1. 从间接地址表得到符号表索引
  2. 通过符号表和符号表索引得到函数对应的符号表表项
  3. 通过符号表表项得到函数名在字符串表的索引
  4. 通过字符串表和字符串表索引找到函数名
    然后比较函数名是否是要 hook 的函数,是的话,就用新的函数替换原先的表项,当然在替换之前最好把原先的地址拿出来,供新函数使用。

Facebook 的开源库 fishhook

以上的流程实际上编码起来是很繁琐的,好在 Facebook 已经帮我们做好了一个库:fishhook,这个库进行 hook 的原理就是上面所说的这些,Facebook 自己的循环引用检测库 FBRetainCycleDetector 就基于 fishhook 实现的。

你可能感兴趣的:(如何在 iOS 上 hook 一个 C 函数)