上一篇分析了fishHook原理,本文在fishHook原理基础上进行fishHook源码分析。
从fishHook使用的入口函数rebind_symbols开始分析:
int rebind_symbols_image(void *header,
intptr_t slide,
struct rebinding rebindings[],
size_t rebindings_nel);int rebind_symbols(struct rebinding rebindings[], size_t rebindings_nel) {
//prepend_rebindings的函数会将整个 rebindings 数组添加到 _rebindings_head 这个链表的头部
//Fishhook采用链表的方式来存储每一次调用rebind_symbols传入的参数,每次调用,就会在链表的头部插入一个节点,链表的头部是:_rebindings_head
int retval = prepend_rebindings(&_rebindings_head, rebindings, rebindings_nel);
//根据上面的prepend_rebinding来做判断,如果小于0的话,直接返回一个错误码回去
if (retval < 0) {
return retval;
}
//根据_rebindings_head->next是否为空判断是不是第一次调用。
if (!_rebindings_head->next) {
//第一次调用的话,调用_dyld_register_func_for_add_image注册监听方法.
//已经被dyld加载的image会立刻进入回调。
//之后的image会在dyld装载的时候触发回调。
_dyld_register_func_for_add_image(_rebind_symbols_for_image);
} else {
//遍历已经加载的image,进行的hook
uint32_t c = _dyld_image_count();
for (uint32_t i = 0; i < c; i++) {
_rebind_symbols_for_image(_dyld_get_image_header(i), _dyld_get_image_vmaddr_slide(i));
}
}
return retval;
}
一.rebind_symbols_image
调用prepend_rebindings函数,将调用外界调用rebind_symbol函数传入的参数rebindings,nel封装成rebindings_entry结构体指针,
int retval = prepend_rebindings(&_rebindings_head, rebindings, rebindings_nel);
struct rebindings_entry {
struct rebinding *rebindings;
size_t rebindings_nel;
struct rebindings_entry *next;
};
static struct rebindings_entry *_rebindings_head;
并添加到_rebindings_head链表(采用链表的方式来存储每一次调用rebind_symbols传入的参数,每次调用,就会在链表的头部插入一个节点)
!_rebindings_head->next判断是否是第一次调用rebind_symbols。
如果是第一次调用,则调用dyld的_dyld_register_func_for_add_image注册监听方法,已经被dyld加载的image会立刻进入回调_rebind_symbols_for_image,未加载的image会在dyld装载的时候触发回调。
不是第一次调用,直接获取所有images,循环images,对每一个images手动调用_rebind_symbols_for_image。
if (!_rebindings_head->next) {
//判断是否第一次调用的话,调用_dyld_register_func_for_add_image注册监听方法.
//已经被dyld加载的image会立刻进入回调。
//之后的image会在dyld装载的时候触发回调。
_dyld_register_func_for_add_image(_rebind_symbols_for_image);
} else {
//遍历已经加载的image,进行的hook
uint32_t c = _dyld_image_count();
for (uint32_t i = 0; i < c; i++) {
_rebind_symbols_for_image(_dyld_get_image_header(i), _dyld_get_image_vmaddr_slide(i));
}
}
在_rebind_symbols_for_image函数中又调用rebind_symbols_for_image
static void _rebind_symbols_for_image(const struct mach_header *header,
intptr_t slide) {
rebind_symbols_for_image(_rebindings_head, header, slide);
}
二.在rebind_symbols_for_image函数中,首先调用dladdr获取符号信息。
Dl_info info;
if (dladdr(header, &info) == 0) {
return;
}
关于dladdr函数,这里进行补充说用:
dladdr() - 获取某个地址的符号信息
dladdr() 是使用户能够直接访问动态链接设备(在编译程序或ld 命令行上使用-ldl 选项)的一系列例行程序之一。进程可通过dladdr() 获取有关最近定义给定address 的符号的信息。dladdr() 可确定指定的address 是否位于构成进程的进址空间的其中一个加载模块(可执行库或共享库)内。如果某个地址位于在其上面映射加载模块的基址和为该加载模块映射的最高虚拟地址之间(包括两端),则认为该地址在加载模块的范围内。如果某个加载模块符合这个条件,则会搜索其动态符号表,以查找与指定的address 最接近的符号。最接近的符号是指其值
等于,或最为接近但小于指定的address 的符号。
dlip 是指向Dl_info 结构的指针。该结构必须由用户分配。如果指定的address 在其中一个加载模块的范围内,则
结构成员由dladdr() 设置。
Dl_info 结构包含下列成员:
struct {
const char *dli_fname;
void *dli_fbase;
const char *dli_sname;
void dli_saddr;
size_t dli_size; / ELF only /
int dli_bind; / ELF only */
int dli_type;
};
Dl_info 结构包含以下字段:
dli_fname 一个指针,指向包含address的加载模块的文件名。每次调用dladdr() 后,该内存位置的内容都可能发生更改。
dli_fbase 加载模块的句柄。该句柄可用作dlsym() 的第一个参数。
dli_sname 一个指针,指向与指定的address最接近的符号的名称。该符号要么带有相同的地址,要么是带有低位地址的最接近符号。
两次调用dladdr() 后,该内存位置的内容可能发生更改。
Section 3-264 Hewlett-Packard Company − 1 − HP-UX 11i Version 3: February 2007
dladdr(3C) dladdr(3C)
dli_saddr 最接近符号的实际地址。对于代码符号,它包含最接近代码符号的OPD(正式Plabel 描
述符)的地址。
dli_size (仅限ELF 进程)动态符号表中定义的最接近符号的大小。
dli_bind (仅限ELF 进程)动态符号表中定义的最接近符号的绑定属性。其值用于ELF 符号表
(请参阅
dli_type 最接近符号的类型。对于ELF 进程,这与动态符号表中的类型的值相同。其值用于ELF
符号表(请参阅
的值TYPE_DAT A 或TYPE_PROCEDURE 。
返回值
如果指定的address 不在其中一个加载模块的范围内,则返回0 ;且不修改Dl_info 结构的内容。否则,将返回
一个非零值,同时设置Dl_info 结构的字段。
诊断信息
如果在包含address 的加载模块内,找不到其值小于或等于address 的符号,则dli_sname 、dli_saddr 和dli_size
字段将设置为0 ; dli_bind 字段设置为STB_LOCAL , dli_type 字段设置为STT_NOTYPE 。
对于a.out ,通常只导出一部分可见符号:尤其是链接了a.out 的加载模块引用的那些符号。可以使用链接程序
(请参阅ld(1) )来控制任何共享库或a.out 的输出符号的确切集合。
错误
如果dladdr() 失败,则随后对dlerrno() 的调用返回下列值之一:
[RTLD_ERR_BAD_DLL] 加载模块中的符号地址无效。
[RTLD_ERR_CANT_APPLY_RELOC] 不能在库中进行重定位。
[RTLD_ERR_DLADDR_NOTFOUND] 在所有加载模块中都找不到该地址。
[RTLD_ERR_NO_MEMORY] 内存不足。
[RTLD_ERR_SETCANCELSTATE_FAILED] 进入或退出dladdr() 时__thread_setcancelstate 失败。
[RTLD_ERR_SIGENABLE_FAILED] 退出dladdr() 时sigenable 失败。
[RTLD_ERR_SIGINHIBIT_FAILED] 进入dladdr() 时siginhibit 失败。
通过后,接下来从从MachO查找
segment_command_t *cur_seg_cmd;
segment_command_t *linkedit_segment = NULL;
struct symtab_command* symtab_cmd = NULL;
struct dysymtab_command* dysymtab_cmd = NULL;
定义变量保存loadCommand中的_linkedit、LC_SYMTAB、LC_DYSYMTAB段
uintptr_t cur = (uintptr_t)header + sizeof(mach_header_t);
for (uint i = 0; i < header->ncmds; i++, cur += cur_seg_cmd->cmdsize) {
cur_seg_cmd = (segment_command_t *)cur;
if (cur_seg_cmd->cmd == LC_SEGMENT_ARCH_DEPENDENT) {
if (strcmp(cur_seg_cmd->segname, SEG_LINKEDIT) == 0) {
linkedit_segment = cur_seg_cmd;
}
} else if (cur_seg_cmd->cmd == LC_SYMTAB) {
symtab_cmd = (struct symtab_command*)cur_seg_cmd;
} else if (cur_seg_cmd->cmd == LC_DYSYMTAB) {
dysymtab_cmd = (struct dysymtab_command*)cur_seg_cmd;
}
}
先跳过matchO的header从LoadCommands开始循环查找,loadCommands中的每一个段的数据结构如下:
struct segment_command_64 { /* for 64-bit architectures */
uint32_t cmd; /* LC_SEGMENT_64 */
uint32_t cmdsize; /* includes sizeof section_64 structs */
char segname[16]; /* segment name */
uint64_t vmaddr; /* memory address of this segment */
uint64_t vmsize; /* memory size of this segment */
uint64_t fileoff; /* file offset of this segment */
uint64_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};
查找_linkedit、LC_SYMTAB、LC_DYSYMTAB,只需要将LoadCommands循环取出判断cmd和segname,即可找到这几个段的位置。
//如果刚才获取的,有一项为空就直接返回
if (!symtab_cmd || !dysymtab_cmd || !linkedit_segment ||
!dysymtab_cmd->nindirectsyms) {
return;
}
在fishHook原理中,我们知道fishHook在Hook的过程中,涉及到四个表,而这四个表的查找与这几个段有关,所以如果哪一项不存在,就直接返回。
uintptr_t linkedit_base = (uintptr_t)slide + linkedit_segment->vmaddr - linkedit_segment->fileoff;
链接时程序的基址 = __LINKEDIT.VM_Address -__LINKEDIT.File_Offset + silde的改变值
struct symtab_command {
uint32_t cmd; /* LC_SYMTAB */
uint32_t cmdsize; /* sizeof(struct symtab_command) */
uint32_t symoff; /* symbol table offset */
uint32_t nsyms; /* number of symbol table entries */
uint32_t stroff; /* string table offset */
uint32_t strsize; /* string table size in bytes */
};
LC_SYMTAB段中,symoff,stroff分别记录了符号表(Symbol Table)和字符串表(String Table)在文件中的偏移,因此加上基地址,可以分别得到符号表和字符串标的地址。
nlist_t *symtab = (nlist_t *)(linkedit_base + symtab_cmd->symoff);
char *strtab = (char *)(linkedit_base + symtab_cmd->stroff);
struct dysymtab_command {
uint32_t cmd; /* LC_DYSYMTAB */
uint32_t cmdsize; /* sizeof(struct dysymtab_command) */
uint32_t ilocalsym; /* index to local symbols */
uint32_t nlocalsym; /* number of local symbols */
uint32_t iextdefsym;/* index to externally defined symbols */
uint32_t nextdefsym;/* number of externally defined symbols */
uint32_t iundefsym; /* index to undefined symbols */
uint32_t nundefsym; /* number of undefined symbols */
uint32_t tocoff; /* file offset to table of contents */
uint32_t ntoc; /* number of entries in table of contents */
uint32_t modtaboff; /* file offset to module table */
uint32_t nmodtab; /* number of module table entries */
uint32_t extrefsymoff; /* offset to referenced symbol table */
uint32_t nextrefsyms; /* number of referenced symbol table entries */
uint32_t indirectsymoff; /* file offset to the indirect symbol table */
uint32_t nindirectsyms; /* number of indirect symbol table entries */
uint32_t extreloff; /* offset to external relocation entries */
uint32_t nextrel; /* number of external relocation entries */
uint32_t locreloff; /* offset to local relocation entries */
uint32_t nlocrel; /* number of local relocation entries */
};
而在LC_DYSYMTAB段中indirectsymoff记录了Dynamic Symbol Table(indirect symbols)在文件中的偏移值,因此加上基地址,可以得到Dynamic Symbol Table(indirect symbols)的地址。
uint32_t *indirect_symtab = (uint32_t *)(linkedit_base + dysymtab_cmd->indirectsymoff);
cur = (uintptr_t)header + sizeof(mach_header_t);
for (uint i = 0; i < header->ncmds; i++, cur += cur_seg_cmd->cmdsize) {
cur_seg_cmd = (segment_command_t *)cur;
if (cur_seg_cmd->cmd == LC_SEGMENT_ARCH_DEPENDENT) {
//寻找到data段
if (strcmp(cur_seg_cmd->segname, SEG_DATA) != 0 &&
strcmp(cur_seg_cmd->segname, SEG_DATA_CONST) != 0) {
continue;
}
for (uint j = 0; j < cur_seg_cmd->nsects; j++) {
section_t *sect =
(section_t *)(cur + sizeof(segment_command_t)) + j;
//找懒加载表
if ((sect->flags & SECTION_TYPE) == S_LAZY_SYMBOL_POINTERS) {
perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
}
//非懒加载表
if ((sect->flags & SECTION_TYPE) == S_NON_LAZY_SYMBOL_POINTERS) {
perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
}
}
}
}
遍历LoadCommands,找到LoadCommands的LC_SEGMENT(_DATA)段,循环该段的所有section,对每个section比对类型标识:
struct section_64 { /* for 64-bit architectures */
char sectname[16]; /* name of this section */
char segname[16]; /* segment this section goes in */
uint64_t addr; /* memory address of this section */
uint64_t size; /* size in bytes of this section */
uint32_t offset; /* file offset of this section */
uint32_t align; /* section alignment (power of 2) */
uint32_t reloff; /* file offset of relocation entries */
uint32_t nreloc; /* number of relocation entries */
uint32_t flags; /* flags (section type and attributes)*/
uint32_t reserved1; /* reserved (for offset or index) */
uint32_t reserved2; /* reserved (for count or sizeof) */
uint32_t reserved3; /* reserved */
};
for (uint j = 0; j < cur_seg_cmd->nsects; j++) {
section_t *sect =
(section_t *)(cur + sizeof(segment_command_t)) + j;
//找懒加载表
if ((sect->flags & SECTION_TYPE) == S_LAZY_SYMBOL_POINTERS) {
perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
}
//非懒加载表
if ((sect->flags & SECTION_TYPE) == S_NON_LAZY_SYMBOL_POINTERS) {
perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
}
}
找到懒加载表(la_symbol_ptr)和非懒加载表(nl_symbol_ptr),调用perform_rebinding_with_section函数,将涉及的几个表传入,进行Hook操作。
三.perform_rebinding_with_section
nl_symbol_ptr和la_symbol_ptr section中的reserved1字段指明对应的indirect symbol table的起始index
uint32_t *indirect_symbol_indices = indirect_symtab + section->reserved1;
slide+section->addr 就是符号对应的存放函数实现的数组也就是我相应的__nl_symbol_ptr和__la_symbol_ptr相应的函数指针都在这里面了,所以可以去寻找到函数的地址
void **indirect_symbol_bindings = (void **)((uintptr_t)slide + section->addr);
遍历section里面的每一个符号,并读取indirect table中的数据
uint32_t symtab_index = indirect_symbol_indices[i];
以symtab_index作为下标,访问symbol table
uint32_t strtab_offset = symtab[symtab_index].n_un.n_strx;
获取到字符串表中的symbol_name
char *symbol_name = strtab + strtab_offset;
//判断是否函数的名称是否有两个字符,为啥是两个,因为函数前面有个_,所以方法的名称最少要1个
bool symbol_name_longer_than_1 = symbol_name[0] && symbol_name[1];
最后进行方法替换:
while (cur) {
for (uint j = 0; j < cur->rebindings_nel; j++) {
//这里if的条件就是判断从symbol_name[1]两个函数的名字是否都是一致的,以及判断两个
if (symbol_name_longer_than_1 &&
strcmp(&symbol_name[1], cur->rebindings[j].name) == 0) {
//判断replaced的地址不为NULL以及我方法的实现和rebindings[j].replacement的方法不一致
if (cur->rebindings[j].replaced != NULL &&
indirect_symbol_bindings[i] != cur->rebindings[j].replacement) {
//让rebindings[j].replaced保存indirect_symbol_bindings[i]的函数地址
*(cur->rebindings[j].replaced) = indirect_symbol_bindings[i];
}
//将替换后的方法给原先的方法,也就是替换内容为自定义函数地址
indirect_symbol_bindings[i] = cur->rebindings[j].replacement;
goto symbol_loop;
}
}
cur = cur->next;
}