Mach-O文件格式

一个简单的程序

#include 

int main(int argc, const char * argv[]) {
    // insert code here...
    printf("Hello, World!\n");
    return 0;
}

对 mach-o 的分析从这个简单的 小程序开始

可执行文件的结构

我们用 MachOView 打开我们刚刚写了 hello world 小程序,会看到如下结构
Mach-O文件格式_第1张图片
下面部分会分析各个结构的内容和作用

Mach64 Header

其在内存中的结构如下

struct mach_header_64 {
    uint32_t    magic;        /* mach magic number identifier */
    cpu_type_t    cputype;    /* cpu specifier */
    cpu_subtype_t    cpusubtype;    /* machine specifier */
    uint32_t    filetype;    /* type of file */
    uint32_t    ncmds;        /* number of load commands */
    uint32_t    sizeofcmds;    /* the size of all the load commands */
    uint32_t    flags;        /* flags */
    uint32_t    reserved;    /* reserved */
};

1.magic:魔数,用来标识 Mach-o 的平台属性的,确认文件的类型。操作系统在加载时会,确定魔数是否正确,不正确会被拒绝加载
2.cpusubtype:给出 cpu 类型
3.filetype:该文件的类型,比如MH_EXECUTE,代表可执行文件,MH_DYLINKER,表明该文件是动态链接器程序文件。等
4.ncmds:load commands 的个数
5.flag:标记该文件目前的状态信息,比如MH_NOUNDEFS:表明该文件里没有未定义的符号引用,MH_DYLDLINK:表明该文件,已经完成了静态链接,不能再次被静态链接。

Load Commands

其在内存中的结构为:

struct load_command {
    uint32_t cmd;        /* type of load command */
    uint32_t cmdsize;    /* total size of command in bytes */
};

该结构是其具体加载内容的部分内存结构
1.cmd:具体的加载类型,比如:
LC_SEGMENT:表明下面加载 segment 部分,该部分是可以被加载到内存中,被页表项映射的内容。
LC_SYMSEG:符号表信息,符号表中详细说明了代码中所用符号的信息等
2.cmdsize:具体的load_command结构所占内存的大小。

The segment load command

Mach-O可执行文件,把一个或者多个属性相似的 section 合并成一个 segment,在装载的时候就可以把他们看成整体进行映射(分页),这样可以减少页内碎片。操作系统是按 segment 进行行映射的。另外,segment 的对其属性取决于section 中最大的对其属性值。

struct segment_command { /* for 32-bit architectures */
    uint32_t    cmd;        /* LC_SEGMENT */
    uint32_t    cmdsize;    /* includes sizeof section structs */
    char        segname[16];    /* segment name */
    uint32_t    vmaddr;     /* memory address of this segment */
    uint32_t    vmsize;     /* memory size of this segment */
    uint32_t    fileoff;    /* file offset of this segment */
    uint32_t    filesize;   /* amount to map from the file */
    vm_prot_t   maxprot;    /* maximum VM protection */
    vm_prot_t   initprot;   /* initial VM protection */
    uint32_t    nsects;     /* number of sections in segment */
    uint32_t    flags;      /* flags */
};

1.vmaddr:映射到的虚拟地址,确定该 segment 的启始的也目录项和页表项。
2.vmsize:最大想虚拟内存大小
3.fileoff:该 segment 的内容在文件内的偏移位置
4.filesize:该 segment 的大小
5.maxprot:所有可选的保护属性(可读、可写、可执行)
6.initprot:至少应该有的保护属性
7.flag:虚拟内存相关的标识

section

struct section_64 { /* for 64-bit architectures */
    char        sectname[16];   /* name of this section */
    char        segname[16];    /* segment this section goes in */
    uint64_t    addr;       /* memory address of this section */
    uint64_t    size;       /* size in bytes of this section */
    uint32_t    offset;     /* file offset of this section */
    uint32_t    align;      /* section alignment (power of 2) */
    uint32_t    reloff;     /* file offset of relocation entries */
    uint32_t    nreloc;     /* number of relocation entries */
    uint32_t    flags;      /* flags (section type and attributes)*/
    uint32_t    reserved1;  /* reserved (for offset or index) */
    uint32_t    reserved2;  /* reserved (for count or sizeof) */
    uint32_t    reserved3;  /* reserved */
};

1.addr:虚拟内存地址
2.offset:该内容在文件内的偏移
3.align:对其属性,为2^align。当操作系统处理缺页相关的中断时,可以方便的查找出所缺内容,在文件的偏移。
4.reloc和 nreloc目前都是0,相应的信息放在了struct dysymtab_command中
5.reserved1:如果该 section 含有symbol pointers和routine stubs,这里存放Dynamic Symbols Table中相应的下标
6.reserved2:对于S_SYMBOL_STUBS类型的 section,这里存放桩(stub)大小。

桩(stub):由于要实现动态链接延迟加载,因此需要一个结构,在引用延迟加载的符号的时候,调用动态链接器中相应的接口,去找到该符号的地址。非延迟加载的时候,直接会去取数据段里动态链接符号的地址。通过这种方式,程序模块中共享模块中的指令,不会随着共享模块装载的地址改变而改变。做到了共享模块指令部分在多个进程间的共享,做到了真正的地址无关。

模块(moudle):在静态链接下,整个程序最终只有一个可执行文件。是一个不可分割的部分。而在动态链接下,一个程序被分成若干个文件,有可执行文件部分,和程序所依赖的共享对象,把这些部分叫做模块。

LC_DYLD_INFO

struct dyld_info_command {
   uint32_t   cmd;      /* LC_DYLD_INFO or LC_DYLD_INFO_ONLY */
   uint32_t   cmdsize;      /* sizeof(struct dyld_info_command) 
    uint32_t   rebase_off;  /* file offset to rebase info  */
    uint32_t   rebase_size; /* size of rebase info   */
    uint32_t   bind_off;    /* file offset to binding info   */
    uint32_t   bind_size;   /* size of binding info  */
    uint32_t   weak_bind_off;   /* file offset to weak binding info   */
    uint32_t   weak_bind_size;  /* size of weak binding info  */

    uint32_t   export_off;  /* file offset to lazy binding info */
    uint32_t   export_size; /* size of lazy binding infs */
};

1.rebase_off:基址重定位表在文件的偏移。其为了解决共享模块绝对地址引用问题。比如共享模块有如下代码:
static int a;
static int *p = &a;
因为共享模块的数据部分,会在可执行文件里有个副本,加入 a 在可执行文件模块的基址为 A,那么 p 的值也必须加 A。
表中数据项(seg-index, seg-offset, type)

2.bind_off:动态绑定信息表偏移。这个表里的符号要求,在动态绑定阶段,动态链接器,确切的找到符号的地址。表中数据项(seg-index, seg-offset, type, symbol-library-ordinal, symbol-name, addend)

3.weak_bind_off:弱绑定表,该表中的符号,如果和动态库中的符号冲突时,用弱绑定表的符号。

4.lazy_bind_off:延迟加载表。延迟加载,对于一些符号,我们不必在装载时进行重定位,这样会加快程序的启动速度.

5.export_off:暴露给外界的符号表偏移。

LC_SYMTAB

struct symtab_command {
    uint32_t    cmd;        /* LC_SYMTAB */
    uint32_t    cmdsize;    /* sizeof(struct symtab_command) */
    uint32_t    symoff;     /* symbol table offset */
    uint32_t    nsyms;      /* number of symbol table entries */
    uint32_t    stroff;     /* string table offset */
    uint32_t    strsize;    /* string table size in bytes */
};

1.symoff:符号表偏移
2.stroff:字符串表偏移,记录了所有符号的名字

LC_DYSYMTAB

struct dysymtab_command {
    uint32_t cmd;   /* LC_DYSYMTAB */
    uint32_t cmdsize;   /* sizeof(struct dysymtab_command) */
    uint32_t ilocalsym; /* index to local symbols */
    uint32_t nlocalsym; /* number of local symbols */
    uint32_t iextdefsym;/* index to externally defined symbols *  
    int32_t nextdefsym;/* number of externally defined symbols *
    uint32_t iundefsym; /* index to undefined symbols */
    uint32_t nundefsym; /* number of undefined symbols */
    uint32_t tocoff;    /* file offset to table of contents */
    uint32_t ntoc;  /* number of entries in table of contents */
    uint32_t modtaboff; /* file offset to module table */
    uint32_t nmodtab;   /* number of module table entries */
    uint32_t extrefsymoff;  /* offset to referenced symbol table
    uint32_t nextrefsyms;   /* number of referenced symbol table entries */

    uint32_t indirectsymoff; /* file offset to the indirect symbol table */
    uint32_t nindirectsyms;  /* number of indirect symbol table entries */
    uint32_t extreloff; /* offset to external relocation entries 
    uint32_t nextrel;   /* number of external relocation entries
    uint32_t locreloff; /* offset to local relocation entries */
    uint32_t nlocrel;   /* number of local relocation entries */

};

1.ilocalsym、iextdefsym、iundefsym把符号表分为三个区域,ilocalsym 本地符号仅用于调试,iextdefsym可执行文件定义的符号,iundefsym可执行文件里没有定义的
2.tocoff,目录偏移,该内容只有在动态分享库中存在。主要作用是把符号和定义它的模块对应起来。

3.modtaboff:为了支持“模块”(整个对象文件)的动态绑定,符号表必须知道文件创建的模块。该内容只有在动态分享库中存在。

4.extrefsymoff:为了支持动态绑定模块,每个模块都有一个引用符号表,符号表里存放着每个模块所引用的符号(定义的和没有定义的)。该表指针动态库中存在。

5.indirectsymoff:如果 section 中有符号指针或者桩(stub),section中的reserved1存放该表的下标。间接符号表,只是存放一些32位小标,这些下标执行符号表。

6.extreloff:每个模块都有一个重定义外部符号表。仅在动态库中存在

7.locreloff:重定义本地符号表,由于只是在调试中用,所以不必更加模块分组。

LC_LOAD_DYLIB

struct dylib {
    union lc_str  name;         /* library's path name */
    uint32_t timestamp;         /* library's build time stamp */
    uint32_t current_version;       /* library's current version number */
    uint32_t compatibility_version; /* library's compatibility vers number*/
};
struct dylib_command {
    uint32_t    cmd;        /* LC_ID_DYLIB, LC_LOAD_{,WEAK_}DYLIB,
                       LC_REEXPORT_DYLIB */
    uint32_t    cmdsize;    /* includes pathname string */
    struct dylib    dylib;      /* the library identification */
};

1.dylib:说明了动态链接器的地址,创建的时间,版本号

LC_UUID

struct uuid_command {
    uint32_t    cmd;        /* LC_UUID */
    uint32_t    cmdsize;    /* sizeof(struct uuid_command) */
    uint8_t uuid[16];   /* the 128-bit uuid */
};

LC_VERSION_MIN_MACOSX

struct version_min_command {
    uint32_t    cmd;        /* LC_VERSION_MIN_MACOSX or
                   LC_VERSION_MIN_IPHONEOS or
                   LC_VERSION_MIN_WATCHOS or
                   LC_VERSION_MIN_TVOS */
    uint32_t    cmdsize;    /* sizeof(struct min_version_command) */
    uint32_t    version;    /* X.Y.Z is encoded in nibbles xxxx.yy.zz */
    uint32_t    sdk;        /* X.Y.Z is encoded in nibbles xxxx.yy.zz */
};

1.version:平台版本号
2.sdk:sdk 版本号

LC_MAIN

struct entry_point_command {
    uint32_t  cmd;  /* LC_MAIN only used in MH_EXECUTE filetypes */
    uint32_t  cmdsize;  /* 24 */
    uint64_t  entryoff; /* file (__TEXT) offset of main() */
    uint64_t  stacksize;/* if not zero, initial stack size */
};

1.entryoff:main 函数的位置
2.stacksize初始化栈的大小,通过-stack_size设置,默认为0

LC_LOAD_DYLIB

struct dylib_command {
    uint32_t    cmd;        /* LC_ID_DYLIB, LC_LOAD_{,WEAK_}DYLIB,
                       LC_REEXPORT_DYLIB */
    uint32_t    cmdsize;    /* includes pathname string */
    struct dylib    dylib;      /* the library identification */
};

1.dylib:指出需要加载的动态库的路径,版本号

LC_FUNCTION_STARTS

struct linkedit_data_command {
    uint32_t    cmd;        /* LC_CODE_SIGNATURE, LC_SEGMENT_SPLIT_INFO,
                                   LC_FUNCTION_STARTS, LC_DATA_IN_CODE,
                   LC_DYLIB_CODE_SIGN_DRS or
                   LC_LINKER_OPTIMIZATION_HINT. */
    uint32_t    cmdsize;    /* sizeof(struct linkedit_data_command) */
    uint32_t    dataoff;    /* file offset of data in __LINKEDIT segment */
    uint32_t    datasize;   /* file size of data in __LINKEDIT segment  */
};

1.dataoff:记录入口函数地址数据在文件的偏移

符号表

struct nlist_64 {
    union {
        uint32_t  n_strx; /* index into the string table */
    } n_un;
    uint8_t n_type;        /* type flag, see below */
    uint8_t n_sect;        /* section number or NO_SECT */
    uint16_t n_desc;       /* see  */
    uint64_t n_value;      /* value of this symbol (or stab offset) */
};

1.n_un:在字符串标中的下标
2.n_type:分为三个部分
#define N_EXT 0x01 代表该符号是否对外部可见
#define N_TYPE 0x0e 0x0代表未定义,0x2代表了绝对引用,(静态库里的符号),0xe,该符号已经被定义了,此时 n_value 为 section 的下标。0xc,该符号被定义在动态库里。0xa,间接的符号引用
3.n_desc:标识该符号是否延迟加载,是否为弱引用等
4.n_value:符号的装载地址
具体的 n_type和 n_value 在这里
nlist.h
stab.h

字符串表

其就是一个字符数组,用来存放所有变量的名字。

可执行文件执行的主要步骤

1.操作系统读取可执行文件头部检验可执行文件的有效性,比如模数等
2.通过LCL_LOAD_DYLINKER结构,设置动态链接器的路径
3.根据 segment 结构开始对 Mach-o 进行映射
4.初始化 Mach-o 进程环境
5.将系统调用的返回地址设置为动态链接器的入口地址
6.加载LC_LOAD_DYLIB中的动态库,进行转载时重定位
7.跳转到程序的入口地址开始执行

本文所有源码在这里源码
下面是我写的一个 mach-o 的解析程序:
https://github.com/mrHuangWenHai/MatchAnalysis

你可能感兴趣的:(iOS,开发)