MachO文件
Mach-O其实是Mach Object文件格式的缩写,是mac以及iOS上可执行文件的格式, 类似于windows上的PE格式 (Portable Executable ), linux上的elf格式 (Executable and Linking Format)
MachO格式的常见文件
目标文件.o
库文件.a .dylib Framework
可执行文件
dyld
.dsym
File指令
通过 $file 文件路径 查看文件类型。
从截图中可以看出,MatchO有很多不同的类型,可以通过在Xcode上指定。
通用二进制文件
苹果公司提出的一种程序代码。能同时适用多种架构的二进制文件
同一个程序包中同时为多种架构提供最理想的性能。
因为需要储存多种代码,通用二进制应用程序通常比单一平台二进制的程序要大。
但是 由于两种架构有共通的非执行资源,所以并不会达到单一版本的两倍之多。
而且由于执行中只调用一部分代码,运行起来也不需要额外的内存。
在Xcode编译可以指定生成哪些架构的Match-O文件(Architectures和Valid Architectures交集)
lipo命令
使用lifo -info 可以查看MachO文件包含的架构
使用lipo -create 合并多种架构
$lipo -create MachO1 MachO2 -output 输出文件路径
MachO文件结构
Mach-O 的组成结构如图所示包括:
Header 包含该二进制文件的一般信息
字节顺序、架构类型、加载指令的数量等。
使得可以快速确认一些信息,比如当前文件用于32位还是64位,对应的处理器是什么、文件类型是什么
与Mach-O对应的数据结构都可以在/usr/include/mach-o/loader.h中找到
/*
* The 64-bit mach header appears at the very beginning of object files for
* 64-bit architectures.
*/
struct mach_header_64 {
uint32_t magic; /* mach magic 标识符 */
cpu_type_t cputype; /* CPU 类型标识符,同通用二进制格式中的定义 r */
cpu_subtype_t cpusubtype; /* CPU 子类型标识符,同通用二级制格式中的定义 */
uint32_t filetype; /* 文件类型 */
uint32_t ncmds; /* 加载器中加载命令的条数 */
uint32_t sizeofcmds; /* 加载器中加载命令的总大小 */
uint32_t flags; /* dyld 的标志 */
Mach-O 支持多种类型文件,所以此处引入了 filetype 字段来标明,这些文件类型定义在 loader.h 文件存在。
#define MH_OBJECT 0x1 /* Target 文件:编译器对源码编译后得到的中间结果 */
#define MH_EXECUTE 0x2 /* 可执行二进制文件 */
#define MH_FVMLIB 0x3 /* VM 共享库文件(还不清楚是什么东西) */
#define MH_CORE 0x4 /* Core 文件,一般在 App Crash 产生 */
#define MH_PRELOAD 0x5 /* preloaded executable file */
#define MH_DYLIB 0x6 /* 动态库 */
#define MH_DYLINKER 0x7 /* 动态连接器 /usr/lib/dyld */
#define MH_BUNDLE 0x8 /* 非独立的二进制文件,往往通过 gcc-bundle 生成 */
#define MH_DYLIB_STUB 0x9 /* 静态链接文件(还不清楚是什么东西) */
#define MH_DSYM 0xa /* 符号文件以及调试信息,在解析堆栈符号中常用 */
#define MH_KEXT_BUNDLE 0xb /* x86_64 内核扩展 */
Load commands 一张包含很多内容的表
内容包括区域的位置、符号表、动态符号表等。描述了文件中数据的具体组织结构,不同的数据类型使用不同的加载命令表示。
在Mach-O文件中,loadCommand是用于加载指令的,它的大小和数目在header中已经被提供,在Mach.h下以loadCommand结构体展示
struct load_command {
uint32_t cmd; /* type of load command */
uint32_t cmdsize; /* total size of command in bytes */
};
该结构体中有两个成员,一个cmd提供该loadcommand的类型,cmdsize则表示command的大小.
loadCommands中记录了很多信息,包括动态链接器(比如dyld)的位置,程序的入口地址(main),依赖库的信息,代码的位置.符号表的位置等等.
LC_SEGMENT_64(_PAGEZERO): 空指针陷阱段,这里是记录的共享虚拟空间信息,它并不会占用实际的磁盘空间,只是一片虚拟内存,这里记录了它的位置和大小,这片空间一般用于置放空指针.
LC_SEGMENT_64(_TEXT): 只读数据段,记录了TEXT的起始位置和大小还有偏移值等信息,这些信息会告知具体的TEXT段在哪里.
LC_SEGMENT_64(_DATA):读写数据段,记录了DATA段的起始位置和大小还有偏移值等信息,这些信息会告知具体的DATA段在哪里.
LC_SEGMENT_64(_LINKEDIT):链接器使用段,这里记录了链接器(通常是dyld)需要的信息的位置.
LC_DYLD_INFO_ONLY:记录具体的链接器需要的信息,比如重定向,懒加载,绑定等.
LC_SYMTAB:符号表的信息,记录符号表的位置,偏移量,数据个数等,便于dyld使用LC_DYSYMTAB:符号表的额外信息,这些信息也会提供给dyld.
LC_LOAD_DYLINKER:该Mach-O使用的链接器信息,记录了具体使用哪个链接器接管内核后续的加载工作,以及链接器的位置信息,通常是dyld.
LC_UUID:Mach-O唯一标识符.
LC_VERSION_MIN_IPHONES:该Mach-O运行的最低系统版本.
LC_SOURCE_VERSION:源代码版本信息.
LC_MAIN:入口地址.dyld会通过这个段去跳转程序的主入口.
LC_ENCRYPTION_INFO_64:加密标识,标识了是否被加密,加密内容的偏移及大小等.
LC_LOAD_DYLIB:依赖库信息,dyld会通过这个段去加载动态库,这个段标注了库的位置以及版本等信息.LC_RPATH:@rpath的路径信息.
LC_FUNCTION_STARTS:函数起始地址表.
LC_DATA_IN_CODE:代码段非指令的表.
LC_CODE_SIGNATURE:代码签名信息.
DATA
Mach-O 的 Data 区域由 Segment 段和 Section 节组成。先来说 Segment 的组成,
#define SEG_PAGEZERO "__PAGEZERO" /* 当时 MH_EXECUTE 文件时,捕获到空指针 */
#define SEG_TEXT "__TEXT" /* 代码/只读数据段 */
#define SEG_DATA "__DATA" /* 数据段 */
#define SEG_OBJC "__OBJC" /* Objective-C runtime 段 */
#define SEG_LINKEDIT "__LINKEDIT" /* 包含需要被动态链接器使用的符号和其他表,包括符号表、字符串表等 */
进而来看一下 Segment 的数据结构具体是什么样的
struct segment_command_64 {
uint32_t cmd; /* LC_SEGMENT_64 */
uint32_t cmdsize; /* section_64 结构体所需要的空间 */
char segname[16]; /* segment 名字,上述宏中的定义 */
uint64_t vmaddr; /* 所描述段的虚拟内存地址 */
uint64_t vmsize; /* 为当前段分配的虚拟内存大小 */
uint64_t fileoff; /* 当前段在文件中的偏移量 */
uint64_t filesize; /* 当前段在文件中占用的字节 */
vm_prot_t maxprot; /* 段所在页所需要的最高内存保护,用八进制表示 */
vm_prot_t initprot; /* 段所在页原始内存保护 */
uint32_t nsects; /* 段中 Section 数量 */
uint32_t flags; /* 标识符 */
};
部分的 Segment (主要指的 __TEXT 和 __DATA)可以进一步分解为 Section,下面给出 Section 具体的数据结构:
struct section_64 {
char sectname[16]; /* Section 名字 */
char segname[16]; /* Section 所在的 Segment 名称 */
uint64_t addr; /* Section 所在的内存地址 */
uint64_t size; /* Section 的大小 */
uint32_t offset; /* Section 所在的文件偏移 */
uint32_t align; /* Section 的内存对齐边界 (2 的次幂) */
uint32_t reloff; /* 重定位信息的文件偏移 */
uint32_t nreloc; /* 重定位条目的数目 */
uint32_t flags; /* 标志属性 */
uint32_t reserved1; /* 保留字段1 (for offset or index) */
uint32_t reserved2; /* 保留字段2 (for count or sizeof) */
uint32_t reserved3; /* 保留字段3 */
};
以下列举一些常见的 Section:
__text: 主程序代码
__stubs, __stub_helper: 用于动态链接的桩
__cstring: 程序中c语言字符串
__const: 常量
__TEXT,__objc_methname:OC方法名称
__TEXT__objc_methtype:OC方法类型
__TEXT__objc_classname:OC类名
__DATA,__objc_classlist:OC类列表
__DATA,__objc_protollist:OC原型列表
__DATA,__objc_imageinfo:OC镜像信息
__DATA,__objc_const:OC常量
__DATA,__objc_selfrefs:OC类自引用(self)
__DATA,__objc_superrefs:OC类超类引用(super)
__DATA,__objc_protolrefs:OC原型引用
__DATA, __bss: 没有初始化和初始化为0 的全局变量
Dynamic Loader Info:动态链接器所需要使用的信息(重定向,符号绑定,懒加载绑定等..)
后续的信息就是函数起始位置,符号表,字符表,代码签名等.