深入理解目标文件

1. 概述

目标文件是指源代码经过编译后没有被链接的那些中间文件(Linux下的.o)。因为目标文件的内容和结构与可执行文件很像,所以目标文件按照可执行的文件的格式存储。此外,动态链接库和静态链接库也是按照可执行文件的格式存储的。

2.初步了解目标文件

下图显示了将源代码编译为目标文件后,目标文件的结构和内容。
深入理解目标文件_第1张图片
源代码与目标文件.png

如上图所示,目标文件大致可以分为File Header,.text, .data, .bss四部分。

  • File Header:文件头。文件头存储了整个文件的属性信息,包括文件是否可执行,是静态链接还是动态链接以及入口地址等信息。
  • .text :代码段。代码段存储了源代码经过编译后的机器指令。
  • .data:数据段。数据段主要存储了已经初始化的全局变量或静态变量。
  • .bss:未初始化的全局变量和静态变量存储在bss段。因为未初始化的全局变量和静态变量默认是0,如果放在data段就要为其分配存储空间,没有必要,因此放在了bss段。bss段在编译后实际大小为0,不占存储空间。但是程序运行时,bss段是要占内存空间的,因此可执行文件必须要记录所有未初始化的全局变量和静态变量的大小的总和,作为bss段的大小。所以,bss段只是为未初始化的全局变量和静态变量预留位置,并没有实际的内容。

1. 为什么要将程序的指令和数据进行分段呢?原因有如下三点:

  1. 当程序被装载后,数据和指令被映射到两个不同的虚存区域。数据区域对进程是可写可读的,而指令区只是可读的,这样就避免了进程修改指令带来的问题。
  2. 当系统中运行着多个该程序的副本时,它们的指令是相同的,数据可能不同。因此在内存中只需保存一份该程序的指令,这样就节省了大量的存储空间。
  3. 为了提高缓存的命中率。将数据和指令分离有助于提高程序的局部性。

3. 目标文件详细结构

深入理解目标文件_第2张图片
目标文件详细内容与结构.jpg

上图为第二节中代码编译后的目标文件中所有段的信息。下面,本文将分析各个段的存储中内容。

  • 首先,ELF Header,文件头,第二节中已经说明。主要存储了该目标文件属性信息,包括文件是否可执行,是动态链接还是静态链接以及可执行文件入口等信息。
  • text:代码段。
  • data:数据段。
  • .rodata:只读数据段。.rodata段存储的是程序里的只读变量(const修饰的变量)和字符串常量。在操作系统加载的可执行文件的时候,rodata会映射成只读,这样对这个段的任何修改都会被视为非法操作,保证程序安全性。
  • .comment段。注释段。
  • .shstrtab: 字符串表。在ELF文件中用到了很多字符串,比如段名,变量名等。当 ELF 文件的其它部分需要引用字符串时,只需提供该字符串在字符串表中的位置索引即可。如下图所示:


    深入理解目标文件_第3张图片
    image.png
  • symtab:ELF符号表,是一个ELF32_Sym结构的数组。
typedef struct {
    Elf32_Word st_name; 
    Elf32_Addr st_value;
    Elf32_Word st_size;
    unsigned char st_info;
    unsigned char st_other;
    Elf32_Half st_shndx;
} Elf32_Sym;

Elf32_Sym结构中最主要的是以下三个成员:
1.st_name: 符号名。这个成员包含了该符号名在字符串表中的下标符号名,也即该符号名在符号串表中的下标。
2.st_value:符号相对应的值。这个值跟符号有关,可能是一个绝对值,也可能是一个地址等,不同的符号,它所对应的值含义不同符号值。如果这个符号是一个函数或变量的定义,那么这个值就是函数或者是变量的地址(.data段)。
3.st_shndx:该符号所在的段。

  • Section Table:段表。描述ELF文件各个段的信息,你如每个段的段名、段长度、在文件中的偏移、读写权限以及段的其他属性。
  • .rel.text:当链接噐把这个目标文件和其他文件结合时,.text节中的许多位置都需要修改。一般而言,任何调用外部函数或者引用全局变量(包括本目标文件内的全局变量,因为在链接时要多个目标文件的相同段合并,这样数据的地址就会改变,所以要重定位)的指令都需要修改。另一方面调用本地函数的指令则不需要修改。

你可能感兴趣的:(深入理解目标文件)