(转自本人公众号:机械猿)
这段代码应该是码农的入门曲:
#include
int main(void)
{
printf("Hello,World!\n");
return 0;
}
我想大部分人都能闭着眼睛敲出来,连鼠标都不用移动。编译链接,运行结果如下:
$gcc -o hello hello.c
$./hello
Hello World!
很好,C语言基础很扎实。我们这里来分析一下这几行敲下gcc这一行命令之后到底发生了什么(Shell的运行机制下回探讨),来看看C语言翻译为机器码,看看可执行文件里都有哪些东东。
上面GCC的构建过程分为4个步骤,分别是预处理、编译、汇编和链接,如下图所示:
预编译
首先是对源文件hello.c中的预处理指令即#开头的指令,如#include、#define等进行展开替换删除等处理,被预编译成一个.i文件。预处理过程相当于如下编译命令:
$gcc -E -o hello.i hello.c
预处理完成之后,注释内容被删除,宏定义会被展开。
编译
预处理之后就需要对生成的预处理文件进行词法分析,语法分析,语义分析及优化后生成相应的汇编代码文件,也就是将高级语言翻译成机器码的最核心的部分。我们可以通过命令:
gcc -S -o hello.s hello.c
将源文件编译成汇编代码。
汇编
汇编是将汇编代码翻译成可执行的指令,每一条汇编语句基本对应一条机器指令,因此汇编器相对编译器较为简单,只需要按照汇编指令和机器指令的对照表进行一一翻译,这也是“汇编”一词的由来。可以用下面的命令获得汇编后的目标文件:
gcc -o hello.o -c hello.c
上述命令相当于:
as hello.s -o hello.o
目标文件格式跟可执行文件一样,都属于ELF文件。Linux系统下ELF类型文件还包括核心转储文件(core dump)、动态链接库(.so文件)。ELF文件包括文件头、代码段、数据段和.bss段(未初始化的全局变量),使用命令:objdump -h hello.o 可以查看目标文件的主要段,可以看到hello.o的代码段和数据段。
使用objdump -d hello.o命令查看目标文件hello.o的内容如下:
其中:
18: e8 00 00 00 00 callq 0 <_main+0x1d> 表示对函数printf的引用
可以看到,编译阶段,printf函数在外部定义,未定义函数printf的调用地址为0。这里啰嗦下,objdump是个很好用的工具,对于初学编译原理很有用。
链接
链接是将各个目标文件所需要的代码块收集在一起,生成最终的可执行文件。我们的helloworld里面调用了printf函数,但是并没有它的实现,其实现在libc.so(动态库)或者libc.a(静态库)中。所谓的库就是将一些比较常用的函数实现编译成目标文件并打包,因此我们使用ar命令就可以将库拆分成目标文件:
$ar -t libc.a
init-first.o
libc-start.o
sysdep.o
version.o
check_fds.o
libc-tls.o
elf-init.o
dso_handle.o
errno.o
init-arch.o
errno-loc.o
hp-timing.o
iconv_open.o
iconv.o
iconv_close.o
gconv_db.o
…………
查看链接后可执行文件hello的内容:
其中:
100000f78: e8 0d 00 00 00 callq 13
可以看到代码段调用地址已被赋值。我这里使用的iOS系统,实现与Linux略有不同,dyld_stub_binder 会在目标符号(例如 printf)被调用时,将其链接到指定的动态链接库 libSystem,再调用printf函数,printf符号位于在data段的lazy符号表中可获取。
静态链接过程包括:
空间与地址分配
符号解析和重定位
静态库链接
下面一一讲解。
空间地址的分配
刚才讲了,链接过程就是将多个目标加工后合并成一个可执行文件,对于有多个目标文件的链接情况,存在两种地址空间分配策略:按序叠加和相似段合并。
按序叠加很好理解,就是直接合并:
直接合并会造成一个问题,就是可执行文件会有很多零散的段,而每个段都需要地址和空间对齐,如x86硬件下对齐单位是页,也就是4096字节,零散段会造成空间浪费。
相似段合并就是将相同性质的段合并到一起:
这里.bss段存放的是未初始化的全局变量,因为没有内容,因此不占用文件空间只占用虚拟地址空间,即进程空间,参见(进程是如何使用内存的?):
https://mp.weixin.qq.com/s?__biz=MzIxMjU2Nzk2Nw==&mid=2247483768&idx=1&sn=569985972dce471492ef419bc8b9abd2&chksm=97455388a032da9e258eefc52c9de7bed287d1de32d8c8548c806e287a602677f6cbf5aba08d&token=527170447&lang=zh_CN#rd
符号解析和指令的修正
ELF文件中定义了一个重定位表段,里面定义了需要在链接阶段进行重定位的符号。hello.c编译成hello.o文件后,里面的printf函数并没有在hello.o中实现,因此会放在重定位段中。链接的时候,会在所有的.o文件中查找未定义符号表,并将符号定义的首地址相对引用地址求得偏移值后填入引用处。比如我们在main函数中引用的printf函数,编译阶段地址为0,链接阶段会填上0x2004。
如果存在未找到的符号,连接失败编译器报错,就是我们经常见到的:
undefined reference to "XXXX"
刚才我们看到libc.a文件打散之后是一堆.o文件,就包括printf.o文件,里面定义了printf函数的实现。经过迭代查找,设置好程序入口,链接工作就完成了。
链接过程比较复杂,包括绝对地址重定位和C++中重复代码处理等等,需要在项目中试错理解,后续有空再续写。
最后厚着脸皮推广一下自己的公众号:机械猿,有机械工程同行想转行IT,或者有想入职BAT的可以找我内推~