代码编译的工作过程

工作流程

一个现代编译器的主要工作流程如下:

源代码(sourcecode)→预处理器(preprocessor)→编译器(compiler)→汇编程序(assembler)→目标代码(objectcode)→连接器(Linker)→可执行程序(executables)

你可能会想,为什么不直接一步生成可执行文件,而是让分开进行预处理、编译、汇编、链接四个步骤呢?

预处理只是将源文件进行修改,譬如头文件的插入,代码的选择,输出的.i文件中的代码基本都是C语言的语法(不是C语言的语法见Preprocessor output),然后编译器处理被展开后的C文件。因此,预处理器和编译器的分开是一个自然的、模块化的设计。

汇编语言的每一条语句都以文本格式描述了一条低级机器语言指令,因此汇编语言不但为不同的高级语言的不同编译器提供了通用的输出语言,还能让我们间接地读懂机器实际执行的指令,所以我们需要将编译器和汇编器分开。

为什么我们需要链接器呢?

有了链接器,我们就可以把代码写在多个文件中,而不是一个单一文件的庞然大物。而可以把代码写在多个文件中可以带来很多好处。

  • 首先,代码的复用更加方便(否则就要把需要功能的code复制到唯一的源文件中)。
  • 其次,我们可以进行分离式编译,改变一个源文件后只需重新编译该源文件得到.o文件,再与其他.o文件链接即可,而不用重新编译其他源文件,节省了时间
  • 再者,当我们实现了很多功能,但是程序只需要其中一部分的时候,我们可以只链接我们所需要用到的功能的代码所在的.o文件,这样需要加载到内存中的内容就变少了,节省了空间。

预处理(cpp)

预处理器不止一种,而C/C++的预处理器就是其中最低端的一种——词法预处理器,主要是进行文本替换、宏展开、删除注释这类简单工作。

  • gcc -E 选项可以得到预处理后的结果,扩展名为.i;
  • C/C++预处理不做任何语法检查,不仅是因为它不具备语法检查功能,也因为预处理命令不属于C/C++语句(这也是定义宏时不要加分号的原因),语法检查是编译器要做的事情;
  • 预处理之后,得到的仅仅是真正的源代码;
  • GCC确实很强大,如果是用VC这种IDE,恐怕就不能看到预处理后的结果。
g++  -E  test.cpp  -o  test.i    //生成预处理后的.i文件

编译器(ccl)

将文本文件.i翻译成文本文件.s,得到汇编语言程序(把高级语言翻译为机器语言),该种语言程序中的每条语句都以一种标准的文本格式确切的描述了一条低级机器语言指令。

  • gcc -S 只进行编译而不进行汇编,生成汇编代码 .s 。[编译器egcs]
  • 汇编语言为不同高级语言的不同编译器提供了通用的输出语言,比如,C编译器和Fortran编译器产生的输出文件用的都是一样的汇编语言。
g++ -S test.i -o test.s         //生成汇编.s文件

编译器可以生成用来在与编译器本身所在的 计算机和操作系统(平台)相同的环境下运行的目标代码,这种编译器又叫做“ 本地”编译器。另外,编译器也可以生成用来在其它平台上运行的目标代码,这种编译器又叫做 交叉编译器。交叉编译器在生成新的硬件平台时非常有用。

“ 源码到源码编译器”是指用一种高级语言作为输入,输出也是高级语言的编译器。例如: 自动并行化编译器经常采用一种高级语言作为输入,转换其中的代码,并用并行代码注释对它进行注释(如OpenMP)或者用语言构造进行注释(如FORTRAN的DOALL 指令)。 

汇编(as)

将.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序的格式,并将结果保存在目标文件.o中(把汇编语言翻译成机器语言的过程)。

  • gcc -c 选项可以得到汇编后的结果,扩展名为.o;
  • .o是一个二进制文件,它的字节编码是机器语言指令而不是字符。如果在文本编辑器中打开.o文件,看到的将是一堆乱码。
  • 把一个源程序翻译成目标程序的工作过程分为五个阶段:词法分析;语法分析;语义检查和中间代码生成;代码优化;目标代码生成。主要是进行词法分析和语法分析,又称为源程序分析,分析过程中发现有语法错误,给出提示信息。
g++  -c  test.s  -o  test.o    //生成二进制.o文件

链接(ld)

gcc会到系统默认的搜索路径”/usr/lib”下进行查找,也就是链接到libc.so.6库函数中去。 函数库一般分为静态库和动态库两种。静态库是指编译链接时,把库文件的代码全部加入到可执行文件中,因此生成的文件比较大,但在运行时也就不再需要库文件了。其后缀名一般为”.a”。动态库与之相反,在编译链接时并没有把库文件的代码加入到可执行文件中,而是在程序执行时由运行时链接文件加载库,这样可以节省系统的开销。动态库一般后缀名为”.so”,如前面所述的libc.so.6就是动态库。gcc在编译时默认使用动态库。

g++ test.o  -o  test.out      //生成二进制.out可执行文件 

 

参考:

GCC参数详解 、g++入门教程-Dabelv、阿侃的编程之路

你可能感兴趣的:(C/C++)