一个可执行文件的生成一般都要经过下面几个步骤:
编辑 、预处理 、 编译、优化、汇编 、 连接 ——>可执行文件
下面将从这几个步骤一个一个来分析他们的具体内容。
1. 编辑
编辑这个过程其实挺简单的,但也是最讲究的,它直接体现了一个编程者的编程习惯,以及影响到别人对程序的阅读感受,所以有必要总结一下。
(1) 注释要规范,多用 /*.....*/ ,少用// ,逻辑复杂的函数要注明函数的功能以及每个参数的含义,全局变量以及结构体要注明用处
(2) 一定要注意缩进,tab设置为4个空格会看起来更紧凑
(3) 分支语句对应的两个大括号要独占一行,而且尽量靠近行的开头
(4) 注意程序的结构性和层次性
(5) 大型程序应该对函数的功能以及模块进行归类
(6) 使用一个好的,适合自己的编辑器
2. 预处理
预处理其实就是对所有源代码进行整合的一个过程,它将该程序所涉及到的所有代码,包括头文件、宏定义、条件编译和执行代码,都整合为一个整体。
预处理过程会完成以下工作:
(1) 文件包含:包括两种格式 #include
第一种方法是用尖括号把头文件括起来,这种格式告诉预处理程序在编译器自带的或外部库的头文件中搜索被包含的头文件。
第二种方法是用双引号把头文件括起来,这种格式告诉预处理程序在当前被编译的应用程序的源代码文件中搜索被包含的头文件,如果找不到,再搜索编译器自带的头文件。
在预处理时,会将对应文件的全部内容插入并替换该#include语句, 如果这个头文件还包含另外一个头文件,那么另外一个头文件也会先替换调用它的的#include语句
(2) 宏替换:将函数中使用到宏的地方,都使用对应的值进行替换,这些值主要是#define 命令声明的
(3) 条件编译:将不符合条件编译的语句删除,保留符合条件编译的语句。比如#if 0 ... #endif \ #if defined.... #endif 等条件编译语句,不符合对应条件的语句将会被丢掉,而保留符合条件编译的部分
(4) 特殊符号:预编译程序可以识别一些特殊的符号,例如在源程序中出现的LINE标识将被解释为当前行号(十进制数),FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。
(5) 整理:删除程序中的注释和多余的空白字符
3.优化阶段
优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关,而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。上图中,我们将优化阶段放在编译程序的后面,这是一种比较笼统的表示。
对于前一种优化,主要的工作是删除公共表达式、循环优化(代码外提、强度削弱、变换循环控制条件、已知量的合并等)、复写传播,以及无用赋值的删除,等等。
后一种类型的优化同机器的硬件结构密切相关,最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值,以减少对于内存的访问次数。另外,如何根据机器硬件执行指令的特点(如流水线、RISC、CISC、VLIW等)而对指令进行一些调整使目标代码比较短,执行的效率比较高,也是一个重要的研究课题。
经过优化得到的汇编代码必须经过汇编程序的汇编转换成相应的机器指令,方可能被机器执行。
4.汇编过程
汇编过程实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序,都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。
目标文件由段组成。通常一个目标文件中至少有两个段:
代码段 该段中所包含的主要是程序的指令。该段一般是可读和可执行的,但一般却不可写。
数据段 主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读,可写,可执行的。
UNIX环境下主要有三种类型的目标文件:
(1)可重定位文件 其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。
(2)共享的目标文件 这种文件存放了适合于在两种上下文里链接的代码和数据。第一种事链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件;第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起,创建一个进程映象。
(3)可执行文件 它包含了一个可以被操作系统创建一个进程来执行之的文件。
汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到,这个就是链接程序的工作了。
5.链接程序
由汇编程序生成的目标文件并不能立即就被执行,其中可能还有许多没有解决的问题。例如,某个源文件中的函数可能引用了另一个源文件中定义的某个符号(如变量或者函数调用等);在程序中可能调用了某个库文件中的函数,等等。所有的这些问题,都需要经链接程序的处理方能得以解决。
链接程序的主要工作就是将有关的目标文件彼此相连接,也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来,使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。
根据开发人员指定的同库函数的链接方式的不同,链接处理可分为两种:
(1)静态链接 在这种链接方式下,函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合,其中的每个文件含有库中的一个或者一组相关函数的代码。
(2)动态链接 在此种方式下,函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时,动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。
对于可执行文件中的函数调用,可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小,并且当共享对象被多个进程使用时能节约一些内存,因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。
经过上述五个过程,C源程序就最终被转换成可执行文件了
上面5个步骤分别对应了gcc的几个选项 -E -S -c 和 ld工具, gcc的-o 选项可以看作是一个重定向选项,和shell中的> 类比, -o后面接的文件名就是输出文件, gcc的输入文件一般放在命令的最后,或者放在-c的后面
gcc -E:是预处理选项,比如 gcc -E main.c -o main.E 将会生成对应源文件的汇编结果,注意预处理过程是不产生对应的输出文件的,它会将预处理后的内容显示到屏幕和输送到编译阶段,所以如果需要保存预编译的内容,需要用-o选项进行重定向保存
gcc -S:是编译选项,这个选项会将预处理好的源代码编译成汇编语言,比如gcc -S main.c -o main.S ,注意 -S会默认执行-E选项的过程
gcc -c: 是汇编选项,这个选项将源代码汇编成对应的目标文件(*.o),并且以源文件的前缀命名, 比如gcc -c main.c 将生成 main.o , gcc -c main.S 也将生成main.o文件, 当gcc只有这个选项的时候将默认执行前面的-E -S选项
ld: ld工具是连接工具,ld -Tmain.lds 0x0000 main.o -o main 它将前面产生的目标文件连接成可执行文件,至于目标文件,我们也可以使用ar工具或者gcc -shared 制作不同的静态库和共享库
如果编译一个源文件时,gcc没有带任何参数,那么会将上面的选项全部执行
下面将用一个实际例子来解释上面的几个步骤:
(1) 首先编辑一个简单的文件 main.c
#include
#define A 1
#define B 2
int main()
{
printf("a+b=%d \n", A, B);
return 0;
}
extern char *ctermid (char *__s) __attribute__ ((__nothrow__));
# 886 "/usr/include/stdio.h" 3 4
extern void flockfile (FILE *__stream) __attribute__ ((__nothrow__));
extern int ftrylockfile (FILE *__stream) __attribute__ ((__nothrow__)) ;
extern void funlockfile (FILE *__stream) __attribute__ ((__nothrow__));
# 916 "/usr/include/stdio.h" 3 4
# 2 "main.c" 2
int main()
{
printf("a+b=%d \n", 1, 2);
return 0;
}
可以看到预处理阶段,将宏进行了替换
(3)执行gcc -S main.c -o main.s 将生成汇编文件main.s
.file "main.c"
.section .rodata
.LC0:
.string "a+b=%d \n"
.text
.globl main
.type main, @function
main:
pushl %ebp
movl %esp, %ebp
andl $-16, %esp
subl $16, %esp
movl $.LC0, %eax
movl $2, 8(%esp)
movl $1, 4(%esp)
movl %eax, (%esp)
call printf
movl $0, %eax
leave
ret
.size main, .-main
.ident "GCC: (Ubuntu 4.4.3-4ubuntu5.1) 4.4.3"
.section .note.GNU-stack,"",@progbits
(5)执行ld -Tmain.lds -o main 将连接成可执行文件 main
main.lds是连接脚本,它定义了整个程序编译之后的连接过程,决定了一个可执行程序的各个段的存储位置,
关于.lds 的内容可自寻查找