[转载]LCC编译器的源程序分析(1)C编译器的目标

先从简单的目标来分析这个大规模的 C 编译器,毕竟它的功能比较复杂,并且源程序的行数也是非常多的。因此,把简单的目标定出来,然后再分析它,这样才会有的放矢。接着再跟着编译运行的主线来分析它的源程序。下面先看一下简单的 C 例子,如下:
 
#001 #include <stdio.h>
#002 
#003 int main(void)
#004 {
#005  int nTest1 = 1;
#006  int nTest2 = 2;
#007  int nTest3;
#008  int i;
#009  
#010  nTest3 = nTest1 + nTest2;
#011  printf("nTest3 = %d/r/n",nTest3);
#012  
#013  for (i = 0; i < 5; i++)
#014  {
#015         printf("%d/r/n",nTest3+i);
#016  }
#017  
#018  printf(__TIME__" "__DATE__"/r/nhello world/n");
#019  return 0;
#020 }
#021 
 
上面的程序就是用来说明编译器工作的例子,它在第一行里包含了头文件 stdio.h ,由于后面调用 printf 函数输出显示到屏幕里。第二行空行, 第三行是 main 函数,它是 C 程序的入口函数。在 main 函数里,定义了几个局部变量,分别第 5 6 7 8 行的变量。第 10 行作两个变量 nTest1 nTest2 的加法,然后赋值给变量 nTest3 。第 11 行显示变量 nTest3 的值,是用 10 进制输出显示。在第 13 16 行是 5 次输出 nTest3+i 值。在第 18 行里输出编译这个程序的时间和 hello world 的字符串。
 
C 编译器的任务,就是把上面的源程序变换到汇编代码输出,或者变成其它中间代码输出。在这里 LCC 编译器是输出汇编代码的,所以就不介绍其它的中间代码输出。那么 LCC 把上面的源程序变成什么样的汇编输出呢?下面就先把它的目标代码看一下,如下:
 
#001 [global $main]
#002 [section .text]
#003 $main:
#004 push ebx
#005 push esi
#006 push edi
#007 push ebp
#008 mov ebp, esp
#009 sub esp, 16
#010 mov dword [ebp + -12], 1
#011 mov dword [ebp + -16], 2
#012 mov edi, dword [ebp + -12]
#013 mov esi, dword [ebp + -16]
#014 lea edi, [esi + edi]
#015 mov dword [ebp + -8], edi
#016 mov edi, dword [ebp + -8]
#017 push dword edi
#018 lea edi, [$L2]
#019 push dword edi
#020 call $printf
#021 add esp, 8
#022 mov dword [ebp + -4], 0
#023 $L3:
#024 mov edi, dword [ebp + -8]
#025 mov esi, dword [ebp + -4]
#026 lea edi, [esi + edi]
#027 push dword edi
#028 lea edi, [$L7]
#029 push dword edi
#030 call $printf
#031 add esp, 8
#032 $L4:
#033 inc dword [ebp + -4]
#034 cmp dword [ebp + -4], 5
#035 jl near $L3
#036 lea edi, [$L8]
#037 push dword edi
#038 call $printf
#039 add esp, 4
#040 mov eax, 0
#041 $L1:
#042 mov esp, ebp
#043 pop ebp
#044 pop edi
#045 pop esi
#046 pop ebx
#047 ret
#048 [extern $printf]
#049 [section .data]
#050 times ($-$$) & 0 nop
#051 $L8:
#052 db '00:30:28 Apr 07 2007', 13, 10, 'hello world', 10, 0
#053 times ($-$$) & 0 nop
#054 $L7:
#055 db '%d', 13, 10, 0
#056 times ($-$$) & 0 nop
#057 $L2:
#058 db 'nTest3 = %d', 13, 10, 0
#059 
 
LCC 是可以生成很多目标代码的 C 编译器,在这里主要介绍生成 X86 NASM 汇编的代码。上面的汇编代码就是 NASM 的汇编格式,可以使用 NASM 编译生成目标文件,然后再用连接程序生成可执行文件。如果不能看懂上面的 NASM 汇编,就需要去看 NASM 手册了,这个手册在网上有下载。如果想更深入理解汇编生成机器码的过程,当然也可以深入分析 NASM 的程序实现。
从上面的 C 和汇编也可以看出,汇编代码比 C 代码要复杂,行数也比较多,还分了数据段和代码段。所以使用 C 编译器是可以大大地提高生产效率的,并且更容易理解,这样就容易降低软件的成本,容易开发大规模的软件工程。
 

你可能感兴趣的:([转载]LCC编译器的源程序分析(1)C编译器的目标)