手把手教你做一个 C 语言编译器:设计

手把手教你做一个 C 语言编译器:设计_第1张图片
C语言是面向过程的,而C++是面向对象的

C和C++的区别:

C是一个结构化语言,它的重点在于算法和数据结构。C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现过程(事务)控制)。

C++,首要考虑的是如何构造一个对象模型,让这个模型能够契合与之对应的问题域,这样就可以通过获取对象的状态信息得到输出或实现过程(事务)控制。 所以C与C++的最大区别在于它们的用于解决问题的思想方法不一样。之所以说C++比C更先进,是因为“ 设计这个概念已经被融入到C++之中 ”。C与C++的最大区别:在于它们的用于解决问题的思想方法不一样。之所以说C++比C更先进,是因为“ 设计这个概念已经被融入到C++之中 ”,而就语言本身而言,在C中更多的是算法的概念。那么是不是C就不重要了,错!算法是程序设计的基础,好的设计如果没有好的算法,一样不行。而且,“C加上好的设计”也能写出非常好的东西。

前言

为什么要学编译原理

如果要我说计算机专业最重要的三门课,我会说是《数据结构》、《算法》和《编译原理》。在我看来,能不能理解“递归”像是程序员的第一道门槛,而会不会写编译器则是第二道。

(当然,并不是说是没写过编译器就不是好程序员,只能说它是一个相当大的挑战吧)

手把手教你做一个 C 语言编译器:设计_第2张图片

小编推荐一个学C语言/C++的学习裙【 二六三,六八八,二七六 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

以前人们会说,学习了编译原理,你就能写出更加高效的代码,但随着计算机性能的提升,代码是否高效显得就不那么重要了。那么为什么要学习编译原理呢?

原因只有一个:装B。

好吧,也许现在还想学习编译原理的人只可能是因为兴趣了。一方面想了解它的工作原理;另一方面希望挑战一下自己,看看自己能走多远。

理论很复杂,实现也很复杂?

我对编译器一直心存敬佩。所以当学校开《编译原理》的课程后,我是抱着满腔热情去上课的,但是两节课后我就放弃了。原因是太复杂了,听不懂。

一般编译原理的课程会说一些:

1、如何表示语法(BNF什么的)

2、词法分析,用什么有穷自动机和无穷自动机

3、语法分析,递归下降法,什么 LL(k),LALR 分析。

4、中间代码的表示

5、代码的生成

6、代码优化

我相信绝大多数(98%)的学生顶多学到语法分析就结束了。并且最重要的是,学了这么多也没用!依旧帮助不了我们学习编译器!这其中最主要的原因是《编译原理》试图教会我们的是如何构造“编译器生成器”,即构造一个工具,根据文法来生成编译器(如 lex/yacc)等等。

这些理论试图教会我们如何用通用的方法来自动解决问题,它们有很强的实际意义,只是对于一般的学生或程序员来说,它们过于强大,内容过于复杂。如果你尝试阅读 lex/yacc (或 flex/bison)的代码,就会发现太可怕了。

然而如果你能跟我一样,真正来实现一个简单的编译器,那么你会发现,比起可怕的《编译原理》,这点复杂度还是不算什么的(因为好多理论根本用不上)。

项目的初衷

有一次在 Github 上看到了一个项目(当时很火的),名叫 c4,号称用 4 个函数来实现了一个小的 C 语言编译器。它最让我震惊的是能够自举,即能自己编译自己。并且它用很少的代码就完成了一个功能相当完善的 C 语言编译器。

一般的编译器相关的教程要么就十分简单(如实现四则运算),要么就是借助了自动生成的工具(如 flex/bison)。而 c4 的代码完全是手工实现的,不用外部工具。可惜的是它的代码初衷是代码最小化,所以写得很乱,很难懂。所以本项目的主要目的:

1、实现一个功能完善的 C 语言编译器

2、通过教程来说明这个过程。

c4 大致500+行。重写的代码历时一周,总共代码加注释1400行

声明:本项目中的代码逻辑绝大多数取自 c4 ,但确为自己重写。

预警

在写编译器的时候会遇到两个主要问题:

1、麻烦,会有许多类似的代码,写起来很无聊。

2、难以调试,一方面没有很好的测试用例,另一方面需要对照生成的代码来调试(遇到的时候就知道了)。

所以我希望你有足够的耐心和时间来学习,相信当你真正完成的时候会像我一样,十分有成就感。

虽然标题是编译器,但实际上我们构建的是 C 语言的解释器,这意味着我们可以像运行脚本一样去运行 C 语言的源代码文件。这么做的理由有两点:

1、解释器与编译器仅在代码生成阶段有区别,而其它方面如词法分析、语法分析是一样的。

2、解释器需要我们实现自己的虚拟机与指令集,而这部分能帮助我们了解计算机的工作原理。

手把手教你做一个 C 语言编译器:设计_第3张图片

小编推荐一个学C语言/C++的学习裙【 二六三,六八八,二七六 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

编译器的构建流程

一般而言,编译器的编写分为 3 个步骤:

1、词法分析器,用于将字符串转化成内部的表示结构。

2、语法分析器,将词法分析得到的标记流(token)生成一棵语法树。

3、目标代码的生成,将语法树转化成目标代码。

已经有许多工具能帮助我们处理阶段1和2,如 flex 用于词法分析,bison 用于语法分析。只是它们的功能都过于强大,屏蔽了许多实现上的细节,对于学习构建编译器帮助不大。所以我们要完全手写这些功能。

所以我们会根据下面的流程:

1、构建我们自己的虚拟机以及指令集。这后生成的目标代码便是我们的指令集。

2、构建我们的词法分析器

3、构建语法分析器

编译器的框架

我们的编译器主要包括 4 个函数:

1、next() 用于词法分析,获取下一个标记,它将自动忽略空白字符。

2、program() 语法分析的入口,分析整个 C 语言程序。

3、expression(level) 用于解析一个表达式。

4、eval() 虚拟机的入口,用于解释目标代码。

这里有一个单独用于解析“表达式”的函数 expression 是因为表达式在语法分析中相对独立并且比较复杂,所以我们将它单独作为一个模块(函数)。

因为我们的源代码看起来就像是:

#include

#include

#include

#include

int token;            // current token

char *src, *old_src;  // pointer to source code string;

int poolsize;         // default size of text/data/stack

int line;             // line number

void next() {

    token = *src++;

    return;

}

void expression(int level) {

    // do nothing

}

void program() {

    next();                  // get next token

    while (token > 0) {

        printf("token is: %c\n", token);

        next();

    }

}

int eval() { // do nothing yet

    return 0;

}

int main(int argc, char **argv)

{

    int i, fd;

    argc--;

    argv++;

    poolsize = 256 * 1024; // arbitrary size

    line = 1;

    if ((fd = open(*argv, 0)) < 0) {

        printf("could not open(%s)\n", *argv);

        return -1;

    }

    if (!(src = old_src = malloc(poolsize))) {

        printf("could not malloc(%d) for source area\n", poolsize);

        return -1;

    }

    // read the source file

    if ((i = read(fd, src, poolsize-1)) <= 0) {

        printf("read() returned %d\n", i);

        return -1;

    }

    src[i] = 0; // add EOF character

    close(fd);

    program();

    return eval();

}

手把手教你做一个 C 语言编译器:设计_第4张图片
手把手教你做一个 C 语言编译器:设计_第5张图片
手把手教你做一个 C 语言编译器:设计_第6张图片

上面的代码看上去挺复杂,但其实内容不多,就是读取一个源代码文件,逐个读取每个字符,并输出每个字符。这里重要的是注意每个函数的作用,后面的文章中,我们将逐个填充每个函数的功能,最终构建起我们的编译器。

你可能感兴趣的:(手把手教你做一个 C 语言编译器:设计)