PL/0简单编译系统(二)

词法分析

词法分析又称词法分析器或者扫描器,是编译程序的基本子程序之一。本项目采用手工方式设计并实现词法分析程序。

词法分析的功能

扫描源程序,按语言的词法规则识别出各类单词符号(Token),并将有关字符组合成为单词并输出,同时进行词法检查。语言的保留字,标识符,常数和运算符等都是单词的例子。

Token分类

将PL/0编译系统中所有的字符,字符串的类型按如下表格分类:

类型 字符or字符串
保留字 begin, end, if,then, else, const, procedure,var,do,while, call,read, write, repeat, until
算数运算符 + ,—,*,/
比较运算符 <> , < ,<= , >, >= ,=
赋值符 := , =
标识符 变量名,过程名,常数名
常数 10,25等整数
界符 ‘,’,‘.’,‘;’,‘(’,‘)’
其他符号 :,EOF

Token结构

在具体实现时,由于出错处理及语法分析的需求,定义如下Token结构:

public class Token {
    private SymType st; //token的类别
    private int line; //token所在行,错误处理使用
    private String value; //token的值,只有标识符和常量有值
}

Token分析程序的构造

首先,给出状态图:

PL/0简单编译系统(二)_第1张图片
状态图

根据状态图,可以写出分析程序analysis()

private Token analysis() {
    strToken = "";
    getChar();
    while ((ch == ' ' || ch == '\n' || ch == '\t' || ch == '\0') && searchPtr < buffer.length) {
        if (ch == '\n') {
            line++;
        }
        getChar();
    }
    if (ch == '$' && searchPtr >= buffer.length) { //到达文件末尾
        return new Token(SymType.EOF, line, "-1");
    }
    if (isLetter()) { //首位为字母,可能为保留字或者变量名
        while (isLetter() || isDigit()) {
            strToken += ch;
            getChar();
        }
        retract();
        for (int i = 0; i < keyWords.length; i++) {
            if (strToken.equals(keyWords[i])) { //说明是保留字
                return new Token(SymType.values()[i], line, "-");
            }
        }
        //不是保留字,则为标识符,需要保存值
        return new Token(SymType.SYM, line, strToken);
    } else if (isDigit()) { //首位为数字,即为整数
        while (isDigit()) {
            strToken += ch;
            getChar();
        }
        retract();
        return new Token(SymType.CONST, line, strToken);
    } else if (ch == '=') { //等号
        return new Token(SymType.EQU, line, "-");
    } else if (ch == '+') { //加号
        return new Token(SymType.ADD, line, "-");
    } else if (ch == '-') { //减号
        return new Token(SymType.SUB, line, "-");
    } else if (ch == '*') { //乘号
        return new Token(SymType.MUL, line, "-");
    } else if (ch == '/') { //除号
        return new Token(SymType.DIV, line, "-");
    } else if (ch == '<') { //小于或不等于或小于等于
        getChar();
        if (ch == '=') {
            return new Token(SymType.LESE, line, "-");
        } else if (ch == '>') {
            return new Token(SymType.NEQE, line, "-");
        } else {
            retract();
            return new Token(SymType.LES, line, "-");
        }
    } else if (ch == '>') { //大于或大于等于
        getChar();
        if (ch == '=') {
            return new Token(SymType.LARE, line, "-");
        } else {
            retract();
            return new Token(SymType.LAR, line, "-");
        }
    } else if (ch == ',') { //逗号
        return new Token(SymType.COMMA, line, "-");
    } else if (ch == ';') { //分号
        return new Token(SymType.SEMIC, line, "-");
    } else if (ch == '.') { //点
        return new Token(SymType.POI, line, "-");
    } else if (ch == '(') { //左括号
        return new Token(SymType.LBR, line, "-");
    } else if (ch == ')') { //右括号
        return new Token(SymType.RBR, line, "-");
    } else if (ch == ':') { //赋值号
        getChar();
        if (ch == '=') {
            return new Token(SymType.CEQU, line, "-");
        } else {
            retract();
            return new Token(SymType.COL, line, "-");
        }
    }
    return new Token(SymType.EOF, line, "-");
}

analysis()每次分析出一个Token。对代码进行一遍遍历,即可得到源程序的token数组。

词法分析
符号表管理
语法和语义分析
Pcode生成
出错管理

你可能感兴趣的:(PL/0简单编译系统(二))