StuGeek

使用C++对TINY+语言进行词法分析、语法分析、语义分析和中间代码生成

实验报告

实验环境

操作系统：Win 10
编译器：g++

项目地址

实验目的

构造TINY＋的语义分析程序并生成中间代码

实验内容

构造符号表，构造TINY＋的语义分析器，构造TINY＋的中间代码生成器

实验要求

能检查一定的语义错误，将TINY＋程序转换成三地址中间代码。提交词法分析、语法分析和语义分析程序及中间代码生成的实验报告。

项目介绍

文件夹结构

tiny+
|-- errors.h
|-- generation.cpp
|-- generation.h
|-- lexical.cpp
|-- lexical.h
|-- main.cpp
|-- syntax.cpp
|-- syntax.h
|-- test
    |-- lexical_illegal_input.tny
    |-- sematic_illegal_input.tny
    |-- syntax_illegal_input.tny
    |-- test1.tny
    |-- test2.tny

errors.h为错误信息管理文件，lexical.cpp和lexical.h为词法分析文件，负责生成词法分析token，syntax.cpp和syntax.h为语法分析文件，负责进行语法分析，生成语法树，generation.cpp和generation.h 负责生成三地址中间代码，main.cpp为主函数，test文件夹里的文件为测试文件。

运行方式

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test1.tny                        // 合法输入打印符号表和生成三地址中间代码测试1
a test/test2.tny                        // 合法输入打印符号表和生成三地址中间代码测试2
a test/test1.tny optimize               // 合法输入打印符号表和生成优化三地址中间代码测试1
a test/test2.tny optimize               // 合法输入打印符号表和生成优化三地址中间代码测试2

a test/test1.tny token                  // 合法输入词法分析测试1
a test/test2.tny token                  // 合法输入词法分析测试2

a test/test1.tny tree                   // 合法输入语法分析测试1
a test/test2.tny tree                   // 合法输入语法分析测试2

a test/lexical_illegal_input.tny token  // 错误输入词法分析测试
a test/syntax_illegal_input.tny tree    // 错误输入语法分析测试
a test/sematic_illegal_input.tny        // 错误输入语义分析测试

TINY+的词法定义

关键字：在TINY的关键字write read if then else return begin end main string int real repeat until的基础上，扩充了or and bool char while do这几个关键字，小写字母表示，自定义标识符不能和关键字重复。
特殊符号：在TINY的特殊符号; , ( ) + - * / := == != =的基础上，扩充了> < <= >= '这几个特殊符号。
其他种类的单词包括标识符ID，数字NUM以及字符串STRING，他们的正规表达式的定义如下：
- 标识符是以字母开头，由字母和数字混合构成的符号串：
```
ID=letter (letter | digit)*
```
- TINY+中对数字的定义和TINY相同：
```
NUM=digit digit*
```
- 一个字符串类型的单词是用单引号括起来的字符申’…'，引号内可出现除了’以外的任何符号。一个字符串不能跨行定义：
```
STRING=any character except''
```
- 小写和大写字母是不同的：
```
letter=a|...|z|A|...|Z
digit=0|...|9
```
空白包括空格、回车以及Tab。所有的空白在词法分析时，被当作单词ID, NUM以及保留字的分隔符，在词法分析之后，他们不被当作单词保留。
注释是用花括号括起来的符号串{…}，注释不能嵌套定义，但注释的定义可以跨行。

TINY+的语法定义

TINY+的语法用EBNF定义如下：

1 program -> declarations stmt-sequence
2 declarations -> decl;declarations | ε
3 decl -> type-specifier varlist
4 type-specifier -> int | bool | char
5 varlist -> identifier { , identifier }
6 stmt-sequence -> statement {; statement }
7 statement -> if-stmt | repeat-stmt | assign-stmt | read-stmt | write-stmt | while-stmt
8 while-stmt -> while bool-exp do stmt-sequence end
9 if-stmt -> if bool-exp then stmt-sequence [else stmt-sequence] end
10 repeat-stmt -> repeat stmt-sequence until bool-exp
11 assign-stmt -> identifier:=exp
12 read-stmt -> read identifier
13 write-stmt -> write exp
14 exp -> arithmetic-exp | bool-exp | string-exp
15 arithmetic-exp -> term { addop term }
16 addop -> + | -
17 term -> factor { mulop factor }
18 mulop -> * | /
19 factor -> (arithmetic-exp) | number | identifier
20 bool-exp -> bterm { or bterm }
21 bterm -> bfactor { and bfactor}
22 bfactor -> comparison-exp
23 comparison-exp -> arithmetic-exp comparison-op arithmetic-exp
24 comparison-op -> < | = | > | >= | <=
25 string-exp -> string

词法分析实验报告

实现过程

1. 定义Token的类型和数据结构

为了获得词法分析的Token，首先要定义获取Token的类型，根据词法定义，大致可以分成标识符、数学常量、字符串常量、关键字、特殊符号等类型的Token，其中关键字和特殊符号还可以进行进一步的细分，包含所有具体的关键字和特殊符号：

// Token类型
enum TokenType {
    ID,                      // 标识符
    NUM,                     // 数字常量
    STRING,                  // 字符串常量

    // 关键字
    KEY_WRITE,               // write
    KEY_READ,                // read
    KEY_IF,                  // if
    KEY_THEN,                // then
    KEY_ELSE,                // else

    KEY_END,                 // end

    KEY_STRING,              // string
    KEY_INT,                 // int

    KEY_REPEAT,              // repeat
    KEY_UNTIL,               // until

    KEY_OR,                  // or
    KEY_AND,                 // and
    KEY_BOOL,                // bool
    KEY_WHILE,               // while
    KEY_DO,                  // do

    // 特殊符号
    SYM_GREATER_THAN,        // >
    SYM_LESS_THAN,           // <
    SYM_GREATER_EQUAL_THAN,  // >=
    SYM_LESS_EQUAL_THAN,     // <=  
    SYM_ASSIGN,              // :=
    SYM_EQUAL,               // =
    SYM_SEMICOLON,           // ;
    SYM_COMMA,               // ,
    SYM_LEFT_PARENTHESES,    // (
    SYM_RIGHT_PARENTHESES,   // )
    SYM_ADD,                 // +
    SYM_SUB,                 // -
    SYM_MUL,                 // *
    SYM_DIV,                 // /
    
    // 文件结束
    ENDOFFILE,
    // 出现错误
    ERROR
};

// Token数据结构
struct Token {
    TokenType type;  // token的类型
    string val;      // token的值

    Token() {}
    Token(TokenType type, string val): type(type), val(val) {}
};

对于每个类型的关键字，可以定义一个关键字表，使每个Token类型的关键字对应一个字符串：

// 关键字表，哈希表的key为关键字的单词，value为关键字的类型
map Keywords = {
    {"write", KEY_WRITE}, {"read", KEY_READ}, {"if", KEY_IF}, 
    {"then", KEY_THEN}, {"else", KEY_ELSE}, {"end", KEY_END},
    {"string", KEY_STRING}, {"int", KEY_INT}, {"repeat", KEY_REPEAT},
    {"until", KEY_UNTIL}, {"or", KEY_OR}, {"and", KEY_AND},
    {"bool", KEY_BOOL}, {"while", KEY_WHILE}, {"do", KEY_DO}
};

2. 定义有限状态机的状态集

为了进行词法分析，可以使用一个有限状态机，定义如下：

// 有限状态机的状态集
enum FSM_STATE {
    STATE_START,             // 开始状态
    STATE_ID,                // 标识符状态
    STATE_NUM,               // 数字状态
    STATE_COMMENT,           // 注释状态
    STATE_ASSIGN,            // 赋值符号状态
    STATE_GREATER,           // 大于符号状态或大于等于符号状态
    STATE_LESS,              // 小于符号状态或小于等于符号状态
    STATE_STR,               // 字符串状态
    STATE_SUCCESS,           // 成功识别状态，结束
    STATE_FAILED             // 识别失败状态，出现词法错误，结束
};

3. 使用有限状态机识别程序中的Token

可以使用有限状态机识别程序中的Token，在函数Token getNextToken(FILE *fp)中实现：

// 查找关键字类型
TokenType find_keyword_type(const string & key) {
    // 如果关键字表中存在查找的关键字，返回对应类型
    if (Keywords.count(key)) {
        return Keywords[key];
    }
    // 否则返回ID
    else {
        return ID;
    }
}

// 之前可能存在识别出的token，或者识别失败，就要返回上一个位置
void back_to_last_pos(bool isEOF, int & cur_pos) {
    if (!isEOF) {
        cur_pos--;
    }
}

// 获取下一个token
Token getNextToken(FILE *fp) {
    static char buffer[BUFFER_MAX_LEN];
    static int buffer_len = 0;           // 缓冲区的已读长度
    static int cur_pos = 0;              // 在当前行的读取字符位置
    static bool isEOF = false;           // 是否文件结束
    static int left_brace_num = 0;       // 保存左大括号的个数，表示嵌套数

    TokenType cur_token_type;            // 当前读取到的token的类型
    string cur_token_val;                // 当前读取到的token的值
    bool is_save_char;                   // 是否保存读取到的字符

    // 如果当前保存的左大括号数不为0.说明处在注释状态，否则处在开始状态
    FSM_STATE fsm_state;
    if (left_brace_num == 0) {
        fsm_state = STATE_START;
    }
    else {
        fsm_state = STATE_COMMENT;
    }

    // 如果识别还未结束
    while (fsm_state != STATE_SUCCESS && fsm_state != STATE_FAILED) {
        // 获取下一个字符
        char c;
        // 如果在当前行的读取字符位置大于等于缓冲区已读长度
        if (cur_pos >= buffer_len) {
            // 如果可以继续往缓冲区读取字符
            if (fgets(buffer, BUFFER_MAX_LEN - 1, fp)) {
                // 进行换行
                cur_line_num++;
                // 更新缓冲区的已读长度和当前行的读取字符位置
                buffer_len = strlen(buffer);
                cur_pos = 0;
                // 读取字符
                c = buffer[cur_pos++];
            }
            // 否则文件结束，读取的字符为EOF
            else {
                isEOF = true;
                c = EOF;
            }
        }
        // 否则直接读取字符
        else {
            c = buffer[cur_pos++];
        }

        is_save_char = true;
        switch (fsm_state) {
            // 初始状态
            case STATE_START:
                // 如果读取字符为字母，那么下一状态为标识符状态
                if (isalpha(c))
                    fsm_state = STATE_ID;
                // 如果读取字符为数字，那么下一状态为数字常量状态
                else if (isdigit(c))
                    fsm_state = STATE_NUM;
                // 如果读取字符为左大括号，那么下一状态为注释状态，不保存字符
                else if (c == '{') {
                    fsm_state = STATE_COMMENT;
                    is_save_char = false;
                }
                // 如果读取字符为右大括号，由于不是在注释状态下读到，那么下一状态为识别失败状态，不保存字符
                else if (c == '}') {
                    fsm_state = STATE_FAILED;
                    is_save_char = false;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_COMMENTS_LEFT_BRACE_MISSING].error_message;
                }
                // 如果读取字符为:，那么下一状态为赋值符号状态
                else if (c == ':') {
                    fsm_state = STATE_ASSIGN;
                }
                // 如果读取字符为>，那么下一状态为大于等于符号状态
                else if (c == '>') {
                    fsm_state = STATE_GREATER;
                }
                // 如果读取字符为<，那么下一状态为小于等于符号状态
                else if (c == '<') {
                    fsm_state = STATE_LESS;
                }
                // 如果读取字符为'，那么下一状态为字符串状态
                else if (c == '\'') {
                    fsm_state = STATE_STR;
                }
                // 如果读取字符为空格、制表或回车，那么跳过这个字符，不保存
                else if (c == ' ' || c == '\t' || c == '\n') {
                    is_save_char = false;
                }
                // 如果读取到的是其它字符
                else {
                    fsm_state = STATE_SUCCESS;
                    switch (c) {
                        // 如果读到的是特殊符号，那么设置token的type为相应类型
                        case '=':
                            cur_token_type = SYM_EQUAL;
                            break;
                        case ';':
                            cur_token_type = SYM_SEMICOLON;
                            break;
                        case ',':
                            cur_token_type = SYM_COMMA;
                            break;
                        case '(':
                            cur_token_type = SYM_LEFT_PARENTHESES;
                            break;
                        case ')':
                            cur_token_type = SYM_RIGHT_PARENTHESES;
                            break;
                        case '+':
                            cur_token_type = SYM_ADD;
                            break;
                        case '-':
                            cur_token_type = SYM_SUB;
                            break;
                        case '*':
                            cur_token_type = SYM_MUL;
                            break;
                        case '/':
                            cur_token_type = SYM_DIV;
                            break;
                        // 如果读到文件结束符
                        case EOF:
                            // 不保存字符，且设置token类型为文件结束
                            is_save_char = false;
                            cur_token_type = ENDOFFILE;
                            break;
                        // 如果读到非法字符
                        default:
                            // 识别失败，不保存字符，设置token为错误类型
                            fsm_state = STATE_FAILED;
                            is_save_char = false;
                            cur_token_type = ERROR;
                            cur_token_val = errors[ERROR_ILLEGAL_SYMBOL].error_message + c;
                    }
                }
                break;
            // 注释状态
            case STATE_COMMENT:
                // 不保存字符，除左大括号、右大括号、文件结束符外的其它字符不处理
                is_save_char = false;
                // 如果读到文件结束符，那么说明注释没有右大括号，识别失败，设置错误类型
                if (c == EOF) {
                    fsm_state = STATE_FAILED;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_COMMENTS_RIGHT_BRACE_MISSING].error_message;
                    back_to_last_pos(isEOF, cur_pos);
                }
                // 如果读取字符为{，因为处在注释状态，说明存在大括号嵌套，识别失败，设置错误类型
                else if (c == '{') {
                    left_brace_num++;
                    fsm_state = STATE_FAILED;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_COMMENTS_LEFT_BRACE_SURPLUS].error_message;
                }
                // 如果读取字符为}，那么退出注释状态，下一状态为开始状态，设置保存的左大括号数为0
                else if (c == '}') {
                    fsm_state = STATE_START;
                    left_brace_num = 0;
                }
                break;
            // 数字状态
            case STATE_NUM:
                // 字母不能紧接数字，识别失败，设置错误类型
                if (isalpha(c)) {
                    fsm_state = STATE_FAILED;
                    is_save_char = false;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_LETTER_AFTER_NUMBER].error_message;
                    back_to_last_pos(isEOF, cur_pos);
                }
                // 识别到其它字符，说明之前识别数字成功，设置token，回退一个位置再来识别
                else if (!isdigit(c)) {
                    fsm_state = STATE_SUCCESS;
                    is_save_char = false;
                    cur_token_type = NUM;
                    back_to_last_pos(isEOF, cur_pos);
                }
                break;
            // 标识符状态
            case STATE_ID:
                // 识别的字符不是数字或字母，说明之前识别标识符成功，设置token，回退一个位置再来识别
                if (!isdigit(c) && !isalpha(c)) {
                    fsm_state = STATE_SUCCESS;
                    is_save_char = false;
                    cur_token_type = ID;
                    back_to_last_pos(isEOF, cur_pos);
                }
                break;
            // 赋值符号状态
            case STATE_ASSIGN:
                // 之前识别的字符是:，之后识别的字符是=，那么识别成功，设置当前token
                if (c == '=') {
                    fsm_state = STATE_SUCCESS;
                    cur_token_type = SYM_ASSIGN;
                }
                // 之前识别的字符是:，之后识别的字符为其它，那么识别失败，设置错误类型
                else {
                    fsm_state = STATE_FAILED;
                    is_save_char = false;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_ASSIGN_SYMBOL_MISSING].error_message;
                    back_to_last_pos(isEOF, cur_pos);
                }
                break;
            // 大于符号状态或大于等于符号状态
            case STATE_GREATER:
                fsm_state = STATE_SUCCESS;
                // 之前识别的字符为>，之后识别的字符为=，识别到token类型为大于等于
                if (c == '=') {
                    cur_token_type = SYM_GREATER_EQUAL_THAN;
                }
                // 之前识别的字符为>，之后识别的字符为其它，之前识别到的token类型为大于，回退一个位置再来识别
                else {
                    cur_token_type = SYM_GREATER_THAN;
                    is_save_char = false;
                    back_to_last_pos(isEOF, cur_pos);
                }
                break;
            // 小于符号状态或小于等于符号状态
            case STATE_LESS:
                fsm_state = STATE_SUCCESS;
                // 之前识别的字符为<，之后识别的字符为=，识别到token类型为小于等于
                if (c == '=') {
                    cur_token_type = SYM_LESS_EQUAL_THAN;
                }
                // 之前识别的字符为<，之后识别的字符为其它，之前识别到的token类型为小于，回退一个位置再来识别
                else {
                    cur_token_type = SYM_LESS_THAN;
                    is_save_char = false;
                    back_to_last_pos(isEOF, cur_pos);
                }
                break;
            // 字符串状态
            case STATE_STR:
                // 识别到右单引号，识别成功，设置token
                if (c == '\'') {
                    fsm_state = STATE_SUCCESS;
                    cur_token_type = STRING;
                }
                // 识别到换行或文件结束，字符串不完整，识别失败，设置错误类型
                else if (c == '\n' || c == EOF) {
                    fsm_state = STATE_FAILED;
                    cur_token_type = ERROR;
                    cur_token_val = errors[ERROR_STRING_SINGLE_QUOTES_MISSING].error_message;
                    back_to_last_pos(isEOF, cur_pos);
                }
            case STATE_SUCCESS:
            case STATE_FAILED:
                break;
        }
        // 如果识别到的字符要保存，那么拼接进当前token的值
        if (is_save_char) {
            cur_token_val += c;
        }
    }

    // 如果最后识别成功
    if (fsm_state == STATE_SUCCESS) {
        // 如果token的值在关键字表中存在，存储相应类型
        if (cur_token_type == ID) {
            cur_token_type = find_keyword_type(cur_token_val);
        }
        // 返回相应类型和值的token
        return Token(cur_token_type, cur_token_val);
    }
    // 识别失败返回错误类型
    else {
        return Token(ERROR, cur_token_val);
    }
}

对于词法分析过程中可能出现的错误，可以在getNextToken函数中对出现错误的地方进行识别，打印错误，并使用全局变量cur_line_num打印出错行号，有可能出现的错误打印信息在error.h文件中定义：

enum ERROR_TYPE {
    // 词法错误
    ERROR_STRING_SINGLE_QUOTES_MISSING,  // 字符串的单引号有缺失
    ERROR_ILLEGAL_SYMBOL,                // 非法符号
    ERROR_COMMENTS_LEFT_BRACE_MISSING,   // 注释缺少左大括号
    ERROR_COMMENTS_RIGHT_BRACE_MISSING,  // 注释缺少右大括号
    ERROR_COMMENTS_LEFT_BRACE_SURPLUS,   // 注释多了左大括号嵌套错误
    ERROR_LETTER_AFTER_NUMBER,           // 字母后面紧接着数字
    ERROR_ASSIGN_SYMBOL_MISSING,         // 赋值符号没有打全
};

struct {
    ERROR_TYPE error_code;
    string error_message;
} errors[7] = {
    {ERROR_STRING_SINGLE_QUOTES_MISSING,
     "Missing single quote for string!"},
    {ERROR_ILLEGAL_SYMBOL,
     "Found an illegal symbol!"},
    {ERROR_COMMENTS_LEFT_BRACE_MISSING,
     "The left brace is missing!"},
    {ERROR_COMMENTS_RIGHT_BRACE_MISSING,
     "The right brace is missing!"},
    {ERROR_COMMENTS_LEFT_BRACE_SURPLUS,
     "An nested comment is found!"},
    {ERROR_LETTER_AFTER_NUMBER,
     "Numbers cannot be followed by letters!"},
    {ERROR_ASSIGN_SYMBOL_MISSING,
     "The assignment symbols are not complete!"}
};

4. 打印Token

如果要打印所有Token，可以通过不断调用getNextToken函数获取每个Token，当获取的Token类型为ENDOFFILE时，说明所有Token都已获取完毕，即可退出：

// 按格式打印token
void print_token(TokenType type, const char *cur_token_val) {
    switch (type) {
        case ID:
            printf("(ID, %s)\n", cur_token_val);
            break;
        case NUM:
            printf("(NUM, %s)\n", cur_token_val);
            break;
        case STRING:
            printf("(STR, %s)\n", cur_token_val);
            break;
        case KEY_WRITE:  case KEY_READ:  case KEY_IF:
        case KEY_THEN:   case KEY_ELSE:  case KEY_END:
        case KEY_STRING: case KEY_INT:   case KEY_REPEAT:
        case KEY_UNTIL:  case KEY_OR:    case KEY_AND:
        case KEY_BOOL:   case KEY_WHILE: case KEY_DO:
            printf("(KEYWORD, %s)\n", cur_token_val);
            break;
        case SYM_GREATER_THAN:
            printf("(SYM_GREATER_THAN, >)\n");
            break;
        case SYM_LESS_THAN:
            printf("(SYM_LESS_THAN, <)\n");
            break;
        case SYM_GREATER_EQUAL_THAN:
            printf("(SYM_GREATER_EQUAL_THAN, >=)\n");
            break;
        case SYM_LESS_EQUAL_THAN:
            printf("(SYM_LESS_EQUAL_THAN, <=)\n");
            break;
        case SYM_ASSIGN:
            printf("(SYM_ASSIGN, :=)\n");
            break;
        case SYM_EQUAL:
            printf("(SYM_EQUAL, =)\n");
            break;
        case SYM_SEMICOLON:
            printf("(SYM_SEMICOLON, ;)\n");
            break;
        case SYM_COMMA:
            printf("(SYM_COMMA, ,)\n");
            break;
        case SYM_LEFT_PARENTHESES:
            printf("(SYM_LEFT_PARENTHESES, ()\n");
            break;
        case SYM_RIGHT_PARENTHESES:
            printf("(SYM_RIGHT_PARENTHESES, ))\n");
            break;
        case SYM_ADD:
            printf("(SYM_ADD, +)\n");
            break;
        case SYM_SUB:
            printf("(SYM_SUB, -)\n");
            break;
        case SYM_MUL:
            printf("(SYM_MUL, *)\n");
            break;
        case SYM_DIV:
            printf("(SYM_DIV, /)\n");
            break;
        case ERROR:
            printf("Found an error at line %d: %s\n", cur_line_num, cur_token_val);
            break;
        default:
            printf("Illegel token: %d\n", type);
        }
}

// 打印所有token
void print_all_tokens(FILE *fp) {
    while (true) {
        Token token = getNextToken(fp);
        if (token.type == ENDOFFILE) {
            break;
        }
        print_token(token.type, token.val.c_str());
    }
}

测试报告

合法输入测试1

test\test1.tny：

int A,B,C,D;
while AD do
  if A=1 then A:= B*C+37
    else repeat A:=A*2
      until A+C<=B+D
    end
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test1.tny token

可以看到：

生成词法分析的Token序列到屏幕。

合法输入测试2

test\test2.tny：

int x,fact;
read x;
if x>0 and x<100 then {don't compute if x<=0}
  fact:=1;
  while x>0 do
    fact:=fact*x;
    x:=x-1
  end;
  write fact
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test2.tny token > token

可以看到：

生成词法分析的Token序列到Token文件。

词法错误测试

test\lexical_illegal_input.tny：

$
string s = '123
{comment
}
{comment

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/lexical_illegal_input.tny token

可以看到：

第1行存在非法符号错误，词法分析不能识别$符号

第2行存在单引号不匹配错误，字符串的右边缺少了一个单引号

第3和4行验证注释可以跨行，没有出错

第5行存在注释的括号不匹配错误，注释缺少右括号。

语法分析实验报告

实现过程

1. 构建语法树

首先观察TINY+的语法定义，可以看到，语法树应该首先从program结点生成，program结点可以导出两个儿子结点declarations和stmt-sequence，declarations结点的儿子结构较为简单，而对于stmt-sequence结点，根据第6条语法定义stmt-sequence -> statement {; statement }，其会生成statement，而根据第7条语法定义，statement会生成if-stmt、repeat-stmt、assign-stmt、read-stmt、write-stmt、while-stmt这几种语句，每种语句又包含了不同的exp计算操作和逻辑操作表达式，根据这些可能生成的语法树结点，在syntax.h文件中，可以定义结点为：

// 生成程序结点，program -> declarations stmt_sequence
SyntaxTreeNode *program(FILE *fp, Token & cur_token);

// 生成声明结点
// declarations -> decl;declarations | ε，
//   decl -> type-specifier varlist
//     type-specifier -> int | bool | char
//     varlist -> identifier { , identifier }
SyntaxTreeNode *declarations(FILE *fp, Token & cur_token);
// 生成语句序列结点
// stmt-sequence -> statement {; statement }
//   statement -> if-stmt | repeat-stmt | assign-stmt | read-stmt | write-stmt | while-stmt
SyntaxTreeNode *stmt_sequence(FILE *fp, Token & cur_token);

// 生成while语句结点
SyntaxTreeNode *while_stmt(FILE *fp, Token & cur_token);
// 生成if语句结点
SyntaxTreeNode *if_stmt(FILE *fp, Token & cur_token);
// 生成repeat语句结点
SyntaxTreeNode *repeat_stmt(FILE *fp, Token & cur_token);
// 生成assign语句结点
SyntaxTreeNode *assign_stmt(FILE *fp, Token & cur_token, Token identifier_token);
// 生成read语句结点
SyntaxTreeNode *read_stmt(FILE *fp, Token & cur_token);
// 生成write语句结点
SyntaxTreeNode *write_stmt(FILE *fp, Token & cur_token);

// 生成比较逻辑操作表达式结点
SyntaxTreeNode *comparison_exp(FILE *fp, Token & cur_token);
// 生成或逻辑操作表达式结点
SyntaxTreeNode *or_exp(FILE *fp, Token & cur_token);
// 生成与逻辑操作表达式结点
SyntaxTreeNode *and_exp(FILE *fp, Token & cur_token);
// 生成加减计算操作表达式结点
SyntaxTreeNode *add_or_sub_exp(FILE *fp, Token & cur_token);
// 生成乘除计算操作表达式结点
SyntaxTreeNode *mul_or_div_exp(FILE *fp, Token & cur_token);
// 生成因子结点
SyntaxTreeNode *factor(FILE *fp, Token & cur_token);

2. 语法树的结构

根据上面定义语法树结点，每个结点与其可能生成的结点的关系大概为：

program
- declarations
  - ID(INT)
  - ID(BOOL)
  - ID(STRING)
- stmt_sequence
  - if-stmt
    - if部分
    - then部分
    - else部分
  - repeat-stmt
    - repeat部分
    - until部分
  - assign-stmt
    - ID部分
    - exp部分
  - read-stmt
    - read部分
    - ID部分
  - write-stmt
    - write部分
    - exp部分
  - while-stmt
    - while部分
    - do部分

3. 代码实现

3.1 词法分析生成的token：

在词法分析中，生成的Token的数据结构为：

// Token数据结构
struct Token {
    TokenType type;  // token的类型
    string val;      // token的值

    Token() {}
    Token(TokenType type, string val): type(type), val(val) {}
};

token的类型有：

// Token类型
enum TokenType{
    ID,                      // 标识符
    NUM,                     // 数字常量
    STRING,                  // 字符串常量

    // 关键字
    KEY_WRITE,               // write
    KEY_READ,                // read
    KEY_IF,                  // if
    KEY_THEN,                // then
    KEY_ELSE,                // else

    KEY_END,                 // end

    KEY_STRING,              // string
    KEY_INT,                 // int

    KEY_REPEAT,              // repeat
    KEY_UNTIL,               // until

    KEY_OR,                  // or
    KEY_AND,                 // and
    KEY_BOOL,                // bool
    KEY_WHILE,               // while
    KEY_DO,                  // do

    // 特殊符号
    SYM_GREATER_THAN,        // >
    SYM_LESS_THAN,           // <
    SYM_GREATER_EQUAL_THAN,  // >=
    SYM_LESS_EQUAL_THAN,     // <=  
    SYM_ASSIGN,              // :=
    SYM_EQUAL,               // =
    SYM_SEMICOLON,           // ;
    SYM_COMMA,               // ,
    SYM_LEFT_PARENTHESES,    // (
    SYM_RIGHT_PARENTHESES,   // )
    SYM_ADD,                 // +
    SYM_SUB,                 // -
    SYM_MUL,                 // *
    SYM_DIV,                 // /
    
    // 文件结束
    ENDOFFILE,
    // 出现错误
    ERROR

};

利用token的不同类型和值，可以进行构建语法树。

3.2 语法树的结点类型：

根据TINY+语法的EBNF定义，可以按照推导规则大致为其构建语法树的结点：

// 树的结点类型
enum NodeType {
    PROGRAM,                  // 程序
    DECLARATIONS,             // 声明
    STMT_SEQUENCE,            // 语句序列

    // statement语句
    WHILE_STMT,               // while语句
    IF_STMT,                  // if语句
    REPEAT_STMT,              // repeat语句
    ASSIGN_STMT,              // assign语句
    READ_STMT,                // read语句
    WRITE_STMT,               // write语句

    // expression表达式
    GREATER_THAN_EXPR,        // 大于表达式
    LESS_THAN_EXPR,           // 小于表达式
    GREATER_EQUAL_THAN_EXPR,  // 大于等于表达式
    LESS_EQUAL_THAN_EXPR,     // 小于等于表达式
    EQUAL_EXPR,               // 等于表达式

    OR_EXPR,                  // 或表达式  
    AND_EXPR,                 // 与表达式
    NOT_EXPR,                 // 非表达式

    ADD_EXPR,                 // 加法表达式
    SUB_EXPR,                 // 减法表达式
    MUL_EXPR,                 // 乘法表达式
    DIV_EXPR,                 // 除法表达式
    FACTOR                    // 因子
};

并为每种结点构造其的生成方法：

// 生成程序结点，program -> declarations stmt_sequence
SyntaxTreeNode *program(FILE *fp, Token & cur_token);

// 生成声明结点
SyntaxTreeNode *declarations(FILE *fp, Token & cur_token);
// 生成语句序列结点
SyntaxTreeNode *stmt_sequence(FILE *fp, Token & cur_token);

// 生成while语句结点
SyntaxTreeNode *while_stmt(FILE *fp, Token & cur_token);
// 生成if语句结点
SyntaxTreeNode *if_stmt(FILE *fp, Token & cur_token);
// 生成repeat语句结点
SyntaxTreeNode *repeat_stmt(FILE *fp, Token & cur_token);
// 生成assign语句结点
SyntaxTreeNode *assign_stmt(FILE *fp, Token & cur_token, Token identifier_token);
// 生成read语句结点
SyntaxTreeNode *read_stmt(FILE *fp, Token & cur_token);
// 生成write语句结点
SyntaxTreeNode *write_stmt(FILE *fp, Token & cur_token);

// 生成比较逻辑操作表达式结点
SyntaxTreeNode *comparison_exp(FILE *fp, Token & cur_token);
// 生成或逻辑操作表达式结点
SyntaxTreeNode *or_exp(FILE *fp, Token & cur_token);
// 生成与逻辑操作表达式结点
SyntaxTreeNode *and_exp(FILE *fp, Token & cur_token);
// 生成加减计算操作表达式结点
SyntaxTreeNode *add_or_sub_exp(FILE *fp, Token & cur_token);
// 生成乘除计算操作表达式结点
SyntaxTreeNode *mul_or_div_exp(FILE *fp, Token & cur_token);
// 生成因子结点
SyntaxTreeNode *factor(FILE *fp, Token & cur_token);

3.3 创建语法树：

在main函数中，可以直接调用语句SyntaxTreeNode *root = create_syntax_tree(fp);创建语法树，从TINY+的EBNF定义可以看到，应该从program结点开始构建语法树，那么创建语法树的函数实现为：

// 创建语法树
SyntaxTreeNode *create_syntax_tree(FILE *fp) {
    // 获取第一个token
    Token token = getNextToken(fp);
    SyntaxTreeNode *root = program(fp, token);
    if (token.type != ENDOFFILE) {
        printf("Program exits halfway!\n");
    }
    return root;
}

对于program结点，根据语法规则，program -> declarations stmt-sequence，那么在生成program结点的函数中，应该生成declarations结点和stmt-sequence结点：

// 生成program结点，按照定义，program -> declarations stmt_sequence
SyntaxTreeNode *program(FILE *fp, Token & cur_token) {
    SyntaxTreeNode *declarations_node = declarations(fp, cur_token);
    return stmt_sequence(fp, cur_token);
}

对于declarations结点，其生成函数为：

// 生成declarations结点，按照定义
// declarations -> decl;declarations | ε，
//   decl -> type-specifier varlist
//     type-specifier -> int | bool | char
//     varlist -> identifier { , identifier }
SyntaxTreeNode *declarations(FILE *fp, Token & cur_token) {
    while (cur_token.type == KEY_INT || cur_token.type == KEY_BOOL || cur_token.type == KEY_STRING) {
        Token temp_token = cur_token;
        do {
            // 跳过类型声明
            Token identifier = getNextToken(fp);
            cur_token = identifier;
            if (check_and_get_next(fp, cur_token, ID)) {
                Symbol *symbol = symbol_table.insert(identifier.val);
                symbol->token = copy_token(identifier);
                switch (temp_token.type) {
                    case KEY_INT:
                        symbol->value_type = VALTYPE_INT;
                        break;
                    case KEY_BOOL:
                        symbol->value_type = VALTYPE_BOOL;
                        break;
                    case KEY_STRING:
                        symbol->value_type = VALTYPE_STR;
                        break;
                    default:
                        break;
                }
            }
        } while (cur_token.type == SYM_COMMA);
        check_and_get_next(fp, cur_token, SYM_SEMICOLON);
    }
    return NULL;
}

对于stmt-sequence结点，因为stmt-sequence -> statement {; statement }，而statement -> if-stmt | repeat-stmt | assign-stmt | read-stmt | write-stmt | while-stmt，所以stmt-sequence结点可以生成6种语句结点，其实现为：

// 生成stmt_sequence结点
SyntaxTreeNode *stmt_sequence(FILE *fp, Token & cur_token) {
    SyntaxTreeNode *node1 = nullptr, *node2 = nullptr;
    vector statement_type{KEY_IF, KEY_REPEAT, ID, KEY_READ, KEY_WRITE, KEY_WHILE};
    Token last_token = cur_token;

    while (check_vector_and_get_next(fp, statement_type, cur_token)) {
        switch (last_token.type) {
            case KEY_IF:
                // 构建if_stmt结点
                node2 = if_stmt(fp, cur_token);
                break;
            case KEY_REPEAT:
                // 构建repeat_stmt结点
                node2 = repeat_stmt(fp, cur_token);
                break;
            case ID:
                // 构建assign_stmt结点
                node2 = assign_stmt(fp, cur_token, last_token);
                break;
            case KEY_READ:
                // 构建read_stmt结点
                node2 = read_stmt(fp, cur_token);
                break;
            case KEY_WRITE:
                // 构建write_stmt结点
                node2 = write_stmt(fp, cur_token);
                break;
            case KEY_WHILE:
                // 构建while_stmt结点
                node2 = while_stmt(fp, cur_token);
                break;
            default:
                break;
        }
        if (node1 == nullptr) {
            node1 = node2;
        }
        else {
            node1 = SyntaxTreeNode::create_node(STMT_SEQUENCE, node1, node2);
        }
        if (cur_token.type == SYM_SEMICOLON) {
            check_and_get_next(fp, cur_token, SYM_SEMICOLON);
        }
        last_token = cur_token;
    }
    return node1;
}

生成的6种语句结点继续生成其它的子结点，最后完成语法树的构建。

3.4 打印语法树：

在main函数中，创建语法树之后，可以通过调用语句print_syntax_tree(root);打印语法树，其实现为：

#define PER_TAB_SPACE_NUM 2  // 一次缩进的空格数

// 打印相应空格数
void print_space_num(int space_num) {
    for (int i = 0; i < space_num; i++)
        printf(" ");
}

// 打印语法树
void print_syntax_tree(SyntaxTreeNode *root) {
    static int space_num = 0;  // 每一行前打印的空格数

    // 如果结点不是语句序列结点，那么进行缩进
    if (root->node_type != STMT_SEQUENCE) {
        space_num += PER_TAB_SPACE_NUM;
    }
    if (root) {
        print_space_num(space_num);
        switch (root->node_type) {
            case STMT_SEQUENCE:
                break;
            case WHILE_STMT:
                printf("STMT: (Key, While)\n");
                if (root->token)
                    printf("%s\n", root->token->val.c_str());
                break;
            case IF_STMT:
                printf("STMT: (Key, If)\n");
                if (root->token)
                    printf("%s\n", root->token->val.c_str());
                break;
            case REPEAT_STMT:
                printf("STMT: (Key, Repeat)\n");
                break;
            case ASSIGN_STMT:
                if (root->token)
                    printf("STMT: (Key, Assign to %s)\n", root->token->val.c_str());
                break;
            case READ_STMT:
                if (root->token)
                    printf("STMT: (Key, Read %s)\n", root->token->val.c_str());
                break;
            case WRITE_STMT:
                printf("STMT: (Key, Write)\n");
                break;
            case GREATER_THAN_EXPR:
                printf("EXP LogOp: (Symbol, >)\n");
                break;
            case LESS_THAN_EXPR:
                printf("EXP LogOp: (Symbol, <)\n");
                break;
            case GREATER_EQUAL_THAN_EXPR:
                printf("EXP LogOp: (Symbol, >=)\n");
                break;
            case LESS_EQUAL_THAN_EXPR:
                printf("EXP LogOp: (Symbol, <=)\n");
                break;
            case EQUAL_EXPR:
                printf("EXP LogOp: (Symbol, ==)\n");
                break;
            case OR_EXPR:
                printf("EXP LogOp: (Key, or)\n");
                break;
            case AND_EXPR:
                printf("EXP LogOp: (Key, and)\n");
                break;
            case NOT_EXPR:
                printf("EXP LogOp: (Key, not)\n");
                break;
            case ADD_EXPR:
                printf("EXP CalOp: (Symbol, +)\n");
                break;
            case SUB_EXPR:
                printf("EXP CalOp: (Symbol, -)\n");
                break;
            case MUL_EXPR:
                printf("EXP CalOp: (Symbol, *)\n");
                break;
            case DIV_EXPR:
                printf("EXP CalOp: (Symbol, /)\n");
                break;
            case FACTOR:
                if (root->token) {
                    TokenType type = root->token->type;
                    switch (type) {
                        case ID:
                            printf("ID: %s\n", root->token->val.c_str());
                            break;
                        case NUM:
                            printf("NUM: %s\n", root->token->val.c_str());
                            break;
                        case STRING:
                            printf("STR: \'%s\'\n", root->token->val.c_str());
                            break;
                        default:
                            break;
                    }
                }
                break;
            default:
                printf("Illegal node\n");
                break;
        }

        // 递归打印存在的孩子结点
        for (int i = 0; i < 3; i++) {
            if (root->child[i]) {
                print_syntax_tree(root->child[i]);
            }
        }
    }
    
    // 如果结点不是语句序列结点，打印结束返回时减去缩进
    if (root->node_type != STMT_SEQUENCE) {
        space_num -= PER_TAB_SPACE_NUM;
    }
}

通过递归打印语法树，并通过每行前的空格数区分每个结点与他的子结点，最后完成打印。

测试报告

合法输入测试1

test\test1.tny：

int A,B,C,D;
while AD do
  if A=1 then A:= B*C+37
    else repeat A:=A*2
      until A+C<=B+D
    end
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test1.tny tree

可以看到：

生成语法树。

合法输入测试2

test\test2.tny：

int x,fact;
read x;
if x>0 and x<100 then {don't compute if x<=0}
  fact:=1;
  while x>0 do
    fact:=fact*x;
    x:=x-1
  end;
  write fact
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test2.tny tree

可以看到：

生成语法树。

语法错误测试

test\illegal_input.tny：

int A,B,C,D;
int;
while (AD do
  if (A=1 then A:= B*C+37
    else repeat A:=A*2
      until A+C<=B+D
    end
  A:=B
  A=C
  if A:=2
  then A:=B
  end
end

注释掉语义检查的代码之后，进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/syntax_illegal_input.tny tree

可以看到：

第2行存在标识符错误，程序变量声明中，关键字int后面没有跟随标识符，提示存在语法错误。

第4行存在括号不匹配错误，只有左括号，没有右括号，提示存在语法错误。

第9行存在符号错误，赋值语句A:=C中，要求使用的正确符号是:=，而不是=，提示存在语法错误。

第10行存在符号错误，关系比较表达式if A=2中，要求使用的正确符号是=，而不是:=，提示存在语法错误。

语义分析程序及中间代码生成实验报告

实现过程

1. 语义分析

语义分析在语法分析的过程中一起实现，在errors.h文件中，定义了语义分析过程中有可能发现的一些错误：

enum ERROR_TYPE {
    // 词法错误
    ERROR_STRING_SINGLE_QUOTES_MISSING,   // 字符串的单引号有缺失
    ERROR_ILLEGAL_SYMBOL,                 // 非法符号
    ERROR_COMMENTS_LEFT_BRACE_MISSING,    // 注释缺少左大括号
    ERROR_COMMENTS_RIGHT_BRACE_MISSING,   // 注释缺少右大括号
    ERROR_COMMENTS_LEFT_BRACE_SURPLUS,    // 注释多了左大括号嵌套错误
    ERROR_LETTER_AFTER_NUMBER,            // 字母后面紧接着数字
    ERROR_ASSIGN_SYMBOL_MISSING,          // 赋值符号没有打全

    // 语法错误
    ERROR_SYNTAX,

    // 语义错误
    ERROR_IDENTIFIER_WITHOUT_DECLARATION,  // 一个标识符没有声明就使用
    ERROR_DECLARE_MORE_THEN_ONCE,          // 一个标识符被不止一次声明
    ERROR_COND_TYPE_NOT_BOOL,              // 条件表达式的类型不是bool类型
    ERROR_OPERATION_NOT_EQUAL_TYPE,        // 一个二元操作符的两个操作数类型不相等
    ERROR_ASSIGN_NOT_EQUAL_TYPE            // 赋值语句左右部类型不相等
};

struct {
    ERROR_TYPE error_code;
    string error_message;
} errors[13] = {
    {ERROR_STRING_SINGLE_QUOTES_MISSING,
     "Missing single quote for string!"},
    {ERROR_ILLEGAL_SYMBOL,
     "Found an illegal symbol!"},
    {ERROR_COMMENTS_LEFT_BRACE_MISSING,
     "The left brace is missing!"},
    {ERROR_COMMENTS_RIGHT_BRACE_MISSING,
     "The right brace is missing!"},
    {ERROR_COMMENTS_LEFT_BRACE_SURPLUS,
     "An nested comment is found!"},
    {ERROR_LETTER_AFTER_NUMBER,
     "Numbers cannot be followed by letters!"},
    {ERROR_ASSIGN_SYMBOL_MISSING,
     "The assignment symbols are not complete!"},
    {ERROR_SYNTAX,
     "There is a syntax error!"},
    {ERROR_IDENTIFIER_WITHOUT_DECLARATION,
	 "There is an identifier that is used without declaration"},
    {ERROR_DECLARE_MORE_THEN_ONCE,
     "One identifier can not be decalred more than once!"},
	{ERROR_COND_TYPE_NOT_BOOL,
	  "The type of the conditional expression is not bool!"},
	{ERROR_OPERATION_NOT_EQUAL_TYPE,
	 "Two operation number's types are not equal!"},
	{ERROR_ASSIGN_NOT_EQUAL_TYPE,
	 "The left and right types of assignment statement are not equal"}
};

然后在语法分析中，顺便检测是否有发生了语义错误，比如在生成declarations结点的方法SyntaxTreeNode *declarations(FILE *fp, Token & cur_token)中，获取token之后，如果这个token为标识符类型且其值在符号表中可以找到，说明之前声明过，那么抛出重复声明错误：

Token identifier = getNextToken(fp);
cur_token = identifier;
if (check_and_get_next(fp, cur_token, ID)) {
    // 如果一个标识符被声明不止一次，那么报错
    if (symbol_table.find(identifier.val)) {
        print_sematic_error(ERROR_DECLARE_MORE_THEN_ONCE);
    }
    ...

在生成while_stmt结点和if_stmt结点的方法中，如果条件表达式的类型不是bool类型，直接报错：

if (bool_exp->value_type != VALTYPE_BOOL) {
    print_sematic_error(ERROR_COND_TYPE_NOT_BOOL);
}

在生成assign_stmt结点和生成factor结点的方法中，如果一个标识符没有声明就使用，那么报错：

if (identifier_symbol == nullptr) {
    print_sematic_error(ERROR_IDENTIFIER_WITHOUT_DECLARATION);
}

if ((identifier_symbol = symbol_table.find(identifier_key)) == nullptr) {
    // 一个标识符没有声明就使用
    print_sematic_error(ERROR_IDENTIFIER_WITHOUT_DECLARATION);
    node1->value_type = VALTYPE_INT;
}

在生成assign_stmt结点和生成factor结点的方法中，如果赋值语句左右部类型不相等，那么报错：

if (identifier_symbol->value_type != exp->value_type) {
    print_sematic_error(ERROR_ASSIGN_NOT_EQUAL_TYPE);
}

在生成comparison_exp结点、生成or_exp结点和生成and_exp结点的方法中，如果赋值语句左右部类型不相等，那么报错：

if (comparison_expr->value_type != arithmetic_exp->value_type) {
    print_sematic_error(ERROR_OPERATION_NOT_EQUAL_TYPE);
}

if (and_expr->value_type != VALTYPE_BOOL || or_expr->value_type != VALTYPE_BOOL) {
    print_sematic_error(ERROR_OPERATION_NOT_EQUAL_TYPE);
}

2. 生成中间代码

2.1 定义使用到的数据结构

定义中间代码类型：

// 中间代码类型
enum MiddleCodeType {
    MID_CODE_TYPE_READ,    // read
    MID_CODE_TYPE_WRITE,   // write
    MID_CODE_TYPE_LABEL,   // label
    MID_CODE_TYPE_IF,      // if
    MID_CODE_TYPE_GOTO,    // goto
    MID_CODE_TYPE_ASSIGN,  // assign
    MID_CODE_TYPE_ADD,     // add
    MID_CODE_TYPE_SUB,     // sub
    MID_CODE_TYPE_MUL,     // mul
    MID_CODE_TYPE_DIV      // div
};

定义中间代码结构体：

// 中间代码结构体
struct MiddleCode {
    MiddleCodeType mcode_type;  // 中间代码类型
    string result;              // 唯一结果参数
    string first_arg;           // 第一个参数
    string second_arg;          // 第二个参数

    MiddleCode(MiddleCodeType mcode_type, const string &first_arg = "", 
                  const string &second_arg = "", const string &result = "") : 
                      mcode_type(mcode_type), first_arg(first_arg), second_arg(second_arg), result(result) {}

    // 获取中间代码的字符串
    string get_middle_code_str() {
        switch (mcode_type) {
            case MID_CODE_TYPE_READ:
                return "read " + result;
            case MID_CODE_TYPE_WRITE:
                return "write " + result;
            case MID_CODE_TYPE_LABEL:
                return "Label L" + result;
            case MID_CODE_TYPE_IF:
                return "if " + first_arg + " goto L" + result;
            case MID_CODE_TYPE_GOTO:
                return "goto L" + result;
            case MID_CODE_TYPE_ASSIGN:
                return result + ":=" + first_arg;
            case MID_CODE_TYPE_ADD:
                return result + ":=" + first_arg + "+" + second_arg;
            case MID_CODE_TYPE_SUB:
                return result + ":=" + first_arg + "-" + second_arg;
            case MID_CODE_TYPE_MUL:
                return result + ":=" + first_arg + "*" + second_arg;
            case MID_CODE_TYPE_DIV:
                return result + ":=" + first_arg + "/" + second_arg;
            default:
                return "";
        }
    }
};

定义分析栈中的结点：

// 分析栈中的结点
struct AnalyzingStackNode {
    SyntaxTreeNode *syntax_tree_node;  // 语法树结点
    string tk_val;                     // 对应的token的值

    AnalyzingStackNode(SyntaxTreeNode *syntax_tree_node, string tk_val) : syntax_tree_node(syntax_tree_node), tk_val(tk_val) {}
};

定义跳转指令列表：

// 跳转指令列表类型
enum JumpInsListType {
    JUMP_INS_TYPE_TRUE_LIST,
    JUMP_INS_TYPE_FALSE_LIST,
    JUMP_INS_TYPE_NEXT_LIST
};

// 跳转指令列表
struct JumpInsList {
    vector>> jump_ins_list_map;
    vector middle_codes;

    JumpInsList() {
        jump_ins_list_map.resize(3);
    }

    // 设置列表
    void set_jump_ins_list(JumpInsListType list_type, SyntaxTreeNode *node, vector list) {
        jump_ins_list_map[list_type][node] = list;
    }

    // 获取列表
    vector get_jump_ins_list(JumpInsListType list_type, SyntaxTreeNode *node) {
        return jump_ins_list_map[list_type][node];
    }

    // 创建一个只包含i的列表
    void make_jump_ins_list(JumpInsListType list_type, SyntaxTreeNode *node, int i) {
        jump_ins_list_map[list_type][node] = vector();
        jump_ins_list_map[list_type][node].push_back(i);
    }

    // 合并列表
    vector merge_jump_ins_list(JumpInsListType list_type, SyntaxTreeNode *node1, SyntaxTreeNode *node2) {
        vector list1 = jump_ins_list_map[list_type][node1];
        vector list2 = jump_ins_list_map[list_type][node2];
        list1.insert(list1.end(), list2.begin(), list2.end());
        return list1;
    }

    // 回填操作
    void backpatching(JumpInsListType list_type, SyntaxTreeNode *node, int targetIndex) {
        for (auto &i : jump_ins_list_map[list_type][node]) {
            // 设置填的goto语句的终点
            middle_codes[i].result = to_string(targetIndex);
        }
    }

    // 中间代码优化
    void optimize_middle_codes() {
        map label_goto;

        int size = middle_codes.size();
        // 删除没有被goto到的label
        for (int i = 0; i < size; i++) {
            if (middle_codes[i].mcode_type == MID_CODE_TYPE_IF || middle_codes[i].mcode_type == MID_CODE_TYPE_GOTO) {
                label_goto[middle_codes[i].result]++;
            }
        }

        // 倒序删除多余的goto语句
        for (int i = size - 1; i >= 0; i--) {
            if (middle_codes[i].mcode_type == MID_CODE_TYPE_LABEL) {
                if (label_goto.count(middle_codes[i].result) == 0) {
                    middle_codes.erase(middle_codes.begin() + i);
                }
            }
        }

        // 删除goto和同一个label紧接的语句块
        for (int i = size - 1; i >= 1; i--) {
            if (middle_codes[i].mcode_type == MID_CODE_TYPE_LABEL && middle_codes[i - 1].mcode_type == MID_CODE_TYPE_GOTO &&
                middle_codes[i].result == middle_codes[i - 1].result && label_goto[middle_codes[i].result] == 1) {
                middle_codes.erase(middle_codes.begin() + i);
                middle_codes.erase(middle_codes.begin() + i - 1);
                i--;
            }
        }
    }
};

2.2 生成中间代码

可以使用递归的方法来生成中间代码：

// 生成中间代码
void generate_middle_code(SyntaxTreeNode *root, int & label_num, int & t_num) {
    // 如果语法树的根结点为空，直接返回
    if (root == nullptr) {
        return;
    }

    SyntaxTreeNode *child1 = root->child[0];
    SyntaxTreeNode *child2 = root->child[1];
    SyntaxTreeNode *child3 = root->child[2];

    // 拉链回填儿子结点
    SyntaxTreeNode *backpatching_child1;
    SyntaxTreeNode *backpatching_child2;

    string first_arg, second_arg, result_str, temp;
    // 拉链回填序号
    int backpatching_index;
    // 拉链回填合并列表
    vector merge_list;

    // 对于repeat语句，前面要加label
    if (root->node_type == REPEAT_STMT) {
        push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
        label_start[root] = label_num;
    }
    // 递归生成中间代码
    generate_middle_code(child1, label_num, t_num);

    // 对于if语句，它的then和else语句加label
    if (root->node_type == IF_STMT || root->node_type == WHILE_STMT) {
        push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
        label_start[child2] = label_num;
    }
    // 递归生成中间代码
    generate_middle_code(child2, label_num, t_num);

    if (root->node_type == IF_STMT) {
        // 有else子句那么在then子句后面加goto并且回填，使else子句不要紧跟then后面执行
        if (child3) {
            int next_index = push_list(MID_CODE_TYPE_GOTO, "dest");
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_NEXT_LIST, root, next_index);
        }
        push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
        label_else[root] = label_num;
    }
    // 对于while语句，它的执行语句后面要加goto，指向判断前面，后面加上label
    else if (root->node_type == WHILE_STMT) {
        //WHILE语句需要再执行语句紧接一个GOTO，指向判断前面
        int next_index = push_list(MID_CODE_TYPE_GOTO, "dest");
        jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_NEXT_LIST, child2, next_index);

        push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
        label_end[root] = label_num;
    }
    // 对于repeat语句，它的后面要加label
    else if (root->node_type == REPEAT_STMT) {
        push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
        label_end[root] = label_num;
    }
    // 递归生成中间代码
    generate_middle_code(child3, label_num, t_num);
    if (root->node_type == IF_STMT) {
        // 对于else子句，后面加一个label，then子句的next指向这个label
        if (child3) {
            push_list(MID_CODE_TYPE_LABEL, to_string(++label_num));
            jump_ins_list.backpatching(JUMP_INS_TYPE_NEXT_LIST, root, label_num);
        }
    }

    int node_type = root->node_type;
    switch (node_type) {
        case WHILE_STMT:
            // 获取回填儿子结点
            backpatching_child1 = root->child[0];
            backpatching_child2 = root->child[1];

            // 进行回填
            jump_ins_list.backpatching(JUMP_INS_TYPE_TRUE_LIST, backpatching_child1, label_start[backpatching_child1]);
            jump_ins_list.backpatching(JUMP_INS_TYPE_FALSE_LIST, backpatching_child1, label_end[root]);
            jump_ins_list.backpatching(JUMP_INS_TYPE_NEXT_LIST, backpatching_child2, label_start[backpatching_child1]);
            break;
        case IF_STMT:
            // 获取回填儿子结点
            backpatching_child1 = root->child[0];
            backpatching_child2 = root->child[1];

            // 进行回填
            jump_ins_list.backpatching(JUMP_INS_TYPE_TRUE_LIST, backpatching_child1, label_start[backpatching_child2]);
            jump_ins_list.backpatching(JUMP_INS_TYPE_FALSE_LIST, backpatching_child1, label_else[root]);
            break;
        case REPEAT_STMT:
            // 获取回填儿子结点
            backpatching_child1 = root->child[0];
            backpatching_child2 = root->child[1];

            // 进行回填
            jump_ins_list.backpatching(JUMP_INS_TYPE_FALSE_LIST, backpatching_child2, label_start[root]);
            jump_ins_list.backpatching(JUMP_INS_TYPE_TRUE_LIST, backpatching_child2, label_end[root]);
            break;  
        case ASSIGN_STMT:
            // 赋值语句只要弹出一个元素
            first_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            // 获取赋值变量
            result_str = root->token->val;
            push_list(MID_CODE_TYPE_ASSIGN, result_str, first_arg);
            break;
        case READ_STMT:
            // 直接读取对象
            result_str = root->token->val;
            push_list(MID_CODE_TYPE_READ, result_str);
            break;
        case WRITE_STMT:
            // 如果root的孩子不是factor，说明是表达式，弹出一个元素中间变量
            if (root->child[0]->node_type != FACTOR) {
                result_str = analyzing_stack.top().tk_val;
                analyzing_stack.pop();
            }
            // 如果root的孩子不是factor，那么直接读factor的变量名
            else {
                result_str = root->child[0]->token->val;
            }
            push_list(MID_CODE_TYPE_WRITE, result_str);
            break;
        case GREATER_THAN_EXPR:
            // 先输出label
            result_str = to_string(++label_num);
            push_list(MID_CODE_TYPE_LABEL, result_str);
            label_start[root] = label_num;

            // 从栈中弹出元素
            temp = ">" + analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val + temp;
            analyzing_stack.pop();

            result_str = "dest";
            backpatching_index = push_list(MID_CODE_TYPE_IF, result_str, first_arg);
            push_list(MID_CODE_TYPE_GOTO, "dest");
        
            // 进行拉链回填
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, backpatching_index);
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, backpatching_index + 1);
            break;
        case LESS_THAN_EXPR:
            // 先输出label
            result_str = to_string(++label_num);
            push_list(MID_CODE_TYPE_LABEL, result_str);
            label_start[root] = label_num;

            // 从栈中弹出元素
            temp = "<" + analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val + temp;
            analyzing_stack.pop();

            result_str = "dest";
            backpatching_index = push_list(MID_CODE_TYPE_IF, result_str, first_arg);
            push_list(MID_CODE_TYPE_GOTO, "dest");

            // 进行拉链回填
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, backpatching_index);
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, backpatching_index + 1);
            break;
        case GREATER_EQUAL_THAN_EXPR:
            // 先输出label
            result_str = to_string(++label_num);
            push_list(MID_CODE_TYPE_LABEL, result_str);
            label_start[root] = label_num;

            // 从栈中弹出元素
            temp = ">=" + analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val + temp;
            analyzing_stack.pop();

            result_str = "dest";
            backpatching_index = push_list(MID_CODE_TYPE_IF, result_str, first_arg);
            push_list(MID_CODE_TYPE_GOTO, "dest");

            // 进行拉链回填
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, backpatching_index);
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, backpatching_index + 1);
            break;
        case LESS_EQUAL_THAN_EXPR:
            // 先输出label
            result_str = to_string(++label_num);
            push_list(MID_CODE_TYPE_LABEL, result_str);
            label_start[root] = label_num;

            // 从栈中弹出元素
            temp = "<=" + analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val + temp;
            analyzing_stack.pop();

            result_str = "dest";
            backpatching_index = push_list(MID_CODE_TYPE_IF, result_str, first_arg);
            push_list(MID_CODE_TYPE_GOTO, "dest");

            // 进行拉链回填
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, backpatching_index);
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, backpatching_index + 1);
            break;
        case EQUAL_EXPR:
            // 先输出label
            result_str = to_string(++label_num);
            push_list(MID_CODE_TYPE_LABEL, result_str);
            // 输出label
            label_end[root] = label_num;

            // 从栈中弹出元素
            temp = "=" + analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val + temp;
            analyzing_stack.pop();

            result_str = "dest";
            backpatching_index = push_list(MID_CODE_TYPE_IF, result_str, first_arg);
            push_list(MID_CODE_TYPE_GOTO, "dest");

            // 进行拉链回填
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, backpatching_index);
            jump_ins_list.make_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, backpatching_index + 1);
            break;
        case AND_EXPR:
            // 获取回填儿子结点
            backpatching_child1 = root->child[0];
            backpatching_child2 = root->child[1];
            // 输出label
            label_start[root] = label_start[backpatching_child1];

            // 进行回填
            jump_ins_list.backpatching(JUMP_INS_TYPE_TRUE_LIST, backpatching_child1, label_start[backpatching_child2]);
            merge_list = jump_ins_list.merge_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, backpatching_child1, backpatching_child2);
            jump_ins_list.set_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, merge_list);
            jump_ins_list.set_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, jump_ins_list.get_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, backpatching_child2));
            break;
        case OR_EXPR:
            // 获取回填儿子结点
            backpatching_child1 = root->child[0];
            backpatching_child2 = root->child[1];
            label_start[root] = label_start[backpatching_child1];

            // 进行回填
            jump_ins_list.backpatching(JUMP_INS_TYPE_FALSE_LIST, backpatching_child1, label_start[backpatching_child2]);
            merge_list = jump_ins_list.merge_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, backpatching_child1, backpatching_child2);
            jump_ins_list.set_jump_ins_list(JUMP_INS_TYPE_TRUE_LIST, root, merge_list);
            jump_ins_list.set_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, root, jump_ins_list.get_jump_ins_list(JUMP_INS_TYPE_FALSE_LIST, backpatching_child2));
            break;
        case ADD_EXPR:
            // 弹出前两个元素
            second_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            // 获取t前缀的符号名
            result_str = "t" + to_string(t_num++);
            // 保存中间结果
            push_list(MID_CODE_TYPE_ADD, result_str, first_arg, second_arg);
            analyzing_stack.push(AnalyzingStackNode(root, result_str));
            break;
        case SUB_EXPR:
            // 弹出前两个元素
            second_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            // 获取t前缀的符号名
            result_str = "t" + to_string(t_num++);
            // 保存中间结果
            push_list(MID_CODE_TYPE_SUB, result_str, first_arg, second_arg);
            analyzing_stack.push(AnalyzingStackNode(root, result_str));
            break;
        case MUL_EXPR:
            // 弹出前两个元素
            second_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            // 获取t前缀的符号名
            result_str = "t" + to_string(t_num++);
            // 保存中间结果
            push_list(MID_CODE_TYPE_MUL, result_str, first_arg, second_arg);
            analyzing_stack.push(AnalyzingStackNode(root, result_str));
            break;
        case DIV_EXPR:
            // 弹出前两个元素
            second_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            first_arg = analyzing_stack.top().tk_val;
            analyzing_stack.pop();
            // 获取t前缀的符号名
            result_str = "t" + to_string(t_num++);
            // 保存中间结果
            push_list(MID_CODE_TYPE_DIV, result_str, first_arg, second_arg);
            analyzing_stack.push(AnalyzingStackNode(root, result_str));
            break;
        case FACTOR:
            if (root->token) {
                int token_type = root->token->type;
                switch (token_type) {
                    case ID:
                        analyzing_stack.push(AnalyzingStackNode(root, root->token->val));
                        break;
                    case NUM:
                        analyzing_stack.push(AnalyzingStackNode(root, root->token->val));
                        break;
                    case STRING:
                        analyzing_stack.push(AnalyzingStackNode(root, "\'" + root->token->val + "\'"));
                        break;
                }
            }
            break;
    }
}

3. 打印符号表

打印符号表由SymbolTable符号表中的print_symbol_table方法实现：

// 打印符号表
void print_symbol_table() {
    printf("Variable | ObjectType | ValueType\n---------------------------------\n");
    for (auto &symbol : symbol_table) {
        printf("%-9s|", symbol.first.c_str());

        switch(symbol.second->object_type) {
            case OBJTYPE_FUNC:
                printf("Func        |");
                break;
            case OBJTYPE_VAR:
                printf("Var         |");
                break;
            case OBJTYPE_CONST:
                printf("Const       |");
                break;
            default:
                break;
        }

        switch(symbol.second->value_type) {
            case VALTYPE_INT:
                printf("Int\n");
                break;
            case VALTYPE_BOOL:
                printf("Bool\n");
                break;
            case VALTYPE_STR:
                printf("Str\n");
                break;
            default:
                break;
        }
    }
    printf("\n");
}

2.3 生成中间代码后与符号表一起进行打印

生成并打印中间代码与打印符号表：

// 生成并打印中间代码
void generate_and_print_middle_code(FILE *fp, bool is_optimize) {
    // 获取语法树的根结点
    SyntaxTreeNode *root = create_syntax_tree(fp);
    // 初始化label前缀和t前缀的序号
    int label_num = 0;
    int t_num = 0;
    // 生成中间代码
    generate_middle_code(root, label_num, t_num);
    // 根据选项决定是否要优化
    if (is_optimize) {
        jump_ins_list.optimize_middle_codes();
    }
    
    // 打印符号表
    symbol_table.print_symbol_table();

    // 打印三地址中间代码
    int size = jump_ins_list.middle_codes.size();
    for (int i = 0; i < size; ++i) {
        printf("(%d) %s\n", i + 1, jump_ins_list.middle_codes[i].get_middle_code_str().c_str());
    }
}

在输入命令时，可以根据选择了优化的选项，对中间代码进行一定的优化。

测试报告

合法输入测试1

test\test1.tny：

int A,B,C,D;
while AD do
  if A=1 then A:= B*C+37
    else repeat A:=A*2
      until A+C<=B+D
    end
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test1.tny

可以看到：

符号表和三地址中间代码都被打印出来。

在命令提示符中输入优化指令：

a test/test1.tny optimize

可以看到：

原来总计的28行的三地址中间代码被优化为25行，减少了一些。

合法输入测试2

test\test2.tny：

int x,fact;
read x;
if x>0 and x<100 then {don't compute if x<=0}
  fact:=1;
  while x>0 do
    fact:=fact*x;
    x:=x-1
  end;
  write fact
end

进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/test2.tny

可以看到：

符号表和三地址中间代码都被打印出来。

在命令提示符中输入优化指令：

a test/test2.tny optimize

可以看到：

原来的21行的三地址中间代码被优化为19行，减少了一些。

语义错误测试

test\sematic_illegal_input.tny：

int A,B,C,D;
int x,x;

string z;
z:=1;

if A>z then
  A:=1
end;

y:=2;

注释掉发现语义错误就会直接退出的代码之后，进入tiny+文件夹目录，在命令提示符中输入：

g++ main.cpp lexical.cpp syntax.cpp generation.cpp
a test/sematic_illegal_input.tny

可以看到：

第2行存在重复声明错误，标识符x被声明了两次。

第5行存在赋值语句左右部类型不相等错误，把整数1赋值给了字符串z。

第7行存在一个二元操作符的两个操作数类型不相等错误，整型变量A不能和布尔类型变量z比较。

第11行存在一个标识符没有声明就使用错误，标识符y没有声明就被使用了。

你可能感兴趣的:(编译原理,c++,编译器)

C++前缀和神技：区间问题瞬杀模板三流搬砖艺术家算法算法数据结构 c++
目录前缀和核心价值一维前缀和模板1.预处理公式2.代码实现3.动态图示二维前缀和模板1.预处理公式2.代码实现3.二维示意图六大避坑指南复杂度分析LeetCode实战前缀和核心价值暴力法的痛点：//计算区间和，时间复杂度O(n)intsum=0;for(inti=l;iarr={3,1,4,2,5};intn=arr.size();//前缀和数组（从1开始存储）vectorprefix(n+1,0
C++ Primer Plus：第八章 - 函数探幽我是一片小树叶 C++基础构建函数探幽
0、本章内容：内联函数。引用变量。如何按引用传递函数参数。默认参数。函数重载。函数模板。函数模板具体化。1、C++内联函数：为提高程序运行速度所做的一项改进。在函数声明前加上关键字inline，在函数定义前加上关键字inline。不能使用递归。2、引用变量：2.1创建引用变量指向相同的值和内存单元，会一起变换。引用在声明的时候必须初始化。使用指针也不能修改引用的指向。2.2将引用作为函数参数2.3
在Python中如何检测和解决内存泄漏问题 python资深爱好者 python jvm
在Python中，内存泄漏通常不是像在一些低级语言（如C或C++）中那样常见，因为Python的内存管理（包括自动垃圾回收）相对高级且自动化。然而，在长时间运行的应用程序中，特别是在使用大量循环、大型数据结构或外部库时，仍然可能出现内存泄漏。以下是在Python中检测和解决内存泄漏的一些方法：1.使用内存分析工具a.objgraphobjgraph是一个用于分析Python对象图的库，可以帮助你识
C++ list azaz_plus C++c++STL list
1.std::list基本概念定义：std::list是C++标准库提供的带头（哨兵位）双向循环链表容器，支持高效的元素插入和删除。头文件：#include2.构造函数(1)默认构造函数listlist1;//创建一个空list，size=0(2)指定初始大小和默认值listlist2(5);//5个元素，默认初始化（int为0）listlist3(5,3.14);//5个元素，每个值为3.14(
设计模式——装饰器模式 zzzhpzhpzzz 设计模式装饰器模式
一、定义与概念定义C++装饰器模式（DecoratorPattern）是一种结构型设计模式，它允许在运行时动态地给对象添加额外的功能，而无需修改对象的原始类结构。该模式通过创建一个装饰类，包装原始对象，并在保持原始对象接口不变的情况下，扩展其功能。核心思想把对象的功能扩展从类的继承关系转变为对象之间的组合关系。通过装饰器类对原始对象进行包装，装饰器类和原始对象实现相同的接口，这样在客户端看来，装饰
2、3ds Max的界面（3DMAX基础自学系列） weixin_34409703
一、3dsMax2012中文版的操作界面二、各功能区的介绍1、菜单栏菜单栏位于软件界面顶部，共13个，分别是文件、编辑(E)、工具(T)、组(G)、视图(V)、创建(C)、修改器、动画、图标编译器、渲染(R)、自定义(U)、MAXScript(M)、帮助(H)。可以使用ALT+菜单的字母来打开菜单。①文件左上角的Max图标为文件操作入口，旁边为文件操作的快捷按钮，包含用于管理文件的命令，包括创建、
Flutter设计模式全面解析：单例模式那年星空 flutter 设计模式单例模式
谈到设计模式这个“古老”的话题，大家先别急着划走哈，虽然对它再熟悉不过，几乎是最初开始学习编程到现在伴随着我们整个编程生涯，最早Java、C++语言实现的各种设计模式到现在还会经常有所接触，面试中也是必问的环节，在开发Flutter项目的时候，也会多少借鉴了其它语言设计模式的实现，但始终觉得dart语言实现的设计模式理解不够系统，有的实现还缺点儿dart语言本身的语法特性。加上最近在看一些Flut
方舟字节码原理剖析：架构、特性与实践应用轻口味 HarmonyOS Next harmonyos 深度学习 pytorch harmonyosnext arkts
方舟字节码原理剖析：架构、特性与实践应用一、引言在当今软件行业高速发展的大背景下，应用程序的性能、开发效率以及跨平台兼容性成为了开发者们关注的核心要素。编译器作为软件开发流程中的关键工具，其性能和特性直接影响着软件的质量和开发周期。华为推出的方舟编译器正是为了满足这些需求而诞生的创新成果。方舟字节码（ArkBytecode）作为方舟编译器的核心产物，在整个编译和运行过程中扮演着至关重要的角色。它不
C++耦合：代码设计的“黏合剂”与模块化架构的解耦艺术福鸦 c++c++架构开发语言
C++耦合：代码设计的“黏合剂”与模块化架构的解耦艺术开篇故事：乐高城堡的“模块化危机”想象你正在用乐高积木搭建一座宏伟的城堡：高耦合设计：所有积木用强力胶水粘死，一旦想更换一扇窗户，必须拆毁整面墙。低耦合设计：积木通过标准接口拼接，可随时替换任意部件，甚至将城堡改装成太空站。软件工程中的**耦合（Coupling）**正如同这些积木的连接方式——它决定了代码模块之间的依赖程度。本文将深入探讨耦合
【深度C++】之“运行时类型识别RTTI” Jinxk8 面向对象C++c++编程语言
0.什么是RTTI运行时类型识别（run-timetypeidentification,RTTI）功能可以获得某类型在运行时的具体动态类型，进而使用该类型的功能。动态类型指的是程序在运行时才可知的类型，与静态类型相对应。静态类型指的是编译时已知的类型。出现静态类型和动态类型定义的原因主要是面向对象的多态。当我们使用父类的指针或引用指向或引用子类对象时，表面上看使用的都是父类的函数，实际上在程序运行
关于py不能导入pyw文件内的class的问题 Auspemak-Derafru python
我有一个window类，调了另外一个py文件里面自己写的class有一天去朋友家玩，顺便想跑一下那个代码，由于他没有编译器，我也没有打包成可执行程序，就安了一个idle。由于我的window类是用qt写的，懒得再pip下载了，就直接在原文件后面加了个main函数，改后缀名为pyw直接跑了回去之后用我的pycham打开，window类直接跑不了了，提示导包错误看了一下竟然是我之前改了的那个文件的问题
RTTI（Run-Time Type Identification，通过运行时类型识别） Erlei_n c++基础
参考一：RTTI（Run-TimeTypeIdentification，通过运行时类型识别）程序能够使用基类的指针或引用来检查这些指针或引用所指的对象的实际派生类型。RTTI提供了以下两个非常有用的操作符：（1）typeid操作符，返回指针和引用所指的实际类型；（2）dynamic_cast操作符，将基类类型的指针或引用安全地转换为派生类型的指针或引用。面向对象的编程语言，象C++，Java，de
【虚幻C++笔记】枚举UENUM、结构体USTRUCT OSwich 虚幻C++笔记虚幻 c++笔记
目录枚举(UENUM)第一种:使用命名空间第二种:继承uint8通过申明class类别名来替代结构体(USTRUCT)枚举(UENUM)第一种:使用命名空间UENUM(BlueprintType)namespaceMyEnumType{enumMyCustomEnum{Type1,//或者使用带DisplayName别名==>Enum1UMETA(DisplayName="Type1"),Type
【虚幻C++笔记】TArray，TMap，TSet容器 OSwich 虚幻C++笔记虚幻 c++笔记
目录TArrayTMapTSetTArrayTArray是虚幻c++中的动态数组，TArray特点：速度快，内存消耗小，安全性高。并且TArray所有元素均完全为相同类型，不能进行不同元素类型的混合//构造TArrayarr={1,2,3,4,5,6,7};//Add和Push类似，但是将元素复制或移动到数组中，而Emplace//则使用给定参数构建元素类型的新实例；通常来说，Emplace的效率
【虚幻C++笔记】打印输出的方式 OSwich 虚幻C++笔记虚幻 c++笔记
目录UE_LOGGEngine->AddOnScreenDebugMessageUE_LOGUE_LOG宏是UnrealEngine中用于日志记录的标准方式。它可以输出日志信息到控制台和日志文件，支持多种日志级别（如Log，Warning，Error")UE_LOG(LogCategory,LogVerbosity,Format,...)voidAMyActor::BeginPlay(){Supe
【虚幻C++笔记】计时器 OSwich 虚幻C++笔记 ue5 c++开发语言
文章目录计时器的使用方法计时器的使用方法private://声明计时器句柄FTimerHandleTimerHandle;//声明计时器间隔时间单位:秒[EditAnywhere,BlueprintReadWrite,Category="Time"]floatInterval=1.0f;//声明计时器执行函数varOnTimer();voidAMyActor::BeginPlay(){//获取世界
C++设计模式-原型模式：从基本介绍，内部原理、应用场景、使用方法，常见问题和解决方案进行深度解析牵牛老人 C++专栏 c++设计模式原型模式
一、基本介绍：理解"克隆"的设计哲学1.1什么是原型模式原型模式（PrototypePattern）是一种创建型设计模式，其核心思想是通过复制现有对象来创建新对象，而非传统的新建实例方式。如同生物学的细胞分裂机制，原型对象作为"母体"，通过自我复制产生完全相同的新个体。该模式在C++中通常借助拷贝构造函数或克隆接口实现，特别适用于以下场景：对象初始化成本高昂（如需要读取大文件）；系统需要动态生成多
【C语言开源库】lw_oopc：轻量级的C语言面向对象编程框架机载软件与适航 C语言 C/C++开源库 c语言
文章目录轻量级的面向对象C语言编程框架LW_OOPC介绍摘要s为什么要用面向对象?为什么不直接使用C++?LW_OOPC是什么?LW_OOPC宏介绍问题描述解决方案方案的可扩展性如何?LW_OOPC最佳实践LW_OOPC的优点LW_OOPC的缺点总结幕后花絮参考资料轻量级的面向对象C语言编程框架LW_OOPC介绍轻量级的面向对象C语言编程框架LW_OOPC介绍摘要s本文介绍一种轻量级的面向对象的C
第5章构造、析构、拷贝语义学3：对象复制语意学 qq_40178082 深入探索C++对象模型 java 开发语言
重点：编译器生成构造函数的四种情况，如何避免copyconstructor在子类多个调用当我们指定一个classobject给另一个classobject时,通常有三种选择：什么都不做，实施默认的行为。提供一个explicitcopyassignmentoperator。显式地拒绝指定一个classobject给另一个classobject,声明为private(并且此时不同函数的定义，一旦某个m
第5章构造、析构、拷贝语义学4：析构函数语义学 qq_40178082 深入探索C++对象模型 c++
析构函数也是根据编译器的需要才会合成出来，两种情况：class中有某个object拥有析构函数；继承自某个baseclass,该baseclass含有析构函数。定义了constructor后不一定要定义destructor，决定class是否需要destructor是程序层面的事。与构造函数相比，即使拥有虚函数或者虚拟继承，不满足上述两个条件，编译器是不会合成析构函数的。在继承体系中，由我们定义的
C++|构造函数和析构函数柯ran C++程序设计 c++开发语言
一、构造函数构造函数是一种特殊的成员函数，主要用于创建对象时对对象进行初始化操作，即专门用于构造新对象，并赋值对象的成员数据。在C++里，构造函数的名称和类名相同，并且没有返回类型。当创建类的对象时，构造函数会自动被调用。构造函数可以在类内也可在类外定义。构造函数在类内的定义格式如下：类名（参数列表）{函数体;}在类外定义构造函数的形式如下：类名::类名（形参列表）{函数体;}构造函数可以重载,即
FASM源代码分析01 VOgai
全汇编操作系统Kolibri0.7.7基于MenuetOS使用fasm汇编编译器第2个光盘安装的，肯定不用下的第1个软盘镜像是我们需要的第3个是源代码第4个是APP开发包在其官网http://kolibrios.org/可以下到的文件有kolibri_0.7.7.0_img_en.7z------------软盘镜像文件kolibri_0.7.7.0_sdk.7z-----------------
工厂方法模式的C++实现示例香菇滑稽之谈 C++笔记工厂方法模式 c++设计模式
核心思想工厂方法模式是一种创建型设计模式，它定义了一个用于创建对象的接口，但让子类决定实例化哪一个类。工厂方法模式将对象的实例化过程推迟到子类，从而使得子类可以根据需要决定创建哪种对象。**Product：**定义产品的接口。**ConcreteProduct：**实现Product接口，是具体的产品。**Factory：**定义工厂方法，返回一个Product对象。**ConcreteFacto
抽象工厂模式（附C++代码示例） Warren++ 设计模式抽象工厂模式 c++开发语言设计模式
抽象工厂模式抽象工厂模式的含义核心思想及解释为什么要使用抽象工厂模式使用抽象工厂模式需要注意的点工程的应用场景示例代码及解释输出代码运行结果抽象工厂模式的含义抽象工厂模式（AbstractFactoryPattern）是一种创建型设计模式，它提供了一种方式，能够封装一组具有共同主题但各自独立的工厂，而无需指定具体类。抽象工厂模式允许客户端通过接口操作实例，而不需要依赖具体类。核心思想及解释抽象工厂
校招C++编程题练习橙叔学习 c++数据结构算法
校招C++编程题练习1.基础准备2.基础数据结构概念，基本操作，以及优缺点等2.1[字符串操作（标准库，解析，匹配等）](https://leetcode-cn.com/explore/learn/card/array-and-string/)2.2[线性表（含数组，动态数组等）](https://leetcode-cn.com/explore/learn/card/array-and-strin
突破编程_C++_设计模式（抽象工厂模式） breakthrough_01 突破编程_C++_设计模式 c++设计模式抽象工厂模式
1抽象工厂的基本概念在C++中，抽象工厂（AbstractFactory）提供了一种方式来封装一系列相互关联或相互依赖的对象创建过程，而无需指定它们具体的类。抽象工厂模式允许客户端代码使用抽象接口来创建一系列相关的对象，而无需了解这些对象的具体实现。抽象工厂模式通常包含以下几个组成部分：（1）抽象工厂（AbstractFactory）：这是一个接口或抽象类，它声明了创建一系列相关对象的方法。这些方
设计模式2之c++抽象工厂模式（示例代码）小激动. Caim 设计模式设计模式 c++抽象工厂模式
抽象工厂模式（AbstractFactoryPattern）是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。在抽象工厂模式中，一个工厂类可以创建多个产品族，每个产品族包含多个产品。抽象工厂模式的角色：抽象工厂（AbstractFactory）：定义了创建产品族的接口。具体工厂（ConcreteFactory）：实现抽象工厂接口，创建具体产品。抽象产品（
抽象工厂模式实现（C++） HqsHack 抽象工厂模式 c++java
抽象工厂模式是一种创建型设计模式，它提供了一种将相关对象组合起来创建的方式，而无需指定具体实现类。该模式通过定义抽象工厂和一组具体工厂来实现，每个具体工厂都负责创建一组相关的对象。在这篇文章中，我们将使用C++编程语言来实现抽象工厂模式。我们将创建一个汽车制造工厂的示例，其中包括两个具体工厂：Toyota工厂和BMW工厂。每个工厂都负责生产一种类型的汽车：Toyota工厂生产丰田汽车，BMW工厂生
CSP-23-2 【非零段划分】 C++满分题解（利用set和vector）德善真好看！ CSP认证 c++stl
【题目描述】A1,A2,⋯,An是一个由n个自然数（非负整数）组成的数组。我们称其中Ai,⋯,Aj是一个非零段，当且仅当以下条件同时满足：1≤i≤j≤n；对于任意的整数k，若i≤k≤j，则Ak>0；i=1或Ai−1=0；j=n或Aj+1=0。下面展示了几个简单的例子：A=[3,1,2,0,0,2,0,4,5,0,2]中的4个非零段依次为[3,1,2]、[2]、[4,5]和[2]；A=[2,3,1,
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息