编写一个程序,对于输入的一段程序,可以获取该程序的单词符号。单词符号的类别有基本字、标识符、常数、算符和界符。关键字为基本字,由字母组成,如int、for和while;变量名和函数名为标识符,由字母和数字构成,如fun1和age;固定不变的数值为常数,如12、13.86和25e8(科学计数法);算符如+、-、*、/、%、&&;界符如{、[、(、 ;和:等。
如,若输出源程序如下,
public static void main (String [] args) { double sum5 = 0.0; for ( int i=1;i<5;i++) { sum5=sum5+(i+10); sum5=sum5+(i*2); } }
则输出如下,
public 基本字
static 基本字
void 基本字
main 标识符
( 界符
String基本字
[ 界符
] 界符
args标识符
) 界符
{ 界符
double基本字
sum5标识符
= 算符
0.0 常数
; 界符
for基本字
( 界符
int 基本字
i标识符
=算符
1常数
; 界符
i标识符
<算符
5常数
; 界符
i标识符
++算符
) 界符
{ 界符
sum5 标识符
= 算符
sum5 标识符
+ 算符
(界符
i标识符
+ 算符
10常数
) 界符
; 界符
sum5 标识符
= 算符
sum5 标识符
+ 算符
(界符
i 标识符
* 算符
2常数
) 界符
; 界符
}界符
}界符
提示,要想写出满足上述要求的词法分析器,需要有三个步骤。
(1) 了解该语言的单词符号
(2) 为单词符号构对应造状态转换图。状态转换图的构造可以参考课本P41(图3.2)和P43(图3.3)
(3) 根据状态转图的结构进行计算机实现。
package Bianyiyuanli.ThirdWeek; import java.util.Arrays; import java.util.List; import java.util.Scanner; public class Word { static Scanner sc = new Scanner(System.in); // 保存关键字 private static List<String> KeyWords; // 保存操作符 private static List<String> Operators; // 保存界符 private static List<String> Boundarys; private static List<String> Spaces; // 初始化 static { // 关键字数组 --> 关键字列表 String[] keywordArr = { "public", "private", "protected", "short", "int", "long", "char", "float", "double", "boolean", "static", "void", "for" }; KeyWords = Arrays.asList(keywordArr); // 操作符数组 --> 操作符列表 String[] operatorArr = { "+", "-", "*", "/", "%", "=", ">", "<", "&" }; Operators = Arrays.asList(operatorArr); // 界符数组 --> 界符列表 String[] boundaryArr = { "" + '{', "" + '}', "" + '[', "" + ']', "" + '(', "" + ')', "" + ';' }; Boundarys = Arrays.asList(boundaryArr); // 空格字符数组 --> 空格字符列表 String[] SpaceArr = { " ", "\t", "\n" }; Spaces = Arrays.asList(SpaceArr); } static boolean isDelimiter = false;//是否有分隔符 // 字符串缓冲 static StringBuffer strb = new StringBuffer(); public static void main(String[] args) { String inStr = ""; // 1.获取字符串 while (!sc.hasNext("---")) { inStr = sc.nextLine(); inStr = inStr + " "; for (char ch : inStr.toCharArray()) { match(ch); } } } static void match(char ch) { // 分割符缓冲 StringBuffer bouStrb = new StringBuffer(); // 1. 判断字符类型 /** * (空格|操作符|界符)都是(关键字|标识符|数字)的分割符 * 即,任意两个(关键字|标识符|数字)之间不可直接相连,而无分割符(空格|操作符|界符) */ // 1.0 空格,返回空格 if (Spaces.indexOf(ch + "") >= 0) { isDelimiter = true; } // 1.1. 操作符, 返回"operator" if (Operators.indexOf(ch + "") >= 0) { isDelimiter = true; bouStrb = new StringBuffer(ch + " 是操作符"); } // 1.2 界符, 返回"boundary" if (Boundarys.indexOf(ch + "") >= 0) { isDelimiter = true; bouStrb = new StringBuffer(ch + " 是界符"); } // 2. 如果是分割符, /** * 判断strb中有缓冲字符串, 2.1 若有,检查其是不是常数(暂不接受负数) 2.1.1 若是, 输出字符串, * 并标识该字符串为constant 2.1.2 若不是, 检查在不在关键字表中, 2.1.2.1 若在, * 输出字符串,并标识该字符串为keyword 2.1.2.2 若不在, 输出字符串,并标识该字符串为identifier * * 还原变量初始设置,并退出 */ if (isDelimiter) { if (strb.length() > 0) { if (strb.charAt(0) >= '0' && strb.charAt(0) <= '9') { System.out.println(strb + " 是常数"); } else if (KeyWords.indexOf(strb.toString()) >= 0) { System.out.println(strb + " 是关键字"); } else { System.out.println(strb + "是标识符 "); } } if (bouStrb.length() > 0) System.out.println(bouStrb); strb.setLength(0); isDelimiter = false; return; } // 3. 进行到该步,说明字符不是分割符,则把该字符追加到strb中即可 strb.append(ch); } }