类C语言词法分析器设计
词法分析器是编译工作的第一个阶段,主要完成对源程序的扫描,从而将源程序转换成单词序列,作为第二阶段语法分析的输入。
预处理:过滤掉跳格符、回车符、换行符等编辑性字符。将多个连续的空格合并成一个空格。过滤注释。单词符号的识别,将每个单词符号进行不同类别的划分。单词符号可划分成5种。关键字:如if、else、while、int、float等。标识符:用户自己定义的名字,常量名、变量名和过程名。常数:各种类型的常数运算符:如+、-、*、<、>、>=等。届符:如逗号、分号、括号等。最后将所有的单词符号转化为便于计算机处理的机内码形式用户界面使用图形化界面
1、 字符集说明:本词法分析演示的是C语言的一个子集,字符集如下:(1) 关键字:int,long,float,double,char,short,void,if,else,for,while,do,break,switch,continue,case,default,return,static,struct(2) 运算符:+,-,*,/,%,>,<,=,!=,==,<=,>=,++,--,!,&,&&,||,[](3) 界符:,,;,{,},(,),:,’,”,#(4) 标识符:以字母开头的字母数字串。(5) 常数:整型或浮点型。2、 字符集的内编码形式:字符 机内编码 字符 机内编码int 1 = 26long 2 > 27char 3 < 28if 4 ! 29else 5 == 30for 6 != 31while 7 >= 32return 8 <= 33break 9 ++ 34continue 10 -- 35switch 11 & 36case 12 && 37default 13 || 38float 14 [ 39double 15 ] 40void 16 , 41struct 17 ; 42static 18 ( 43do 19 ) 44short 20 { 45+ 21 } 46- 22 ‘ 47* 23 “ 48/ 24 : 49% 25 # 50如果是用户自己定义的标识符则机内码为51;如果是常数,则机内码为52。错误则用0表示机内码。3、 相关变量说明:(1) keyword[]:{int,long,char,if,else,for,while,return,break,continue,switch,case,default,float,double,void,struct,static,do,short};(2) operater[]:{+,-,*,/,%,=,>,<,!,==,!=,>=,<=,++,--,&,&&,||,[,]};(3) delimeter[]:{,,;,(,),{,},\',\,:,#}; (4) 说明:1--20号为关键字,可直接用下标表示,i+1就是其机内码,21--40为运算符,间接下标:i+21就是其机内码, 41--50为界符,直接下标:i+41就是其机内码;如果是用户自己定义的标识符,则其机内码为51;如果是常数,则其机内码是52;如果是错误,则机内码为0.
(1) Analysis类:接收源程序,进行词法分析工作,再将分析结果传到用户界面。(2) UserFrame类:不参与词法分析工作,只提供用户操作界面。接收用户的输入,并产生输出。
(1)preTreat():预处理,消除跳格符、换行符和回车符,合并空格并消除注释。(2)doAnalysis():主分析函数,通过调用一系列子函数,完成分析工作并输出结果。(3)divide():完成字符的分解,返回一个独立的字符串(可能是关键字、标识符、运算符、界符或者数字串)。(4)check():对divide()返回的字符串进行检查,判断其是数字串、单个字符还是字符串,返回不同标志。1:数字;2:单个字符;3:多个字符(5)checkDigit():如果check()返回的是数字串,则调用该函数判断其是整型还是浮点型,返回不同标志。是正常的数字类型则返回常数对应的机内码,否则,返回错误的机内码。(6)checkChar():如果check()返回的是单个字符,则调用该函数判断其是标识符、运算符还是界符,返回其对应的机内码。(7)checkString():如果check()返回的是字符串,则调用该函数判断其是关键字、标识符还是运算符,返回其机内码。
奥运会预选赛