perl哈希数组实现指令表数据结构

想法来源

最近出现了将汇编指令流换算成specman e语言写的激励的需求,于是需要手工一条一条将汇编指令转化成specman e的激励,有时一个汇编文件几百行,简直是要死人了。看了下其实转化过程就是讲汇编指令的每个进行约束的过程。大多是一个机械化的过程,因此我们可以采用脚本进行转化。对不能覆盖的指令给出提示和标记,等待手工修改,大大减少工作量。

关于转化规则的假设

这里我们以一个mov指令为例。
假设mov指令有两种格式,一种是寄存器格式,一种是立即数格式。如下所示:

  mov  r1,r2;//寄存器格式,将r2的数据放到r1中。
  mov  r1,#0x55;//立即数格式,将0x55放入r1中。

将这两条指令转化成specman e语言的激励如下

    do reg mov inst keeping {
            .src0==r2;
            .oreg==r1;
     };
    do imm mov inst keeping {
              .dis==0x55;
              .oreg==r1;
    };

其中do keeping语句是e语言的关键词。剩下的都是预定义的和指令集有关的一些数据结构的生成。我们要做的就是对数据结构中一些未定义的变量进行约束。上面未定义的部分是src0 oreg dis,分别代表源操作数1 目标操作寄存器 立即数,根据指令集,还会有其他未定义字段,在此只举例一部分。

问题分析

约定了转化关系,那么我们将任务分解。


  1. 首先读取汇编文件的每一行指令,对指令进行分解。分解得出助记符 操作数1 操作数2 操作数3 ...。关于如何分解出指令不同的域,可以参考另一片文章用perl脚本获取天气介绍的split函数,再结合一些正则匹配就可以对指令集做出分类分解。
  2. 得到了指令的各个域,那么我们就针对汇编指令格式做一张表格,表格里存着每个操作数和specman e语言编写的指令表未定字段的对应关系。在此我们按汇编指令的操作数顺序分类。对于mov指令,第一个操作数对应specman e指令表的未定字段oreg,第二个操作数对应src0。对不同的指令来说,汇编的操作数对应specman e的未定的段是不同的,perl的这张表就记录每条指令的对应关系。
  3. 根据分解的汇编指令的各个域,去查找表对应的字段,进行填写后格式化输出到一个文件中。

指令表的数据结构

指令表我们采用哈希数组存储。在此我们利用哈希数组实现一个复杂的数据结构,哈希中的哈希。在此我参考这篇文章实现《Perl入门(八)Perl的复杂数据结构》。于是得到以下数据结构:

#!/usr/bin/perl 
use warnings
our %inst=();
$inst{'ldi'}={
    'op_num'=>3,
    'op1'=>'oreg',
    'op2'=>'dis',
    'op3'=>'src1'
};
$inst{'mov'}={
    'op_num'=>2,
    'reg'=>{
            'op1'=>'oreg',
            'op2'=>'src0',
    },
    'imm'=>{
            'op1'=>'oreg',
            'op2'=>'dis',
    }
};

此文件保存为inst.pl,我们可以认为这是一个多级列表。第一级的是%inst哈希表引用,第二级是指令助记符,可以任意扩展添加指令。第三级是关于指令的一些数据,op_num指示当前指令需要的操作数个数,可在主程序中获取该键值从而对指令合法性(能检查出分解计算的操作数个数不对的情况,这时候不是分解 过程出错就是源指令出错)进行判断。reg指示指令的寄存器格式和specman e的指令表达的对应关系。同理imm也是如此。该数据结构的实现方便与以后指令集的更改做兼容,要实现对新指令的转化只需要在表中添加对应项即可,无需修改主程序。如需要适应更复杂的指令情况则需要在表中添加对应表项进行查询判断。

测试

为了方便测试,我们将实际指令的各个段做人为的初始化,在实际处理中,各个字段需要从指令分解得到。
为了方便管理指令表使用单独一个文件保存,在主程序开头需要将指令文件导入。要在一个perl脚本中引用另一个脚本的函数和变量有两种方式:

  1. 将需要导入的文件编译成perl的模块文件,使用use语句导入模块。
  2. 在开头使用require语句导入另一个文件,要注意变量的作用域问题。

在此为了方便修改,我是用require方式。测试代码main.pl如下:

#!/usr/bin/perl 
use strict;
use warnings;
require "inst.pl";
our %inst;
open RESFILE,">>res.txt" or die "can't open :$!";
my $zhiling='mov';
my $op1='r2';
my $op2='r3';
my $op3='r4';
my $inst_type='reg';
if(exists $inst{$zhiling}->{$inst_type}){#判断指令类型是否存在
    if($inst{$zhiling}->{'op_num'}==2){#确定操作数个数
            print   RESFILE "do $inst_type $zhiling inst keeping {\n".
                    ".$inst{$zhiling}->{$inst_type}->{'op1'}==$op1;\n".#约束操作数1
                    ".$inst{$zhiling}->{$inst_type}->{'op2'}==$op2;\n".#约束操作数2
                    "};\n";
            }
}
close RESFILE;

测试代码只实现了两个操作数的输出,并人为初始化了指令的各个域,可根据实际来定。适应更多情况则添加if语句进行扩展。

测试结果

perl哈希数组实现指令表数据结构_第1张图片
寄存器格式测试结果

main.pl中我们将处理结果输出到res.txt中,由结果来看实现了转化功能。
我们再尝试初始化为立即数格式,看看测试结果。

perl哈希数组实现指令表数据结构_第2张图片
初始化为立即数

perl哈希数组实现指令表数据结构_第3张图片
立即数格式测试结果

由图片可见成功向文件添加了立即数格式的转化结果。
主体部分就是这样子,在程序中循环执行,那么无论是多少行汇编都很轻松转化。为了更人性化,还要增加一些提示,毕竟谁也不能保证程序100%正确运行,在不能处理的指令行做出固定标记以供查阅修改。
以后看情况在继续分析指令分解的部分。复杂的指令分解需要参考汇编的 词法分析器

你可能感兴趣的:(perl哈希数组实现指令表数据结构)