开源处理器Rocket的分支预测机制研究与性能评估(三)

4 Rocket处理器分支预测机制性能评估

4.1 评估环境

Rocket使用Chisel编写,所以可以很容易得到对应的C++模拟器,本文使用得到的C++模拟器,运行RISC-V提供的benchmark,以测试分支预测性能。默认的Rocket编译后并不会输出分支预测有关的信息,需要rocket.scala添加如下代码。

 val counter0 = WideCounter(64, mem_reg_valid && !take_pc_wb && mem_ctrl.branch)
  val counter1 = WideCounter(64, mem_reg_valid && !take_pc_wb && mem_ctrl.branch && mem_wrong_npc)
  printf("branch inst number[%x]\n ", counter0)
  printf("misprediction branch inst number[%x]\n ", counter1)

上述代码定义了两个计数器,第一个计数器counter0,当访存阶段是分支指令的时候加1,第二个计数器counter1,当访存阶段是分支指令,且分支预测错误的时候加1,所以,上述两个计数器可以分别输出分支指令数、分支预测错误指令数。

4.2 分支预测机制性能评估

BTB的表项数量不同,会影响分支预测的准确率,分别取BTB的表项为4060120,其分支预测效果如图6所示。BTB的表项为默认的40的时候,最差情况为0.815,最好情况为0.991BTB的表项为60的时候,最差情况为0.813,最好情况为0.991BTB的表项为120的时候,最差情况为0.819,最好情况为0.992。并且,从图6中可以发现对于一个特定的测试程序,当BTB表项增加的时候,其分支预测准确率相对有所提高。

开源处理器Rocket的分支预测机制研究与性能评估(三)_第1张图片

6 BTB表项是4060120的时候的分支预测效果

在实验过程中发现如果BTB表项数目是2的幂,那么分支预测准确率会急剧下降,如图7所示,分别取BTB表项为3264128,与BTB表项为40时的分支预测效果对比

开源处理器Rocket的分支预测机制研究与性能评估(三)_第2张图片

7 BTB表项是403264128的时候的分支预测效果

原因是由于BTB Module中如下一段代码引起的。

  val nextRepl =
    if (!isPow2(entries)) {
      Counter(r_btb_update.valid && !updateHit, entries)._1   // BTB表项不是2的幂的时候的替换算法
    } else {
      val plru = new PseudoLRU(entries)                   // BTB表项是2的幂的时候的替换算法
      when (hits.orR) { plru.access(OHToUInt(hits)) }
      plru.replace
    }

其中计算nextRepl的值。如果当前更新的分支指令在BTB中没有查询到,那么就从BTB中找出一个表项,用来存储这个新的分支指令,nextRepl计算的就是这个新的表项的序号。如果BTB的表项是2的幂,那么替换算法是伪最近最少使用算法(PseudoLRU),反之,替换算法就是简单地累加。算法的不同,导致最终效果的差异,建议使用的时候可以避免设置BTB表项的值为2的幂。

结语

RISC-VUCB设计发布的一个开源指令集,RocketUCB设计发布的基于RISC-V的开源处理器,其具有分支预测功能,通过分析发现其使用的是GShare分支预测算法,并且具有比较高的分支预测准确率。在试验过程中,发现了Rocket分支预测机制实现的一个问题,即当BTB表项设置为2的幂的时候,分支预测准确率会下降,这一实验结果对于计划实际使用Rocket处理器的研发、使用人员具有一定的参考意义。



你可能感兴趣的:(RISC-V)