ARM9五级流水线

Arm9的流水线分为:取值,译码,执行,仿存,回写

取值

从指令存储器取指令

译码

读取寄存器操作数

执行

产生ALU运算结果或产生存储器地址

仿存

访问数据存储器

回写

完成结果写寄存器

五级流水线技术的问题:如果当前指令(A) 的目的操作数寄存器(也就是写寄存器的操作)和下一条指令(B) 的源操作数寄存器(也就是度寄存器的操作)一致,B 指令就需要等A 回写之后才能译码。这就是五级流水线中的寄存器冲突,所以应该避免写这一种程序。为了解决这个问题,就采用了互锁。来解决这个问题。如图所示:

由于指令LDR的目的地址和他的下一条指令的源地址都是R9,第一条指令对R9的写要发生在回写阶段,也只有第一条指令会写后第二条指令才能进行译码。所以会产生上述的情况。

通常采用的解决的办法是改变程序的顺序就可以了。

例如:现在要实现的是:把0x000010000x00002000处的内容放到地址是0x000080000x00009000的位置。

其中0x00001000里面的内容是:  H E L L O W O R L D

实现的过程是:

全部拷贝过程由两个结构相同的循环各自独立完成,分别实现两块数据的拷贝,并且两个拷贝过程极为类似,分析其中一个即可。

T1 T3 3 个单独的时钟周期; T4 T11 是一个循环,在时空图中描述了第一次循环的执行情况。在T12 的时候写LR 的同时,开始对循环的第一条语句进行取指,所以总的流水线周期数为3 + 10 ×10 + 2 ×9 = 121 。整个拷贝过程需要121 ×2 + 2 = 244 个时钟周期完成。考虑到通过减少流水线的冲突可以提高流水线的执行效率,而流水线的冲突主要来自寄存器冲突和分支指令,因此对代码作如下两方面调整:

①将两个循环合并成一个循环能够充分减少循环跳转的次数,减少跳转带来的流水线停滞;

②调整代码的顺序,将带有与临近指令不相关的寄存器插到带有相关寄存器的指令之间,能够充分地避免寄存器冲突导致的流水线阻塞

对代码调整和流水线的时空图如图所示

调整之后, T1 T5 5 个单独的时钟周期, T6 T13是一个循环,同样在T14的时候BNE 指令在写LR 的同时,循环的第一条指令开始取指,所以总的指令周期数为5 + 10 ×10 + 2 ×9 + 2= 125

通过两段代码的比较可看出:调整之前整个拷贝过程总共使用了244 个时钟周期,调整了循环内指令的顺序后,总共使用了125 个时钟周期就完成了同样的工作,时钟周期减少了119 ,缩短了119/ 244 = 48. 8 % ,效率提升十分明显。

   因此流水线的优化问题主要应从两方面考虑:

①通过合并循环等方式减少分支指令的个数,从而减少流水线的浪费;

②通过交换指令的顺序,避免寄存器冲突造成的流水线停滞。

 

 

你可能感兴趣的:(存储,优化,工作)