佟强 2008.10.20
交换率和结合律:由于在累加的过程中,重要的只是字节的位置是奇数位还是偶数位,所以只要不混乱字节的奇偶位,相加可以任何顺序进行,加数之间也可以任意进行结合。
( [A,B] +' [C,D] +' ... +' [G,0] ) +' ([0,H] +' ... +' [Y,Z])
字节顺序独立:进行累加的过程中,16位中的高8位和低8位的位置可以互换,即可以使用高字节优先的顺序,也可以使用低字节优先的顺序进行累加,只要保证参与运算的各个16位二进制数使用相同的表示顺序即可。如果运算时交换了高低字节,最终得到的结果也要进行一次高低字节的翻转。
[B,A] +' [D,C] +' ... +' [Z,Y]
为什么会出现这样的结果呢?因为两种顺序获得的进位是相同的。都是从第15位到第0位进位以及从第7位到第8位进位。也就是说,交换字节位置只是改变高低字节的排列顺序,但没有改变它们的内在联系。
并行计算:在字宽为16位倍数的机器里,可以利用并行计算更为有效地实现上述算法。例如在32位机器上,可以4个字节为单位计算:
[A,B,C,D] +' [E,F,G,H] +' ...
最后将32位的结果“折叠”成16位即可。当然,新产生的进位仍然要循环累加到低位上。
同样,字节的顺序也不重要。可以用[D,C,B,A] +' [H,G,F,E]+' ... 计算。也可以用[B,A,D,C] +' [F,E,H,G] +' ... 计算,只需将和的字节顺序做相应的交换即可。
延迟进位:延迟进位的意思是等所有数据累加结束后再把进位值循环累加到低位。它的一种实现方法就是用32位的累加器获得16位校验和,这样进位就保存在高16位上。这种方法避免了累加器中进位传感器的设置,但是它要求的容量是原来的累加器容量的两倍,因此更多低依赖于硬件条件。
数据读入与校验合二为一:由于数据读入和计算校验和都需要获取数据,二者都需要占用存储总线的带宽,因此它们的瓶颈都在于存储总线数据读取的速度。如果把数据的读入过程与校验过程合二为一,即在读入数据的同时计算校验和,这样可以省去一次数据读取过程,从而提高校验和的计算效率。
增量式更新:对于已经计算过校验和的数据,如果有部分字节的值发生了变化,需要重新计算校验和,则不需要对全部数据进行计算。要做的仅是从原先的累加和中减掉发生变化字节的原数值,然后再加上它的新数值,即加上这两个值的差。假设C为修改前的校验和,m为修改前的数值,m'为修改后的数值,则修改后的校验和C'为:
C' = C + (-m) +m' = C + (m'-m)