我们使用的处理器一般情况下,要么直接支持硬件的浮点运算,比如某些带有FPU的器件,要么就只支持定点运算,此时对浮点数的处理需要通过编译器来完成。在支持硬件浮点处理的器件上,对浮点运算的编程最快捷的方法就是直接使用浮点类型,比如单精度的float来完成。但是在很多情况下,限于成本、物料等因素,可供我们使用的只有一个定点处理器时,直接使用float类型进行浮点类型的运算会使得编译器产生大量的代码来完成一段看起来十分简单的浮点数学运算,造成的后果是程序的执行时间显著加长,且其占用的资源量也会成倍地增加,这就涉及到了如何在定点处理器上对浮点运算进行高效处理的问题。
本文引用地址: http://www.eepw.com.cn/article/263475.htm既然是定点处理器,那么其对定点数,或者说字面意义上的“整数”进行处理的效率就会比它处理浮点类型的运算要高的多。所以在定点处理器上,我们使用定点的整数来代表一个浮点数,并规定整数位数和小数位数,从而方便地对定点数和浮点数进行转换。以一个32位的定点数为例,假设转换因子为Q,即32位中小数的位数为Q,整数位数则为31-Q(有符号数的情况),则定点数与浮点数的换算关系为:
定点数=浮点数×2^Q
例如,浮点数-2.0转换到Q为30的定点数时,结果为:
定点数=-2×2^30=-2147483648
32位有符号数的表示范围是:-2147483648到2147483647。如果我们把有符号定点数的最大值2147483647转换为Q为30对应的浮点数,则结果为:
浮点数2147483647/2^30=1.999999999
从上面的两个计算例子中也可以看出,在Q30格式的情况下,最大的浮点数只能表示到1.999999999,如果我们想把浮点数2.0转换为Q30的定点数,则产生了溢出,即造成了1e-9的截断误差。在此我们列出Q0到Q30对应的范围和分辨率如下表所示:
如果你嫌自己计算麻烦的话,可以借助Matlab的命令来求取它们的转换,例如,在Matlab的命令窗口中输入:
q = quantizer('fixed', 'ceil', 'saturate', [32 30]);
FixedNum=bin2dec(num2bin(q,1.999999999));
回车之后就可以看到1.999999999转成Q30之后的定点数了。
弄清楚了单个浮点数和定点数之间的转换关系,接下来就需要了解一下两个定点数所代表的浮点数进行运算时,是如何转换的了。根据乘法的结合律、分配率,浮点数转换之后的定点数是可以直接运算的,例如:
1. 不同Q格式的转换
设有定点数Fixed1=Float1*2^Q1,如果把它用为Q2这个不同精度/表示范围的定点数来表示,则有Fixed2=Float1*2^Q2。所以不同的Q格式直接的转换为:
Fixed2=Fixed1*2^Q2/2^Q1=Fixed1*2^(Q2-Q1)
因为Fixed1、Fixed2都是定点数,所以在C编程的情况下,我们可以使用高效的左移、右移操作来完成这个乘以2^(Q2-Q1)的操作。
2. 两个相同Q格式的定点数:
Fixed1=Float1*2^Q
Fixed2=Float2*2^Q
则加法操作为:
Float1+Float2=Fixed1/2^Q+Fixed/2^Q=(Fixed1+Fixed2)/2^Q
对于上述的加法操作,如果定点数的和Fixed1+Fixed2超过了32位整数的极值,则会发生溢出现象,造成结果的不正确,此时我们只能先损失一倍的精度,把Float1、Float2的Q值变为Q-1.
乘法操作为:
Float1*Float2=Fixed1/2^Q*Fixed/2^Q= Fixed1*Fixed2/2^(2Q)
同样的道理,如果Fixed1*Fixed2之后的定点数超过了32位整数的极值,则我们也需要提前对它们进行一下折算,变换一下它们的Q值。这就涉及到对结果的一个预估问题,也是定点编程不如浮点编程简单、高效的不足之一。
3. 两个不同Q格式的定点数:
Fixed1=Float1*2^Q1
Fixed2=Float2*2^Q2
运算的规则是结合了前面的两种情况,只不过多了额外的转换工作:要么把其中的一个Q1格式的定点数先转换为另一个Q2格式,要么把它们都转换为一个中间值Q3格式的定点数,然后再进行运算。