浮点定点的存储

比如单精度浮点数(32位),阶码8位,尾数那就是24位咯(尾数中内含一位符号位);

比如双精度浮点数(64位),阶码11位,尾数那就是53位(一样)。

浮点型变量在计算机内存中占用4字节(Byte),即32-bit。遵循IEEE-754格式标准。
一个浮点数由2部分组成:底数m 和 指数e。
±mantissa × 2exponent
(注意,公式中的mantissa 和 exponent使用二进制表示)
底数部分 使用2进制数来表示此浮点数的实际值。
指数部分 占用8-bit的二进制数,可表示数值范围为0-255。 但是指数应可正可负,所以IEEE规定,此处算出的次方须减去127才是真正的指数。所以float的指数可从 -126到128.
底数部分实际是占用24-bit的一个值,由于其最高位始终为 1 ,所以最高位省去不存储,在存储中只有23-bit。
到目前为止, 底数部分 23位 加上指数部分 8位 使用了31位。那么前面说过,float是占用4个字节即32-bit,那么还有一位是干嘛用的呢? 还有一位,其实就是4字节中的最高位,用来指示浮点数的正负,当最高位是1时,为负数,最高位是0时,为正数。
浮点数据就是按下表的格式存储在4个字节中:
Address+0 Address+1 Address+2 Address+3
Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM S: 表示浮点数正负,1为负数,0为正数
E: 指数加上127后的值的二进制数
M: 24-bit的底数(只存储23-bit)
主意:这里有个特例,浮点数 为0时,指数和底数都为0,但此前的公式不成立。因为2的0次方为1,所以,0是个特例。当然,这个特例也不用认为去干扰,编译器会自动去识别。

今天看NVIDIA的帕斯卡架构介绍时,看到了fp16浮点数格式,以前没见过,想弄清楚他的格式和表示范围,几经查找,终于搞懂了。主要参考:fp16-wiki

     如图,一个fp16数据占据两个字节,其中1位符号位,5位指数位,10位有效精度。
image

符号位:0:代表正数;

           1:代表负数。

指数位:与15的偏差。

       max_e=11110-01111=15;

       min_e=00001-01111=-14;

      00000和11111有其他意义。

10位精度位,我理解的计算方式是:

      0000 0000 01:1+2^-10

0000 0000 11:1+2-9+2-10

 1111 1111 11:1+2^0-2^-10

数值计算公式为:(-1)^signbit * 2^(e) * (1+significantbits)

最大值为:0 11110 1111111111=(-1)^0 * 2^15 * (1+1-2^-10)=65504

最小值为:0 00001 0000000000=2^-14=6.10 * 10^-5

你可能感兴趣的:(浮点定点的存储)