浮点定点的存储

比如单精度浮点数（32位），阶码8位，尾数那就是24位咯（尾数中内含一位符号位）；

比如双精度浮点数（64位），阶码11位，尾数那就是53位（一样）。

浮点型变量在计算机内存中占用4字节（Byte）,即32-bit。遵循IEEE-754格式标准。
一个浮点数由2部分组成：底数m 和指数e。
±mantissa × 2exponent
（注意，公式中的mantissa 和 exponent使用二进制表示）
底数部分　使用２进制数来表示此浮点数的实际值。
指数部分　占用８-bit的二进制数，可表示数值范围为0－255。　但是指数应可正可负，所以IEEE规定，此处算出的次方须减去127才是真正的指数。所以float的指数可从 -126到128.
底数部分实际是占用24-bit的一个值，由于其最高位始终为 1 ，所以最高位省去不存储，在存储中只有23-bit。
到目前为止，底数部分 23位加上指数部分 8位使用了31位。那么前面说过，float是占用4个字节即32-bit,那么还有一位是干嘛用的呢？还有一位，其实就是4字节中的最高位，用来指示浮点数的正负，当最高位是1时，为负数，最高位是0时，为正数。
浮点数据就是按下表的格式存储在4个字节中：
Address+0 Address+1 Address+2 Address+3
Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM S: 表示浮点数正负，1为负数，0为正数
E: 指数加上127后的值的二进制数
M: 24-bit的底数（只存储23-bit）
主意：这里有个特例，浮点数为0时，指数和底数都为0，但此前的公式不成立。因为2的0次方为1，所以，0是个特例。当然，这个特例也不用认为去干扰，编译器会自动去识别。

今天看NVIDIA的帕斯卡架构介绍时，看到了fp16浮点数格式，以前没见过，想弄清楚他的格式和表示范围，几经查找，终于搞懂了。主要参考：fp16-wiki

     如图，一个fp16数据占据两个字节，其中1位符号位，5位指数位，10位有效精度。

image

符号位：0：代表正数；

           1：代表负数。

指数位：与15的偏差。

       max_e=11110-01111=15;

       min_e=00001-01111=-14;

      00000和11111有其他意义。

10位精度位，我理解的计算方式是：

      0000 0000 01:1+2^-10

0000 0000 11:1+2^-9+2-10

 1111 1111 11:1+2^0-2^-10

数值计算公式为：(-1)^signbit * 2^(e) * (1+significantbits)

最大值为：0 11110 1111111111=(-1)^0 * 2^15 * (1+1-2^-10)=65504

最小值为：0 00001 0000000000=2^-14=6.10 * 10^-5

浮点定点的存储

你可能感兴趣的:(浮点定点的存储)