浮点型的有效位和存储方式

C++中有单精度浮点型float和双精度浮点型double,那么它们的有效位和存储方式分别是什么样的呢?

float的有效数字是7位,这个7意思是整数位加小数位共七位;

double的有效数字是16位,这个16意思是整数位加小数位共十六位。

C和C++中浮点型存储方式遵循IEEE 754标准(IEEE Standard for Floating-Point Arithmetic)。

一个浮点数由三部分组成:符号位S、指数位E、和尾数位M。

float:

 
  

S:符号位是1,表示负数;符号位是0,表示正数。

E:指数位本应该可以表示正负指数的,但没有符号位,因此,指数位部分通过加上偏差值127来表示正负。例如:实际指数是-8,则该指数位是119;实际指数是8,则该指数位是135。指数位范围是0~255,而实际指数位范围是-127~128。

M:尾数位,由于M总是大于1小于2的,也就是M写成1.xxxxxxx的形式,其中xxxxxxx表示小数部分。所以计算机在保存时总是默认把1去掉。例如1.55只保存50。由于2^(23+1)=16777216,而10^7<16777216<10^8,所以单精度浮点型的有效位数是七位。

我们知道了存储方式,那么看到一个二进制浮点数怎么转换为整形呢?

举个栗子:二进制为 1 10000011 0110101 00000000 00000000

 符号位为1:负数

指数位 : 10000011  而(10000011)2=131  131-127  = 4 (实际指数)

有效位 : 0110101 而 1.0110101*2^4=22.625

计算过程:

(二进制)10110.101

整数转换为十进制 1*16+1*4+1*2=22

小数转换为十进制1*0.5+1*0.125=0.625

所以,最终结果为-22.625

最后是计算的公式:十进制数=(-1)^符号位 * (1+尾数位) * 2^(指数位-127).

Double
S--------E-------M

d1位-----11位----52位

double类型和float的储存方式类似,就不多赘述了。

你可能感兴趣的:(c语言,c++)