根据国际标准IEEE(电气和电子工程协会) 754,任意一个二进制浮点数V可以表示成下面的形式:
所以对于浮点数的存储 S、M、E这三个值非常重要。
下面举两个例子:
101.1
,按照科学计数法可以写成1.011*2^2 = (-1 )^0 * 1.011 * 2^2
,这里的S就是0,M就是1.011,E就是20.1
,转化成科学计数法就是1.0*2^-1 = (-1)^0 * 1.0 * 2^-1
,这里S就是0,M是0.1,E是-1所以从这里可以看出,E的值可以为正数,也可以为负数。
IEEE 754规定:
对于32位的浮点数,最好的一位是符号位S,节着是8位的指数E,剩余的23位为有效数字M
对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。
S在内存中的存储是比较简单的
S为符号位,因为是(-1)^S,所以S为0时,为正;S为1是,为负数
S只有0和1两种可能
无论是float
类型还是double
类型,S都是存储在第一位。
从前面知道,M是一个大于等于1,小于2的数,也就是可以写成1.xxxx
的形式,xxxxx
表示小数部分
这里IEEE754有特殊规定:
在计算机内部保存M时,默认这个数的第一位总是1,因此可以舍去,也就是保存后面的xxxx
部分
等到读取的时候,再把第一位加上
比如保存十进制的5.5时,5.5的M为1.011,存到内存中就是011
,剩余的比特位用0补
5.5f
的M值存储在内存中为01100000000000000000000
,在011
后面补了20个0
。
规定这么做的目的是省去了储存小数点前面1
在内存中占用的空间,节省一位有效数字。
使得32位浮点数中M的23个比特位存储24个有效数字以及64位浮点数中M的52比特位存储53个有效数字
1
本身就是有效数字,如果将这个1
存储到内存中,以32位浮点数为例,属于M的23个比特位中只能存放小数点后面的22位。1
省略掉,那么23个比特位全部存储小数点后的数,也就是多存储了一位E的情况就比较复杂
所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。
比如:
5.5f的E为2,2+127 = 129,所以将129的二进制存到E的8比特位中
0.5的E位-1,-1+127 = 126,所以将129的二进制存到E的8比特位中
E是加了127或1023再放进内存中的,全为0就说明E是一个特别小的数
一个
1.xxx
再乘上2^-127
是非常小的,无限接近于0
0.xxxxx
,这样做是为了表示0,以及接近于0的很小的数8个全1是255,这是加上127后的,所以E的值为128
2^128是很大的数
这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s)
以5.5为举例
float f = 5.5f
二进制为101.1 = (-1)^0 * 1.011 * 2^2,S =0,E = 2,M = 1.011
- 最高位一位存放0
- E = 2,2+127 = 129,将129放到E的8比特位中
10000001
- 存M只存
011
,后面补0
,为01100000000000000000000
所以内存中存放的是:0 10000001 01100000000000000000000
以9.0为例
float f = 9f
1001.0,科学计数法:1.0110 (-1)^0 * 1.0110*2 ^ 3 ,s = 0,e =3,m = 1.001
0 10000010 00100000000000000000000
下列代码会输出什么:
int main()
{
int n = 9;
float *pFloat = (float *)&n;
printf("n的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
*pFloat = 9.0;
printf("num的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
return 0;
}
int
类型,所以printf("n的值为:%d\n",n);
自然会输出9&n
强制类型转换成了float*
类型,9的二进制为00000000000000000000000000001001
,此时n为浮点数类型:0 00000000 00000000000000000001001
,不难看出,内存中E全为0,所以是一个非常小的数,所以打印出来是:0.000000
*pFloat = 9.0;
是将9.0存到了n
中,9.0就是1001.0
,也就是(-1)^0 * 1.0010 * 2^3
,s=0, M=1.001,E=3+127=130,写成二进制是0 10000010 001 00000000000000000000
,以int
类型的形式输出就是 1091567616