浮点数的存储

■ 现实生活中的小数
数学中的小数,又称为实数。一般用十进制表示

例如: 3.14159265


■ 科学计算法
数学中的科学计算法许多种表示法

3.14159265 = 0.314159265 × 101


■ 计算机中浮点数的表示

在计算机中的使用科学计数法是一种“规格化计数法”。

● 规格化计数法
用科学计数法表示实数时,如果最左边的第一个数字不是0,则被称为“规格化计数法”
0.1 × 10-2 不是规格化计数法
1.0 × 10-3 则是规格化计数法


● IEEE 754 标准
IEEE 754 标准成立于1985年,80年代起所有的计算机系统均支持IEEE 754
IEEE 754 对浮点数在计算机表示方法有三个主要的规定:


对于单精度(single precision):单精度浮点数位长:32位

(1) IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正
(2) 接下来用8位来表示指数部分。
(3) 接下来的23位用来表示有效数位

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- --------------- ---------------------------------------------
S 指数(8位) 有效数位 (23 位)


★ IEEE 754 考虑到利用现有的整数比较指充,对浮点数能进行快速的比较和排序,由于指数部分大小能快速反应出浮点数的大小,所以,在符号位接下来的8位用来表示指数,有效数位的大小反应出浮点数的精度。安排在最后的23位

★ 对于规格化二进制浮点示法而言,有效数位的第1位必定是1而不是0,因此,IEEE 754 规定:实际有效数位中的第1位被省去,因而,有效数位中默计含有1位。

★ 移码:除了将指数安排在有效数位前面,还不足以快速比较两个浮点数的大小,例如:

1.0 × 2 -1 在计算机中表示为:0 11111111 00000000000000000000000
这个数相当于整数的 0x7F800000

1.0 × 2 1 在计算机中表示为:0 00000001 00000000000000000000000
这个数相当于整数的 0x00800000

如果用整数比较指令,比较两个数,1.0 × 2 -1 竟然比 1.0 × 2 1 还大!

为了解决这个问题,IEEE 754 设计了一个方案:将指数加上一个常数 127
这个常数 127 被称为“移码”(biased notation)

我们再来看一看:
1.0 × 2 -1 将指数: -1 + 127 = 126 后,得出以下的二进制数:
0 01111110 00000000000000000000 也就是: 0x3F000000

1.0 × 2 1 将指数:1 + 127 = 128 后,得出以下的二进制数:
0 10000000 00000000000000000000 也就是:0x40000000

这样的话,就可以得出正确结果了。



对于双精度(double precision)浮点数来说:位长64 位
(1)IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正。
(2)接下来用11位来表示指数部分。
(3)接下来的52位用来表示有效数位。

★ 双精度浮点数用52位来表示有效数位,11位表示指数位,这样提高浮点数的精度,也还提高了浮点数的取值范围。

★ 双精度的移码为 1023



例子:
1、将 -0.625 转化为计算机中的二进制数浮点数
解:
-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1

符号位:1
指数位:-1 + 127 = 126
有效数位:1.01(在机器中要相应去掉默认位)

所以,在机器表示的二进制序列为:1 01111110 0100000000000000000000
相当于整数:0xBF200000


2、将如下二进制序列用十进制浮点数表示。
11000000101000000000000000000000

解:
符号位:1 是负数
指数位;10000001 = 129, 这个数要减去移码值,即:129 – 127 = 2
有效数位:01000000000000000000000 这个数要加上默认1,即得:1.01

整个序列结果为:- 1.01 × 22 = -101 = -5.0


下面的例子是按照二进制格式化输出整型、字符型以及单精度和双精度浮点型的例子:


[cpp] view plaincopyprint?
  1. #include<stdio.h>  
  2.   
  3. /* 
  4.  * 
  5.  *fun1(char); 
  6.  fun2(int ) 
  7.  fun3(float); 
  8.  fun4(double); 
  9.  * 
  10.  * 
  11.  * 
  12.  * */  
  13.   
  14. void fun4(double n)  
  15. {  
  16.   
  17.     int i;  
  18.     unsigned j = 0;  
  19.     char *p = (char*)&n;  
  20.   
  21.     putchar(10);  
  22.     printf("double n:%lf\n",n);  
  23.     for(i = 7; i >= 0; i--)  
  24.     {  
  25.         for(j = 0x80; j != 0; j >>= 1)  
  26.         {  
  27.             if(*(p + i) & j)  
  28.             {  
  29.                 putchar('1');  
  30.   
  31.             }  
  32.             else{  
  33.                 putchar('0');   
  34.             }  
  35.             if( i == 7 && j == 0x80 || i == 6 && j == 0x10)  
  36.             {  
  37.                 putchar(' ');  
  38.             }  
  39.         }  
  40.     }  
  41.   
  42.     putchar(10);  
  43. }  
  44.   
  45.   
  46.   
  47. void fun3(float n)  
  48. {  
  49.     char * q = (char*)&n;  
  50.     int i;  
  51.     unsigned int j = 0;  
  52.     putchar(10);  
  53.   
  54.     printf("float  n:%f\n",n);  
  55.     for(i = 3; i >= 0; i--)  
  56.     {  
  57.         for(j = 0x80; j != 0; j >>= 1)  
  58.         {  
  59.             if(*(q + i) & j)  
  60.             {  
  61.                 putchar('1');  
  62.             }  
  63.             else  
  64.             {  
  65.                 putchar('0');  
  66.             }  
  67.             if(i == 3 && j == 0x80 || i == 2 && j == 0x80)  
  68.             {  
  69.                 putchar(' ');  
  70.             }  
  71.         }  
  72.     }  
  73.   
  74.   
  75.   
  76.     putchar(10);  
  77. }  
  78. void fun2(int n)  
  79. {  
  80.     unsigned int j = 0x80000000;  
  81.     putchar(10);  
  82.     printf("int  n:%d\n",n);  
  83.     while(j != 0)  
  84.     {  
  85.   
  86.         if(n & j)  
  87.         {  
  88.             putchar('1');  
  89.         }  
  90.         else  
  91.         {  
  92.             putchar('0');  
  93.         }  
  94.   
  95.         if(j == 0x80000000 || j == 0x00800000)  
  96.         {  
  97.             putchar(' ');  
  98.         }  
  99.         j >>= 1;  
  100.   
  101.     }  
  102.     putchar(10);  
  103. }  
  104. void fun1(char n)  
  105. {  
  106.   
  107.     char  i = 0;  
  108.     unsigned  char  j = 0x80;  
  109.   
  110.     putchar(10);  
  111.     printf("char n: %d\n",n);  
  112.     while(i < 8)  
  113.     {  
  114.         if(n & j)  
  115.         {  
  116.             putchar('1');  
  117.         }  
  118.         else  
  119.         {  
  120.             putchar('0');  
  121.         }  
  122.         j >>= 1;  
  123.         i++;  
  124.     }  
  125.     putchar(10);  
  126. }  
  127. int main(void)  
  128. {  
  129.     float x1 = 4.25;  
  130.     float x2 = -4.25;   
  131.     double y1 = 4.25;  
  132.     double y2 = -4.25;  
  133.     int z1 = 5;  
  134.     int z2 =-5;  
  135.     char w1 = 13;  
  136.     char w2 = -13;  
  137.   
  138.     fun2(z1);  
  139.     fun2(z2);  
  140.   
  141.     fun1(w1);  
  142.     fun1(w2);  
  143.   
  144.     fun3(x1);  
  145.     fun3(x2);  
  146.   
  147.     fun4(y1);  
  148.     fun4(y2);  
  149.   
  150.     putchar(10);      
  151.     return 0;  
  152. }  


执行结果:

浮点数的存储_第1张图片

你可能感兴趣的:(浮点数的存储)