单精度与双精度浮点型

  目前 C/C++  编译器标准都遵照 IEEE  制定的浮点数表示法来进行 float,double  运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为 2, 即把一个浮点数表示为尾数乘以 2  的指数次方再添上符号。下面是具体的规格:
             
符号位     阶码      尾数     长度  
float           1          8        23      32

double          1         11        52      64

以下通过几个例子讲解浮点数如何转换为二进制数

例一:

已知:double 类型38414.4 。

求:其对应的二进制表示。

分析:double 类型共计64 位,折合8 字节。由最高到最低位分别是第63 、62 、61 、…… 、0 位:
    
 最高位63 位是符号位,1 表示该数为负,0 表示该数为正;
    62-52
 位,一共11 位是指数位;
    51-0
 位,一共52 位是尾数位。

     
步骤:按照IEEE 浮点数表示法,下面先把38414.4 转换为十六进制数。
     
 把整数部和小数部分开处理: 整数部直接化十六进制:960E 。小数的处理:
0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
     
实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53 位就行了。隐藏位技术:最高位的1 不写入内存(最终保留下来的还是52 位)。
    
 如果你够耐心,手工算到53 位那么因该是:38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)

科学记数法为:1.0010110000011100110101010101010101010101010101010101 ,右移了15 位,所以指数为15 。或者可以如下理解:

1.00101100000111001101010101010101010101010101010101012 ×215
     
于是来看阶码,按IEEE 标准一共11 位,可以表示范围是-1024 ~ 1023 。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1) ,在这里,阶码:15+1023=1038 。二进制表示为:100 00001110 ;
    
 符号位:因为38414.4 为正对应  为0 ;
    
 合在一起(注:尾数二进制最高位的1 不要 ):
0100 0000 1110 0010 1100 0001 1100 1101 0101 0101 0101 0101 0101 0101 0101 0101

例二:

已知:整数3490593(16 进制表示为0x354321 ) 。

求:其对应的浮点数3490593.0 的二进制表示。  

解法如下:

先求出整数3490593 的二进制表示:

 H:    3     5    4    3    2     1   (十六进制表示)

 B:   001 1  0101 0100 0011 0010  0001 (二进制表示)

         │←──────21 ─────→│

 

即: 

               1.1010101000011001000012 × 221

可见,从左算起第一个1 后 21 位,我们将这21 为作为浮点数的小数表示,单精度浮点数float 由符号位1 位,指数域位k =8 位,小数域位( 尾数 )n=23 位构成,因此对上面得到的21 位小数位我们还需要补上2 个0 ,得到浮点数的小数域表示为:

         1 0101 0100 0011 0010 0001 00

 

float 类型的 偏置量 Bias=2k-1 -1=28-1 -1=127 ,但还要补上刚才因为右移作为小数部分的 21 位,因此偏置量为 127+12=148 ,就是 IEEE 浮点数表示标准:

                          V = (-1)s × M × 2E

                    E = e-Bias

中的 e ,此前计算 Bias=127 ,刚好验证了 E=148-127=21 

 

 148 转为二进制表示为 10010100 ,加上符号位 0 ,最后得到二进制浮点数表示 1001010010101010000110010000100 ,其 16 进制表示为:

 H:     4        A       5          5         0         C         8        4  

 B:  0 100   1010   0 101    0101   0000   1100  1000   0100

                    |←────      21        ─────→   |

     1|←─8   ─→||←─────       23       ─────→ |

 

这就是浮点数 3490593.0(0x4A550C84) 的二进制表示。

例三:

0.5 的二进制形式是0.1

它用浮点数的形式写出来是如下格式

 

0                01111110                 00000000000000000000000


符号位           阶码                       小数位

正数符号位为0 ,负数符号位为1

阶码是以2 为底的指数

小数位表示小数点后面的数字


下面我们来分析一下0.5 是如何写成0 01111110 0000000 00000000 00000000


首先0.5 是正数所以符号位为0

再来看阶码部分,0.5 的二进制数是0.1, 而0.1 要表示为1.0*2^(-1) ,科学表示时整数部分不能为0 所以我们总结出来:

要把二进制数变成(1.f)*2^(exponent) 的形式, 其中exponent 是指数

而由于阶码有正负之分所以阶码=127+exponent;

即阶码=127+(-1)=126  01111110

余下的小数位为二进制小数点后面的数字, 即00000000000000000000000


由以上分析得0.5 的浮点数存储形式为0 01111110 00000000000000000000000  

注:如果只有小数部分, 那么需要右移小数点比如右移3 位才能放到第一个1 的后面阶码就是127-3=124.

例四   20.59375 )10 = (10100.10011 2

首先分别将整数和分数部分转换成二进制数: 

20.59375
 =10100.10011 

然后移动小数点,使其在第1 ,2 位之间 

10100.10011
 =1.010010011×2^4   e =

于是得到: 

S
 =0 , E =4 +127 =131 , M =010010011 

最后得到32 位浮点数的二进制存储格式为: 

0100 0001 1010 0100 1100 0000 0000 0000 
(41A4C000)16


例五:
-12.5   转为单精度二进制表示
12.5: 
1. 
整数部分12 ,二进制为1100; 小数部分0.5, 二进制是.1 ,先把他们连起来,从第一个1 数起取24 位(后面补0 ): 
1100.1 000 00000000 00000000 
这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1 ,就是尾数) 
2. 
把小数点移到第一个1 的后面,需要左移3 位(1.1001 000 00000000 00000000*2^3 加上偏移量127 :127+3=130 ,二进制是10000010 ,这是阶码。 
3. -12.5
 是负数,所以符号位是1 。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1 ,所以规定不存这一位的1 ,只取后23 位: 
1 10000010 10010000000000000000000 
把这32 位按8 位一节整理一下,得: 
11000001 01001000 00000000 00000000 
就是十六进制的 C1480000

例六:

2.025675 
1. 
整数部分2 ,二进制为10; 小数部分0.025675, 二进制是.0000 01101001 00101010 01 ,先把他们连起来,从第一个1 数起取24 位(后面补0): 
10.0000011010010010101001 
这部分是有效数字。把小数点前后两部分连起来再取掉头前的1 ,就是尾数: 00000011010010010101001 
2. 
把小数点移到第一个1 的后面,左移了1 位加上偏移量127 :127+1=128 ,二进制是10000000 ,这是阶码。 
3. 2.025675
 是正数,所以符号位是0 。把符号位,阶码和尾数连起来: 
0 10000000 00000011010010010101001 
把这32 位按8 位一节整理一下,得: 
01000000 00000001 10100100 10101001 
就是十六进制的 4001A4A9.  

例七: 
(
 逆向求十进制整数) 一个浮点二进制数手工转换成十进制数的例子: 
假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000 
1 ,8 ,23 位分成三段: 
01111010 10000000000000000000000 
最后一段是尾数。前面加上"1.", 就是 1.10000000000000000000000 
下面确定小数点位置。由
 E = e-Bias  阶码E 是01111010 ,加上00000101 才是01111111 (127 ), 
所以他减去127 的偏移量得e=-5 。(或者化成十进制得122 ,122-127=-5 )。 
因此尾数1.10 (后面的0 不写了)是小数点右移5 位的结果。要复原它就要左移5 位小数点,得0.0000110, 即十进制的0.046875 
最后是符号:1 代表负数,所以最后的结果是 -0.046875 

注意: 其他机器的浮点数表示方法可能与此不同不能任意移植 。

 

再看一例( 类似例七) :

比如:53004d3e

二进制表示为:

01010011000000000100110100111110

按照1 个符号    8 个指数          23 个小数位划分

0              10100110         00000000100110100111110

正确的结果转出来应该是551051722752.0

该怎么算?

好,我们根据IEEE 的浮点数表示规则划分,得到这个浮点数的小数位是:

  000 000001001101 00111110 

那么它的二进制表示就应该是:

1.000000001001101001111102 × 239 
标准化公式中的M 要求在规格化的情况下,取值范围 1 ε)

正因为如此,我们才需要对原始的整数二进制表示做偏移,偏移多少呢?偏移 2E  
这个“E” 怎么算?上面的 239 怎么得来的呢? 浮点数表示中的8 位指数为就是告诉这个的。我们知道: 
E = e-Bias 
那么根据指数位:

101001102 => 16610 
e=166 ,由此算出E=e-Bias=166-127=39 ,就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移39 位,好,我们现在把它还原得到整数的二进制表示:

1 00000000100110100111110 0000000000000000

1 │←───── 23 ─────→│←─── 16 ───→│

23+16=39
 ,后面接着就是小数点了。
拿出计算器,输入二进制数1000000001001101001111100000000000000000
转为十进制数,不正是:551051722752 么!



你可能感兴趣的:(java笔记,单精度,双精度,浮点型)