Java与IEEE754浅浅谈

Java与IEEE754浅浅谈

作者:大飞

 

  • 怎么用二进制来表示小数呢?
        假设我们要用二进制来表示小数5.5,怎么搞?
              按照常规思路,首先用二进制表示一下5,是101,那5.5岂不就是101.101(呵呵哒...)。
              我们来看下分解过程,5=4+1,也就是1*2 2 + 0*2 1 + 1*2 0,即101。按照这个思路,0.101这个二进制表示的是1*2 -1 + 0*2 -2 + 1*2 -3,也就是0.625。
 
              所以,5.5表示成二进制就可以是101.1(并不是101.101)。
              再明确下这个规则:
              1···11.11···1  (中间的点表示小数点)
              1*2k + ··· + 1*21 + 1*20 + .  + 1*2-1 + 1*2-2 + 1*2-k
 
        这种表示法也叫作定点表示法。
 
 
        然而,我们也会发现定点表示法的一些问题:
              首先,我们用定点表示法表示下0.1这个十进制小数试试看,
              0.1 = 0*2 -1 + 0*2 -2 + 0*2 -3 + 1*2 -4 (0.0625) + 1*2 -5 (0.03125) + 0*2 -6 + 0*2 -7 + 1*2 -8 (0.00390625) + 0*2 -9(0.001953125) + ... fuck!!!!
              有编码长度限制的话,这种表示方式无法精确的表示0.1,只能随着编码长度的增加而越来越近似。
              其次,这种表示方法没办法有效的表示很大的数,比如5 * 2 100这个数(二进制表示的话,后面100个0怎么表示,就算双精度的话也才64个bit)。
 
 
  • IEEE浮点表示法。
       上面我们看了定点表示法,也大概了解了定点表示法存在的问题: 1.不精确。2.无法有效表示大数。
 
       这一节来看一下IEEE浮点表示法,这种表示法也是系统中普遍采用的表示小数的方式。
 
       先看一下浮点表示标准形式: V = (-1)s×M×2 E     (可以当成一个公式来记!)
 
       那具体怎么表示呢?假设是32位的话(比如Java的float、单精度),格式如下:
       s          e                                f
       1 - 11111111 - 11111111111111111111111 
       s:1bit     e:8bit      f:23bit     
 
       64位的话(比如Java的double、双精度),格式如下:  
       s            e                                                                f
       1 - 11111111111 - 1111111111111111111111111111111111111111111111111111        
       s:1bit     e:11bit      f:52bit     
 
       知道了格式和公式,两者怎么对应起来呢?
        根据格式中e值的不同,编码会分为三种情况:
       1.规格化的值:
              当e中所有bit的值既不全是0,又不全是1,这种情况就属于规格化的值。
              规格化的值下
              M=1+f,f是f所包含的bit组成的二进制小数。
              E=e-Bias,e是e包含的bit组成的无符号数;Bias=2 k-1-1,k是e的bit个数,比如32位下,k=8,64位下,k=11。
       2.非规格化的值:
              当e中所有bit的值全是0,这种情况就属于非规格化的值。
              非规格化的值下
              M=f,f是f所包含的bit组成的二进制小数。
              E=1-Bias,Bias=2 k-1-1,k是e的bit个数,比如32位下,k=8,64位下,k=11。
        3.特殊值:
              当e中所有bit的值全是1,f中所有bit的值全是0,表示无穷大。
              当e中所有bit的值全是1,f中所有bit的值不全是0,表示NaN(Not a Number)。
 
       可见,IEEE浮点表示方式,虽然解决了表示大数的问题(通过公式能看出可以表示M×2E这种形式的数),但还是没有解决精确问题
       
  • Java中怎么表示浮点数。
        Java中提供了long和double来表示单精度浮点和双精度浮点的基本类型,就是按照IEEE754规范来的。也提供了对应的包装类。
 
       我们按照上面的IEEE规则来看一下,就看看5.5这个数。
       首先我们用单精度来表示5.5这个数:
    float f = 5.5f;
       然后我们需要得到这个数二进制的格式,也就是上面IEEE格式,Float包装类中提供了floatToIntBits进行支持。 
    int intBits = Float.floatToIntBits(f);
       最后我们需要将这个intBits以二进制的形式打印出来看看。 
    System.out.println(Integer.toBinaryString(intBits));
       输出如下: 
    1000000101100000000000000000000
       注意这里的打印结果会将bit位中前面的0省略(把符号位给省略了),我们补上0,然后调整成IEEE格式。
 
       0 10000001 01100000000000000000000
       注意到,这符合上面提到的规格化的值,套用一下规则:
       s = 0
       M=1+f,M=1.375
       E=e-Bias,e=129,Bias=2 8 -1-1=127,所以E=2
       V = (-1) s×M×2 E  =  (-1) 0×1.375×2 = 1×1.375×4  = 5.5
       结果就是5.5 对上了!!!
 
       最后来看个特殊值的例子: 
	public static void main(String[] args) {
		int intBits1 = 0x7f800000;// 0 11111111 00000000000000000000000
		float f1 = Float.intBitsToFloat(intBits1);
		int intBits2 = 0xff800000;// 1 11111111 00000000000000000000000
		float f2 = Float.intBitsToFloat(intBits2);
		System.out.println("f1="+f1+",f2="+f2);
		int intBits3 = 0xff800001;// 1 11111111 00000000000000000000001
		float nan = Float.intBitsToFloat(intBits3);
		System.out.println("nan="+nan);
	}
       输出如下: 
    f1=Infinity,f2=-Infinity
    nan=NaN
       OK!可以自己多写几种例子来加深下印象。
 
       如果之前不了解这部分的话,可以对Java中float和double的内存布局有一点点的直观认识了。
 
 
        参考资料:《深入理解计算机系统》 
 

你可能感兴趣的:(java基础,浮点数)