byte&0xff实现32位符号扩展

问题引出

最近在阅读tomcat9.0解析http/2的帧头的源码时,遇到这样一串代码:

static int getThreeBytes(byte[] input, int firstByte) {
        return ((input[firstByte] & 0xFF) << 16) + ((input[firstByte + 1] & 0xFF) << 8) +
                (input[firstByte + 2] & 0xFF);
    }

 有点疑惑,现在已经明白,答案如下:

byte&0xFF是为了将8 bit的byte型数值通过符号拓展转为32 bit的int型数值,并且转换后的数值和原数值的符号和大小相同。

0xff是int型字面量,所以在进行&操作之前,编译器会自动将byte转型成int型,即在byte原数值的二进制编码前添加24个0,然后再和0xff进行&操作。

符号扩展(Sign Extension)用于在数值类型转换时扩展二进制位的长度,以保证转换后的数值和原数值的符号(正或负)和大小相同,一般用于较窄的类型(如byte)向较宽的类型(如int)转换。扩展二进制位长度指的是,在原数值的二进制位左边补齐若干个符号位:1、正数在左边补0;2、负数在左边补1。

 

只有在byte型数值进行32位符号拓展后,才能顺利进行下面的移位操作:

设byte[] input ={AAAAAAAA, BBBBBBBB, CCCCCCCC};  int firstByte = 0;

则getThreeBytes(input,firstByte)的返回值为:

00000000 AAAAAAAA BBBBBBBB CCCCCCCC

==============================================

以下代码的实现效果是怎样的?

public static int getHeaderLength(int length) {
        return length & 0xFFFFFF;
    }

a&0x00ffffff
&是双目操作符,需要两个操作数,代表含义为按位与操作。
计算时,按位计算,两个操作数上对应位的值如果均为1,则结果对应位上值为1,否则结果对应位上值为0。
分析操作数0x00ffffff的二进制值为32位,最高8位为0,其余为1,综合按位与的运算规则,可以知道结果的最高8位为0,剩余24位与左边操作数的低24位值相同。
于是a&0x00ffffff就是取a的低24位,即低3字节的值。

比如0x12345678 & 0x00ffffff = 0x00345678。

==============================================

java符号拓展

下面这行代码的输出是什么?

public static void main(String[] args) {
  System.out.println(0xffffffff);  //输出-1
}

下面两行代码的输出相同吗?

public static void main(String[] args) {
  byte b=-1;
  System.out.println((int)(char)b); //输出65535
  System.out.println((int)(char)(b & 0xff)); //输出255
}

请尝试在Eclipse中运行上面的两个代码片段,如果你对输出结果感到很惊讶,请继续往下读…

正如你所看到的:
第1个代码片段的运行结果是:-1
第2个代码片段的运行结果是:65535和255

上面的两个代码片段来源于《Java解惑》的第6个小问题“多重转型”,原题目内容如下:

public class Multicast{
  public static void main (String[] args){
    System.out.println((int)(char)(byte)-1);
  }
}

上面的代码中连续进行了3次类型转换,最后的结果会回到-1吗?答案当然是不会,它输出的结果是65535。下面我为大家整理了相关的基础知识,相信大家读完后应该就知道其中的原因了。

一、Java中如何编码负数?

Java采用”2的补码“(Two's Complement)编码负数,它是一种数值的编码方法,要分二步完成:
第一步,每一个二进制位都取相反值,0变成1,1变成0。比如,+8的二进制编码是00001000,取反后就是11110111。
第二步,将上一步得到的值加1。11110111就变成11111000。
所以,00001000的2的补码就是11111000。也就是说,-8在计算机(8位机)中就是用11111000表示。
关于“2的补码”的详细信息,请参考阮一峰的博文《关于2的补码》,博文地址附在本文的参考部分。
  •  

二、什么是符号扩展(Sign Extension)?

符号扩展(Sign Extension)用于在数值类型转换时扩展二进制位的长度,以保证转换后的数值和原数值的符号(正或负)和大小相同,一般用于较窄的类型(如byte)向较宽的类型(如int)转换。扩展二进制位长度指的是,在原数值的二进制位左边补齐若干个符号位(0表示正,1表示负)。

举例来说,如果用6个bit表示十进制数10,二进制码为"00 1010",如果将它进行符号扩展为16bits长度,结果是"0000 0000 0000 1010",即在左边补上10个0(因为10是正数,符号为0),符号扩展前后数值的大小和符号都保持不变;如果用10bits表示十进制数-15,使用“2的补码”编码后,二进制码为"11 1111 0001",如果将它进行符号扩展为16bits,结果是"1111 1111 1111 0001",
即在左边补上6个1(因为-15是负数,符号为1),符号扩展前后数值的大小和符号都保持不变。

三、Java类型转换规则

  1. Java中整型字面量

    Java中int型字面量的书写方式有以下几种:

    • 十进制方式,直接书写十进制数字

    • 八进制方式,格式以0打头,例如012表示十进制10

    • 十六进制方式,格式为0x打头,例如0xff表示十进制255

    需要注意的是,在Java中012和0xff返回的都是int型数据,即长度是32位。

  2. Java的数值类型转换规则

    这个规则是《Java解惑》总结的:如果最初的数值类型是有符号的,那么就执行符号扩展;如果是char类型,那么不管它要被转换成什么类型,都执行零扩展。还有另外一条规则也需要记住,如果目标类型的长度小于源类型的长度,则直接截取目标类型的长度。例如将int型转换成byte型,直接截取int型的右边8位。

四、解析“多重转型”问题

连续三次类型转换的表达式如下:

(int)(char)(byte)-1
  •  
  1. int(32位) -> byte(8位)

    -1是int型的字面量,根据“2的补码”编码规则,编码结果为0xffffffff,即32位全部置1.转换成byte类型时,直接截取最后8位,所以byte结果为0xff,对应的十进制值是-1.

  2. byte(8位) -> char(16位)

    由于byte是有符号类型,所以在转换成char型(16位)时需要进行符号扩展,即在0xff左边连续补上8个1(1是0xff的符号位),结果是0xffff。由于char是无符号类型,所以0xffff表示的十进制数是65535。

  3. char(16位) -> int(32位)

    由于char是无符号类型,转换成int型时进行零扩展,即在0xffff左边连续补上16个0,结果是0x0000ffff,对应的十进制数是65535。

五、几个转型的例子

在进行类型转换时,一定要了解表达式的含义,不能光靠感觉。最好的方法是将你的意图明确表达出来。

在将一个char型数值c转型为一个宽度更宽的类型时,并且不希望有符号扩展,可以如下编码:

int i = c & 0xffff;

上文曾提到过,0xffff是int型字面量,所以在进行&操作之前,编译器会自动将c转型成int型,即在c的二进制编码前添加16个0,然后再和0xffff进行&操作,所表达的意图是强制将前16置0,后16位保持不变。虽然这个操作不是必须的,但是明确表达了不进行符号扩展的意图。
如果需要符号扩展,则可以如下编码:

int i = (short)c; //Cast causes sign extension

首先将c转换成short类型,它和char是 等宽度的,并且是有符号类型,再将short类型转换成int类型时,会自动进行符号扩展,即如果short为负数,则在左边补上16个1,否则补上16个0.
如果在将一个byte数值b转型为一个char时,并且不希望有符号扩展,那么必须使用一个位掩码来限制它:

char c = (char)(b & 0xff);

(b & 0xff)的结果是32位的int类型,前24被强制置0,后8位保持不变,然后转换成char型时,直接截取后16位。这样不管b是正数还是负数,转换成char时,都相当于是在左边补上8个0,即进行零扩展而不是符号扩展。
如果需要符号扩展,则编码如下:

char c = (char)b; //Sign extension is performed

此时为了明确表达需要符号扩展的意图,注释是必须的。

六、小结

实际上在数值类型转换时,只有当遇到负数时才会出现问题,根本原因就是Java中的负数不是采用直观的方式进行编码,而是采用“2的补码”方式,这样的好处是加法和减法操作可以同时使用加法电路完成,但是在开发时却会遇到很多奇怪的问题,例如(byte)128的结果是-128,即一个大的正数,截断后却变成了负数。3.2节中引用了一些转型规则,应用这些规则可以很容地解决常见的转型问题。

七、参考引用

  1. 阮一峰-关于2的补码
    http://www.ruanyifeng.com/blog/2009/08/twos_complement.html

  2. wikipedia-Sign extension
    http://en.wikipedia.org/wiki/Sign_extension

  3. Joshua Bloch, 陈昊鹏译 - 《Java解惑》

    转载自:http://my.oschina.net/joymufeng/blog/139952

 

你可能感兴趣的:(Java)