读写流存在的编码问题

下面这段代码是通过从服务器端获取response流,然后解析的片段:
  StringBuffer sb = new StringBuffer();
  HttpEntity entity = response.getEntity();
  InputStream is = entity.getContent();
  BufferedReader br = new BufferedReader(
			 new InputStreamReader(is));
  String data = "";
  while ((data = br.readLine()) != null) {
     sb.append(data);
   }
 String result = sb.toString();

这样读取到的文件在Android上显示乱码,请求的网页时gb2312的,Android模拟器上的是utf-8
出现这样问题的原因如下:
    在java运行时的时候,String都是没有区别的都是以2字节的unicode的形式存在内存中,所谓编码,是针对把String转换成 byte[]而言的。比如我可以把 "abc" 通过 utf-8转换成了一串数据 A ,也可以通过gb2312转换成另一串数据 B,这个过程就是 String.getBytes(),比如 "abc".getBytes("utf-8")得到A , "abc".getBytes("gb2312")得到B。如果是"abc".getBytes(),就不知道用的什么编码了,这和平台相关。
    那如何从A串或者B串重新得到String呢,那就是 new String(A,"utf-8") 或者 new String(B,"gb2312")。因为A是从utf-8转换得到的,所以用utf-8转回String ,如果new String(A,"gb2312"), 那么其中的中文就是乱码。 当然gbk和utf-8的有小部分编码集合是一样的,所以英文字符,一般不管怎么转都可以歪打正着
    另外,因为网络传输肯定是用byte[]的,不可能直接把String对象给传过来,所以server想把某个字符串传给client之前,需要将他转成byte[],这中间就用了server指定的一种编码,client在收到这个 byte[]之后,就必须要采用和server相同的编码,把byte[]重新转换为String。这就是InputStreamReader需要指定一个编码的原因。 InputStreamReader作用就是在通过inputStream读到byte[]的同时,将byte[]用指定的编码,转换为 char[],也就是实际上的String.

PS:上述代码段中
BufferedReader br = new BufferedReader( 
     new InputStreamReader(is,"UTF-8"));
就是按utf-8读取服务器端发送过来的编码格式的byte,如果服务器端发送的是GB2312的话,这样读取就会是乱码.





你可能感兴趣的:(android)