java 中编码问题

 

因为编码问题吃了小亏,特记录一下。

import java.io.ByteArrayInputStream;

import java.io.ByteArrayOutputStream;

import java.io.IOException;

import java.util.zip.GZIPInputStream;

import java.util.zip.GZIPOutputStream;



/**

 * 

 *Module:          ZipUtil.java

 *Description:    对字符串的压缩及解压

 *Company:       

 *Author:           vigar

 *Date:             May 6, 2012

 */

public class ZipStrUtil {

    public static void main(String[] args) throws IOException {

        // 字符串超过一定的长度

        String str = "00aa美女a";

        System.out.println("\n原始的字符串为------->" + str);       

       

        String ys = compress(str);

        System.out.println("压缩后的字符串为----->" + ys);         

        String jy = unCompress(ys);

     /* byte[] midArray=ys.getBytes();
      String midStr=new String(midArray);

    unCompress(midStr);*/

        System.out.println("\n解压缩后的字符串为--->" + jy);

        System.out.println("解压缩后的字符串长度为--->"+jy.length());

        outputFormat(jy);       

        //判断

        if(str.equals(jy)){

            System.out.println("先压缩再解压以后字符串和原来的是一模一样的");

        }

    }



    /**

     * 字符串的压缩  

     * @param str

     *            待压缩的字符串

     * @return    返回压缩后的字符串

     * @throws IOException

     */

    public static String compress(String str) throws IOException {

        if (null == str || str.length() <= 0) {

            return str;

        }

        // 创建一个新的 byte 数组输出流

        ByteArrayOutputStream out = new ByteArrayOutputStream();

        // 使用默认缓冲区大小创建新的输出流

        GZIPOutputStream gzip = new GZIPOutputStream(out);

        // 将 b.length 个字节写入此输出流

        gzip.write(str.getBytes());

        gzip.close();

        // 使用指定的 charsetName,通过解码字节将缓冲区内容转换为字符串

        return out.toString("ISO-8859-1");

    }

    

    /**

     * 字符串的解压

     * @param str

     *            对字符串解压

     * @return    返回解压缩后的字符串

     * @throws IOException

     */

    public static String unCompress(String str) throws IOException {

        if (null == str || str.length() <= 0) {

            return str;

        }

        // 创建一个新的 byte 数组输出流

        ByteArrayOutputStream out = new ByteArrayOutputStream();

        // 创建一个 ByteArrayInputStream,使用 buf 作为其缓冲区数组

        ByteArrayInputStream in = new ByteArrayInputStream(str

                .getBytes("ISO-8859-1"));

        // 使用默认缓冲区大小创建新的输入流

        GZIPInputStream gzip = new GZIPInputStream(in);

        byte[] buffer = new byte[256];

        int n = 0;

        while ((n = gzip.read(buffer)) >= 0) {// 将未压缩数据读入字节数组

            // 将指定 byte 数组中从偏移量 off 开始的 len 个字节写入此 byte数组输出流

            out.write(buffer, 0, n);

        }

        // 使用指定的 charsetName,通过解码字节将缓冲区内容转换为字符串

        return out.toString("gbk");

    }

    

    

    /**

     * 为验证mq传数据异常,用outputFormat打印出byte[]中的内容

     * @param str

     *            对字符串解压

     * @return    返回解压缩后的字符串

     * @throws IOException

     */

    public static void outputFormat(String str)

    {

        byte[] origStr=str.getBytes();

        for(int i =0;i<origStr.length;i++)

        {

            System.out.print(origStr[i]+" ");

        }

        System.out.println("   end");       

    }

}

运行正常

将绿色注释部分加入,则报错

Exception in thread "main" java.io.IOException: Not in GZIP format

at java.util.zip.GZIPInputStream.readHeader(Unknown Source)

at java.util.zip.GZIPInputStream.<init>(Unknown Source)

at java.util.zip.GZIPInputStream.<init>(Unknown Source)

at com.boco.fmhandler.wl.adapter.ZipStrUtil.unCompress(ZipStrUtil.java:82)

at com.boco.fmhandler.wl.adapter.ZipStrUtil.main(ZipStrUtil.java:29)

将代码改为如下,则可以正常运行

   byte[] midArray=ys.getBytes("ISO-8859-1");

   String midStr=new String(midArray,"ISO-8859");

 

 深入探究: 

String的getBytes()方法是得到一个字串的字节数组,这是众所周知的。但特别要注意的是,此方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑到这一点,你会发现在一个平台上运行良好的系统,放到另外一台机器后会产生意想不到的问题。
在中文操作系统中,getBytes方法返回的是一个GBK或者GB2312的中文编码的字节数组,其中中文字符,各占两个字节。而在英文平台中,一般的默认编码是ISO-8859-1;,每个字符都只取一个字节(而不管是否非拉丁字符)。
Java是支持多国编码的,在Java中,字符都是以Unicode进行存储的,这一点只要反编译一个class文件即可看出来。
所以,为了避免这种问题,建议大家都在编码中都使用String.getBytes(String charset)方法,明确指明要得到的编码格式。
下面做一个小例子加深一下印象

public class TestCharset

{

    public static void main(String[] args)

    {

        new TestCharset().execute();

    }



    private void execute()

    {

        try

        {

            String s = "Hello!你好!";

            byte[] bytes = s.getBytes();

            System.out.println("bytes lenght is:" + bytes.length);

        } catch (Exception e)

        {

            e.printStackTrace();

        }

    }

}

windows下执行

String: Hello!你好!

bytes lenght is:12

linux下执行:  可以看出,其执行结果与环境变量LANG相关

[sg@101/udp ~]$ javac -encoding GBK TestCharset.java 

[sg@101/udp ~]$ export LANG=C;

[sg@101/udp ~]$ java TestCharset

String: Hello!???

bytes lenght is:9

[sg@101/udp ~]$ export LANG=zh_CN;

[sg@101/udp ~]$ java TestCharset

String: Hello!你好!

bytes lenght is:12

 而将getBytes()改为byte[] bytes = s.getBytes("GBK");后,

结果如下,字串长度不受环境变量影响,即bytes[]中的会按指定的编码格式取出相同的内容

[sg@101/udp ~]$ javac -encoding GBK TestCharset.java 

[sg@101/udp ~]$ export LANG=C;

[sg@101/udp ~]$ java TestCharset

String: Hello!???

bytes lenght is:12

[sg@101/udp ~]$ export LANG=zh_CN;

[sg@101/udp ~]$ java TestCharset

String: Hello!你好!

bytes lenght is:12

 参考文章

http://www.360doc.com/content/08/1015/09/61497_1765862.shtml

你可能感兴趣的:(java)