Java编码转换

1. gbk(cp18030/cp936)转unicode(cp1200)

String str = "没有任何意义的一句说话";
for (int i = 0; i < str.length(); i++) {
    String charactor = str.substring(i, i + 1);
    byte[] b = charactor.getBytes("UTF-16BE"); // 如果是UTF-16LE,则高低位翻转
    String s1 = Integer.toHexString(b[0]).replace("ffffff", "");
    String s2 = Integer.toHexString(b[1]).replace("ffffff", "");
    if (s1.length() < 2)
        s1 = "0" + s1;
    if (s2.length() < 2)
        s2 = "0" + s2;
    String s = s1 + s2;
    out.println(String.format("十六进制的表示 &#x%s;", s));
    out.println(String.format("十进制的表示   &#%s;", Integer.parseInt(s, 16))); //Integer.valueOf(s, 16) or Integer.decode("0x" + s)
    out.println();
} 

numeric character reference(NCR)

以&#x03A3(16进制);或&#0931(十进制);都可以在html显示unicode字符,例如:Σ

Python的方法会简单一些:

unicode('没有任何意义的一句说话‘,'gbk')可以输出它的unicode编码

显示十进制结果:int('3A3', 16)

2. 还原big5文字
char.txt文件保存的汉字是繁体big5编码的【書院】,但显示为【皘】
编写如下代码还原
InputStreamReader reader = new InputStreamReader(new FileInputStream("char.txt"));
char[] chars = new char[892600];
int len = reader.read(chars);
String sql = new String(chars, 0, len);
out.println(new String(sql.getBytes(), "big5_hkscs"));
reader.close();
参考:
http://en.wikipedia.org/wiki/Numeric_character_reference

你可能感兴趣的:(Java编码)