背景
java和python中都遇到了编码的问题。
比如eclipse中乱码的问题,java读取数据库乱码的问题,python中codec遇到的问题。
configParser.py打开一个含有中文的配置文件时出现如下错误:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 61: illegal multibyte sequence
所以系统了解编码知识很有必要。
编码产生的背景
各种编码的产生是在历史作用推动下方便计算机表达各国文字的需要而产生的。
最开始的编码是ISO8859-1通常叫做Latin-1,他是单字节编码即8个bit位最多表示256个字符只能表示英文字符。
单字节对于汉字、日文等等就没办法表示,所以出现了多字节编码MBCS(Multi-Byte Character Set)。
单字节与多字节的区别 -- 解决编码表示的问题
1.单字节和MBCS如何区别:
ASCII(American Standard Code for Information Interchange)使用的是单字节编码,但是ASCII表也只使用了8位bit可以表示字符中的一半即只有126个ASCII字符。
所以我们可以通过第一位是否大于X80来判断该编码是单字节还是多字节编码。如果小于X80则表示ASCII字符如果大于X80则第一个字节与第二个字节合起来(两个字节)合起来表示一个字符,然后跳过下一个字节继续判断。
2.多字节中根据 计算机 内存友好和操作效率可以分为定长编码和变长编码
由于定长编码编码便于计算机处理,所以很多软件内部使用unicode编码(双字节定长编码),比如字符串在java内存中就是使用unicode编码。
unicode编码 与 带有国家政治的编码 --历史因素
1.Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"UniversalMultiple-Octet Coded Character Set",简称为UCS。
unicode使用定长双字节编码,所以与ISO-8859-1是不兼容的(iso8859-1是单字节)。这两者有一点联系,在编码上unicode实在ISO-8859-1前面加了一个0,比如a在ISO8859-1表示为"61"在unicode中表示为"0061"。
2.每个国家语言根据需要推出自己的编码
比如为了表示汉子推出了表示简体中文的GB2312和繁体中文的big5。后面玉玉GB2312表示的汉子太少又推出了GBK编码(增加了GBK1.0收录了21886个符号)。
2000年的GB18030是取代GBK1.0的正式国家标准,包含了藏文、蒙文、维吾尔文等主要的少数民族文字。
定长与变长 -- 传输和存储
unicode几乎可以表示所有的字符便于计算机处理但是不方便传输和存储。所以后来又出现UTF编码,对于英文字符UTF也是使用一个字节表示所以UTF编码兼容ISO8859-1。
而对于其他字符使用变长的1-6个不等的字节表示,比如汉字就使用3个字节表示。
Python中的编码和解码
上面我们陈述了 UTF-8 , ascii码 , unicode的由来。
这里我们解决python中经常遇到的编码和解码问题。
什么是python编码解码,编码就是unicode->str,解码就是str->unicode.
一个str以什么方式编码必须以什么方式解码才不会出现乱码。
str1.decode(‘gb2312’),表示将gb2312编码的字符串str1解码成unicode。
str2.encode(‘utf-8’),表示将unicode字符串str2转换成用utf-8格式编码的字符串。
不同编码之间如果需要转换需要如下先解码再编码:str1.decode('gb2312').encode('utf-8')
#!/usr/bin/env python
# -*- coding: ascii -*-
def testCodecs(self):
s = '中文' # 这里的 s 是ascii编码的字符串类型
s.encode('gb18030')
print(sys.getdefaultencoding())
报错:
File "/Users/shawn/eclipse_workspace_pdev_group/python_works/pythonLearnCodeExample/src/str_oper/testStr.py", line 0
SyntaxError: 'ascii' codec can't decode byte 0xe2 in position 227: ordinal not in range(128)
错误的原因有:
1). s = ‘中文’,因为前面说明了 -*-coding:ascii -*- ascii编码表示不了中文。
2). s为ascii编码类型,s.encode('gb18030')是对S重新编码,相当于s.decode(sys.getdeaultencoding).encode('gb18030'),因为文件头写了ascii编码类型,所以通过utf-8 decode报错。
java 中的编码解码
java 中的编码不需要经过unicode来转化,unicode可以用来编码和解码字符串。
这里的关系有点类似于译密文,当你存储使用一个字节一个字节存储,当时展示给人看(有意义的字符)需要还原成原文(原来有意义的字符)。
1. String.getBytes()
/**
作用是将字符串所表示的字符按照charset编码,并以字节方式表示。注意字符串在java内存中总是按unicode编码存储的。比如"中文",正常情况下(即没有错误的时候)存储为"4e2d 6587",如果charset为"gbk",则被编码为"d6d0 cec4",然后返回字节"d6 d0 ce c4"。如果charset为"utf8"则最后是"e4 b8 ad e6 96 87"。如果是"iso8859-1",则由于无法编码,最后返回 "3f 3f"(两个问号)
*/
2. new String(byte[],charset)
/**
和上一个函数的作用相反,将字节数组按照charset编码进行组合识别,最后转换为unicode存储。参考上述getBytes的例子,"gbk" 和"utf8"都可以得出正确的结果"4e2d 6587"
*/
@Test
public void test1()
{
String s = "你好";
// 编码
byte[] utf;
try {
utf = s.getBytes("utf-8");
byte[] gbk = s.getBytes("gbk");
System.out.println("utf-8编码:" + Arrays.toString(utf));//[-28,-67,-96,-27,-91,-67] 6个字节
System.out.println("gbk编码:" + Arrays.toString(gbk));//[-60,-29,-70,-61] 4个字节
// 解码
String s1 = new String(utf, "utf-8"); // utf8/utf8你好
String s2 = new String(utf, "gbk"); // utf8/gbk 解码:浣犲ソ gbk用2个字节解码,所以会多一个字符
String s3 = new String(gbk, "utf-8"); // gbk/utf8 用utf-8解码:??? utf-8解码需要6个字节
String s4 = new String(gbk, "gbk"); // gbk/gbk 用utf-8解码:??? utf-8解码需要6个字节
System.out.println("--------------------");
System.out.println("utf-8/utf8 解码:" + s1);
System.out.println("utf8/gbk解码:" + s2);
System.out.println("gbk用utf-8解码:" + s3);
System.out.println("gbk用gbk解码:" + s4);
System.out.println("---------------------");
s3 = new String(s3.getBytes("utf-8"), "gbk"); // 锟斤拷锟? gbk用utf-8解码后无法编回去
System.out.println("s3为gbk用utf-8编码:s3.getBytes(\"utf-8\"), \"gbk\"" + s3);
byte [] unicode = s.getBytes("unicode");
String s5 = new String(unicode,"unicode");
System.out.println("S5=" + s5);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
执行结果为:
utf-8编码:[-28, -67, -96, -27, -91, -67]
gbk编码:[-60, -29, -70, -61]
--------------------
utf-8/utf8 解码:你好
utf8/gbk解码:浣犲ソ
gbk用utf-8解码:���
gbk用gbk解码:你好
---------------------
s3为gbk用utf-8编码:s3.getBytes("utf-8"), "gbk"锟斤拷锟�
S5=你好