在2.5中,str类型指的是单字符类型的字符串,所以一个中文字在str中表现为2个字节,想要生成unicode类型的字符串,必须在引号前加入“u”这个标识。
例如:
>>> s = "测试" # 这个是单字符类型的字符串
>>> type(s)
>>> len(s) # 两个中文的长度为4个字符
4
>>> s
'/xb2/xe2/xca/xd4'>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> type( s1 ) # 使用type可以看到类型
>>> len( s1 )
4
>>> s1
u'/xb2/xe2/xca/xd4'
注:虽然同样是4个中文,但由于在引号前加上了“u”标识,实际上是把两个中文拆成4个字节都独立的unicode字符了,所以我们看到的长度是4,而不是预想中的2。至于怎么把“s = "测试"”的字符串转成unicode字符,请看后面的说明。
在3.0中,所有的引号里面的字符默认都是unicode str(虽然使用type的时候显示的是str),也就是说,3.0中的 str 类型等于2.5的 unicode 类型,而在3.0中存在一个专门用于表示单字符类型字符串的类——
因为在3.0中默认所有字符串都是 unicode,因此在3.0中已经不存在“u”的前缀标识,也就是说,在2.5中,以下的语法在3.0中是不存在的。
>>> u"测试" # 2.5中,这个能正常运行
u'/xb2/xe2/xca/xd4'>>> u"测试" # 3.0中,这个将会产生一个语法错误
SyntaxError: invalid syntax
当然,为了让我们能在3.0中直接生成单字符字符串,在3.0中出现了一个在2.5中不存在的新的语法——在引号前加“b”——b"test string",但需要注意的是,这个语法只适用于英文字符,如果想把它应用到中文字符上,是会产生异常的。
>>> b"test string" # 对于英文字符,一切ok
b'test string'>>> b"测试" # 对于中文字符,语法错误
SyntaxError: bytes can only contain ASCII literal characters.
与2.5不同,在3.0中,虽然bytes类型仍然是一个不可修改的实例,但bytes类型不再被视为 string,而是被视为 array of byte,或者说,它更接近于 c 语言中的 char * 类型。
在以下的例子中,我们会发现bytes类型的每一个字节,都是以 int 的形式表现,而非 str 的形式:
>>> for e in b"test string": print( e, "->", type( e ) )
116 ->
101 ->
115 ->
116 ->
32 ->
115 ->
116 ->
114 ->
105 ->
110 ->
103 ->
那么,我们在3.0中怎么对 unicode <-> bytes 进行互相转换呢?答案是用unicode.encode()和bytes.decode()函数。
我们来看看以下的两个互换的例子:
>>> "测试".encode( "gb18030" )
b'/xb2/xe2/xca/xd4'>>> b'/xb2/xe2/xca/xd4'.decode( "gb18030" )
'测试'
不同于2.5中的 str 和 unicode两者都存在encode()和decode()方法,在3.0中,str仅有encode()方法,而bytes则仅有decode()方法,这个明显比2.5更容易让人理解,而且不象2.5中的 str 和 unicode 那样让人容易搞混——很多人一开始的时候都不知道什么时候应该用encode(),又什么时候应该decode()。
说起2.5中的str 和 unicode两者都存在的encode()和decode()方法,如果懂用了确实也能简化很多复杂的操作,例如我们在一开始就提到的下面的语句:
>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> s1
u'/xb2/xe2/xca/xd4'
在这种情况下,得出的这个结果虽然是一个unicode字符串,但很显示它并不是我们想要的东西,因为实际上 s1 是一个长度为4的unicode字符串,而非我们原来预想中的长度为2的unicode字符串,在这种情况下,我们怎么转换成正确的中文字符呢?在2.5中可以用以下的方法:
>>> s1.encode("latin1")
'/xb2/xe2/xca/xd4'
>>> print _
测试
而下面则是一些在2.5中很有意思的用法:
>>> "测试"
'/xb2/xe2/xca/xd4'>>> "测试".encode( "hex" )
'b2e2cad4'>>> 'b2e2cad4'.decode("hex")
'/xb2/xe2/xca/xd4'
但是,在3.0中,由于明确了encode()和decode()的归属(用法),所以上面的例子在3.0中肯定是无法使用的,但我们仍然可以在3.0中实现与2.5一样的效果:
>>> import binascii
>>> "测试".encode( "gb18030" ) # 把“测试”两字从unicode转为bytes
b'/xb2/xe2/xca/xd4'
>>> binascii.b2a_hex( _ ) # 把二进制的bytes转为可见的ascii字符
b'b2e2cad4'
>>> binascii.a2b_hex( _ ) # 上面行为的逆操作
b'/xb2/xe2/xca/xd4'
>>> _.decode( "gb18030" ) # 再把bytes转为unicode
'测试'