不一样的str,python 3.0 与 python 2.5 的 str 类型比较笔记

在2.5中,str类型指的是单字符类型的字符串,所以一个中文字在str中表现为2个字节,想要生成unicode类型的字符串,必须在引号前加入“u”这个标识。

例如:

 >>> s = "测试"  # 这个是单字符类型的字符串
 >>> type(s)
 
 >>> len(s)  # 两个中文的长度为4个字符
 4
 >>> s
 '/xb2/xe2/xca/xd4' 

 >>> s1 = u"测试" # 这个是unicode类型的字符串
 >>> type( s1 )  # 使用type可以看到类型
 
 >>> len( s1 )
 4
 >>> s1
 u'/xb2/xe2/xca/xd4'
 

注:虽然同样是4个中文,但由于在引号前加上了“u”标识,实际上是把两个中文拆成4个字节都独立的unicode字符了,所以我们看到的长度是4,而不是预想中的2。至于怎么把“s = "测试"”的字符串转成unicode字符,请看后面的说明。


在3.0中,所有的引号里面的字符默认都是unicode str(虽然使用type的时候显示的是str),也就是说,3.0中的 str 类型等于2.5的 unicode 类型,而在3.0中存在一个专门用于表示单字符类型字符串的类————即2.5中的 str 类型。
因为在3.0中默认所有字符串都是 unicode,因此在3.0中已经不存在“u”的前缀标识,也就是说,在2.5中,以下的语法在3.0中是不存在的。

 >>> u"测试" # 2.5中,这个能正常运行
 u'/xb2/xe2/xca/xd4'

 >>> u"测试" # 3.0中,这个将会产生一个语法错误
 SyntaxError: invalid syntax

当然,为了让我们能在3.0中直接生成单字符字符串,在3.0中出现了一个在2.5中不存在的新的语法——在引号前加“b”——b"test string",但需要注意的是,这个语法只适用于英文字符,如果想把它应用到中文字符上,是会产生异常的。

 >>> b"test string" # 对于英文字符,一切ok
 b'test string'

 >>> b"测试"  # 对于中文字符,语法错误
 SyntaxError: bytes can only contain ASCII literal characters.
 

与2.5不同,在3.0中,虽然bytes类型仍然是一个不可修改的实例,但bytes类型不再被视为 string,而是被视为 array of byte,或者说,它更接近于 c 语言中的 char * 类型。

在以下的例子中,我们会发现bytes类型的每一个字节,都是以 int 的形式表现,而非 str 的形式:

 >>> for e in b"test string": print( e, "->", type( e ) )
 116 ->
 101 ->
 115 ->
 116 ->
 32 ->
 115 ->
 116 ->
 114 ->
 105 ->
 110 ->
 103 ->
 

那么,我们在3.0中怎么对 unicode <-> bytes 进行互相转换呢?答案是用unicode.encode()和bytes.decode()函数。
我们来看看以下的两个互换的例子:

 >>> "测试".encode( "gb18030" )
 b'/xb2/xe2/xca/xd4'

 >>> b'/xb2/xe2/xca/xd4'.decode( "gb18030" )
 '测试'

不同于2.5中的 str 和 unicode两者都存在encode()和decode()方法,在3.0中,str仅有encode()方法,而bytes则仅有decode()方法,这个明显比2.5更容易让人理解,而且不象2.5中的 str 和 unicode 那样让人容易搞混——很多人一开始的时候都不知道什么时候应该用encode(),又什么时候应该decode()。

说起2.5中的str 和 unicode两者都存在的encode()和decode()方法,如果懂用了确实也能简化很多复杂的操作,例如我们在一开始就提到的下面的语句:

 >>> s1 = u"测试" # 这个是unicode类型的字符串
 >>> s1
 u'/xb2/xe2/xca/xd4'

在这种情况下,得出的这个结果虽然是一个unicode字符串,但很显示它并不是我们想要的东西,因为实际上 s1 是一个长度为4的unicode字符串,而非我们原来预想中的长度为2的unicode字符串,在这种情况下,我们怎么转换成正确的中文字符呢?在2.5中可以用以下的方法:

 >>> s1.encode("latin1")
 '/xb2/xe2/xca/xd4'
 >>> print _
 测试

而下面则是一些在2.5中很有意思的用法:

 >>> "测试"
 '/xb2/xe2/xca/xd4'

 >>> "测试".encode( "hex" )
 'b2e2cad4'

 >>> 'b2e2cad4'.decode("hex")
 '/xb2/xe2/xca/xd4'

但是,在3.0中,由于明确了encode()和decode()的归属(用法),所以上面的例子在3.0中肯定是无法使用的,但我们仍然可以在3.0中实现与2.5一样的效果:

 >>> import binascii
 >>> "测试".encode( "gb18030" ) # 把“测试”两字从unicode转为bytes
 b'/xb2/xe2/xca/xd4'
 >>> binascii.b2a_hex( _ ) # 把二进制的bytes转为可见的ascii字符
 b'b2e2cad4'
 >>> binascii.a2b_hex( _ ) # 上面行为的逆操作
 b'/xb2/xe2/xca/xd4'
 >>> _.decode( "gb18030" ) # 再把bytes转为unicode
 '测试'

你可能感兴趣的:(不一样的str,python 3.0 与 python 2.5 的 str 类型比较笔记)