Python 字符串编码与转换

目录

一、Python字符串

二、字符串编码转换


一、Python字符串

(1)str类型

str字符串类型,是一种在python程序中存在的Unicode字符串,它对应Unicode字符集集(兼容ASCII表),但并不涉及采用什么样的编码方式进行存储和传输。Unicode 的学名是 "Universal Multiple-Octet Coded Character Set",简称为UCS。UCS 可以看作是 "Unicode Character Set" 的缩写。现有的Unicode表有两个版本:UCS-2和UCS-4。其中, UCS-2采用2个字节进行编码,UCS-4采用4个字节进行编码。然而,受制于 2 字节数量的限制,UCS-2 只能表示最多 65536 个字符,而UCS-4能最多可定义 100 万个以上唯一字符,完全可以涵盖一切语言所用的符号。而UTF8、UTF16和UTF32,是对存储和传输的一些优化的编码方案,在存储和传输方面它们肯定比UCS要优秀的多,这也是我们为什么不直接使用UCS编码的原因。

(2)bytes类型

bytes类型,主要用于二进制数据,包括编码的文本(如utf8编码的字符串等)。它的操作操作函数和str类型的字符串基本相同,尽在encode和decode等方法上不同。

(3)bytearray类型

bytearray类型,它是bytes类型的array变体,支持array方式的操作,类似array的一种可变量。

提示:文件的工作模式有两种,一种是文本模式,一种是二进制模式。在文本模式下,获取的内容是str类型字符串,而传输实现了编码的转换;在二进制模式下,我们处理的是原生字节串,和数据传输没有半毛钱关系。

 

二、字符串编码转换

python的字符编码转换函数很简单,只有encode和decode。其中,encode是str类型字符串的方法,而decode是bytes类型字符串的方法。

下面,看一下两者的庐山真面目。

UTF-8是Unicode的一种编码规则,是变长的。可以把一个Unicode字符编码为1到4个字节。下面是Unicode和UTF-8的转换关系。左边是16进制的Unicode,右边是2进制的UTF-8。

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

首先Python3里面的字符都是用Unicode表示的,比如我们可以查看“学”字的Unicode值如下:

In [1]: a = '学'

In [2]: ord(a)
Out[2]: 23398

In [4]: hex(ord(a))
Out[4]: '0x5b66'

也就是“学”字Python3里面用十进制表示为23398,如果转换为16进制是0x5b66。但是如果要变成bytes类型,首先需要指定转换类型,当然默认是的UTF-8,但是我们也可以选择为其他编码类型。比如:

In [7]: bytes(a, 'utf-8')
Out[7]: b'\xe5\xad\xa6'

In [8]: bytes(a, 'gb2312')
Out[8]: b'\xd1\xa7'

对a变量分别进行utf-8和gb2312编码后,得到的bytes的内容是完全不一样的,也和之前的Unicode内容不一样。所以我们把str变成bytes时是用适当的编码格式进行转换,相反,如果把bytes类型的数据转换为str,需要使用对应的编码格式转换为Unicode格式的字符。
 

参考文章:

(1)Python 中的 bytes 和 str https://blog.csdn.net/amorhuang/article/details/82502773

你可能感兴趣的:(Python笔记)