一. 相关概念:
1.字节(Byte):计算机中数据存储的基本单位,一个字节是八个位的.计算机上所有的数据都是由字节组成的
2.字符:字符是一个信息单位,是各种文字和符号的统称.
3.字符集(Characterset):是某个范围内字符的集合,不同的字符集规定了字符的个数.如ASCII,GB2312
4.字符码(code point):字符集中每个字符的数字编号
5.字符编码(character encoding):将字符集中的字符码映射为字节流的一种具体实现方案,如ASCII,UTF-8,GBK编码.某种意义上来说,字符集与字符编码有对应关系:ASCII字符集对应ASCII编码;
编码方案:
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
Unicode编码广泛用于互联网,是一种变长的字符编码.
UTF-8(8-bit Unicode Transformation Format)是最流行的一种对 Unicode 进行传播和存储的编码方式。它用不同的 bytes 来表示每一个代码点。ASCII字符每个只需要用一个byte,与ASCII的编码是一样的。所以说ASCII是UTF-8的一个子集。
GB2312是中国规定的汉字编码—简体中文的字符集编码
GBK是GB2312的扩充,兼容GB2312还能够显示繁体中文和片假名
二. 解码&编码:
编码的过程是将字符转化为字节流
解码的过程是将字节流解析为字符
三. 在开发Python程序中遇到的编码:
1. Python程序文件的编码
2. Python程序文件运行时的环境(IDE)编码
3. Python程序读取外部文件的编码
四. 解决案例:
1. 因为python2的系统默认编码是ASCII编码,因此在python2中源代码文件必须显式地指示编码类型,否则但凡代码文件中出现中文就会有乱码的现象
解决方法:
在源代码文件的首行写上: # encoding: utf-8
2.设置系统编码:
当报错类型为:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1….
解决方法:
在源代码文件上写下如下代码:
import sys
reload(sys)
sys.setdefaultencoding(“utf-8”) # 设置系统读文件是的编码是utf-8
五. decode()和encode()
1. decode():
decode 的作用是将其他编码的字符串转换成Unicode编码
如:
name.decode(“GB2312”)—表示将GB2312编码的字符串name转换成Unicode编码。
调用方式:
变量名.decode(“字符串的编码方式”)
2 encode():
encode 的作用是将Unicode编码转换成其他编码的字符串
如:
name.encode(“GB2312”)—表示将那么转换为GB2312的字符串
调用方式:
变量名.decode(“字符串的编码方式”)
(如果不输入形参,即默认该变量的编码方式是Unicode)
六. 编码识别模块chardet这里写代码片
在终端输入: pip install chardet即可安装chardet
使用案例:
from chardet import detect
a = "中文"
detect(a)
{'confidence':0.6, 'encoding':"KOI8-R"} # 表示有60%的把握a的编码是KOI8-R
七. python2的字符串类型
在python2中和字符串相关的对象类型有:str和unicode
unicode—通过encode—str
str—通过decode—unicode
str类型的字符串的编码类型可以是:ASCII,utf-8,GBK等任一类型
八. UnicodeXXXError错误的原因:
根本原因:python2在使用ASCII编码进行decode和encode的操作
当str和unicode类型的字符串混合使用时,str类型的字符串会隐式地将str转换为unicode,如果str是中文字符,就会出现UnicodeDecodeError
九. 乱码问题:
字符经过不同的编码,解码在编码的过程中使用的编码格式不一致时会出现乱码现象
避免乱码问题的最好方式就是坚持使用同一种编码格式对字符进行编码和解码操作