最近在爬虫过程中爬下来的HTML文件中出现了不认识的字符,也就是“乱码”(之前也遇到了系统之间文件显示“乱码”的问题),花了点时间学习Python编码相关的问题,主要参考了以下几位的文章:Unicode编码底层描述,Python二进制数据,Python编码问题。故取多家之长,对“乱码”问题进行了梳理,写成比较简单易懂的总结博客。
思路是先掌握常见编码格式原理,然后弄清楚各个“系统”中编码格式和要求,最后通过代码实际演示转码结果。其中涉及到显示规则(编码软件)、存储规则、显示(打印输出规则)多方规则的不同,还涉及到不同编码之间的转化,如果没有搞懂,确实很不容易“捉虫”。
# unicode码再python里有两种表示方式,它们是等价的,而且都是str对象
#1.'\u四位十六进制数'
print('\u0065')
print("***"*8)
# 2.u'字符串'
print(u'e')
---------------------------------------------------------
输出:
e
************************
e
reqs.encoding = reqs.apparent_encoding
,把apparent_encoding的编码格式赋值给encoding。apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。在码代码的过程中,会在不同的“系统”中对文件格式进行转换,所有有必要先梳理各个“系统”中要求。主要有:
print(b'\x40\x41')#ASCII中可显示的字符串
输出为:b'@A'
情况二:按十六进制\x某某来表示:0~31及127是控制字符或通信专用字符,共33个,显示为十六进制的数\x某某,如\x00\x01。
print(b'\x00\x01')
输出为:b'\x00\x01'
情况三: ASCIII字符外,程序报错。
print(b'中')
报错:
SyntaxError: bytes can only contain ASCII literal characters.
有时候在不同的编辑界面显示’乱码‘,是因为不能直接转码输出(系统之间默认的码表格式与输出界面之间码表格式不匹配),需要经过unicode为中介,才能正确输出。
4.代码文件编码
代码文件(py文件)本身也是一个文本,它也需要在硬盘或者其他载体上保存的文件。
Windows默认编码是系统gbk编码,macos/linux默认为UTF-8,所以py文件copy到不同平台,问题就会发生,出现“乱码”。
中文二字的显示结果
'\u4e2d\u6587'就是中文二字对应的Unicode编码
b'\xe4\xb8\xad\xe6\x96\x87'就是中文二字对应的utf-8编码
b'\xd6\xd0\xce\xc4'就是中文二字对应的gbk编码
中文二字的存储结果:
print('中文'.encode('utf-8'))
结果为:b'\xe4\xb8\xad\xe6\x96\x87'
for i in b'\xe4\xb8\xad\xe6\x96\x87':
print(i,'的二进制为:',bin(i))
结果为:
228 的二进制为: 0b11100100
184 的二进制为: 0b10111000
173 的二进制为: 0b10101101
230 的二进制为: 0b11100110
150 的二进制为: 0b10010110
135 的二进制为: 0b10000111
发现字符“中文”的utf-8编码方式为:11100100 10111000 10101101 11100110 10010110 10000111,这是它在计算机中存储的方式。
2.编码解码过程:
涉及编码问题时,需要编码与解码,第一步一定是检查变量类型,看它是str
还是btyes
,再决定使用encode
还是decode
方法
Encode()方法:将str字符(unicode对象)串按照UTF8(或GBK等)的编码规则进行编码,得到的是bytes对象。bytes对象显示规则又有不同(具体见上文)
Decode()方法:bytes(对象)按照UTF8(或GBK等)的编码规则进行解码,得到str字符(解码规则不同,得到相应的str字符也不同)。
图中说明:utf-8与gbk之间转换需要使用unicode过渡,因为utf-8与gbk之间没有直接对应的转码规则。而unicode与utf-8等有直接的转码规则。
另外,浏览网页的时候,服务器会把动态生成的 Unicode 内容(有时候为gbk编码,需要自己手动转码,不然会报错),转化为 UTF-8 编码形式,再传输到浏览器,那么用户就可以看到自己能理解的语言组成的网页,比如中文、日文、韩文等等。很多网页的源代码上会有类似的信息,表示该网页是 UTF-8 编码。
常见报错,有位知乎大佬常见报错总结的比较好,稍加整理后如下:
AttributeError: 'str' object has no attribute 'decode'
AttributeError: 'bytes' object has no attribute 'encode'
上面的报错可以又下面的代码导致
a = '中文'
b = a.encode('GBK')
a.decode()
b.encode()
原因在于:
a是str类型,对应Unicode编码,只能encode不能decode
b是bytes类型,对应UTF-8编码,只能decode不能encode。
所以码表解码的时候要分清是对象类型。另外,考虑到输出(print打印)的结果意义(需要人能正常解读),我们从来不需要输出UTF-8等编码后的内容即bytes,我们要输出的永远都是str,所以不要把encode后的结果输出出来,没有任何意义。
2.字符集没有包含当前字符造成编码错误。
之前提到的UTF-8/GBK等编码,都对应字符集,即这种编码方式支持对哪些字符编码,UTF-8就支持所有字符,GBK对韩文就不支持,ASCII就不支持中文。
我们在python中输入各国文字都可以,因为Unicode是支持任意字符的。当把字符转化为一些不支持它的编码时,就会报错,示例如下:
ASCII中文:
>>>a = '中文'
>>> a.encode('ascii')
Traceback (most recent call last):
File "" , line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
GBK韩文
>>> a = '오빠-o bba'
>>> a.encode('GBK')
Traceback (most recent call last):
File "" , line 1, in <module>
UnicodeEncodeError: 'gbk' codec can't encode character '\uc624' in position 0: illegal multibyte sequence
3.二进制数据编码方式和解码方式不统一造成报错
对于一个字符集来说,每一个字符都对应着二进制数据,但是不能说这么多位的二进制数每个都对应一个字符。所以一个字符通过A编码变成的二进制数,可能在B编码中并不对应一个字符,此时用B来解码就会报错,因为找不到这样的字符
>>> a = '中文'
>>> b = a.encode('utf-8')
>>> b.decode('gbk')
Traceback (most recent call last):
File "" , line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal multibyte sequence
4.二进制数据编码方式和解码方式不统一造成乱码
和上一点相似,A编码变成的二进制数,可能在B编码中正好对应着字符,但是这个字符肯定和A中对应的字符不一样了,很有可能是一些我们平时没见到过的,被我们称之为乱码,例子如下:
>>> a = '方法'
>>> b = a.encode('utf-8')
>>> b.decode('gbk')
'鏂规硶'
5.windows命令行中产生的额外错误
(这个地方我没有完全懂,有大佬懂得话帮忙解释下,特别是模式二的情况)
有时候会用windows下使用交互模式的python,有时会编写py文件在命令行中调用。这两种情况下代码运行结果都会直接打印在命令行窗口中。输出(打印)在命令行窗口的结果可能会和在jupyter中结果不同。
在网上copy了一些奇怪的文字(这是奥里亚语),在几种不同的模式下出现的结果:
在jupyter notebook中使用是可以正常返回结果的,在IDLE交互模式下也是可以返回正常结果的。
a = 'ଆପଣ କିପରି ଅଛନ୍ତି'
print(a)
# ଆପଣ କିପରି ଅଛନ୍ତି
模式一: py文件在命令行中调用 ,如果在python文件,如file1.py文件中输入上面两行代码,在cmd中输入python file1.py,会得到如下结果
Traceback (most recent call last):
File "1.py", line 2, in <module>
print(a)
UnicodeEncodeError: 'gbk' codec can't encode character '\u0b06' in position 0: illegal multibyte sequence
模式二:交互模式 如果是在cmd的python交互模式下使用是这样的(其中那个赋值的文字还显示的是方框)
>>> a = 'ଆପଣ କିପରି ଅଛନ୍ତି'
>>> print(a)
??? ????? ??????
分析模式一的情况:
从报错内容上来看,和模式二一样,可以看出这里相当于执行了a.encode(‘GBK’)(windows内部自动转换),但是实际上我们的程序只是打印了,根本没涉及到编码解码的问题。这是因为默认情况下,cmd显示字符是通过GBK来显示的,也就是会自动把字符先转化为GBK的二进制数,再用这些二进制数对应字符显示在屏幕上,所以这个屏幕只支持GBK字符集收录的字符,有不属于这个字符集的字符想显示就会报这个错误。
解决方法:先在cmd中输入chcp 65001,这样会clear之前所有命令,好像一个新的界面一样,然后再python 1.py,理论上就可以正常输出了,不过还是没完全正常。
输出的是一堆方框,但是将这些方框复制下来,粘贴到jupyter里显示的是正确的字符。说明其实打印出来的是正确的,只是在cmd中无法显示而已,这和cmd的字体有关。点击左上角图标-属性,修改字体,不过这个语言实在太偏,没有一个字体可以将其正常显示。
类似地,拿希伯来文עברית做实验,在consolas字体下也显示不出来,复制到jupyter时也是正常的,这个情况就和刚才完全一样了,字体换成courier new就发现可以正常显示了,说明显示方框确实是字体问题。
回过头来,讲一下chcp命令。chcp指代码页,具体其实不用懂,默认是chcp936,对应编码方式是中文简体GBK,而chcp65001对应的是UTF-8,更多代码页见这个链接Windows下的chcp命令(更改该控制台的活动控制台代码页)
分析模式二的情况
上面(离这里最近的那个代码块)展示的代码是直接从cmd中复制过来的,从复制结果来看,原来显示方框的在这里是正常显示的,在cmd中无法显示是因为字体无法显示;而下面?是真的没编码正确。其实问题和第一种情况是一样的。
在默认的chcp936下,字符需要先编码为GBK才能print在屏幕上,而这一步编码是失败的,所以显示的是问号,这里没有报错是和第一种的一种点差别,但是本质上是一样的。
对于方框显示问题,因为没有合适的字体,可以再拿希伯来文עברית做实验来加深理解。我们是不是直接将字体换了就可以正常显示了呢,其实也不是。因为在chcp936的情况下,是没有刚才的字体的,只有切换到chcp65001下才有可以显示的字体。
问题5的总结:
其实在windows中出现的问题就两种:
一种是由于chcp代码页的显示,会有隐藏着的编码过程,这个过程可能引起编码错误。
一种是cmd中支持的字体限制,有些字体无法正常显示一些字符,让人看起来像乱码。
# gbk转utf8
def gbkfileToUtf8(inFilePath, outFilePath):
with open(inFilePath, 'rb') as f1:
a = f1.read()
b = a.decode('gbk', 'ignore')#将GBK转化成Unicode
with open(outFilePath, 'w', encoding='utf8') as f2:
f2.write(b)#将Unicode转化成UTF8
print("转化完成")
# utf8转gbk
def utf8fileToGbk(inFilePath, outFilePath):
with open(inFilePath, 'rb') as f1:
a = f1.read()
b = a.decode('utf8', 'ignore')#将utf8转化成Unicode
with open(outFilePath, 'w', encoding='gbk') as f2:
f2.write(b)#将Unicode转化成gbk
print("转化完成")
2.爬虫网页过程中的编码:URL编码
由于URL 只能使用 ASCII 字符集 通过因特网进行发送,同时非ASCII格式的字符都有一个unicode的编码(毕竟它是包含世界上所有字符的编码)。通过encoding='utf-8’等,转化成服务器(默认utf8)可以接受的编码结果,这个结果也是ASCII字符集内的,所以编码后就可以通过因特网传输了。不得不再一次感叹:chatGPT太香了,比炸鸡烤串都香~
通过代码进行验证chatGPT的过程:
a= "你"
s = a.encode("utf8")
type(s),s
输出为:(bytes, b'\xe4\xbd\xa0')---跟chatGPT里面的分析过程一样。
urlib中字符的编码解码过程:使用unquote/quote函数编解码。如下:
from urllib.parse import unquote
kw = '%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88'
kw = unquote(kw,encoding ='utf-8',errors ='replace')) # 将URL编码的字符串转换为汉字
print(kw) # 输出:数据分析师
花了不少时间总结这个Python编码问题(不管是文件传输还是爬虫解析),也算基本搞懂了编码解码的问题(win平台下没有完全搞懂)。
总结来看,
最后,感谢我参考过的各位大佬!