lines = open('西游记.txt').read() # Windows 平台的默认编码是GBK
报错,已知文件编码是ANSI(GBK)
UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequence
意思是'gbk'编解码器无法解码位置为575056的字节0xfe:非法多字节序列。大概是说,在575056位置的字在gbk中没有,所以解码错误。
(GB2312过时标准、GBK微软标准、GB18030国家标准。GB18030收录的汉字最多)
lines = open('西游记.txt', encoding='GB18030').read()
这样就没有错误,应该是GB18030包含了在575056位置的字。
如果还不行,应该就是出现了GB18030也无法编码的字符,可以加上 errors='ignore'来忽略非法字符
lines = open('西游记.txt', encoding='gb18030', errors='ignore').read()
注意:
r/w 模式,可以指定编码,也可以不指定,windows下默认是gbk编码。
rb/wb模式直接读取二进制,与编码没有关系,加上就报错。(rb/wb不能与encoding共存)