UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequenc

lines = open('西游记.txt').read()   # Windows 平台的默认编码是GBK

报错,已知文件编码是ANSI(GBK)

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequence

意思是'gbk'编解码器无法解码位置为575056的字节0xfe:非法多字节序列。大概是说,在575056位置的字在gbk中没有,所以解码错误。

(GB2312过时标准、GBK微软标准、GB18030国家标准。GB18030收录的汉字最多)

lines = open('西游记.txt', encoding='GB18030').read() 

这样就没有错误,应该是GB18030包含了在575056位置的字。

如果还不行,应该就是出现了GB18030也无法编码的字符,可以加上 errors='ignore'来忽略非法字符

lines = open('西游记.txt', encoding='gb18030', errors='ignore').read()

注意:

r/w 模式,可以指定编码,也可以不指定,windows下默认是gbk编码。

rb/wb模式直接读取二进制,与编码没有关系,加上就报错。(rb/wb不能与encoding共存)

你可能感兴趣的:(python报错汇总)