‘gbk‘ codec can‘t decode byte 0xac in position 400623: illegal multibyte sequenc解决办法

‘gbk‘ codec can‘t decode byte 0xac in position 400623: illegal multibyte sequenc解决办法_第1张图片

 我在写代码的时候遇到了这个问题,可以推断文件是gbk无法解析的文件,我们的文本当中有中文字符(gbk表示国标)

我百度到的解决办法是将编码方式改为utf-8编码

with open('D:\文本数据分析\data\红岩.txt', 'r', encoding='utf-8') as f:

但是我的运行报错了这个问题

'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte

显然utf-8编码是不行的,改成下面这种就可以运行了

with open('D:\文本数据分析\data\红岩.txt', 'r', encoding="gb18030") as f:

现在很多读取文件默认使用utf-8来解码,但是有一些文本文件编码的时候却不一定使用的是utf-8编码,所以读取会出问题。

你可能感兴趣的:(解决运行代码时的问题,数据分析,python,中文分词,全文检索)