Python采用readline()方式读取txt,出现字符编码的相关问题

python里面字符的编码方式很多,一不小心就搞错了

尝试从txt里读取一个爬取的英文小故事,并用nltk库对词进行筛选。读取的方式是readline函数,结果再文章末尾出现了报错:
 

UnicodeDecodeError: 'gbk' codec can't decode byte 0x9d in position 33: illegal multibyte sequence

后来想了下,干脆改成utf-8编码试一试,结果更惨……直接就在第一句话被暴毙了
 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 283: invalid start byte

最后找了很久,尝试了一个如下的编码,终于解决了问题:

 

 with open(file, encoding='ISO-8859-1' ) as fin:

希望能够帮到更多的人吧

你可能感兴趣的:(琐碎的小问题)