python编码问题错误处理

在做爬虫后处理语料实现BSBI算法索引程序遇到的问题

python打开或者写入txt时遇到的问题

问题集合:

UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte

gbk的问题是在默认的gbk编码方式和文档自身冲突,

open(filename)
open(filename,'w')

改为

open(filename,encoding='utf-8')
open(filename,'w',encoding='utf-8')

utf-8的问题在文档打开写入都可能出现,找到一个很有效的方法;

打开你的txt文档,另存为————底部有个 编码(E):ANSI ————改为utf-8编码即可

 

建议open(filename)后无论是r还是w都加一句encoding='utf-8',并把txt的编码也改为utf-8

你可能感兴趣的:(python)