在做爬虫后处理语料实现BSBI算法索引程序遇到的问题
python打开或者写入txt时遇到的问题
问题集合:
UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence
'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte
gbk的问题是在默认的gbk编码方式和文档自身冲突,
把
open(filename)
open(filename,'w')
改为
open(filename,encoding='utf-8')
open(filename,'w',encoding='utf-8')
utf-8的问题在文档打开写入都可能出现,找到一个很有效的方法;
打开你的txt文档,另存为————底部有个 编码(E):ANSI ————改为utf-8编码即可
建议open(filename)后无论是r还是w都加一句encoding='utf-8',并把txt的编码也改为utf-8