python报错“UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte:invalid start byte“的解决方案

用python读取txt文件时,有时会报这样的错误。

import re
f = open('chapter1.txt','r')
txt = f.read()
f.close()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 1996: invalid start byte

这是因为读取的txt没有用utf-8编码。
可以用两种解决方案。
有一种方案是将f = open(‘chapter1.txt’,‘r’)里面的r改成rb。
r是读取文件,rb是以二进制的形式进行读取。

import re
f = open('chapter1.txt','rb')
txt = f.read()
f.close()

这样就不会报错了。
但是如果要做进一步处理。比如用正则表达式去除小说里的标点符号。

import re
f = open('chapter1.txt','rb')
txt = f.read()
f.close()
txt = txt.lower()
txt = re.sub('[,.?:"\'!-]', '', txt)

又会报另一个错误。
TypeError: cannot use a string pattern on a bytes-like object

TypeError: cannot use a string pattern on a bytes-like object

我们可以把那个txt文件另存为的时候改成utf-8格式,这样就可以解决这个问题。当然读取改完之后,读取那里也要由rb改成r。

import re
f = open('chapter1.txt','r')
txt = f.read()
f.close()
txt = txt.lower()
txt = re.sub('[,.?:"\'!-]', '', txt)

这样就可以运行了。

你可能感兴趣的:(python)