原因分析:
读取文件时报错Unicode编码错误,一般这种情况较多是在国标码(GBK)和utf8之间选择出现了问题。这个异常报错是由于设置了参数errors默认为严格(strict)造成的,将其更改为ignore等即可。
-
方法一:在参数中添加上encoding=‘gbk’ 或 encoding=‘utf-8’ , 以及设置errors参数为errors=‘ignore’
经测试发现笔者这里两种编码格式输出的文本内容均是乱码,证明我们要打开的文本不是gbk或utf-8编码格式。
-
方法二:用笔记本打开另存为utf-8格式
-
方法三:使用docx库(推荐)
安装docx库:pip install python-docx
使用docx方法打开: