python读取文本文件报错:UnicodeDecodeError

问题描述:爬虫从网络上爬取的 HTML 文件中含有一段疑似乱码的文字(应该是由于转换编码格式导致的乱码),在使用 python 读取改文件时尝试使用了多种编码格式,均报错。

环境:python3.8.0

乱码片段

使用 Notepad ++ 打开后右下角显示编码格式为 GB2312,但使用代码读取时依然报错:

读取代码
报错信息
尝试其它编码方式-GBK
尝试其它编码方式-utf-8

后来发现在 Windows 下使用 ANSI 竟然可以正常读取,但是查询电脑默认编码格式:

C:\Users\Administrator>chcp

活动代码页: 936

936 即代表 GBK,但直接使用 GBK 去读取却仍然报错,这点让我困惑,而且我最终使用环境为 Linux, 就没有再追下去。

最后的解决方式:

你可能感兴趣的:(python读取文本文件报错:UnicodeDecodeError)