PS:这个解决方法可能很简单,但是这是平时的一些细节问题,所以有必要提醒一下!
首先代码不多,就是通过get方法去获取豆瓣首页信息,如图:但是会报UnicodeEncodeError: 'gbk' codec can't encode character '\u2122' in position 42358: illegal multibyte sequence错误
其中,r.encoding是获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1, 一般那些不规范的页面往往有这样的问题.,所以这种方法可能获取编码不准确。
那么r.apparent_encoding就是获取网站真实的编码,apparent_encoding通过调用chardet.detect()来识别文本编码。
解决方法:
以PyCharm为例按如下路径:file→settings→Editor→File Encodings→Project Encoding进行设置,如图:
推荐看一下我以前的文章:Pycharm有必要改的几个默认设置项
欢迎与我一起学习!