python乱码怎么办_Python爬虫结果是乱码怎么办?带你了解乱码的原因及其解决办法...

学习python爬虫的小伙伴们,肯定都会遇到过乱码的问题,并为此问题感到十分发愁,今天就带大家了解一下如何解决中文乱码问题。

大家肯定都会使用python+request库+bs4库进行简单的爬虫了,我们在开开心心的拿着爬虫得到的文本想要进一步加工分析的时候,看到乱码总是让人头疼。其实,遇到中文乱码可以考虑以下几个方面:

python乱码怎么办_Python爬虫结果是乱码怎么办?带你了解乱码的原因及其解决办法..._第1张图片

第一个,是否已经设置页面的编码格式。在request库中,我们发送一个请求链接,返回给我们一个response对象。当我们使用python爬虫访问的那个页面没有在头部声明编码格式的时候,这个时候我们python爬虫的结果会默认其编码格式为ISO-8859-1(虽然实际上或许并不是这个编码,但是python最后会认为是这个编码格式,一般服务器的默认编码也是ISO-8859-1。)所以,我们需要在python代码中重新设置页面的编码格式,即对response.encoding属性手动设置为UTF-8编码。

小伙伴可能很细心的设置了页面的编码格式,但是看到python爬虫结果依旧还是乱码。这个时候,可能会是python与bs4库的编码冲突问题。

python乱码怎么办_Python爬虫结果是乱码怎么办?带你了解乱码的原因及其解决办法..._第2张图片

第二个,使用的版本是否是python3版本。有很多小伙伴很早就使用了python,早期使用的都是python2版本,但是python2版本和bs4会存在编码冲突,因为其默认编码格式不一样。bs4库的默认编码格式是UTF-8,python2版本默认编码是ASCII编码,因此会造成中文显示乱码的问题。然而,python3的默认编码格式是UTF-8,因此,升级python版本就好了,这样还会为以后省下不少麻烦事。

你可能感兴趣的:(python乱码怎么办)