使用pycharm爬取网页数据时,遇到的问题小结

使用pycharm爬取网页数据时,遇到的问题小结:
1.跟着爬虫教程爬取网页信息时,运行之后控制台显示中文时乱码

英文部分显示正常,中文部分乱码:
使用pycharm爬取网页数据时,遇到的问题小结_第1张图片
方法:修改编码方式,将Global encoding/project encoding以及下方的default encoding修改为UTF-8
使用pycharm爬取网页数据时,遇到的问题小结_第2张图片
如果还是显示乱码,可以在头部加一行代码:

# -*- encoding:utf8 -*-

如果还是解决不了,可以尝试加一段强制编码格式的代码:

 response = requests.get(url)
  if response.status_code == 200:
          response.encoding='utf-8'
          return response.text
        return None
    except RequestException:
        return None

爬取页面时,如果使用requests.get方法,会被服务器拒绝访问,此时可以添加一个headers头

 headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/51.0.2704.63 Safari/537.36'}
        response = requests.get(url,headers=headers)

至此,网页内容爬取成功。(上述解决方法是查阅其他大佬的博客解决的,此博客主要是为了记录解决问题的过程)

你可能感兴趣的:(使用pycharm爬取网页数据时,遇到的问题小结)