python 爬虫 伪装浏览器_python爬虫之浏览器伪装设置

之前使用爬虫去爬取网页的时候,user-agent对应的是python自己的名字,这将会告诉网站管理员;我就是爬虫哦,我来爬取信息了,说不准就不能爬取信息了,因此,在实际操作中可以采用修改user-agent的方法,将怕从伪装成浏览器,从而不暴露自己,具体操作和演示如下:

首先导入第三方requests库和并获取url,这里以豆瓣为例,并用r.request.hedaers获取返回信息的头部信息,可以看到这里的user-agent为python-requests/2.18.4'

>>> import requests

>>> r=requests.get('http://www.douban.com/')

>>> r.request.headers

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

接下来进行替换:

>>> kv={'user-agent':'Mozilla/5.0'}

>>> r=requests.get('http://www.douban.com/',headers=kv)

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

首先构造字典:

kv={'user-agent':'Mozilla/5.0'}

然后将headers的中user-agent替换为kv的键值对,如下操作

r=requests.get('http://www.douban.com/',headers=kv)

再次获取头部信息:

r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

可以看到此时的头部信息已经替换为了Mozilla/5.0了。

以上就是伪装浏览器了

欢迎交流

你可能感兴趣的:(python,爬虫,伪装浏览器)