Python3||爬虫||伪装浏览器||requests VS. urllib区别

有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,其实也很简单,就是改一下headers参数.

headers:以谷歌浏览器为例,在地址栏输入chrome://verison,复制"用户代理"下的内容就是headers

headers = {'User-Agent':'Mozilla/5.0xxxx'}

Python3||爬虫||伪装浏览器||requests VS. urllib区别_第1张图片

  • requests 与 urllib区别

爬取数据的包有两个requests和urllib。新手(比如我)经常搞混。详细解释可看我另一篇文章(传送虫洞).

requests urllib
官方文档 library 官方文档 package
import requests
headers = {‘user-agent’:‘xxxx’}
r = requests.get(url, headers = headers)
from urllib.request import urlopen,Request
headers = {‘user-agent’:‘xxxx’}
url = Request(url, headers=headers)
r=urlopen(url,timeout=10)
返回一个response对象r 返回一个response对象r

.

.

.

2018-11-25 00:42:12写于滨州

你可能感兴趣的:(#,小白学Python)