python的urlib库(代理&请求头)

request.Request类

如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现,比如增加一个user-agent,
示例代码:

from urllib import request,parse
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2767.400',
'Referer':'https://www.lagou.com/jobs/list_python%E7%88%AC%E8%99%AB?oquery=python&fromSearch=true&labelWords=relative',
'Connection':'keep-alive'}
data = {
'first':'true',
'pn': 1,
'kd':'python'}
req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
resp=request.urlopen(req)
print(resp.read().decode('utf-8'))

ProxyHandler处理器(代理设置)

很多网站会监测某一个段时间某个IP的访问次数过多不是正常人,他会禁用这个IP,所以需要设置代理服务器,就算IP被禁了还能继续爬。

  1. 代理的原理:在请求目的的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,在转发给我们的代码
  2. http:httpbin.rog:这个网站可以方便的查看http请求的一些参数
  3. 在代码中使用代理:
  • 使用urllib.request.ProxyHandler传入一个代理,这个代理是一个字典,字典的key依赖于代理服务器能够接受的类型,一般是http或者https,值是ip:port
  • 使用上一步创建的handler,以及request.build_opener创建一个opener对象。
  • 使用上一步创建的opener,调用open函数,发起请求
    示例代码如下:
from urllib import request
#没有使用代理url = 'http://httpbin.org/ip'# resp=request.urlopen(url)# print(resp.read())#使用代理#1.使用proxyHandler.传入代理handlerhandler = request.ProxyHandler({"http":"183.129.207.80:12085"})
#2.使用上面的handler构建一个openeropener = request.build_opener(handler)
#3.使用opener去发送请求resp=opener.open(url)
print(resp.read())

你可能感兴趣的:(python的urlib库(代理&请求头))