爬虫:ProxyHandler实现代理ip

很多网站会检测某一段时间某个IP的访问次数,若访问次数过多,网站会禁止这个IP的访问,所以可以设置一些代理服务器,每隔一段时间换一个代理,即换一个IP继续爬取。

使用代理

1、使用ProxyHandler,传入代理构建一个handler

handler=request.ProxyHandler({'http':'223.241.78.43:8010'})

2、使用上面的handler创建一个opener

opener=request.build_opener(handler)

3、使用opener发送一个请求

resp=opener.open(url)
print(resp.read())

ProxyHandler处理器(代理):

1、代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器请求目的网站,打开服务器拿到网站的数据再转发给我们的代码。
2、http://httpbin.org:这个网站可以查看http请求的一些参数

你可能感兴趣的:(爬虫:ProxyHandler实现代理ip)