服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阀值,那么服务器会直接拒绝,返回一些错误信息
代理的设置、代理池的维护、付费代理的使用、ADSL拨号代理的搭建方法
代理池的基本模块:存储模块、获取模块、检测模块、接口模块
存储模块:使用redis的有序集合,用来做代理的去重和状态标识
获取模块:此模块尽量从不同来源获取,尽量抓取高匿代理,并保存到数据库
检测模块:需要定时检测数据库中的代理,根据不同的检测结果来对代理设置不同的标识
借口模块:需要用API来提供对外服务的接口,接口通过连接数据库并通过web形式返回可用代理
1.修改代理池:
将代理池检测的URL修改成需要爬取的网站,以便于把被该网站禁封掉的代理剔除掉,留下可用代理;
同时访问代理接口,接口设置为5555,访问http://127.0.0.1:5555/random
,即可获取到可用代理
2.再定义一个函数来获取随机代理:
PROXY_POOL_URL = 'http://127.0.0.1:5555/random'
def get_proxy(self):
'''从代理池获取代理'''
try:
response = requests.get(PROXY_POOL_URL)
if response.status_code == 200:
print("Get Proxy",response.text)
return response.text
return None
except requests.ConnectionError:
return None
如果为scrapy
框架,在middleware.py
中设置:
class ImageProxyMiddleware(object):
def process_request(self,request,spider):
proxy = requests.get(PROX_POOL_URL).text
request.meta['proxy'] = proxy