scrapy突破反爬虫措施

user-agent池

构建cookie池

ip代理来解决

禁用cookie,因为cookie会跟踪爬虫的访问过程。

setting.py中设置:COOKIES_ENABLED = False

自动限速:

    访问页面间隔随机

ip代理池

Tor代理:洋葱路由器

分布式下载器Crawlera : 收费内容

google cache :网页快照

scrapy设置下载延时与自动限速:

     setting.py :

      DOWNLOAD_DELAY = 2

      RANDOM_DOWNLOAD_DELAY = true

自动限速扩展:

      该扩展会根据scrapy服务器和爬取网站的负载自动限制爬取速度。

你可能感兴趣的:(scrapy突破反爬虫措施)