柏拉图工作室

Python爬虫进阶——Scrapy框架原理及分布式爬虫构建

1 Scrapy简介

1.1 概念

Scrapy是由Python语言开发的一个快速、高层次的屏幕抓取和web信息抓取框架，用于抓取web站点并从页面中提取结构化的数据。
Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试, Scrapy还使用了Twisted异步网络库来处理网络通讯。

Scrapy最便捷的地方在于，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。
通过scrapy框架可以实现分布式爬取。

1.2 Scrapy的优点

提供了内置的HTTP缓存,以加速本地开发。
提供了自动节演调节机制,而且具有遵守robots.txt的设置的能力。
可以定义爬行深度的限制,以避免爬虫进入死循环链接。
会自动保留会话。
执行自动HTTP基本认证。不需要明确保存状态。
可以传递登录表单。
Scrapy 有一个内置的中间件,可以自动设置请求中的引用(referrer)头。
支持通过3xx响应重定向,也可以通过HTML元刷新。
避免被网站使用的