Python3网络爬虫开发实践读书笔记 --- 第十二章 Pyspider框架的应用

这一系列文章是我在阅读“Python3网络爬虫开发实践”一书以及其他线上资料学习爬虫过程中的一些笔记和心得,希望能分享给大家。

章节概述:网络爬虫系统pyspider框架 (http://docs.pyspider.org/en/l...

章节结构

  • 基本功能
  • 与Scrapy对比
  • pyspider架构
  • 如何使用

具体内容:

  • 基本功能

提供易用的WebUI系统,可视化编写和调试爬虫
提供爬取进度监控,结果查看分析等功能。
支持多种后端数据库,Ex.MySQL,MongoDB,Redis等。
支持多种消息队列
提供优先级控制,失败重试,定时抓取等功能
对接了PhantomJS,可以抓取JS界面
支持单机和分布式部署,支持Docker部署

  • 与Scrapy对比

Pyspider适合快速开发页面爬虫,调试简单,开发配有图形界面,scrapy可扩展性好,可以用于开发大型复杂的爬虫应用。

  • pyspider架构

pyspider arch.png
Sheduler发起任务调度,Fercher负责抓取网页内容,Processor负责解析网页内容。

  • 如何使用

http://docs.pyspider.org/en/l...

你可能感兴趣的:(python,网页爬虫,读书笔记)