北京理工大学-Python网络爬虫与信息提取学习笔记09

pip install Scrapy安装

Scrapy不是一个函数功能库,而是一个爬虫框架
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品,能帮助用户实现专业网络爬虫
有5个主要模块,SPIDERS、ENGINE、SCHEDULER、DOWNLOADER、ITEM PIPELINE
其中用户需要编写配置的是SPIDERS和ITEM PIPELINES,剩下三个已有实现

Scrapy爬虫框架解析
ENGINE是所有模块的核心,控制所有模块之间的数据流
DOWNLIADER:根据请求下载网页
SCHEDULER:对所有爬取请求进行调度管理
Downloader Middlerware:实施ENGINE、SCHEDULER和DOWNLOADER之间进行用户可配置的控 制,修改、丢弃、新增请求或相应。用户可以编写配置编码
SPIDER:解析DOWNLOADER返回的响应,产生爬取项,产生额外的爬取请求
ITEAM PIPELINES:以流水线方式处理SPIDER产生的爬取项。由一组操作顺序组成。类似流 水线,每个操作是一个ITEM PIPELINE类型 。可能操作包括:qingli、检 验和查重爬取项中的HTML数据、将数据存储到数据库
Spider Middleware:对请求和爬取项的再处理,修改、丢弃、新增请求或爬取项,用户可 编写

Requess库和Scrapy爬虫的比较
相同点
两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线
两者可用性好,文档丰富,入门简单
两者都没有处理js、提交表单、应对验证码等功能(可扩展)

不同点

requests Scrapy
页面级爬虫 网站级爬虫
功能库 框架
并发性考虑不足,性能较差 并发行好,性能较高
重点在于页面下载 重点在于爬虫结构
定制灵活 一般定制灵活,深度定制困难
上手十分简单 入门稍难

Scrapy爬虫的常用命令(cmd命令 scrapy -h可查看)

格式:scrapy [ options ] [ args]

startproject 创建一个新工程 scrapy startproject[dir]
settings 获得爬虫配置信息 scrapy settings[options]
list 列出工程中所有爬虫 scrapy list
crawl 运行一个爬虫 scrapy crawl
genspider 创建一个爬虫 scrapy genspider[options][domain]
shell 启动URL调试命令 scrapy shell[url]

ps:学习链接 https://www.icourse163.org/learn/BIT-1001870001?tid=1206951268#/learn/announce

你可能感兴趣的:(python)