本文记录的链接转载自csblog的sufei用户
是scrapy由浅入深的入门
基本使用
讲解了一个最简单的scrapy程序编写
命令行工具
scrapy命令行工具包括创建项目,创建spider,编辑spider,运行spider,scrapy shell等
items
item 对象是种简单的容器,保存了爬取到得数据。
spiders
爬取规则和获取的网页的信息提取规则
选择器
从HTML源码中提取数据
Item Loaders
Item Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行填充。
scrapy shell
在未启动 spider 的情况下尝试及调试你的爬取代码
pipeline
接收到 Item 并通过它执行一些行为,同时也决定此 Item 是否继续通过 pipeline,或是被丢弃而不再进行处理。
Feed exports
合适的保存爬取到的数据
Link Extractors
Link Extractors 适用于从网页(scrapy.http.Response)中抽取会被 follow 的链接的对象。
Logging
Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。
Stats Collection
方便的收集数据的机制
发送 email
发送email
Telnet 终端(Telnet Console)
Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程。Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端。因此你可以在其中做任何事。
调试(Debugging)Spiders
调试
Spider Contracts
Scrapy 通过合同(contract)的方式来提供了测试 spider 的集成方法。
Common Practices
其余信息