关于 Spider
用于从Scrapy(内部)传递过来的Response对象中,提取数据,并装进Items对象里,然后返回给Scrapy处理
项目/Spiders/
添加Spider类,如:文件名,类名,其属性name的最好一致
import scrape
class 类名(spider):
name = 类名
# ...
# ...
在命令行里,你的根目录下输入:scrapy crawl 类名
– (默认),提前写好你要分析的url,和通用的parse方法,来决定你要怎么分析URL里Response的内容
– 自定义的,写好你要分析的URL,及其对应的URL的回调函数(非parse),来不同地分析对应URL的response的内容
– 单纯的填充Item对象,并返回给Spider
– 深度的分析,Response里的其他url,然后在进一步的设计其回调函数
其他: 让你的Spider,可以接收从命令行而来的参数
其他:如何从Response的内容里,遍历快捷的获取数据
使用selector选择器
使用Scrapy内置的多种spider,来实现更多的功能
自定义自己的Spider,实现更多你想要的内容