爬虫入门之路漫漫(1):scrapy

items.py:定义需要获取的内容字段,类似于实体类。Item是用来装载抓取数据的容器,和Java里的实体类(Entity)比较像

pipelines.py:项目管道文件,用来处理Spider抓取的数据。

settings.py:项目配置文件

spiders:放置spider的目录

Spider是整个项目中最核心的类,在这个类里我们会定义抓取对象(域名、URL)以及抓取规则。Scrapy官方文档中的教程是基于BaseSpider的,但BaseSpider只能爬取给定的URL列表,无法根据一个初始的URL向外拓展。不过除了BaseSpider,还有很多可以直接继承Spider的类,比如scrapy.contrib.spiders.CrawlSpider。

XPath 是一门在 XML 文档中查找信息的语言,但它也可以用在HTML中。下表列出了常用表达式。

爬虫入门之路漫漫(1):scrapy_第1张图片

存储数据

爬虫获取到数据以后我们需要将其存储到数据库中,之前我们提到该操作需要靠项目管道(pipeline)来处理,其通常执行的操作为:

清洗HTML数据

验证解析到的数据(检查项目是否包含必要的字段)

检查是否是重复数据(如果重复就删除)

将解析到的数据存储到数据库中


爬取多页。get

你可能感兴趣的:(爬虫入门之路漫漫(1):scrapy)