(十一) Link Extractors

Link Extractors 是用于从网页(scrapy.http.Response )中抽取会被follow的链接的对象。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。 Scrapy 提供了 scrapy.contrib.linkextractors import LinkExtractor , 不过您也可以通过实现一个简单的接口来创建您自己的Link Extractor,满足需求。

每个LinkExtractor有唯一的公共方法是 extract_links ,其接收 一个 Response 对象, 并返回 scrapy.link.Link 对象。 Link Extractors只实例化一次,其 extract_links 方法会根据不同的response被调用多次来提取链接。

Link Extractors在 CrawlSpider 类(在Scrapy可用)中使用, 通过一套规则,但你也可以用它在你的Spider中,即使你不是从 CrawlSpider 继承的子类, 因为它的目的很简单: 提取链接。

你可能感兴趣的:((十一) Link Extractors)