Scrapy之LinkExtractor2019-03-06

如何取得列表页中的内容链接呢?方法有很多,但LE应当是最简单的一个了。
使用这个工具之前,先引入。

from scrapy.linkextractors import LinkExtractor

注意,linkextractors是个复数。
然后在程序中就可以使用了。
先用LinkExtractor确定查链方法。如:

l = LinkExtractor(restrict_xpaths='//div[@class="alist"]/ul/li/a',allow = 'shtml$')

再用extract_links()提取到一个列表中。

links= l.extract_links(response)

用.url或.txt实例之。

print(link.url,link.text)

你可能感兴趣的:(Scrapy之LinkExtractor2019-03-06)