在上一篇文章中讲述了scrapy爬虫的基本步骤,但是只可爬取strat_url的数据,https://blog.csdn.net/reset2021/article/details/124449231?spm=1001.2014.3001.5502
这里继续讲述一下多个url的爬虫流程
这次以同花顺行情数据url为讲解对象,主要爬取最新的行情数据。
1)新建项目
scrapy startproject tonghuashun
2) 新建爬虫
scrapy genspider quote_data q.10jqka.com.cn
此时的start_urls如下所示。
start_urls = ['http://q.10jqka.com.cn/']
首先需要解析该网页的行情数据的总页面。
def parse(self,response):
print(self.pageNum)
if self.pageNum == 0:
num_info = response.xpath("//*[@id='m-page']/span/text()").extract()
self.total_number = int(