scrapy多个url爬虫

在上一篇文章中讲述了scrapy爬虫的基本步骤,但是只可爬取strat_url的数据,https://blog.csdn.net/reset2021/article/details/124449231?spm=1001.2014.3001.5502

这里继续讲述一下多个url的爬虫流程

这次以同花顺行情数据url为讲解对象,主要爬取最新的行情数据。

1)新建项目

scrapy startproject tonghuashun

2) 新建爬虫

scrapy genspider quote_data q.10jqka.com.cn

此时的start_urls如下所示。

start_urls = ['http://q.10jqka.com.cn/']

首先需要解析该网页的行情数据的总页面。

    def parse(self,response):

        print(self.pageNum)
        
        if self.pageNum == 0:
            num_info = response.xpath("//*[@id='m-page']/span/text()").extract()
            self.total_number = int(

你可能感兴趣的:(爬虫,爬虫,python,开发语言)