七、Tencent招聘信息采集--多页面爬取数据

此项目用了两种方法爬取腾讯网的招聘信息,

第一种写法:通过拼接URL的方式,此方法不够灵活,页面数不是一成不变的。

适用场景:页面没有可以点击的请求链接,必须通过拼接url才能获取响应

第二种写法:直接从Response获取需要爬取的链接,并发送请求处理,直到链接全部提取完。

代码:

https://download.csdn.net/download/qq_34681949/10967302

 

写爬虫的流程总结:

1、scrapy startproject XXX

2、scrapy genspider xxx “http://www.xxx.com”

3、编写items.py ,明确需要提取的数据

4、编写spiders/xxx.py,编写爬虫文件,处理请求和响应,以及提取数据(yield item)编写pipelines.py ,编写管道文件,处理spider返回的item数据,比如本地持久化存储等

编写settings.py,启动管道组件ITEM_PIPELINES = {},以及其他相关设置

执行爬虫

 

你可能感兴趣的:(网络爬虫-Scrapy框架)