本人萌新,刚入门Scrapy,照着网上的视频教学中的代码自己去古诗文网爬古诗的题目、作者、超链接,代码敲好了,结果在cmd命令行用
>>scrapy crawl gushiwen
这个命令发现爬不出数据,运行也没报错,检查了几遍代码发现没问题,究竟是哪里出问题了呢?
文章说用firebug复制的xpath路径和用开发者工具复制的xpath路径有差异,于是乎我先用scrapy把原网站的源码爬下来,如图
查看源码的xpath路径,发现是这个
/html/body/div[2]/div[1]/div[2]/div[1]/span[1]
而我用浏览器访问原网站,如下图
查看xpath路径,竟然是这个
/html/body/div[3]/div[1]/div[2]/div[1]/span[1]
可以看到这两个xpath第三块斜杠”/”分割处的div下标有差异,导致了爬取数据失败(我以前用的是浏览器打开的网页的xpath路径)
先用scrapy爬下网页源码,再本地打开网页源码,用里面的xpath路径