allitbooks网站爬取

目标:获取allitbooks网站的书籍信息,特别是书名和下载直链,存到cassandra或者scylla中

github主页:https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

get到所有大主题

response.css('div ul#menu-categories li a::text').extract()

allitbooks网站爬取_第1张图片
1.png

get所有的大主题url

response.css('div ul#menu-categories li a::attr(href)').extract()

allitbooks网站爬取_第2张图片
1.5.png

get database页面下的总页数:

response.css('div.pagination a::text').extract()[-1]

allitbooks网站爬取_第3张图片
2.png

get database/page/3下的所有book link,

response.css('h2.entry-title a::attr(href)').extract()

allitbooks网站爬取_第4张图片
3.png

get one book的作者,可能有多个

response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

4.png

效果图:

allitbooks网站爬取_第5张图片
5.png

遗憾的是,只爬取到143条数据。日后在诊断原因……

搜索的主键name太长,需要模糊查找!!


allitbooks网站爬取_第6张图片
clipboard.png

你可能感兴趣的:(allitbooks网站爬取)