成功抓取豆瓣读书的所有书籍

https://book.douban.com/top250


判断是不是“ 出版年:”



//*[@id="info"]//span[@class="pl"]/text()
因为id="info"里面的 span有嵌套的span,所以:
2个//的含义: bookstore//book 选择属于 bookstore 元素后代的 所有 book 元素,而 不管 它们位于 bookstore 之下的 什么位置


译者:刘姿君
有意义的都 有属性 class="pl"


来组合行内元素,以便通过样式来格式化它们。
注释: span 没有固定的格式表现。当对它应用样式时,它才会产生视觉上的变化。
如果不对 span 应用样式,那么 span 元素中的文本与其他文本不会任何视觉上的差异。

https://www.tuicool.com/articles/iqQFBn

.xpath('string(.)')
可以取出当前节点下的所有文字内容(不包括标签内部的)

https://www.zhihu.com/question/38080188

提取出来的有空格,如何去除
strip() 把头和尾的空格去掉
a.strip()
[u' 2008-9'] 'list' object has no attribute 'strip'


Data truncated for column,这个可能是数据有空格什么的,就是格式不对。可以用strip()处理下。



https://book.douban.com/subject/3920059/
出版年:  2009年09月04日, 需要把year字段的值的长度放大一些

你可能感兴趣的:(scrapy)