Scrapy学习——基础讲解

技术选型

  • 采用基于twisted的scrapy框架

框架特点

  • 异步io且基于c的scrapy性能比beautifulsoup好很多
  • scrapy方便扩展并提供了css xpath selector 比较方便使用

scrapy使用

  • 创建scrapy工程
scrapy startproject ArtcleSpider(自定义名称)
  • 以basic模板创建基础工程
cd ArtcleSpider
scrapy genspider example example.com

http://tj.offcn.com/html/2017/08/76573.html

  • 进入scrapy调式模式
scrapy shell xxxxx('网址')

进入调式模式之后,可以给一个变量赋值

eg:
title = response.xpath('.// *[ @ id = 'post-92238'] / div[1] / h1/text()')
title
#打印title获得
[]
title.extract()得到一个数组
提取数组
title.extract()[0]

xpath

  • 特点:
    xpath使用路径表达式,支持w3c标准,包含标准函数库

  • 语法:
    主语

article       选取所有article元素的所有子节点
/article      选取根元素acticle
article/a     选取所有属于article的子元素的a元素
//div         获取所有div子元素(不论出现在文档任何地方)、
article//div  选取所有属于article元素的后代的div元素,不管出现在article之下的任何位置
//@class      选取所有名为class的属性

谓语

/article/div[1]            选取属于article子元素的第一个div元素
/article/div[last()]       选取属于article子元素的最后一个div元素
/article/div[last()-1]     选取属于article子元素的倒数第二个div元素
//div[@lang]               选取所有拥有lang属性的div元素
//div[@lang='eng']         选取所有lang属性为eng的div元素   

其他

/div/*               选取属于div元素的所有节点
//*                  选取所有元素
//div[@*]            选取所有带属性的title元素
//div/a|//div/p      选取所有div元素的a和p元素
//span|//ul          选取文档中的span和ul元素
article/div/p|//span    选取所有属于article元素的div元素的p元素,以及文档中的所有span元素
  • 通过浏览器获取xpath
    chrome浏览器下,打开开发者模式
    找到对应的DOM元素
Scrapy学习——基础讲解_第1张图片
image.png

你可能感兴趣的:(Scrapy学习——基础讲解)