xpath用于定位网页元素,可以理解为选择器.
在python里可以使用正则表达式,BeautifulSoup,xpath,css选择想要的html元素
这里先介绍下xpath的使用,目前比较倾向使用xpath
xpath使用非常简单啦,
例子:中国天气网http://www.weather.com.cn/weather1d/101020100.shtml#search
要选取html元素,就先观察分析html页面:
假如我们要选取城市名称,在html里找找,打开网页按F12使用开发者界面,如上图.
在开发者模式下可以看到html界面元素和代码的映射,方便查找.
------------------------------------------------------------------------------------
下面我们获取html里的信息:
In [1]: response.xpath("//div[@class='crumbs fl']/span[2]/text()")
Out[1]: []
In [2]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract_first()
Out[2]: '城区'
In [3]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract()
Out[3]: ['城区']
In [4]: response.xpath("//div[@class='crumbs fl']/a/text()").extract_first()
Out[4]: '上海'
可以看到xpath是依靠路径path来定位元素,
span[2]表示这个class='crumbs f1'的div下的第二个span块
如果这个div块下只有一个span则直接span即可
例如div块下只有一个a标签则直接用"//div[@class='crumbs fl']/a/text()"来选取.
----------------------------------------------------------------------------------
补充:xpath获取标签属性:
使用@就行: