python环境下使用xpath

xpath用于定位网页元素,可以理解为选择器.

在python里可以使用正则表达式,BeautifulSoup,xpath,css选择想要的html元素

这里先介绍下xpath的使用,目前比较倾向使用xpath

xpath使用非常简单啦,

例子:中国天气网http://www.weather.com.cn/weather1d/101020100.shtml#search

要选取html元素,就先观察分析html页面:

python环境下使用xpath_第1张图片

假如我们要选取城市名称,在html里找找,打开网页按F12使用开发者界面,如上图.

在开发者模式下可以看到html界面元素和代码的映射,方便查找.

------------------------------------------------------------------------------------

下面我们获取html里的信息:

In [1]: response.xpath("//div[@class='crumbs fl']/span[2]/text()")
Out[1]: []

In [2]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract_first()
Out[2]: '城区'

In [3]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract()
Out[3]: ['城区']

In [4]: response.xpath("//div[@class='crumbs fl']/a/text()").extract_first()
Out[4]: '上海'

可以看到xpath是依靠路径path来定位元素,

span[2]表示这个class='crumbs f1'的div下的第二个span块

如果这个div块下只有一个span则直接span即可

例如div块下只有一个a标签则直接用"//div[@class='crumbs fl']/a/text()"来选取.

----------------------------------------------------------------------------------

补充:xpath获取标签属性:

使用@就行:

python环境下使用xpath_第2张图片

 

 

你可能感兴趣的:(Python)