Xpath语法

一、选取节点

常用的路径表达式:

表达式 描述 实例
nodename 选取nodename节点的所有子节点 xpath(’//div’) 选取了div节点的所有子节点
/ 从根节点选取 xpath(’/div’) 从根节点选取div节点
// 选取所有的当前节点,不考虑他们的位置 xpath(’//div’) 选取所有的div节点
. 选取当前节点 xpath(’./div’) 选取当前节点下的div节点
.. 选取当前节点的父节点 xpath(’…’) 回到上一个节点
@ 选取属性 xpath(’//@class’) 选取所有的class属性

二、谓语

谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点

表达式描述 用法说明
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

三、通配符

Xpath通过通配符来选取未知的XML元素

表达式 描述 用法 说明
* 匹配任何元素节点 xpath(/div/*) 选取div下的所有子节点
@* 匹配任何属性节点 xpath(/div[@*]) 选取所有带属性的div节点
node() 匹配任何类型的节点 xpath(//div[@class=’tb_cls’]).node() 选择标签为div且类属性为tb_cls的所有标签

四、取多个路径

使用“|”运算符可以选取多个路径

用法 说明
xpath(//book/title |//book/price)
xpath(//book/(title|price))
选取 book 元素的所有 title 和 price 元素。
xpath(//title|//price) 选取文档中的所有 title 和 price 元素

五、Xpath轴

轴可以定义相对于当前节点的节点集

表达式 描述 用法 说明
ancestor 选取当前节点的所有先辈(父、祖父等) xpath(//div[@id=’123’]/ancestor::*) 选择标签为div且ID号为123的所有先辈标签
ancestor-or-self 选取当前节点的所有先辈(父、祖父等)以及当前节点本身 xpath(//div[@id=’123’]/ancestor-or-self::*) 选择标签为div且ID号为123的所有先辈标签且包含自己
attribute 选取当前节点的所有属性 xpath(//div[@id=’123’]/attribute::class) 选择标签为div且ID号为123的类属性名称
child 选取当前节点的所有子元素 xpath(//div[@id=’123’]/child::book) 选择标签为div且ID号为123的所有子元素的为book 节点
descendant 选取当前节点的所有后代元素(子、孙等) xpath(./descendant::*) 返回当前节点的所有后代节点(子节点、孙节点)
following 选取文档中当前节点结束标签后的所有节点 xpath(./following::*) 选取文档中当前节点结束标签后的所有节点
parent 选取当前节点的父节点 xpath(./parent::*)选取当前节点的父节点
preceding 选取文档中当前节点的开始标签之前的所有节点 xpath(//div[@id=’123’]/preceding::*)选择标签为div且ID号为123的开始标签之前的所有节点
preceding-sibling 选取当前节点之前的所有同级节点 xpath(//div[@id=’123’]/preceding-sibling::*) 选择标签为div且ID号为123的之前的所有同级节点
self 选取当前节点 xpath(./self::*) 选取当前节点

六、XPath 运算符

表达式 描述 用法 说明
+ 加法 6 + 4 10
- 减法 6 - 4 2
* 乘法 6 * 4
div 除法8 div 4 2
= 等于 price=9.80 如果 price 是 9.80,则返回 true。
如果 price 是 9.90,则返回 false。
!= 不等于 price!=9.80 如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
< 小于 price<9.80 如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
<= 小于或等于 price<=9.80 如果 price 是 9.00,则返回 true。
如果 price 是 9.90,则返回 false。
> 大于 price>9.80 如果 price 是 9.90,则返回 true。
如果 price 是 9.80,则返回 false。
>= 大于或等于 price>=9.80 如果 price 是 9.90,则返回 true。
如果 price 是 9.70,则返回 false。
or price=9.80 or price=9.70 如果 price 是 9.80,则返回 true。
如果 price 是 9.50,则返回 false。
and price>9.00 and price<9.90 如果 price 是 9.80,则返回 true。
如果 price 是 8.50,则返回 false。
mod 计算除法的余数 5 mod 2 1

七、功能函数

使用功能函数能够更好的进行模糊搜索

函数 用法 解释
starts-with() xpath('//div[starts-with(@id, "ma")]') 选取id值以ma开头的div节点
contains() xpath('//div[contains(@id, "ma")]') 选取id值包含ma的div节点
and xpath('//div[not(contains(text(), "广告")) and text()]') 选取class值不包含“广告”和有内容的div节点
text() xpath('//div[contains(text(), "ma")]') 选取节点文本包含ma的div节点
not() xpath('//div[not contains(text(), "广告")]') 选取节点文本不包含广告的div节点
node() xpath('//div[not(node())]') 选取div内容为空的div节点

常见用例

# 通过绝对路径定位元素(不推荐!)
WebElement ele = driver.findElement(By.xpath("html/body/div/form/input"));
# 通过相对路径定位元素
WebElement ele = driver.findElement(By.xpath("//input"));
# 使用索引定位元素,第一个元素从1开始,而不是0
WebElement ele = driver.findElement(By.xpath("//input[4]"));
# 使用XPATH及属性值定位元素
WebElement ele = driver.findElement(By.xpath("//input[@id='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit'][@name='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit' and @name='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit' or @name='fuck']"));
# 使用XPATH及属性名称定位元素
# 元素属性类型:@id 、@name、@type、@class、@tittle
# 查找所有input标签中含有type属性的元素
WebElement ele = driver.findElement(By.xpath("//input[@type]"));

# 部分属性值匹配
# 匹配id以fuck开头的元素,id='fuckyou'
WebElement ele = driver.findElement(By.xpath("//input[start-with(@id,'fuck')]"));
# 匹配id以fuck结尾的元素,id='youfuck'
WebElement ele = driver.findElement(By.xpath("//input[ends-with(@id,'fuck')]"));
# 匹配id中含有fuck的元素,id='youfuckyou'
WebElement ele = driver.findElement(By.xpath("//input[contains(@id,'fuck')]"));

# 使用任意值来匹配属性及元素
# 匹配所有input元素中含有属性的值为fuck的元素
WebElement ele = driver.findElement(By.xpath("//input[@*='fuck']"));

元素定位总结

# 注:本专题只介绍Python版
# By id
WebElement ele = driver.findElement(By.id());
# By Name
WebElement ele = driver.findElement(By.id());
# By className
WebElement ele = driver.findElement(By.className());
# By tabName
WebElement ele = driver.findElement(By.tagName());
# By linkText
WebElement ele = driver.findElement(By.linkText());

# By partialLinkText
# 通过部分文本定位连接
WebElement ele = driver.findElement(By.partialLinkText());

# By cssSelector
WebElement ele = driver.findElement(By.cssSelector());

# By XPATH
WebElement ele = driver.findElement(By.xpath());

id 获取id 的属性值
starts-with 顾名思义,匹配一个属性开始位置的关键字 – 模糊定位
contains 匹配一个属性值中包含的字符串 – 模糊定位
text() 函数文本定位
last() 函数位置定位

参考

https://www.cnblogs.com/unknows/p/7684331.html
https://my.oschina.net/jhao104/blog/639448
https://www.w3.org/TR/xpath/all/
http://doc.scrapy.org/en/0.14/topics/selectors.html

你可能感兴趣的:(python,selenium,xpath)