常用的路径表达式:
表达式 | 描述 | 实例 | |
---|---|---|---|
nodename |
选取nodename节点的所有子节点 | xpath(’//div’) | 选取了div节点的所有子节点 |
/ |
从根节点选取 | xpath(’/div’) | 从根节点选取div节点 |
// |
选取所有的当前节点,不考虑他们的位置 | xpath(’//div’) | 选取所有的div节点 |
. |
选取当前节点 | xpath(’./div’) | 选取当前节点下的div节点 |
.. |
选取当前节点的父节点 | xpath(’…’) | 回到上一个节点 |
@ |
选取属性 | xpath(’//@class’) | 选取所有的class属性 |
谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点
表达式描述 | 用法说明 |
---|---|
/bookstore/book[1] |
选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] |
选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] |
选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] |
选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] |
选取所有拥有名为 lang 的属性的 title 元素。 |
//title[@lang='eng'] |
选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] |
选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title |
选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
Xpath通过通配符来选取未知的XML元素
表达式 | 描述 | 用法 | 说明 |
---|---|---|---|
* |
匹配任何元素节点 | xpath(/div/*) |
选取div下的所有子节点 |
@* |
匹配任何属性节点 | xpath(/div[@*]) |
选取所有带属性的div节点 |
node() |
匹配任何类型的节点 | xpath(//div[@class=’tb_cls’]).node() |
选择标签为div且类属性为tb_cls的所有标签 |
使用“|”运算符可以选取多个路径
用法 | 说明 |
---|---|
xpath(//book/title |//book/price) 或xpath(//book/(title|price)) |
选取 book 元素的所有 title 和 price 元素。 |
xpath(//title|//price) |
选取文档中的所有 title 和 price 元素 |
轴可以定义相对于当前节点的节点集
表达式 | 描述 | 用法 | 说明 |
---|---|---|---|
ancestor |
选取当前节点的所有先辈(父、祖父等) | xpath(//div[@id=’123’]/ancestor::*) |
选择标签为div且ID号为123的所有先辈标签 |
ancestor-or-self |
选取当前节点的所有先辈(父、祖父等)以及当前节点本身 | xpath(//div[@id=’123’]/ancestor-or-self::*) |
选择标签为div且ID号为123的所有先辈标签且包含自己 |
attribute |
选取当前节点的所有属性 | xpath(//div[@id=’123’]/attribute::class) |
选择标签为div且ID号为123的类属性名称 |
child |
选取当前节点的所有子元素 | xpath(//div[@id=’123’]/child::book) |
选择标签为div且ID号为123的所有子元素的为book 节点 |
descendant |
选取当前节点的所有后代元素(子、孙等) | xpath(./descendant::*) |
返回当前节点的所有后代节点(子节点、孙节点) |
following |
选取文档中当前节点结束标签后的所有节点 | xpath(./following::*) |
选取文档中当前节点结束标签后的所有节点 |
parent |
选取当前节点的父节点 | xpath(./parent::*) 选取当前节点的父节点 |
|
preceding |
选取文档中当前节点的开始标签之前的所有节点 | xpath(//div[@id=’123’]/preceding::*) 选择标签为div且ID号为123的开始标签之前的所有节点 |
|
preceding-sibling |
选取当前节点之前的所有同级节点 | xpath(//div[@id=’123’]/preceding-sibling::*) |
选择标签为div且ID号为123的之前的所有同级节点 |
self |
选取当前节点 | xpath(./self::*) |
选取当前节点 |
表达式 | 描述 | 用法 | 说明 |
---|---|---|---|
+ |
加法 | 6 + 4 |
10 |
- |
减法 | 6 - 4 |
2 |
* |
乘法 | 6 * 4 |
|
div |
除法8 div 4 |
2 | |
= |
等于 | price=9.80 | 如果 price 是 9.80,则返回 true。 如果 price 是 9.90,则返回 false。 |
!= |
不等于 | price!=9.80 |
如果 price 是 9.90,则返回 true。 如果 price 是 9.80,则返回 false。 |
< |
小于 | price<9.80 |
如果 price 是 9.00,则返回 true。 如果 price 是 9.90,则返回 false。 |
<= |
小于或等于 | price<=9.80 |
如果 price 是 9.00,则返回 true。 如果 price 是 9.90,则返回 false。 |
> |
大于 | price>9.80 |
如果 price 是 9.90,则返回 true。 如果 price 是 9.80,则返回 false。 |
>= |
大于或等于 | price>=9.80 |
如果 price 是 9.90,则返回 true。 如果 price 是 9.70,则返回 false。 |
or |
或 | price=9.80 or price=9.70 |
如果 price 是 9.80,则返回 true。 如果 price 是 9.50,则返回 false。 |
and |
与 | price>9.00 and price<9.90 |
如果 price 是 9.80,则返回 true。 如果 price 是 8.50,则返回 false。 |
mod |
计算除法的余数 | 5 mod 2 |
1 |
使用功能函数能够更好的进行模糊搜索
函数 | 用法 | 解释 |
---|---|---|
starts-with() |
xpath('//div[starts-with(@id, "ma")]') |
选取id值以ma开头的div节点 |
contains() |
xpath('//div[contains(@id, "ma")]' ) |
选取id值包含ma的div节点 |
and |
xpath('//div[not(contains(text(), "广告")) and text()]') |
选取class值不包含“广告”和有内容的div节点 |
text() |
xpath('//div[contains(text(), "ma")]' ) |
选取节点文本包含ma的div节点 |
not() |
xpath('//div[not contains(text(), "广告")]') |
选取节点文本不包含广告的div节点 |
node() |
xpath('//div[not(node())]') |
选取div内容为空的div节点 |
# 通过绝对路径定位元素(不推荐!)
WebElement ele = driver.findElement(By.xpath("html/body/div/form/input"));
# 通过相对路径定位元素
WebElement ele = driver.findElement(By.xpath("//input"));
# 使用索引定位元素,第一个元素从1开始,而不是0
WebElement ele = driver.findElement(By.xpath("//input[4]"));
# 使用XPATH及属性值定位元素
WebElement ele = driver.findElement(By.xpath("//input[@id='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit'][@name='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit' and @name='fuck']"));
WebElement ele = driver.findElement(By.xpath("//input[@type='submit' or @name='fuck']"));
# 使用XPATH及属性名称定位元素
# 元素属性类型:@id 、@name、@type、@class、@tittle
# 查找所有input标签中含有type属性的元素
WebElement ele = driver.findElement(By.xpath("//input[@type]"));
# 部分属性值匹配
# 匹配id以fuck开头的元素,id='fuckyou'
WebElement ele = driver.findElement(By.xpath("//input[start-with(@id,'fuck')]"));
# 匹配id以fuck结尾的元素,id='youfuck'
WebElement ele = driver.findElement(By.xpath("//input[ends-with(@id,'fuck')]"));
# 匹配id中含有fuck的元素,id='youfuckyou'
WebElement ele = driver.findElement(By.xpath("//input[contains(@id,'fuck')]"));
# 使用任意值来匹配属性及元素
# 匹配所有input元素中含有属性的值为fuck的元素
WebElement ele = driver.findElement(By.xpath("//input[@*='fuck']"));
# 注:本专题只介绍Python版
# By id
WebElement ele = driver.findElement(By.id());
# By Name
WebElement ele = driver.findElement(By.id());
# By className
WebElement ele = driver.findElement(By.className());
# By tabName
WebElement ele = driver.findElement(By.tagName());
# By linkText
WebElement ele = driver.findElement(By.linkText());
# By partialLinkText
# 通过部分文本定位连接
WebElement ele = driver.findElement(By.partialLinkText());
# By cssSelector
WebElement ele = driver.findElement(By.cssSelector());
# By XPATH
WebElement ele = driver.findElement(By.xpath());
id 获取id 的属性值
starts-with 顾名思义,匹配一个属性开始位置的关键字 – 模糊定位
contains 匹配一个属性值中包含的字符串 – 模糊定位
text() 函数文本定位
last() 函数位置定位
https://www.cnblogs.com/unknows/p/7684331.html
https://my.oschina.net/jhao104/blog/639448
https://www.w3.org/TR/xpath/all/
http://doc.scrapy.org/en/0.14/topics/selectors.html