爬虫中XPath语法四个重要概念及示例

一、根节点与非根节点

1、/div :选择div节点,只有当它是文档的根节点时。

2、//div:选择文档中所有的div节点(包括非根节点)。

二、通过属性选择节点

1、//@href:选择带href属性的所有节点。

2、//a[@href='http://baidu.com']:选择页面中所有指向网站的链接。

三、通过位置选择节点

1、//a[3]:选择文档中的第三个链接。

2、//a[position()<3]:选择文档中的前三个链接。

3、//table[last()]:选择文档中的最后一个表。

四、星号(*)匹配任意字符或节点,可在不同条件下使用

1、//table/tr/*:选择所有表格行tr标签的所有的子节点。

2、//div[@*]:选择带任意属性的所有div标签。

你可能感兴趣的:(爬虫)