python爬虫day-16(解析库-XPath)

个人学习笔记,方便自己查阅,仅供参考,欢迎交流

解析库:XPath、Beautiful Soup、pyquery

使用正则表达式提取页面信息不方便,所有要使用解析库提高效率。

XPath

1.概述

对于网页的节点来说,它可以定义 id class 或其他属性 而且节点之间还有层次关系,在网
中可以通过 XPath css 选择器来定位一个或多个节点 那么,在页面解析时,利用 XPath css
选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,不就可以提取我们想要的
任意信息了吗?

2.常用规则

3.实例

4.所有节点

5.子节点

6.父节点

7.属性匹配

8.文本获取

9.属性获取

10.属性多值匹配

11.多属性匹配

12.按序选择

13.节点轴选择

你可能感兴趣的:(python爬虫day-16(解析库-XPath))