解析库 -- lxml

安装lxml库 (支持HTML和XML解析,支持XPath解析方式)

pip install lxml

Xpath

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

节点关系

父(Parent)、子(Children) 每个元素以及属性都有一个父。
例子:


    
      Harry Potter
      J K. Rowling
      2005
      29.99
    

book 元素是 title、author、year 以及 price 元素的父
title、author、year 以及 price 元素都是 book 元素的子
title、author、year 以及 price 元素都是同胞:
title 元素的先辈是 book 元素和 bookstore 元素
bookstore 的后代是 book、title、author、year 以及 price 元素

节点选取

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

选取节点

获取页面元素xpath路径的快捷方式(简直就是神器啊,枉我对着页面找了那么久的xpath)

使用谷歌的开发者工具

你可能感兴趣的:(解析库 -- lxml)