Python中Xpath基本使用

Xpath的使用

from: Mp
ps:此文为自我学习总结的一些常用的,熟知的东西,复杂操作建议看官方文档

xpath概念

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

Xpath文档

http://www.w3school.com.cn/xpath/index.asp

使用

一些常用的语法
/   从根节点选取
//  从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.   选取当前节点
..  选取当前节点的父节点
@   选取属性
|   左右侧表达式都成立
[]  在括号内写 @属性,数字,last(), 判断语句,是查找包含某个指定的值的节点
node()  匹配任何类型的节点。
在python中使用

安装lxml

pip install lxml

使用lxml的etree,可以将字符串解析成HTML文档

lxml 可以自动修正 html 代码

# 使用lxml的etree库
from lxml import etree 

# 利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 

# 按字符串序列化HTML文档
result = etree.tostring(html) 

组合使用

# 在获取response之后
html = response.content

html_obj = etree.HTML(html)
result = html_obj.xpath("//a[@class='j_th_tit ']/@href")  # 查找语句

你可能感兴趣的:(Python中Xpath基本使用)