python xpath相关库

lxml库

lxml库提供了一个etree模块,该模块专门用来解析HTML/XML文档

导入模块

from lxml import etree

基本使用

from lxml import etree
text = '''

        
>
>


'''
# ————————————————
# 版权声明:本文为CSDN博主「pinuscembra」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
# 原文链接:https://blog.csdn.net/pinuscembra/article/details/107453807
html = etree.HTML(text)
xp = html.xpath('//div[@class="nav_com"]//li[@class="active"]/a/text()')
print(xp)
# 输出内容为 "推荐"

读取并解析html文件

etree.parse是对本地html文件进行读取

etree.tostring是将内容转化为2进制然后以utf-8格式进行解码

from lxml import etree
html = etree.parse('data.html',etree.HTMLParser())
result = etree.tostring(html).decode('utf-8')
print(result)
表达式 描述
nodename 选取此节点的所有子节点
/ 选择直接子节点
// 选择子孙节点
. 选择当前节点
.. 选择当前节点的父节点
@ 选取属性

你可能感兴趣的:(python,开发语言)