lxml解析库的安装及XPath使用

安装lxml

pip3 install lxml

XPath是一门可以在XML和HTML文档中查找信息的语言

常用规则

nodename   读取次节点的所有子节点          xpath('span') 选取span元素的所有子节点从根节点上选取div节点

/                从当前节点选取直接子节点        xpath('/div')从根节点上选取div节点

//               从当前节点选取子孙节点           \xpath(‘//div’)从当前节点选取含有div节点的标签选取当前节点下的div标签

.                 选取当前节点                        xpath(‘./div’)选取当前节点下的div标签

..                选取当前节点的父节点            xpath(‘../’)回到上一级节点

@                选取属性                            xpath(“//div[@id=’1001’]”)获取div标签中,含有ID属性且值为1001的标签

#test.html


from lxml import etree;

html=etree.parse('./test.html',etree.HTMLparse());

#获取所有li返回列表

result=html.xpath('//li');

print(result)

print(result[0])



你可能感兴趣的:(python)