安装lxml
pip3 install lxml
XPath是一门可以在XML和HTML文档中查找信息的语言
常用规则
nodename 读取次节点的所有子节点 xpath('span') 选取span元素的所有子节点从根节点上选取div节点
/ 从当前节点选取直接子节点 xpath('/div')从根节点上选取div节点
// 从当前节点选取子孙节点 \xpath(‘//div’)从当前节点选取含有div节点的标签选取当前节点下的div标签
. 选取当前节点 xpath(‘./div’)选取当前节点下的div标签
.. 选取当前节点的父节点 xpath(‘../’)回到上一级节点
@ 选取属性 xpath(“//div[@id=’1001’]”)获取div标签中,含有ID属性且值为1001的标签
#test.html
from lxml import etree;
html=etree.parse('./test.html',etree.HTMLparse());
#获取所有li返回列表
result=html.xpath('//li');
print(result)
print(result[0])