xpath

xpath是面向XML的路径语言,支持HTML,比正则表达式简单且强大。
节点分类
父 parent
子 children
同胞 sibling
先辈 ancestor
后代 descentant
路径符号
/ 根节点、自身
// 后代
@ 属性
谓语-修饰
[] [1],[ last() ],[ last()-1 ],[ position() <4 ],[ @lang ]
通配符
* 任意节点
@* 任意属性
python类库
lxml
用法1
from lxml import etree
html=etree.parse(html)
html.xpath(‘//li//a’)
用法2
和BeautifulSoup配置和使用
hmtl=BeautifulSoup(html,’lxml’)
html.select(”)

你可能感兴趣的:(python,html)