BeautifulSoup4解析库 Pyquery解析库

BeautifulSoup4解析库

beautiful soup:是python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据

解析时依赖解析器:
Python标准库 BeautifulSoup(markup,‘html.parser’) Python内置标准库,执行速度适中,容错能力强
lxml HTML 解析器 BeautifulSoup(markup,‘lxml’) 速度快、文档容错能力强

使用
1.初始化 soup=BeautifulSoup(html文本,‘lxml’)
2.findall()方法
name参数:可以根据节点名查询
attrs参数: 可以根据节点属性查询
text参数: 用来匹配节点文本

css选择器
获取属性(例如获取标签属性) a.attrs[‘id’] 或者 a[‘id’]
获取文本 a.get_text()或者a.string

Pyquery解析库
pyquery库是 jQuery 的 Python 实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好

使用
1.初始化
传入html字符串 pq_html = pq("")
传入文件 pq_html = pq(filename=path_to_html_file)

.filter(selector):根据 class、id 筛选指定元素
.find():查找嵌套元素
.eq(index):根据索引号获取指定元素(index 从 0 开始)
pq_html(selector):通过css选择器来获取目标内容
.text() 获取标签的文本
.attr(‘属性值’):获取标签属性

你可能感兴趣的:(BeautifulSoup4解析库 Pyquery解析库)