python爬虫常用的解析库

python支持很多很强大的解析库。下面我总结了几种,基本上熟练掌握一两个解析这块就没任何问题了。

1.XPath

XPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言
它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索
python爬虫常用的解析库_第1张图片
使用之前安装好 lxml 库
python爬虫常用的解析库_第2张图片
如果想查询更多 XPath 的用法,可以查看: http://www w3school.eom.cn/xpath/index.as
如果想查询更多 .Pyt on xml 库的用法,可以查看 htψ :// lxml.de

2.Beautiful Soup

具 Beautiful Soup ,它借助网页的结构和属性等特性来
解析网页 有了它 ,我们不用再去写一些复杂的正 表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取
python爬虫常用的解析库_第3张图片

from bs4 import BeautifulSoup 
soup = BeautifulSoup(’

Hello

’,’ lxml') print(soup . p.string)

可以参考官方文档了解更多的用法

3.pyquery

如果你对 有所涉及,如果你比较喜欢用 css 选择器,如果你对 jQuery 有所了解,那么最合适的就是pyquery
如果想查看更多的 容,可以参考 pyquery 的官方文
档: http:// pyquery.readthedocs.io

你可能感兴趣的:(python爬虫)