第三章 数据解析(七) 2019-12-17

七、bs4 – BeautifulSoup4库基本介绍与使用


BeautifulSoup4

 

和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。

lxml只会局部遍历,而Beautiful

Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。


Beautiful Soup 3目前已经停止开发,推荐现在的项目使用Beautiful Soup 4。


安装和文档:


安装:pip install bs4


中文文档:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html


几大解析工具对比:

几大解析工具对比

简单使用:


from bs4 import BeautifulSoup

# 创建Beautiful Soup 对象

# 使用lxml来进行解析

soup= Beautiful Soup(html,”lxml”)

print(soup.prettify())


示例代码:


from bs4 import BeautifulSoup

html = """

The Dormouse's story

The Dormouse's story

Once upon a time there were three littlt sisters; and their names were ,; and they lived at the bottom of a well.

...

"""

soup = BeautifulSoup(html,'lxml')

print(soup.prettify())



上一篇文章 第三章 数据解析(六) 2019-12-16 地址: 

https://www.jianshu.com/p/88cb44054ec5

下一篇文章 第三章 数据解析(八) 2019-12-18 地址:

https://www.jianshu.com/p/86e7699cc72d



以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

你可能感兴趣的:(第三章 数据解析(七) 2019-12-17)