Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树

Beautiful Soup是学习到的第一个爬虫库,以下内容是小结。具体学习查看文档链接。

文档链接:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#

2、Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

  • 推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4。

2.1  HTML代码进行标准的缩进格式

html_doc="""
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" # 使用BeautifulSoup解析这段代码,能够得到一个beautifulsoup对象,并能按照标准的缩进格式的结构输出。 from bs4 import BeautifulSoup soup=BeautifulSoup(html_doc,'html.parser') print(soup.prettify()) # prettify()为beautifulsoup的格式化输出函数

2.2  遍历文档树

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第1张图片

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第2张图片

解释:

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第3张图片

  • 得到标签对象 Tag: Soup=BeautifulSoup(html).a

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第4张图片

  • 得到标签对象Tag的名字:Soup.name

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第5张图片

  • 得到标签对象Tag的属性:Soup.attrs

Python爬虫_第一篇 爬虫之路(2)_Beautiful Soup遍历文档树_第6张图片

  • 得到标签对象Tag的属性相应键对应的值:Soup[class]

  • 得到标签对象Tag属性的具体值:Soup.get(href)