python爬虫(BeautifulSoup库入门)

最近在学习爬虫,本篇是MOOC中的北理嵩天老师的课程笔记:python网络爬虫与信息提取。
适合小白入门BeautifulSoup库,阅读全篇需要6、7分钟。
欢迎大佬指正,谢谢哦~

Beautiful Soup(bs4)

1. 基础知识
它是一个用于解析html 和 xml 的功能库。
1.1首先,我们知道html文件,是由一对对的<>组成的,所以,我们又可以说,Beautiful Soup库是解析、遍历、维护“标签树”的功能库,把标签树转换成BeautifulSoup类
python爬虫(BeautifulSoup库入门)_第1张图片
1.2属性由键值对构成:
python爬虫(BeautifulSoup库入门)_第2张图片
1.3 Beautiful Soup 库解析器:

解析器 使用方法
bs4的html解析器 BeautifulSoup(mk, ’ html.parser’ )
lxml的html解析器 BeautifulSoup(mk, ’ lxml’ )
lxml的xml解析器 BeautifulSoup(mk, ’ xml’ )
html5lib解析器 BeautifulSoup(mk, ’ html5lib’ )

但是我们主要是用第一种

1.4 Beautiful Soup 类的5种基本元素
python爬虫(BeautifulSoup库入门)_第3张图片
(以下代码也可以在IDLE中实现)
python爬虫(BeautifulSoup库入门)_第4张图片

我们对b标签(注释,有)和p标签分别用 .string 的时候,都能产生一段文本,但是当文本是注释的时候,它并没有标明它是注释。所以,我们在分析文本时,要对注释作判断,而判断依据就是它的类型
python爬虫(BeautifulSoup库入门)_第5张图片
2 基于bs4库的HTML遍历方法
2.1 HTML的基本格式
python爬虫(BeautifulSoup库入门)_第6张图片
2.2下行遍历
python爬虫(BeautifulSoup库入门)_第7张图片
下面我们举几个例子:
python爬虫(BeautifulSoup库入门)_第8张图片
可以用 for in 的方式,遍历所有儿子 或者 子孙 节点。

2.3上行遍历
python爬虫(BeautifulSoup库入门)_第9张图片

2.4平行遍历

注意哦:
平行遍历是有条件的,必须发生在同一个父节点下的各节点间
而且,平行遍历获得的下一个节点,不一定是标签类型

python爬虫(BeautifulSoup库入门)_第10张图片
同样,我们也可以用:

for sibling in soup.a.next_siblingsL
    print(sibling)

来遍历后续节点。

3. 基于bs4库HTML格式化

这部分我们主要回答一个问题:如何让内容,更加友好的显示?
不仅是使html的内容更加让人容易阅读,也使程序能够更好地运行和分析

这里我们就要谈到一个方法:prettify
python爬虫(BeautifulSoup库入门)_第11张图片
可以看到,它在每一行标签后,都加了一个换行符 \n。这使得print后,结构更清晰。
当然,它还可以应用于一个标签:
python爬虫(BeautifulSoup库入门)_第12张图片

感谢您的阅读~

你可能感兴趣的:(python,python爬虫)