最近在学习爬虫,本篇是MOOC中的北理嵩天老师的课程笔记:python网络爬虫与信息提取。
适合小白入门BeautifulSoup库,阅读全篇需要6、7分钟。
欢迎大佬指正,谢谢哦~
1. 基础知识
它是一个用于解析html 和 xml 的功能库。
1.1首先,我们知道html文件,是由一对对的<>组成的,所以,我们又可以说,Beautiful Soup库是解析、遍历、维护“标签树”的功能库,把标签树转换成BeautifulSoup类。
1.2属性由键值对构成:
1.3 Beautiful Soup 库解析器:
解析器 | 使用方法 |
---|---|
bs4的html解析器 | BeautifulSoup(mk, ’ html.parser’ ) |
lxml的html解析器 | BeautifulSoup(mk, ’ lxml’ ) |
lxml的xml解析器 | BeautifulSoup(mk, ’ xml’ ) |
html5lib解析器 | BeautifulSoup(mk, ’ html5lib’ ) |
但是我们主要是用第一种
1.4 Beautiful Soup 类的5种基本元素
(以下代码也可以在IDLE中实现)
我们对b标签(注释,有)和p标签分别用 .string 的时候,都能产生一段文本,但是当文本是注释的时候,它并没有标明它是注释。所以,我们在分析文本时,要对注释作判断,而判断依据就是它的类型。
2 基于bs4库的HTML遍历方法
2.1 HTML的基本格式
2.2下行遍历
下面我们举几个例子:
可以用 for in 的方式,遍历所有儿子 或者 子孙 节点。
2.4平行遍历
注意哦:
平行遍历是有条件的,必须发生在同一个父节点下的各节点间
而且,平行遍历获得的下一个节点,不一定是标签类型
for sibling in soup.a.next_siblingsL
print(sibling)
来遍历后续节点。
3. 基于bs4库HTML格式化
这部分我们主要回答一个问题:如何让内容,更加友好的显示?
不仅是使html的内容更加让人容易阅读,也使程序能够更好地运行和分析
这里我们就要谈到一个方法:prettify
可以看到,它在每一行标签后,都加了一个换行符 \n。这使得print后,结构更清晰。
当然,它还可以应用于一个标签:
感谢您的阅读~