上一次的爬取网易新闻案例，我们使用到了一个解析 HTML 的库：Beautiful Soup。本次跟大家分享一下关于这个库的一些用法。

Beautiful Soup 简介:

Beautiful Soup 是一个可以从 HTML 或者 XML 文档中提取数据的 Python 库，

它提供一些简单的函数可以很方便的从文档上提取所需要的数据。由于目前最新版本是 4.4.0，所以一般被简称为 bs4。

安装：

在这里强烈推荐使用 Anaconda，Anaconda指的是一个开源的 Python 发行版本,包含了科学计算或者数据分析所用的等180多种依赖包。而且 window 下面的安装也是非常简便，一路下一步就行了。

至于为什么推荐使用 Anaconda，一方面是由于以上所说的包含了常用的库，而另一方面则是为了不让大家在安装环境这一步浪费太多时间。由于 Python 目前常用的依赖管理是 pip，新手很容易在这里遇到一些自身不容易解决的问题。很容易打击自己的信心，造成负面的心理反馈。而我们要使用的 Beautiful Soup 本身也已经集成到 Anaconda 中了。我们只需 import 导入即可。

废话不多说了，下面开始介绍 bs4 的使用。

开始使用之前，先介绍一下 bs4 可以使用的解析器。

bs4 支持 Python 标准库中的 HTML 解析器,另外还支持一些第三方的解析器：其中一个是 lxml，另一个可供选择的解析器是纯Python实现的 html5lib, html5lib的解析方式与浏览器相同。html5lib 相比较 lxml 来说容错能力更强，且不依赖外部扩展，但是速度却不如后者。lxml 还需要安装C语言库。不过我们使用的是 Anaconda，这些都是现成的，开箱即用。

bs4 导入：

from bs4 import BeautifulSoup

BeautifulSoup 的构造方法接收一段字符串或一个文件句柄,从而得到一个文档的对象。可以通过这个对象来对我们传入的文档来进行操作。

接收字符串：

str = """
bs4使用

BS4使用。
"""
bs4 = BeautifulSoup(str, "lxml")
print(type(bs4)) #

接收文件句柄：

bs4 = BeautifulSoup(open('a.html', mode='r', encoding='UTF-8'), "lxml")
print(type(bs4)) #

Beautiful Soup 将 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为4种: Tag, NavigableString, BeautifulSoup, Comment

一、Tag对象

Tag 其实就是 HTML 中的一个标签，与原生 HTML 文档中的标签相同。下面是示例：

str = """

Hello BeautifulSoup

"""
soup = BeautifulSoup(str, "lxml")
tag = soup.h1print(type(tag)) #

我们构造一个 BeautifulSoup 对象之后可以直接通过访问对象属性的方式来获取一个 Tag 对象，Tag 对象具有很多属性和方法。可包含多个Tag以及字符串，这些都是这个Tag的子节点。我们只介绍一下 Tag 中最重要的属性: name 和attributes

Name属性:

还是上边的例子，我们修改 tag 的 name 属性，之后打印它，发现原来的 h1 标签被修改为 h2，也就是说如果改变了 tag 对象的 name 属性,那将影响所有通过当前 Beautiful Soup 对象生成的 HTML 文档。

print(tag.name) # h1
tag.name = "h2"
print(tag) #
Hello BeautifulSoup

Attributes属性：

还是上边的例子，

Hello BeautifulSoup

这个标签含有一个 class 属性，值为“h1”。

tag 的属性可以被添加,删除或修改，操作方法与字典一样。

print(tag) #
Hello BeautifulSoup

tag['class'] = "h2"
print(tag) #
Hello BeautifulSoup

二、NavigableString对象

上面例子中 h1 标签中间的字符串，可以通过 tag.string 来获取。通过上面的 Tag 对象获取到标签的内容之后可以通过 .string 获取。前提是 tag 只有一个 NavigableString 类型子节点。

print(type(tag.string)) # print(tag.string) # Hello BeautifulSoup

tag 中包含的字符串不能编辑，但是可以被替换。

tag.string.replace_with("AAAAA")
print(tag.string) # AAAAA

三、BeautifulSoup对象

BeautifulSoup 对象表示的是一个文档的全部内容。很多时候可以把它当作一个特殊的 Tag 对象。

四、Comment对象

Tag, NavigableString, BeautifulSoup 几乎覆盖了 html 和 xml 中的所有内容,但是还有一些特殊对象，比如文档注释。

例子:

str = """

Hello BeautifulSoup

"""
soup = BeautifulSoup(str, "lxml")
comment = soup.b.stringprint(type(comment)) #
print(comment) # 这里是注释

到这里已经介绍完了对象的种类。BeautifulSoup 还有最重要的部分：文档树。打算下次在写。

Python爬虫利器：Beautiful Soup的使用（一）

上一次的爬取网易新闻案例，我们使用到了一个解析 HTML 的库：Beautiful Soup。本次跟大家分享一下关于这个库的一些用法。

BS4使用。

Hello BeautifulSoup