正则表达式写起来费劲又出错率高,代替方法之一是BeautifulSoup(另一种是使用 Xpath 神器,后续再学)。
1 BeautifulSoup 简介
引用 BeautifulSoup 官网的说明:
Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.
->BeautifulSoup官网提供中文文档
2 安装 BeautifulSoup
目前 BeautifulSoup 最新版本是 4.6.0,它是支持 Python3的。所以可以大胆去升级安装使用。
安装方法有:
- 使用pip
比较推荐使用这种方式,既简单又方便管理。
pip3 install beautifulsoup4
# 如果出现因下载失败导致安装不上的情况,可以先启动 ss 再执行安装命令
# 或者在终端中使用代理
pip --proxy http://代理ip:端口 install beautifulsoup4
- 使用easy_install
easy_install beautifulsoup4
- 使用系统包管理
sudo apt-get install Python-bs4
# 适用于 ubuntu 系统以及 Debian 系统
3 初识BeautifulSoup
下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):
html_doc = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""
3.1按照标准的缩进格式的结构输出
使用BeautifulSoup解析这段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出。
代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
print(soup.prettify())
输出结果:
#
#
#
# The Dormouse's story
#
#
#
#
#
# The Dormouse's story
#
#
#
# Once upon a time there were three little sisters; and their names were
#
# Elsie
#
# ,
#
# Lacie
#
# and
#
# Tillie
#
# ; and they lived at the bottom of a well.
#
#
# ...
#
#
#
3.2 几个简单的浏览结构化数据的方法
soup.title
# The Dormouse's story
soup.title.name
# u'title'
soup.title.string
# u'The Dormouse's story'
soup.title.parent.name
# u'head'
soup.p
# The Dormouse's story
soup.p['class']
# u'title'
soup.a
# Elsie
soup.find_all('a')
# [Elsie,
# Lacie,
# Tillie]
soup.find(id="link3")
# Tillie
3.3 从文档中找到所有标签的链接
for link in soup.find_all('a'):
print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie
3.4 从文档中获取所有文字内容
print(soup.get_text())
# The Dormouse's story
#
# The Dormouse's story
#
# Once upon a time there were three little sisters; and their names were
# Elsie,
# Lacie and
# Tillie;
# and they lived at the bottom of a well.
#
# ...
4 BeautifulSoup详解
4.1 如何使用
将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
举个栗子:
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html")) #文件句柄
soup = BeautifulSoup("data") #字符串
首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码
BeautifulSoup("Sacré bleu!")
Sacré bleu!
然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档。
默认情况下Beautiful Soup会将当前文档作为HTML格式解析,推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定。
4.2 BeautifulSoup对象
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag
,NavigableString
, BeautifulSoup
, Comment
.
4.2.1 Tag 标签
Tag
对象与XML或HTML原生文档中的tag相同:Tag有很多方法和属性,后续有详细解释.现在介绍一下tag中最重要的属性: name
和attributes
name
- 获取name。每个tag都有自己的名字,通过 .name 来获取:
tag.name
# u'b'
- 改变name。如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:
tag.name = "blockquote"
tag
# Extremely bold
attributes
tag属性与属性的值,例:
tag 有一个 “class” 的属性,值为 “boldest” 。
一个tag可能有很多个属性,一个属性可能有很多个值。
- tag属性的操作
tag属性的操作方法与字典相同
1.1获取tag的指定属性的属性值
tag['class']
# u'boldest'
1.2获取tag的全部属性及属性值: .attrs :
tag.attrs
# {'class': 'boldest'}
1.3 tag属性及属性值添加,删除或修改:
#修改属性值
tag['class'] = 'verybold'
#增加属性及属性值
tag['id'] = 1
tag
# Extremely bold
#删除属性
del tag['class']
del tag['id']
tag
# Extremely bold
#与字典操作一致
tag['class']
# KeyError: 'class'
print(tag.get('class'))
# None
1.4 多值属性tag的操作
在Beautiful Soup中多值属性的返回类型一般是list,但当某个属性在任何版本的HTML定义中都没有被定义为多值属性时,Beautiful Soup会将这个属性作为字符串返回:
css_soup = BeautifulSoup('')
css_soup.p['class']
# ["body", "strikeout"]
css_soup = BeautifulSoup('')
css_soup.p['class']
# ["body"]
id_soup = BeautifulSoup('')
id_soup.p['id']
# 'my id'
将tag转换成字符串时,多值属性会合并为一个值
rel_soup = BeautifulSoup('Back to the homepage
')
rel_soup.a['rel']
# ['index']
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
# Back to the homepage
如果转换的文档是XML格式,那么tag中不包含多值属性
xml_soup = BeautifulSoup('', 'xml')
xml_soup.p['class']
# u'body strikeout'
4.2.2 NavigableString 可以遍历的字符串
字符串常被包含在tag内,Beautiful Soup用 NavigableString 类来包装tag中的字符串。获取tag内的文字使用.string即可:
tag.string
# u'Extremely bold'
type(tag.string)
#
-
NavigableString
字符串与Python中的Unicode字符串相同,并且还支持包含在 遍历文档树和 搜索文档树中的一些特性. 通过unicode()
方法可以直接将NavigableString
对象转换成Unicode字符串:
unicode_string = unicode(tag.string)
unicode_string
# u'Extremely bold'
type(unicode_string)
#
- tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用
replace-with()
方法:
tag.string.replace_with("No longer bold")
tag
# No longer bold
如果想在Beautiful Soup之外使用
NavigableString
对象,需要调用unicode()
方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址。这样会浪费内存。
4.2.3 BeautifulSoup
BeautifulSoup
对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象,支持包含在 遍历文档树和 搜索文档树中的大部分的方法.
BeautifulSoup
对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name
soup.name
# u'[document]'
4.2.4 Comment注释及特殊字符串
Tag
, NavigableString
, BeautifulSoup
几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象--文档的注释部分:
- Comment 对象是一个特殊类型的 NavigableString 对象
- 当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出
markup = ""
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)
#
comment
# u'Hey, buddy. Want to buy a used parser'
print(soup.b.prettify())
#
#
#
4.3遍历文档树
遍历文档树:从文档的一段内容找到另一段内容。
为后面的例子做准备:
html_doc = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
4.3.1子节点
什么是子节点:一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点。嵌套在子节点里面的叫子孙节点。
Beautiful Soup提供了许多操作和遍历子节点的属性。
- Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点。
4.3.1.1 获取tag的子节点--tag的name.
- 最简单的方法就是tag的name.(获取子节点),例如:如果想获取 标签,只要用 soup.head :
soup.head
# The Dormouse's story
soup.title
# The Dormouse's story
- 获取tag下多级标签(获取子孙节点),例如:获取标签中的第一个标签:
soup.body.b
# The Dormouse's story
通过点取属性的方式只能获得当前名字的第一个tag:
soup.a # Elsie
如果想要得到所有的标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如:
find_all()
4.3.1.2 获取tag全部子节点-- .contents
和 .children
-
.contents
:可以将tag的子节点以列表的方式输出- BeautifulSoup 对象本身一定会包含子节点,也就是说标签也是 BeautifulSoup 对象的子节点。
- 字符串没有
.contents
属性,因为字符串没有子节点。
head_tag = soup.head
head_tag
# The Dormouse's story
head_tag.contents
[The Dormouse's story ]
title_tag = head_tag.contents[0]
title_tag
# The Dormouse's story
title_tag.contents
# [u'The Dormouse's story']
len(soup.contents)
# 1
soup.contents[0].name
# u'html'
text = title_tag.contents[0]
text.contents
# AttributeError: 'NavigableString' object has no attribute 'contents'
-
.children
: 生成器,可以对tag的子节点进行循环
for child in title_tag.children:
print(child)
# The Dormouse's story
4.3.1.3 获取tag全部子节点及子孙节点--.descendants
for child in head_tag.descendants:
print(child)
# The Dormouse's story
# The Dormouse's story
4.3.1.4 节点内的字符串
-
.string
:如果tag只有一个 NavigableString 类型子节点或仅有一个子节点,这个tag可以使用 .string 得到子节点字符串;如果tag包含了多个子节点,tag就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None:
title_tag.string
# u'The Dormouse's story'
head_tag.contents
# [The Dormouse's story ]
head_tag.string
# u'The Dormouse's story'
print(soup.html.string)
# None
-
.strings
:如果tag中包含多个字符串.strings
来循环获取:
for string in soup.strings:
print(repr(string))
# u"The Dormouse's story"
# u'\n\n'
# u"The Dormouse's story"
# u'\n\n'
# u'Once upon a time there were three little sisters; and their names were\n'
# u'Elsie'
# u',\n'
# u'Lacie'
# u' and\n'
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'\n\n'
# u'...'
# u'\n'
-
.stripped_strings
:.strings
输出的字符串中可能包含了很多空格或空行,使用.stripped_strings
可以去除多余空白内容(全部是空格的行会被忽略掉,段首和段末的空白):
for string in soup.stripped_strings:
print(repr(string))
# u"The Dormouse's story"
# u"The Dormouse's story"
# u'Once upon a time there were three little sisters; and their names were'
# u'Elsie'
# u','
# u'Lacie'
# u'and'
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'...'
4.3.2父节点
父节点:每个tag或字符串都有上级节点--被包含在某个tag中。
.parent
:获取某个元素的父节点.
- 文档的顶层节点比如的父节点是 BeautifulSoup 对象;
- BeautifulSoup 对象的 .parent 是None;
title_tag = soup.title
title_tag
# The Dormouse's story
title_tag.parent
# The Dormouse's story
title_tag.string.parent
# The Dormouse's story
html_tag = soup.html
type(html_tag.parent)
#
print(soup.parent)
# None
.parents
:递归得到元素的所有父辈节点。
link = soup.a
link
# Elsie
for parent in link.parents:
if parent is None:
print(parent)
else:
print(parent.name)
# p
# body
# html
# [document]
# None
4.3.3兄弟节点
什么是兄弟节点:同一个元素的同级子节点。
看一段简单的例子:
sibling_soup = BeautifulSoup("text1text2 ")
print(sibling_soup.prettify())
#
#
#
#
# text1
#
#
# text2
#
#
#
#
标签和
标签是同一个元素的同一层子节点,所以和 可以被称为兄弟节点。一段文档以标准格式输出时,兄弟节点有相同的缩进级别。在代码中也可以使用这种关系。
-
.next_siblings
和.previous_siblings
在文档树中,使用.next_sibling
和.previous_sibling
属性来查询兄弟节点。- 没有兄弟节点时,显示
None
; - 标签之间的顿号和换行符也会被当作兄弟节点显示;
- 没有兄弟节点时,显示
sibling_soup.b.next_sibling
# text2
sibling_soup.c.previous_sibling
# text1
print(sibling_soup.b.previous_sibling)
# None
print(sibling_soup.c.next_sibling)
# None
link = soup.a
link
# Elsie
link.next_sibling
# u',\n'
link.next_sibling.next_sibling
# Lacie
-
.next_siblings
和.previous_siblings
通过.next_siblings
和.previous_siblings
属性可以对当前节点的兄弟节点迭代输出
for sibling in soup.a.next_siblings:
print(repr(sibling))
# u',\n'
# Lacie
# u' and\n'
# Tillie
# u'; and they lived at the bottom of a well.'
# None
for sibling in soup.find(id="link3").previous_siblings:
print(repr(sibling))
# ' and\n'
# Lacie
# u',\n'
# Elsie
# u'Once upon a time there were three little sisters; and their names were\n'
# None
4.4.4回退和前进
-
.next_element
和.previous_element
与.next_sibling
.previous_sibling
不同,它并不是针对于兄弟节点,而是在所有节点,不分层次。
The Dormouse's story
-
.next_elements
和.previous_elements
通过.next_elements
和.previous_elements
的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样。
for element in last_a_tag.next_elements:
print(repr(element))
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'\n\n'
# ...
# u'...'
# u'\n'
# None
4.5搜索文档树
Beautiful Soup定义了很多搜索方法,官网主要着重介绍了2个: find() 和 find_all() 。其它方法的参数和用法类似。
再以“爱丽丝”文档作为例子:
html_doc = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
过滤器:贯穿整个搜索的API.过滤器可以被用在tag的name中,节点的属性中,字符串中或他们的混合中.
- 字符串:最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的标签:
soup.find_all('b') # [The Dormouse's story]
如果传入字节码参数,Beautiful Soup会当作UTF-8编码,可以传入一段Unicode 编码来避免Beautiful Soup解析编码出错
- 正则表达式:如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示和标签都应该被找到:
import re for tag in soup.find_all(re.compile("^b")): print(tag.name) # body # b #下面代码找出所有名字中包含”t”的标签: for tag in soup.find_all(re.compile("t")): print(tag.name) # html # title
- 列表:如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签:
soup.find_all(["a", "b"]) # [The Dormouse's story, # Elsie, # Lacie, # Tillie]
- True:可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点
for tag in soup.find_all(True): print(tag.name) # html # head # title # body # p # b # p # a # a # a # p
- 方法:如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回
True
表示当前元素匹配并且被找到,如果不是则反回False
def has_class_but_no_id(tag): #包含 class 属性却不包含 id 属性 return tag.has_attr('class') and not tag.has_attr('id')
将这个方法作为参数传入 find_all() 方法,将得到所有
标签
soup.find_all(has_class_but_no_id) # [
The Dormouse's story
, #Once upon a time there were...
, #...
] //返回结果中只有下面代码找到所有被文字包含的节点内容
from bs4 import NavigableString def surrounded_by_strings(tag): return (isinstance(tag.next_element, NavigableString) and isinstance(tag.previous_element, NavigableString)) for tag in soup.find_all(surrounded_by_strings): print tag.name # p # a # a # a # p
4.5.1 find_all()
find_all( name , attrs, recursive, text, **kwargs)
:搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.
name 参数:可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉。 name参数的值可以使任一类型的过滤器:字符窜,正则表达式,列表,方法或True。
-
keyword 参数:如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索.
- 例1:包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.
soup.find_all(id='link2') # [Lacie]
- 例2:如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性:
soup.find_all(href=re.compile("elsie")) # [Elsie] #搜索指定名字的属性时可以使用的参数值包括 字符串, 正则表达式 , 列表, True . soup.find_all(id=True) # 文档树中查找所有包含 id 属性的tag,无论 id 的值是什么 # [Elsie, # Lacie, # Tillie] soup.find_all(href=re.compile("elsie"), id='link1') #使用多个指定名字的参数可以同时过滤tag的多个属性 # [three] data_soup = BeautifulSoup('
foo!') #有些tag属性在搜索不能使用,比如HTML5 中的 data-* 属性 data_soup.find_all(data-foo="value") # SyntaxError: keyword can't be an expression data_soup.find_all(attrs={"data-foo": "value"}) #可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag # [foo!] class_ 参数(按CSS搜索):按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag。
soup.find_all("a", class_="sister")
# [Elsie,
# Lacie,
# Tillie]
#class_ 参数同样接受不同类型的 过滤器 ,字符串,正则表达式,方法或 True
soup.find_all(class_=re.compile("itl"))
# [The Dormouse's story
]
def has_six_characters(css_class):
return css_class is not None and len(css_class) == 6
soup.find_all(class_=has_six_characters)
# [Elsie,
# Lacie,
# Tillie]
#tag的 class 属性是 多值属性 .按照CSS类名搜索tag时,可以分别搜索tag中的每个CSS类名:
css_soup = BeautifulSoup('')
css_soup.find_all("p", class_="strikeout")
# []
css_soup.find_all("p", class_="body")
# []
#搜索 class 属性时也可以通过CSS值完全匹配
css_soup.find_all("p", class_="body strikeout")
# []
#完全匹配 class 的值时,如果CSS类名的顺序与实际不符,将搜索不到结果:
soup.find_all("a", attrs={"class": "sister"})
# [Elsie,
# Lacie,
# Tillie]
- text 参数:通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表, True .
soup.find_all(text="Elsie")
# [u'Elsie']
soup.find_all(text=["Tillie", "Elsie", "Lacie"])
# [u'Elsie', u'Lacie', u'Tillie']
soup.find_all(text=re.compile("Dormouse"))
[u"The Dormouse's story", u"The Dormouse's story"]
def is_the_only_string_within_a_tag(s):
""Return True if this string is the only child of its parent tag.""
return (s == s.parent.string)
soup.find_all(text=is_the_only_string_within_a_tag)
# [u"The Dormouse's story", u"The Dormouse's story", u'Elsie', u'Lacie', u'Tillie', u'...']
#虽然 text 参数用于搜索字符串,还可以与其它参数混合使用来过滤tag.Beautiful Soup会找到 .string 方法与 text 参数值相符的tag.下面代码用来搜索内容里面包含“Elsie”的标签:
soup.find_all("a", text="Elsie")
# [Elsie]
- limit 参数:find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.
#文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量:
soup.find_all("a", limit=2)
# [Elsie,
# Lacie]
- recursive 参数:调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .
The Dormouse's story
...
#是否使用 recursive 参数的搜索结果:
soup.html.find_all("title")
# [The Dormouse's story ]
soup.html.find_all("title", recursive=False)
# []
像调用 find_all() 一样调用tag
find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. BeautifulSoup 对象和 tag 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 find_all() 方法相同,下面代码是等价的:soup.find_all("a") soup("a") soup.title.find_all(text=True) soup.title(text=True)
4.5.2 find()
find( name , attrs , recursive , text , **kwargs )
:find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个
#下面两行代码是等价的
soup.find_all('title', limit=1)
# [The Dormouse's story ]
soup.find('title')
# The Dormouse's story
唯一的区别:find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果.find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None .
4.5.3 其他方法
Beautiful Soup中还有10个用于搜索的API.它们中的五个用的是与 find_all() 相同的搜索参数,另外5个与 find() 方法的搜索参数类似.区别仅是它们搜索文档的不同部分.
find_parents() 和 find_parent()
find_next_siblings() 合 find_next_sibling()
find_previous_siblings() 和 find_previous_sibling()
find_all_next() 和 find_next()
find_all_previous() 和 find_previous()