详细请参阅中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
BeautifulSoup是第三方库,需要安装才能导入使用:
pip install beautifulsoup4 -i https://pypi.douban.com/simple/
如果没有安装“lxml‘库,还需要安装,以配合解析网页用,该当同上。
要使用BeautifulSoup,必须先创建Soup对象:
from bs4 import BeautifulSoup
# 使用'lxml'解析器,速度较快,也可以使用标准库解析器'parser.HTML'或其他解析器
soup = BeautifulSoup(html, 'lxml')
href = a['href'] # 推荐使用这种形式
href = a.attrs['href'] # 通过attrs属性形式
strs = p.contents
在提取标签数据的时候,第一个是标签的名字。如果在提取标签时想使用标签的属性进行过滤,可以在方法中通过关键字参数过滤,将属性的名字及对应的值传递"class=‘XXX’",或者是使用"attrs"属性,将所有的属性以及对应的值话一个字典中传给"attrs"属性?
trs = soup.find_all('tr') # 获取所有的tr标签
for tr in trs:
tr.find_all('td',class_='list-item') # 使用参数形式,class后加下划线
tr.find_all('td',attrs={'class':'list-item'})
# 使用attrs属性形式,如果是name属性,建议用此形式查找
trs=soup.find_all('tr', limit=2)[1] # 只获取前2个tr标签,减少资源占用,加快查找速度
以百度首页源码为例,从第3个div开始,提取div下a节点的所有文本,代码如下:
# -*- encoding: utf-8 -*-
from bs4 import BeautifulSoup
html = '''
百度一下,你就知道
< / html > '''
bs = BeautifulSoup(html, 'lxml') # 可以使用其他解析器
divs = bs.find_all('div')[3:] # 第3个div起到最后止才有需要的数据
# print(divs)
for div in divs: # 遍历div节点,提取有用数据
info = {}
# print(div.get_text()) # 不方便清洗数据
# infos = div.find_all('a') # 在div下查找到需要的节点,并从其列表提取数据
# news = infos[0].string
# h123 = infos[1].string
# map_ = infos[2].string
# movies = infos[3].string
# tieba = infos[4].string
# print(maps)
# infos = list(div.strings) # 提取所有非标签的字符串,有空行
infos=list(div.stripped_strings) # 提取所有非标签的字符串并支队空白符
# 将数据存入字典
info['news'] = news
info['h123'] = h123
info['map'] = map_
info['movies'] = movies
info['tieba'] = tieba
# {'news': '新闻', 'hao': 'hao123', 'map': '地图', 'movie': '视频', 'tieba': '贴吧'}
print(info)
BeautifulSoup中使用CSS选择器,须使用select()方法
具体用法如下:
soup.select('p')
soup.select('.box')
soup.select('#box') # 在CSS中,"#"号代表id(一个规范的网页中,id只能出现一次相同的值,如身份证号)
soup.select('.box p') # 此处"#"号表示后面跟的是类的值
4.2 查找直接子元素,要在直接子元素前加一个">"号:
soup.select('.box > p') # 此处"."号表示后面跟的是类的值
soup.select('p[name="username"]')
soup.select('div.line1')
soup.select('div[class="line1"]')
soup.select('div#')
代码示例:
html = '''上例的文本'''
bs = BeautifulSoup(html, 'lxml')
# 1.获取所有的div标签
divs = bs.select('div')
for div in divs:
print(div)
# 2.获取第2个div标签
div = bs.select('div')[2]
print(div)
# 3.获取所有class = "head_wrapper"的div标签,属性有两种写法
# divs = bs.select('div.head_wrapper')
divs = bs.select('div[class="head_wrapper"]')
for div in divs:
print(div)
# 4.将所有a标签的"href"值提取出来
a_list = list(bs.select('a')) # 转换成一个列表,便于提取数据
for a in a_list:
href = a['href']
print(href)
# 5.获取所有a标签的文本
divs = bs.select('#u1')
for div in divs:
infos = list(div.stripped_strings)
# 转换成一个列表,便于提取数据,如是.strings则不去除空白符
print(infos)
BeautifulSoup中所有的标签都是Tag类型,并且BeautifulSoup本质上也是一个Tag类型,所以一些方法如find/find_all并不是BeautifulSoup的,而是Tag的。
__init__(self, parser=None, builder=None, name=None, namespace=None,
prefix=None, attrs=None, parent=None, previous=None,
is_xml=None, sourceline=None, sourcepos=None,
can_be_empty_element=None, cdata_list_attributes=None,
preserve_whitespace_tags=None
)
如:
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
print(type(bs)) #
继承自Python中的str,用起来就跟使用python的str一样,如.string。
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
a = bs.find('a')
print(a.string) # "新闻",本质上是一个字符串
print(type(a.string)) #
继承自Tag,用来生成BeautifulSoup树,所有方法同Tag,find()/select()等方法都一样能用,在select()查找出来的子节点中也一样能用所有方法。
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
divs = bs.find_all('div')
for div in divs:
print(type(div)) #
break
就是继承自NavigableSting,如果在一行可以用.string提取注释的文本,如果存在多行注释,换行了,通过.contents获取。
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
p = bs.find('p')
# print(p.string) # 换行了,返回None
# 如果注释不在同一行就用ceontents遍历
print(p.contents) # 返回包括换行符的列表
# print(type(p.string)) #
print(type(p.contents)) #
返回某个标签下的直接子元素,其中也包括字符串,区别:conntents返回列表,children返回迭代器(迭代器对象)。
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
p = bs.find('p')
# 如果注释不在同一行就用ceontents遍历
print(p.contents) # 返回包括换行符的列表['\n', '我是注释字符串', '\n']
print(type(p.contents)) #
for element in p.contents:
print(element)
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'lxml')
print(type(bs.head.children)) #
for h in bs.head.children:
print(h)
说明:本学习笔记根据晚上观看学习B站乐林贝斯发布的视频《Python爬虫】新手强烈推荐:Python爬虫教程,学爬虫这一套就够了》所作笔记,非常感谢老师!
学习笔记系列:
Python3爬虫编程学习笔记(一)缘由
Python3爬虫编程学习笔记(二)爬虫原理
Python3爬虫编程学习笔记(三)学习urllib库基本用法
Python3爬虫编程学习笔记(四)学习Requests第三方库基本用法
Python3爬虫编程学习笔记(五)实战:爬取安居客房屋信息之 XPath学习