我在学习《Python网络爬虫权威指南》的时候,学习到关于介绍find_all()函数的参数的内容,里面介绍到属性参数attributes时介绍了其中一种用法:
.find_all('span', {
'class':{
'green', 'red'}})
这个函数会返回HTML文档里面红色和绿色两种颜色的span标签。
我就想试试不用大括号是否有同样的结果:
修改后的代码:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(), 'html.parser')
nameList = bs.find_all('span', {
'class':'green', 'class':'red'})
for name in nameList:
print(name.get_text())
然后我把原本代码爬出来的文本和改过的代码爬出来的文本以及单独用’class’:‘green’和单独用’class’:‘red’爬出来的文本进行比较,发现’class’:{‘green’, ‘red’}会同时把文档中红色和绿色两种颜色的span标签爬出来,而我修改以后的代码爬出的文本和单独用’class’:'red’爬出来的一样,所以我猜测按我这样不加大括号的写法,会让程序把最后一个class的条件作为属性。