BeautifulSoup4

find_all()方法

find_all()方法,顾名思义。就是查询符合所有条件的元素。给他传入一些属性或文本,就可以得到符合条件的元素,它的功能十分强大

语法

find_all(name, atrrs, recursive, text, **kwargs)
(1)name

我们可以根据节点名来查询元素

soup.find_all(ul)
(2)atrrs
soup.find_all(attrs={'id':'list'}

attrs传入的参数类型都是字典类型,而对于一些常用的类型比如id和class等我们可以不用atrrs传递。

soup.find_all(id='link')
soup.find_all(class_='sisters')

注意这里的class,不是直接写class而是class_

(3)text

text参数可用来匹配节点的文本,传入的形式可以是字符串,可以是正则表达式对象

soup.find_all(text=re.complie('link'))

意思是匹配所有关键字link的文本
find_all()返回的类型是list,find()返回的是类型是Tag类型,返回的是单个元素,也就是第一个节点匹配的元素

另外还有许多查询方法

1. find_parent()和find_parents():前者返回的父亲节点,后者返回的是祖先节点
2. find_next_siblings()和find_next_sibling():前者是后面的所有兄弟节点,后者是后面的第一个兄弟节点。
3. find_previous_siblings()和find_previous_sibling():前者是前面所有的兄弟节点,后者是前面的第一个兄弟节点。
4. find_all_next()和find_next():前者是返回节点后的所有符合条件的节点,后者是返回第一个符合条件的节点
5. find_all_previous()和find_previous():前者是返回节点前的所有条件的节点,后者是返回第一个符合条件的节点

css选择器

BeautifulSoup 还提供了另外一种选择器。那就是css选择器。
使用CSS选择器是,只需要调用select()方法,传入相应的选择器即可,实例如下:

soup.select('ul li')

select选择的是ul下的所有li节点,组成列表的形式

嵌套选择

select()方法同样支持嵌套选择。先选择所有ul节点,再遍历每个ul节点,x选择其li节点

for ul in soup.select('ul'):
     print(ul.select('li'))

可以看到,这里正常输出了所有ul节点下所有li节点组成的列表。
获取属性还可以用前面的方法
获取文本的方法除了string还有get_text()方法

你可能感兴趣的:(BeautifulSoup4)