BeautifulSoup补充

此博文是对之前博文的补充 :https://blog.csdn.net/Clany888/article/details/81986302

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式

soup.prettify() # 将要解析的字符串按照标准缩进格式输出,结果中含有bady和html节点

1、节点选择器

直接调用节点的名称就可以选择节点元素,再调用string属性就可以得到节点内的文本啦。

提取信息:

节点属性:

获取名称:

可以使用soup.title.name 利用name获取节点的名称

获取属性:

  • 可以使用soup.p.attrs 利用attrs获取所有属性,返回字典。通过字典读取具体的值
  • 还可以直接在节点元素后面加[ ]中括号,传入属性名就可以获取属性值了,这里需要注

意有的返回的结果是字符串(单个),有的返回的结果是列表(多个的时候)。

获取内容:

可以利用string属性获取节点元素包含的文本内容。例如想要获取一个p节点的文本内容

soup.p.string

 

嵌套选择:

上面每一个返回的结果都是bs4.element.Tag类型,它同样可以继续调用节点进行下一步 的选择。

soup.head.title

soup.head.title.string

 

关联选择:

在做选择的时候有时候不能做到一步就选到想要的节点元素,需要想选中某一个节点元素,然后以它为基准再选择它的的子节点、父节点、兄弟节点等

子节点和子孙节点

  • 选取节点元素后,如果想要获取它的直接子节点,就可以调用contents属性。(返回结果是列表形式,p节点里既包含文本,又包含节点,最后会将它们以列表的形式统一返回;列表里面的每个元素都是p节点的直接子节点。比如第一个a节点里面包含一层span节点,这相当于孙子节点了,但是返回结果并没有单独把span节点选出来,所以说,contents属性得到的结果是直接子节点的列表)
  • 同样,可以调用children属性得到相应的结果;

soup.p.children

for i,child in enumerate(soup.p.children):

print(i,child)

调用children属性来选择,返回结果是生成器类型。利用for输出相应的内容。

  • 如果想要得到所有的子孙节点的话,可以调用descendants属性;

返回结果也是生成器,遍历输出一下可以看到,这次输出的结果就包含了span节点。descendants会递归查询所有子节点,得到所有的子孙节点。

 

父节点和祖先节点

  • 如果想要获取某个节点元素的父节点,可以调用parent属性;输出结果为父节点及其内部的内容包括内部的节点。(注意,这里parent获取到的仅仅是直接父节点,而没有再向外寻找节点的祖先节点)
  • 如果想要获取所有的祖先节点,可以调用parents属性;返回结果是生成器类型。

 

兄弟节点(兄弟节点即同级的节点)

  • soup.a.next_sibling和previous_sibling分别获取节点的下一个和上一个兄弟元素
  • next_siblings 和 previous_siblings 分别返回所有前面和后面的兄弟节点的生成器。

 

提取信息

  • soup.a.next_sibling........soup.a.next_sibling.string.......soup.a.parents[0].attrs['class'].....类似的方法

 

 

2、方法选择器

  • find_all(name , attrs , recursive , text , **kwargs)

name:可以根据节点名来查询元素

attrs:传入属性来查询;soup.find_all(attrs={'id':'list_id'})

text:参数用来匹配节点的文本,传入的形式可以是字符串,也可以是正则表达式对象。soup.find_all(text=re.compile('link'))

 

  • find

find返回的是单个元素,也就是第一个匹配的元素,而findall返回的是所有匹配的元素组成的列表。

 

find_parents()和find_parent():前者返回所有祖先节点,后者返回直接父节点

find_next_sublings()和find_next_sibling():前者返回后面所有的兄弟节点,后者返回后面第一个兄弟节点。

find_previous_siblings()和find_previous_sibling():前者返回前面所有的兄弟节点,后者返回前面第一个兄弟节点。

 

find_all_next()和find_next(): 前者返回节点后所有符合条件的节点,后者返回第一个符合条件的节点。

find_all_previous()和find_previous():

 

 

3、CSS选择器

使用CSS选择器时,只需要调用select()方法,传入相应的CSS选择器即可。

soup.select('.panel .panel-heading')

soup.select('ul li') # 选择所有ul节点下面的所有li节点,结果便是所有的li节点组成的列表。

soup.select(('ul')[0] # 仍然是Tag类型

 

  • 嵌套选择

select()方法同样支持嵌套选择。例如先选择所有ul节点,再遍历每个ul节点,选择其li节点。

  • 获取属性

因为节点的类型是Tag类型,所以获取属性还可以用原来的方法。

for ul in soup.select('ul'):

print(ul['id'])

print(ul.attrs['id'])

可以看到,直接传入中括号和属性名,以及通过attrs属性获取属性值,都OK。

  • 获取文本

获取文本同样可以使用string。 此外,还可以使用 get_text()

for li in soup.select('li'):

print('String:', li.string)

print('Get Text:', li.get_text())

 

---END---

 

 

你可能感兴趣的:(网络爬虫)