bs4的基本使用

文章目录

      • bs4的基本使用
        • 安装bs4
        • 导入bs4
        • 基本使用

bs4的基本使用

BeautifulSoup是一个可以从HTML或XML中提取数据的Python库

安装bs4
pip install bs4
导入bs4
from bs4 import BeautifulSoup
基本使用

示例Html

html=""" 
     
"""

首先初始化BeautifulSoup对象

# 1.初始化对象
page=BeautifulSoup(html,"html.parser")

接着可以开始查找标签

# 2.查找ID的值为abc的li标签
page.find("li",attrs={"id":"abc"})

find函数

find函数,第一个参数是标签名,第二个参数是属性,这里是为了查找ID值为abc的li标签,满足需求的就只有一个。

page.findAll("li",attrs={"id":"abc"})

find函数从页面中查找满足条件的值,并且只查找一个,而findAll则是查找所有,并且参数和find完全一致

这里调用find后的输出结果如下:

E:\pyproject\test\Scripts\python.exe E:\pyproject\test\main.py 
<li id="abc"><a href="zhouxingchi.com">周星驰</a></li>

进程已结束,退出代码为 0

这里已经找到了我们要的li标签了,那么如果还想再往里一层找到里面的a标签的话,就可以继续查找

a=li.find("a")

输出结果:

E:\pyproject\test\Scripts\python.exe E:\pyproject\test\main.py 
<a href="zhouxingchi.com">周星驰</a>

进程已结束,退出代码为 0 

如果想要拿到标签里面的文本内容,可以用

print(a.text)

如果想要拿到标签里面的链接,则可以通过取属性值的方式来获取

print(a.get("href"))

find_all函数

如果我想要查找到Html里面所有的li标签,那么就可以使用find_all函数

li_list=page.find_all("li")

for li in li_list:
   print(li)

li标签,那么就可以使用find_all函数

li_list=page.find_all("li")

for li in li_list:
   print(li)

你可能感兴趣的:(python,网络爬虫)