python reptile(爬虫)[一]

使用request获取网页资源

#导入
import requests
from bs4 import BeautifulSoup
# 获取
res = requests.get("https://www.sina.com.cn/")
#指定编码
res.encoding = "utf-8"

使用beautifulsoup获取指定资源

# 转化request对应为soup , 并指定html解释器
soup = BeautifulSoup(res.text,"html.parser")
# 获取指定id内容--: 以#开头
for news in soup.select("#ad_45976"):
    print(news.text)
# 获取指定html标签内容 直接使用标签名
for news in soup.select("a"):
    print(news.text)
# 获取指定class内容 --: 以.开头
soup.select(".top-nav")[0].text  # 获得目标class的内容
# 组合查询 子级
print(soup.select(".top-nav .tn-title")[0].text) # 在class top-nav下的 class tn-title的内容 
# 组合查询 属性
print(soup.select('a[target="_blank"]')) #target属性为_blank的a标签
# 自核查询 直接子标签
print(soup.select("i > em"))

你可能感兴趣的:(杂学)