【Python爬虫】BS4(BeautifulSoup)常用属性及函数

【Python爬虫】BS4(BeautifulSoup)常用属性及函数

文章目录

  • 【Python爬虫】BS4(BeautifulSoup)常用属性及函数
      • 一、获取标签
        • 1. soup.tagName
        • 2. soup.find(tagName)
          • 2.1 soup.find(tagName, class_/id/attr)
        • 3. soup.find_all(tagName)
        • 4. soup.select(css_selector)
      • 二、获取文本数据
        • 1. tag.text和tag.get_text()
        • 2. tag.string
      • 三、获取属性值
        • tag[attr]

以百度首页为例,假设前面的代码有

from bs4 import BeautifulSoup
import requests

url = 'https://www.baidu.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
}

res = requests.get(url, headers=headers)

soup = BeautifulSoup(res.text, 'lxml')

一、获取标签

1. soup.tagName

返回找到的第一个tagName标签(与函数find()相同)

# 返回找到的第一个标签
soup.a

2. soup.find(tagName)

返回找到的第一个tagName标签(与.tagName属性相同)

# 返回找到的第一个标签
soup.find('a')
2.1 soup.find(tagName, class_/id/attr)

根据class_idattr(其他属性,比如type)寻找标签,如果有多个,则返回找到的第一个标签

# 返回找到的第一个属性type='text/javascript'的
                    
                    

你可能感兴趣的:(爬虫,python,爬虫)