爬虫基础知识点快速入门

以下是一个包含注释的Python示例,演示了基本的网页爬取过程,以及一些常见的爬虫知识点:

# 导入必要的库
import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析HTML
import csv  # 用于数据存储

# 1. 指定目标网站的URL
url = 'https://example.com'

# 2. 发送GET请求,获取网页内容
response = requests.get(url)

# 3. 检查请求是否成功
if response.status_code == 200:
    # 4. 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 5. 找到需要的信息,例如标题
    title = soup.title.text

    # 6. 打印标题
    print(f'Title: {title}')

    # 7. 查找所有链接
    links = soup.find_all('a')

    # 8. 打印所有链接
    for link in links:
        href = link.get('href')
        print(f'Link: {href}')

    # 9. 数据存储示例:将标题和链接写入CSV文件
    with open('data.csv', 'w', newline='', encoding='utf-8') as csvfile:
        csvwriter = csv.writer(csvfile)
        csvwriter.writerow(['Title', 'Link'])
        for link in links:
            href = link.get('href')
            csvwriter.writerow([title, href])

else:
    print('Failed to retrieve the web page.')

# 注意:请将'https://example.com'替换为你要爬取的网站的实际URL

这个示例演示了以下爬虫基础知识点:

  1. 指定目标网站的URL。
  2. 使用requests库发送HTTP GET请求来获取网页内容。
  3. 检查请求是否成功(HTTP状态码为200表示成功)。
  4. 使用BeautifulSoup解析HTML内容。
  5. 查找所需的信息,例如标题。
  6. 打印标题和其他信息。
  7. 查找所有链接。
  8. 打印所有链接。
  9. 数据存储示例:将标题和链接写入CSV文件。

请确保你已经安装了以上使用的库,你可以使用以下命令来安装它们:

pip install requests
pip install beautifulsoup4
pip install csv

你可能感兴趣的:(新手知识点速通,爬虫)