【爬虫】案例01:爬取某搜索网站搜索结果数据

古人云:“问君能有几多愁,恰似一群爬虫在爬网。” 但现在的我们可以说:“学爬虫,就像打怪升级一样,一步一步,勤学多练才能变得更强!下面就开始爬虫的第一个案例练习吧,获取搜索结果要涉及requests、beautiful soup、pandas等知识点,非常适合刚入门python爬虫的小伙伴练习。
注:若涉及到版权或隐私问题,请及时联系我删除即可。

目录

一、分析页面

二、requests用法简介

1. GET请求

2. POST请求

3. params与data参数

4. 请求头headers

5. 代理服务信息proxies

6. 小结

三、请求页面

四、函数封装,规范代码


一、分析页面

  • GET请求
  • 关键词在query中
  • 页码在page中

二、requests用法简介

1. GET请求

        GET请求用于向服务器请求某个资源,常用于获取数据,例如获取网页、图片、视频等。GET请求会在URL中附加请求参数,因此可以通过修改URL来发送不同的请求,请求参数通常包含在URL的查询字符串中。例如:

import requests

# 发送GET请求
url = '搜索url'
params = {'query': 'key_word', 'page': '1'}
response = requests.get(url, params=params)

# 处理响应
print(response.status_code) # 响应状态码
print(response.headers)     # 响应头部
print(response.content)     # 响应内容(以字节形式)
print(response.text)        # 响应内容(以字符串形式)

        GET请求的优点是请求速度快、方便缓存,缺点是安全性差,因为请求参数会被暴露在URL中,容易被恶意攻击者截取或篡改。

2. POST请求

        POST请求用于向服务器提交数据,常用于提交表单、上传文件等。POST请求会将请求参数包含在请求体中,而不是URL中,因此可以提交比较大的数据。例如:

import requests

# 发送POST请求
url = '搜索url'
data = {'username': 'name', 'password': '******'}
response = requests.post(url, data=data)

# 处理响应
print(response.status_code) # 响应状态码
print(response.text)        # 响应内容

POST请求的优点是安全性高,因为请求参数不会暴露在URL中,缺点是请求速度慢、不能缓存。此外,由于POST请求可以提交比较大的数据,因此也有可能导致服务器负载过高,需要进行限流控制。

总结,GET和POST都是常用的HTTP请求方法。

  •         向服务器请求某个资源,使用GET请求;
  •         提交数据,通常使用POST请求。

3. params与data参数

使用requests库发送HTTP请求时,参数params和data都用于传递请求参数,但它们的含义和用法有所不同。

  •         params参数:用于传递GET请求的参数,将参数编码后添加到URL的查询字符串中。
  •         data参数:用于传递POST请求的参数,将参数编码后添加到请求体中。

如上面例中的GET请求与POST请求。

4. 请求头headers

        headers 参数来设置请求头信息。请求头包含了浏览器或客户端向服务器发送的信息,用于描述请求的属性和内容。在 requests 中,headers 参数是一个字典对象,包含了需要设置的请求头信息。例如:

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', # 发送请求的用户代理信息,包括操作系统和浏览器类型
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', # 能够接受的响应类型
    'Accept-Language': 'en-US,en;q=0.5', # 能够接受的自然语言类型
    'Accept-Encoding': 'gzip, deflate, br', # 能够接受的内容编码类型
    'Connection': 'keep-alive', # 是否需要保持连接
    'Upgrade-Insecure-Requests': '1', # 是否需要升级不安全的请求
    'Referer': 'https://www.google.com/', # 发送请求的来源页面
    'If-Modified-Since': 'Thu, 01 Jan 1970 00:00:00 GMT', # 上次修改时间,用于判断是否需要重新请求
    'Cache-Control': 'max-age=0', # 缓存控制,指定缓存策略
    'Cookie': 'session_id=1234567890abcdef' # 添加cookie
}

常用的设置,我们会在headers中加入User-Agent、Cookie等

5. 代理服务信息proxies

        proxies参数用于指定HTTP代理服务器,即将请求发送到代理服务器而不是目标服务器。HTTP代理服务器可以用于匿名访问目标服务器,绕过地理位置限制或绕过防火墙等。proxies参数是一个字典,其中包含协议(http或https)和代理服务器的地址和端口号。例如:

import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

response = requests.get('搜索url', proxies=proxies)

print(response.text)

6. 小结

        在确定了请求方式之后,使用requests模块请求的常用请求代码为:

  • GET请求
import requests

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}

# 设置请求参数
params = {
    'query': 'key_word',
    'page': 1,
}

# 设置代理
proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

# 发送请求
response = requests.get('搜索url', headers=headers, params=params, proxies=proxies)

# 输出响应内容
print(response.text)

三、请求页面

        有了上面requests模块的基础和分析,请求方式为GET,使用params参数传递关键词参数和页面参数

import requests

key_word = input('请输入查询关键词:')
page_num = int(input('请输入需要查询的页数:'))
url = '搜索url'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
data = []  # 存储搜索结果的列表
for i in range(page_num):
    params = {
        'query': key_word, # 指定关键词
        'page': i + 1  # 指定查询的页数
    }
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功,若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        page_text = response.text
    except Exception as e:
        print('请求失败:', e)
    if page_text is None:
        print(f'第{i + 1}页搜索结果获取失败')
        continue
    print(page_text)

        请求成功返回了page_text,使用BeautifulSoup解析数据,提取搜索结果的url和title

from bs4 import BeautifulSoup
soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
        print(data)

        使用pandas库将数据写入Excel

import pandas as pd

df = pd.DataFrame(data)
try:
    df.to_excel('results.xlsx', index=False, encoding='utf-8')
    print(f'数据已写入Excel文件:results.xlsx')
except Exception as e:
    print('写入Excel文件失败:', e)

四、函数封装,规范代码

       

import time
import requests
from bs4 import BeautifulSoup
import pandas as pd



def get_page_text(url: str, headers: dict, params: dict) -> str:
    """
    发起请求并返回响应文本

    :param url: 请求的URL地址
    :param headers: 请求头信息,包含User-Agent等
    :param params: 请求参数,包含查询关键词等
    :return: 响应文本
    """
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功,若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        return response.text
    except Exception as e:
        print('请求失败:', e)

def parse_page(page_text):
    """
    解析HTML页面,获取url和title,并存储到列表中
    """
    soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
    return data


def get_search_results(key_word: str, page_num: int) -> pd.DataFrame:
    """
    获取搜索结果,并以DataFrame形式返回

    :param key_word: 查询关键词
    :param page_num: 需要查询的页数
    :return: DataFrame对象,包含搜索结果的链接和标题
    """
    url = '搜索url'
    headers = {
        'User-Agent': '"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",'
    }
    data = []  # 存储搜索结果的列表
    for i in range(page_num):
        print("正在抓取第{}页,请稍后...".format(i+1))
        print('-'*200)
        params = {
            'query': key_word, # 指定关键词
            'page': i + 1  # 指定查询的页数
        }
        page_text = get_page_text(url, headers, params)
        if page_text is None:
            print(f'第{i + 1}页搜索结果获取失败')
            continue
        page_data = parse_page(page_text)
        data.extend(page_data)
        time.sleep(3)
    df = pd.DataFrame(data)

    return df


def save_to_excel(df: pd.DataFrame, filename: str, sheet_name: str) -> None:
    """
    将DataFrame对象中的数据写入Excel文件

    :param df: DataFrame对象
    :param filename: Excel文件名
    :param sheet_name: 工作表名
    """
    try:
        df.to_excel(filename, index=False, encoding='utf-8', sheet_name=sheet_name)
        print(f'数据已写入Excel文件:{filename},工作表名:{sheet_name}')
    except Exception as e:
        print('写入Excel文件失败:', e)


if __name__ == '__main__':
    key_word = input('请输入查询关键词:')
    page_num = int(input('请输入需要查询的页数:'))
    df = get_search_results(key_word, page_num)
    save_to_excel(df, 'results.xlsx', '搜索结果')

        需要注意的是网站对访问频率有着限制,需要降低访问频率,或者使用代理IP解决被限制的问题。完整代码已放置我的网盘,需要请自取。

你可能感兴趣的:(爬虫,爬虫,python)