古人云:“问君能有几多愁,恰似一群爬虫在爬网。” 但现在的我们可以说:“学爬虫,就像打怪升级一样,一步一步,勤学多练才能变得更强!下面就开始爬虫的第一个案例练习吧,获取搜索结果要涉及requests、beautiful soup、pandas等知识点,非常适合刚入门python爬虫的小伙伴练习。
注:若涉及到版权或隐私问题,请及时联系我删除即可。
目录
一、分析页面
二、requests用法简介
1. GET请求
2. POST请求
3. params与data参数
4. 请求头headers
5. 代理服务信息proxies
6. 小结
三、请求页面
四、函数封装,规范代码
GET请求用于向服务器请求某个资源,常用于获取数据,例如获取网页、图片、视频等。GET请求会在URL中附加请求参数,因此可以通过修改URL来发送不同的请求,请求参数通常包含在URL的查询字符串中。例如:
import requests
# 发送GET请求
url = '搜索url'
params = {'query': 'key_word', 'page': '1'}
response = requests.get(url, params=params)
# 处理响应
print(response.status_code) # 响应状态码
print(response.headers) # 响应头部
print(response.content) # 响应内容(以字节形式)
print(response.text) # 响应内容(以字符串形式)
GET请求的优点是请求速度快、方便缓存,缺点是安全性差,因为请求参数会被暴露在URL中,容易被恶意攻击者截取或篡改。
POST请求用于向服务器提交数据,常用于提交表单、上传文件等。POST请求会将请求参数包含在请求体中,而不是URL中,因此可以提交比较大的数据。例如:
import requests
# 发送POST请求
url = '搜索url'
data = {'username': 'name', 'password': '******'}
response = requests.post(url, data=data)
# 处理响应
print(response.status_code) # 响应状态码
print(response.text) # 响应内容
POST请求的优点是安全性高,因为请求参数不会暴露在URL中,缺点是请求速度慢、不能缓存。此外,由于POST请求可以提交比较大的数据,因此也有可能导致服务器负载过高,需要进行限流控制。
总结,GET和POST都是常用的HTTP请求方法。
使用requests库发送HTTP请求时,参数params和data都用于传递请求参数,但它们的含义和用法有所不同。
如上面例中的GET请求与POST请求。
headers 参数来设置请求头信息。请求头包含了浏览器或客户端向服务器发送的信息,用于描述请求的属性和内容。在 requests 中,headers 参数是一个字典对象,包含了需要设置的请求头信息。例如:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', # 发送请求的用户代理信息,包括操作系统和浏览器类型
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', # 能够接受的响应类型
'Accept-Language': 'en-US,en;q=0.5', # 能够接受的自然语言类型
'Accept-Encoding': 'gzip, deflate, br', # 能够接受的内容编码类型
'Connection': 'keep-alive', # 是否需要保持连接
'Upgrade-Insecure-Requests': '1', # 是否需要升级不安全的请求
'Referer': 'https://www.google.com/', # 发送请求的来源页面
'If-Modified-Since': 'Thu, 01 Jan 1970 00:00:00 GMT', # 上次修改时间,用于判断是否需要重新请求
'Cache-Control': 'max-age=0', # 缓存控制,指定缓存策略
'Cookie': 'session_id=1234567890abcdef' # 添加cookie
}
常用的设置,我们会在headers中加入User-Agent、Cookie等
proxies
参数用于指定HTTP代理服务器,即将请求发送到代理服务器而不是目标服务器。HTTP代理服务器可以用于匿名访问目标服务器,绕过地理位置限制或绕过防火墙等。proxies
参数是一个字典,其中包含协议(http或https)和代理服务器的地址和端口号。例如:
import requests
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
response = requests.get('搜索url', proxies=proxies)
print(response.text)
在确定了请求方式之后,使用requests模块请求的常用请求代码为:
import requests
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}
# 设置请求参数
params = {
'query': 'key_word',
'page': 1,
}
# 设置代理
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
# 发送请求
response = requests.get('搜索url', headers=headers, params=params, proxies=proxies)
# 输出响应内容
print(response.text)
有了上面requests模块的基础和分析,请求方式为GET,使用params参数传递关键词参数和页面参数
import requests
key_word = input('请输入查询关键词:')
page_num = int(input('请输入需要查询的页数:'))
url = '搜索url'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
data = [] # 存储搜索结果的列表
for i in range(page_num):
params = {
'query': key_word, # 指定关键词
'page': i + 1 # 指定查询的页数
}
try:
response = requests.get(url=url, headers=headers, params=params)
response.raise_for_status() # 检查请求是否成功,若不成功则抛出异常
response.encoding = response.apparent_encoding # 使用正确的编码解析响应内容
page_text = response.text
except Exception as e:
print('请求失败:', e)
if page_text is None:
print(f'第{i + 1}页搜索结果获取失败')
continue
print(page_text)
请求成功返回了page_text,使用BeautifulSoup解析数据,提取搜索结果的url和title
from bs4 import BeautifulSoup
soup = BeautifulSoup(page_text, 'lxml')
results = soup.find_all('div', class_='vrwrap')
data = []
for result in results:
url = result.find('a')['href']
title = result.find('a').text
data.append({'链接': url, '标题': title})
print(data)
使用pandas库将数据写入Excel
import pandas as pd
df = pd.DataFrame(data)
try:
df.to_excel('results.xlsx', index=False, encoding='utf-8')
print(f'数据已写入Excel文件:results.xlsx')
except Exception as e:
print('写入Excel文件失败:', e)
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_page_text(url: str, headers: dict, params: dict) -> str:
"""
发起请求并返回响应文本
:param url: 请求的URL地址
:param headers: 请求头信息,包含User-Agent等
:param params: 请求参数,包含查询关键词等
:return: 响应文本
"""
try:
response = requests.get(url=url, headers=headers, params=params)
response.raise_for_status() # 检查请求是否成功,若不成功则抛出异常
response.encoding = response.apparent_encoding # 使用正确的编码解析响应内容
return response.text
except Exception as e:
print('请求失败:', e)
def parse_page(page_text):
"""
解析HTML页面,获取url和title,并存储到列表中
"""
soup = BeautifulSoup(page_text, 'lxml')
results = soup.find_all('div', class_='vrwrap')
data = []
for result in results:
url = result.find('a')['href']
title = result.find('a').text
data.append({'链接': url, '标题': title})
return data
def get_search_results(key_word: str, page_num: int) -> pd.DataFrame:
"""
获取搜索结果,并以DataFrame形式返回
:param key_word: 查询关键词
:param page_num: 需要查询的页数
:return: DataFrame对象,包含搜索结果的链接和标题
"""
url = '搜索url'
headers = {
'User-Agent': '"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",'
}
data = [] # 存储搜索结果的列表
for i in range(page_num):
print("正在抓取第{}页,请稍后...".format(i+1))
print('-'*200)
params = {
'query': key_word, # 指定关键词
'page': i + 1 # 指定查询的页数
}
page_text = get_page_text(url, headers, params)
if page_text is None:
print(f'第{i + 1}页搜索结果获取失败')
continue
page_data = parse_page(page_text)
data.extend(page_data)
time.sleep(3)
df = pd.DataFrame(data)
return df
def save_to_excel(df: pd.DataFrame, filename: str, sheet_name: str) -> None:
"""
将DataFrame对象中的数据写入Excel文件
:param df: DataFrame对象
:param filename: Excel文件名
:param sheet_name: 工作表名
"""
try:
df.to_excel(filename, index=False, encoding='utf-8', sheet_name=sheet_name)
print(f'数据已写入Excel文件:{filename},工作表名:{sheet_name}')
except Exception as e:
print('写入Excel文件失败:', e)
if __name__ == '__main__':
key_word = input('请输入查询关键词:')
page_num = int(input('请输入需要查询的页数:'))
df = get_search_results(key_word, page_num)
save_to_excel(df, 'results.xlsx', '搜索结果')
需要注意的是网站对访问频率有着限制,需要降低访问频率,或者使用代理IP解决被限制的问题。完整代码已放置我的网盘,需要请自取。