Python爬虫系列教程之第十五篇：爬取电商网站商品信息与数据分析

import requests # 用于发送HTTP请求 from bs4 import BeautifulSoup # 用于解析HTML页面 import csv # 用于CSV文件读写 def scrape_books(): """ 爬取Books to Scrape网站中所有图书的信息 :return: 包含图书信息的列表，每个元素是一个字典，包含图书标题、价格、库存和评分 """ # 网站基础URL base_url = "http://books.toscrape.com/" # 初始页面，注意这里的第一页实际URL为catalogue/page-1.html next_page_url = "catalogue/page-1.html" # 用于存储所有图书数据的列表 books = [] # 循环遍历所有分页，直到没有“下一页”为止 while next_page_url: # 构造完整的URL url = base_url + next_page_url print(f"正在爬取页面：{url}") # 发送HTTP GET请求 response = requests.get(url) if response.status_code != 200: print(f"请求失败: {url}") break # 使用lxml解析器解析页面内容 soup = BeautifulSoup(response.text, 'lxml') # 查找页面中所有图书信息块，每本图书在

标签中 book_list = soup.find_all('article', class_='product_pod') for book in book_list: # 提取图书标题：标题存放在中 title = book.h3.a['title'] # 提取图书价格：存放在标签中，格式例如'£53.74' price = book.find('p', class_='price_color').get_text().strip() # 提取库存信息：存放在标签中 availability = book.find('p', class_='instock availability').get_text().strip() # 提取评分：评分通过

标签的class属性表示，X为评级（如One, Two等） rating_class = book.find('p', class_='star-rating')['class'] # rating_class一般为['star-rating', 'Three']，取第二个元素为实际评级 rating = rating_class[1] if len(rating_class) > 1 else 'None' # 将提取到的数据存入字典，并添加到列表中 books.append({ 'title': title, 'price': price, 'availability': availability, 'rating': rating }) # 查找“下一页”链接，判断是否还有下一页需要爬取 next_button = soup.find('li', class_='next') if next_button: # 获取下一页的相对URL next_page_relative = next_button.a['href'] # 注意：由于除第一页外，其他页面URL格式在/catalogue/下，因此统一构造为下面的格式 next_page_url = "catalogue/" + next_page_relative else: # 没有“下一页”，则结束循环 next_page_url = None return books def save_to_csv(books, filename): """ 将爬取的图书数据保存到CSV文件中 :param books: 图书数据列表，每个元素为字典 :param filename: 保存的CSV文件名 """ with open(filename, 'w', encoding='utf-8', newline='') as csvfile: # 定义CSV文件的字段名称 fieldnames = ['title', 'price', 'availability', 'rating'] writer = csv.DictWriter(csvfile, fieldnames=fieldnames) # 写入表头 writer.writeheader() # 逐行写入每本图书的数据 for book in books: writer.writerow(book) if __name__ == '__main__': # 调用爬虫函数获取所有图书数据 books = scrape_books() # 保存数据到CSV文件 save_to_csv(books, 'books.csv') print(f"爬取到 {len(books)} 本图书的信息，并已保存到 books.csv 文件中")

import pandas as pd # 从CSV文件中加载数据 df = pd.read_csv('books.csv') # 查看数据前5行 print("原始数据预览：") print(df.head()) # 数据清洗步骤： # 1. 将价格字段从字符串转换为浮点数，去除货币符号（例如'£'） df['price'] = df['price'].apply(lambda x: float(x.replace('£', ''))) # 2. 将评分字段（英文单词）转换为数字：映射关系如下 rating_mapping = {'One': 1, 'Two': 2, 'Three': 3, 'Four': 4, 'Five': 5} df['rating_num'] = df['rating'].map(rating_mapping) # 查看清洗后的数据 print("\n清洗后的数据预览：") print(df.head()) # 基本统计：计算所有图书的平均价格 avg_price = df['price'].mean() print(f"\n所有图书的平均价格为：£{avg_price:.2f}")

# 统计各个评分对应的图书数量 rating_counts = df['rating_num'].value_counts().sort_index() print("\n各评分图书数量：") print(rating_counts) # 按评分分组计算平均价格 avg_price_by_rating = df.groupby('rating_num')['price'].mean() print("\n不同评分图书的平均价格：") print(avg_price_by_rating)

import matplotlib.pyplot as plt # 设置中文字体（如需要显示中文，需确保系统安装中文字体） plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定黑体 plt.rcParams['axes.unicode_minus'] = False # 正常显示负号 # 绘制图书评分分布直方图 plt.figure(figsize=(8, 6)) rating_counts.plot(kind='bar', color='skyblue', edgecolor='black') plt.title('图书评分分布') plt.xlabel('评分') plt.ylabel('图书数量') plt.xticks(rotation=0) plt.tight_layout() plt.savefig('rating_distribution.png') # 保存图表为图片 plt.show() # 绘制不同评分图书平均价格柱状图 plt.figure(figsize=(8, 6)) avg_price_by_rating.plot(kind='bar', color='lightgreen', edgecolor='black') plt.title('不同评分图书的平均价格') plt.xlabel('评分') plt.ylabel('平均价格 (英镑)') plt.xticks(rotation=0) plt.tight_layout() plt.savefig('avg_price_by_rating.png') plt.show()

Python爬虫系列教程之第十五篇：爬取电商网站商品信息与数据分析

1. 项目背景与目标

2. 使用 Requests 与 BeautifulSoup 爬取图书信息

3. 数据清洗与分析

3.1 使用 Pandas 加载与清洗数据

3.2 数据分析示例

4. 数据可视化

5. 总结与展望

你可能感兴趣的:(深度博客,python,爬虫,数据分析)