Python学习日记:第一个爬虫优化进阶——将爬到的内容下载保存为PDF

上一篇我们从一个简单的爬虫例子出发,已经初步认识到Python的魅力,简短的几句,一个初具功能的爬虫就已见端倪。

这一篇我们继续从第一个例子出发深入——我们将爬到的内容保存为HTML文件和PDF文件吧!

进阶的代码如下所示:

# 导入必要的库
import os  # 用于操作文件系统
import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析HTML内容
import pdfkit  # 用于将HTML文件转换为PDF文件
import time  # 用于暂停程序执行

#请求头,避免403错误
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 获取http://www.ci123.com/category.php/84/114'
response = requests.get('http://www.ci123.com/category.php/84/114', headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 获取所有a标签
a_tags = soup.find_all('a')
# print(len(a_tags))

# 遍历a标签
for a in a_tags:
    # 获取a标签的text
    text = a.text.strip()
    # 如果text长度大于10
    if len(text) > 10:
        # 获

你可能感兴趣的:(python,学习,爬虫)