推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见: 《Python网络爬虫入门到实战》 书籍介绍
本文详细分析了一个Python脚本,该脚本用于抓取CSDN博客的文章信息,并将信息保存到Excel中,最后访问每篇文章的URL。通过这个脚本,我们可以学习到Python网络请求、文件操作、异常处理等基础知识,对于提高Python编程能力具有一定的帮助。
import requests
import openpyxl
import time
# 定义全局请求头
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4542.2 Safari/537.36'}
# 获取数据抓包,返回json数据集
def getData(url, params):
response = requests.get(url, params=params, headers=HEADERS)
return response.json()
# 获取文章数
def getArtic