爬虫项目(七):CSDN博客全部文章信息爬取

文章目录

    • 一、书籍推荐
    • 二、完整代码
    • 三、运行结果

一、书籍推荐

推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见: 《Python网络爬虫入门到实战》 书籍介绍

二、完整代码

本文详细分析了一个Python脚本,该脚本用于抓取CSDN博客的文章信息,并将信息保存到Excel中,最后访问每篇文章的URL。通过这个脚本,我们可以学习到Python网络请求、文件操作、异常处理等基础知识,对于提高Python编程能力具有一定的帮助。

import requests
import openpyxl
import time

# 定义全局请求头
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4542.2 Safari/537.36'}


# 获取数据抓包,返回json数据集
def getData(url, params):
    response = requests.get(url, params=params, headers=HEADERS)
    return response.json()


# 获取文章数
def getArtic

你可能感兴趣的:(爬虫)