附录2-将三国演义按章节存储为不同的txt(bs4)

地址 《三国演义》全集在线阅读_史书典籍_诗词名句网

目录

1  项目分析

2  代码


1  项目分析

我们可以在首页中找到所有的章节

附录2-将三国演义按章节存储为不同的txt(bs4)_第1张图片

每一个章节是一个a标签,a标签连接到该章节的内容

附录2-将三国演义按章节存储为不同的txt(bs4)_第2张图片

但这个网站他有bug,章节都是乱套的,我们无视这种错误,直接保存

2  代码

思路就是先把网页爬下来,然后从网页找找到章节名称与章节链接,之后再请求对应的章节链接,把章节内容爬下来

附录2-将三国演义按章节存储为不同的txt(bs4)_第3张图片

爬了几个之后我就手动停掉了

附录2-将三国演义按章节存储为不同的txt(bs4)_第4张图片

在result中会出现这些txt

并且内容也与网站上看到的一样

附录2-将三国演义按章节存储为不同的txt(bs4)_第5张图片

你可能感兴趣的:(爬虫笔记,python)