Python采集--小说一键保存txt文本

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本

噢~那是一本本的小说,那这究竟是怎么实现的效果呢?

就让我用文章带你实现吧~

Python采集--小说一键保存txt文本_第1张图片

完整源码、python资料: 点击此处跳转文末名片获取

前期准备须知:

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

  • requests 发送请求模块

爬 :

模拟 客户端 向 服务器 发送网络请求

在日常生活当中使用的电脑 联网了 操作如果是需要联网的

作用 :

从互联网当中批量获取数据

模拟人行为操作

代码实现 基本流程:

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

采集网站:

Python采集--小说一键保存txt文本_第2张图片

代码展示:

导入模块

import requests
import re

网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢

book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# 
.*?
#
第14章 寂静的春天(2)
url_list = re.findall('
.*?
'
, book_text) for sub_url in url_list: url = 'https:/***.tw/book_76108/' + sub_url

发送请求

    response = requests.get(url)

获取数据

    html_data = response.text

解析数据 提取数据

结构化数据: json数据 字符串 {"":"", "":""} 字典取值

非结构化数据: 网页源代码 xpath/css/re bs4/parsel/lxml/re....

地方找到符合规则的所有数据

    text = re.findall('

(.*?)
', html_data)[0] title = re.findall('

(.*?)

'
, html_data)[0] #   : 空格 #
: 换行 在win当中换行是\n mac \r\n
# replace("需要被替换的内容", "替换为什么内容") text = title+'\n\n'+text.replace(' ', ' ').replace('
'
, '\n') print(text)

保存数据

a: 追加写入

w: 覆盖写入

    open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)

Python采集--小说一键保存txt文本_第3张图片

Python采集--小说一键保存txt文本_第4张图片

尾语

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦

问题解答 · 源码获取 · 技术交流 · 抱团学习请联系

你可能感兴趣的:(爬虫,python,开发语言)