嗨喽~大家好呀,这里是魔王呐 ❤ ~!
不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本
噢~那是一本本的小说,那这究竟是怎么实现的效果呢?
就让我用文章带你实现吧~
完整源码、python资料: 点击此处跳转文末名片获取
开发环境:
python 3.8 运行代码
pycharm 2022.3 辅助敲代码
requests 发送请求模块
爬 :
模拟 客户端 向 服务器 发送网络请求
在日常生活当中使用的电脑 联网了 操作如果是需要联网的
作用 :
从互联网当中批量获取数据
模拟人行为操作
代码实现 基本流程:
发送请求
获取数据
解析数据
保存数据
采集网站:
导入模块
import requests
import re
网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢
book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# .*?
# 第14章 寂静的春天(2)
url_list = re.findall('.*? ', book_text)
for sub_url in url_list:
url = 'https:/***.tw/book_76108/' + sub_url
发送请求
response = requests.get(url)
获取数据
html_data = response.text
解析数据 提取数据
结构化数据: json数据 字符串 {"":"", "":""}
字典取值
非结构化数据: 网页源代码 xpath/css/re
bs4/parsel/lxml/re....
从地方找到符合规则的所有数据
text = re.findall('
(.*?)
保存数据
a:
追加写入
w:
覆盖写入
open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)
要成功,先发疯,下定决心往前冲!
学习是需要长期坚持的,一步一个脚印地走向未来!
未来的你一定会感谢今天学习的你。
—— 心灵鸡汤
本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦