相关网址:玄幻:我!天命大反派_001_年轻大人,顾长歌(求评价,求鲜花)_免费小说阅读_飞卢小说网
相关代码
# @Time: 2024/1/27 16:26
# @Author: 马龙强
# @File: 爬取飞卢小说内容.py
# @software: PyCharm
"""
网址:https://b.faloo.com/724903_1.html
数据:小说内容 / 章节名字
分析数据内容
vip内容 获取小说图片 通过文字识别获取内容
"""
"""
代码实现步骤
"""
import requests
import re
import parsel
#请求 小说目录页
link = 'https://b.faloo.com/724903.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
#获取每章的数据内容
html_data = requests.get(url=link,headers=headers).text
selector_1 = parsel.Selector(html_data)
#小说名字
name = selector_1.css('#novelName::text').get()
#小说章节url
href = selector_1.css('.DivTd3 a::attr(href)').getall()
# print(href)
for index in href:
#模拟浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
#请求链接
url = 'https:' + index
#发送请求
response = requests.get(url=url,headers=headers)
# print(response)
# print(response.text)
#获取数据
#解析数据
"""
1. re正则
title = re.findall('玄幻:我!天命大反派 (.*?)
',response.text)[0]
2. css选择器
selector = parsel.Selector(response.text)
title = selector.css('.c_l_title h1::text').get()
3. xpath节点提取
title = selector.xpath('//*[@class="c_l_title"]/h1/text()').get()
get 提取第一个标签数据 返回字符串
getall 获取所有 多个 返回列表
"""
#把response.text 转成可解析对象
selector = parsel.Selector(response.text)
#提取标题
title = selector.css('.c_l_title h1::text').get().split(' ')[-1]
#提取小说内容
# content = selector.css('.noveContent p::text').get()
# str.join() #把列表合并成可解析对象
#提取小说内容 把列表合并成字符串
content = '\n'.join(selector.css('.noveContent p::text').getall())
#提取小说内容
"""
保存数据,小说内容保存本地文件 txt
title + '.txt' 文件名,文件格式
a 追加保存
"""
with open(name + '.txt',mode='a',encoding='utf-8') as f:
#写入数据
f.write(title)
f.write('\n')
f.write(content)
f.write('\n')
print(title)
爬取结果