python爬虫之小说章节获取,聊斋志异小说完整版

“写鬼写妖高人一等,刺贪刺虐入骨三分。”
没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧。

开发环境

  • python3.7
  • requests模块
  • lxml模块

获取分析

python爬虫之小说章节获取,聊斋志异小说完整版_第1张图片

找到聊斋志异的小说网站。
通过查看源码与分析小说每一章的URL链接发现,构成每一章的URL链接其实是通过小说网站URL链接的前缀+每一章的章节属性得到。

#获取章节链接
     for name0 in url2:
         name = name0.xpath("./a/text()")[0]
         urlhref = name0.xpath("./a/@href")[0]
         finurl = "https://www.sbkk88.com" + urlhref

获取到小说每一章的URL链接后分析章节内容网页,发现是静态页面,直接通过requests.get()方法就获取到。

#解析,获取内容
         response2 = requests.get(finurl,headers = headers).content.decode('gbk')
         html = etree.HTML(response2)
         cons = html.xpath("//*[@id='f_article']/p")
         for one in cons:
             essay = []
             conss = one.xpath(".//text()")
             for sentence in conss:
                 if sentence == "一":
                     pass
                 else:
                     essay.append(sentence)

最后将爬取到的内容写入.txt文本,就能得到一本完整的聊斋志异小说!

结果展示:

python爬虫之小说章节获取,聊斋志异小说完整版_第2张图片
聊斋志异小说

现在就能阅读整本的聊斋志异白话文小说了。

你可能感兴趣的:(python爬虫之小说章节获取,聊斋志异小说完整版)