【PYTHON】【爬虫】多多看书小说抓取

本博客仅仅是为了记录学习过程,如涉及侵权。请告知,立即删除。谢谢!

多多看书小说网站:https://xiaoshuo.sogou.com/

1.  进入多多看书网站,选择一个当前限时免费的小说。这里选择《龙武帝尊》。打开该小说的第一章,Ctrl+S保存HTML。

【PYTHON】【爬虫】多多看书小说抓取_第1张图片

2. 用NotePad++打开下载的HTML,找到小说正文部分

【PYTHON】【爬虫】多多看书小说抓取_第2张图片

3. 使用requests获取HTML

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'https://xiaoshuo.sogou.com/chapter/9027407560_295809430075282/'
    req = requests.get(url=target)
    print(req.text)

【PYTHON】【爬虫】多多看书小说抓取_第3张图片

4. 用BeautifulSoup对HTML进行解析

通过分析HTML发现,小说的【章节名称】和【内容】都放置在一个div标签内,且该标签具有属性class="paper-box paper-article"

【PYTHON】【爬虫】多多看书小说抓取_第4张图片

通过属性class="paper-box paper-article"对div标签进行筛选,代码如下

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
    target = 'https://xiaoshuo.sogou.com/chapter/9027407560_295809444117044/'
    req = requests.get(url = target)
    html = req.text
    
    # HTML解析
    bf_toal     = BeautifulSoup(html, 'html.parser')
    paper_texts = bf_toal.find_all('div', class_="paper-box paper-article")
    print(paper_texts)

在筛选结果下的

标签内包含了章节名称,在

你可能感兴趣的:(PYTHON)