Python爬虫实战--爬取一个小说网站

前言

  夜里是最难受的时候,安静,睡不着,这可怎么办?老难受了,突然想到之前的聊斋志异,我所接触的最早的鬼故事!于是,手机网翻遍了都是只能在线看,不能下载。特别是这个网--汉扬居 (网站暂时不能进了),只要我一下载就给我报个网页找不到的异常,我试了三个浏览器都是这样!这我就不服了!

  咱是个讲道理的人,既然你不让我好好下载,那我就不下载呗。看看他的robots.txt
长这样子

  我看这个网的所有东西和这个robots.txt没关系,还有
这个

更加激起了我想搞它的想法。

  咱不多说,搞它就对了!


开搞

  1. 思路:

    1.1 找一个小说,看network的XHR
    空空如也
    。这就说明这个网站没想后端发请求。

1.2 看看源码
这个的源码
在这里

说明数据是直接加载到网页上了

1.3 那么就从主页找起 http://www.bjhanyang.com/这个路径;找它下面的所有分类;每一个分类下的所有书;每本书下的所有章节。

  1. 基础配置
    2.1 先导入库
import requests as req
from bs4 import BeautifulSoup as bs
import re, os, uuid

2.2 写一个主方法,专门用来请求的,因为是直接通过浏览器的地址访问的,所以发的都还是get请求,并使用UA伪装

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}

base_url = "http://www.bjhanyang.com/"

def base_fun(url):
    get = req.get(url=url, headers=headers)
    # get.encoding = get.apparent_encoding
    return bs(get.text, "lxml")
  1. 找所有分类并获取每一个分类下的所有的页号地址
    3.1 通过 http://www.bjhanyang.com/ 找到所有的分类
      a.
    分类
    源码

    这里面有地址和分类名

3.2 获取box下所有的a

html = base_fun(url)
select = html.select(".box > a")

3.3 所有的分类网页都是有一个更多xx小说

这样
,所以点进去,你会发现路径变了
路径
,这个路径就是每一个分类的真实地址。把找到的所有的a中的地址都给拼成这样的
分类
推理也是这样

3.4 在每一个分类的下面都会发现这个东西
分页

3.5 换一下页会发现第一又变了
地址

3.6 那就拿到这两个东西

找分页
拿到这个总的分页用for遍历,就可以拿到这分类下的所有的分类页号地址

  1. 拿到每一个分类下的所有页号下的所有书地址
    4.1 检查http://www.bjhanyang.com/tuili/shuku_399_2.html这个网址下的书
    image.png

4.2 使用css选择器获取ul_m_list下所有的li下第二个diva里的东西

html = base_fun(url)
li_s = html.select(".ul_m_list > li")
for i in range(len(li_s)):
     title = li_s[i].find("div", class_="title").find("div", class_="t").find("a")
     book_name = title.get("title")

4.3 拼接每一本书的真实地址

  1. 通过每一本书的真实地址获取那本书的所有章节地址,并通过章节地址获取每一章的具体内容

    5.1 通过每一本书的真实地址获取那本书的书名,作者,总字数,状态,最新章节简介
html = base_fun(url)
book = html.select(".j_box > .title ")[0]
book_name = book.select("h2")[0]  # 书名
category_name = html.select("div.j_box > div.info > ul > li.lb > a")[0].text  # 分类
book_author = html.select(".info > ul > li:nth-child(1)")[0].text.split(":")[1]  # 作者 
book_total_num = html.select("#cms_ready_1")[0].text  # 总字数
book_statue = html.select(".info > ul > li.wj")[0].text.split(":")[1]  # 状态
book_new_chapter = html.select("div.j_box > div.words > a")[0].text.strip()  # 新章节
book_intro = html.select("div.j_box > div.words > p")[0].text.strip()  # 简介

5.2 址获取那本书的所有的章节地址
li_s = html.select(".list_box > ul > li")
    for i in range(len(li_s)):
        href = li_s[i].find("a").get("href")
        title = li_s[i].find("a").get("title")

5.3 通过章节地址获取章节内容


html = base_fun(url)
text = html.select(".box_box")[0].select("div")
  1. 由于没有用多线程,我写这个博客用了2小时,但程序还在跑

你可能感兴趣的:(Python爬虫实战--爬取一个小说网站)