Python3网络爬虫小说内容

转载作者:

http://blog.csdn.net/c406495762

转载文章:

https://blog.csdn.net/c406495762/article/details/78123502#1-requests%E5%AE%89%E8%A3%85

因转载作者所使用的小说网打不开。

    本文在以上文章的基础上自己爬虫其他网站小说,并对其中代码做了进一步解释,转载文章中的代码如果看不懂的可以参考本篇,新手学习,不足之处,请多多指教!

 

爬虫小说实战

语言:python3

软件:Pycharm2018

模块:BeautifulSoup、requests

requests库

基础方法如下: 

                      
官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests库的开发者为我们提供了详细的中文教程,查询起来很方便。本文不会对其所有内容进行讲解,摘取其部分使用到的内容,进行实战说明。

首先,让我们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。我们可以这样理解:get的中文意思是得到、抓住,那这个requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。让我们看一个例子(以 http://www.zongheng.com/为例)来加深理解:

# -*- coding=UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://www.zongheng.com//'
    req = requests.get(url=target)
    print(req.text)

requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。运行程序看下结果:

Python3网络爬虫小说内容_第1张图片
左侧是我们程序获得的结果,右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到,我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例,可能你会问,我只是爬取了这个网页的HTML信息,有什么用呢?客官稍安勿躁,接下来进入我们的实战正文。


(1) 实战背景


小说网站-纵横中文网:URL:http://www.zongheng.com/

本人基本不看小说,随意选了一个,自行练习请换其他小说网站

(2) 小试牛刀


我们先看下《大国良臣》小说的第一章内容,URL:http://book.zongheng.com/showchapter/912802.html

Python3网络爬虫小说内容_第2张图片
我们先用已经学到的知识获取HTML信息试一试,编写代码如下:

# -*- coding=UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://book.zongheng.com/chapter/912802/59031605.html'
    req = requests.get(url=target)
    print(req.text)


运行代码,可以看到如下结果:

Python3网络爬虫小说内容_第3张图片
可以看到,我们很轻松地获取了HTML信息。但是,很显然,很多信息是我们不想看到的,我们只想获得如右侧所示的正文内容,我们不关心div、br这些html标签。如何把正文内容从这些众多的html标签中提取出来呢?这就是本次实战的主要内容。

(3)Beautiful Soup

**爬虫的第一步,获取整个网页的HTML信息,我们已经完成。接下来就是爬虫的第二步,解析HTML信息,提取我们感兴趣的内容。**对于本小节的实战,我们感兴趣的内容就是文章的正文。提取的方法有很多,例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言,最容易理解,并且使用简单的方法就是使用Beautiful Soup提取感兴趣内容。


一个强大的第三方库,都会有一个详细的官方文档。我们很幸运,Beautiful Soup也是有中文的官方文档。

URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/

同理,我会根据实战需求,讲解Beautiful Soup库的部分使用方法,更详细的内容,请查看官方文档。

现在,我们使用已经掌握的审查元素方法,查看一下我们的目标页面,你会看到如下内容:

Python3网络爬虫小说内容_第4张图片
不难发现,文章的所有内容都放在了一个名为div的“东西下面”,这个"东西"就是html标签。HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。不理解,没关系,我们再举个简单的例子:

一个女人的包包里,会有很多东西,她们会根据自己的习惯将自己的东西进行分类放好。镜子和口红这些会经常用到的东西,会归放到容易拿到的外侧口袋里。那些不经常用到,需要注意安全存放的证件会放到不容易拿到的里侧口袋里。

html标签就像一个个“口袋”,每个“口袋”都有自己的特定功能,负责存放不同的内容。显然,上述例子中的div标签下存放了我们关心的正文内容。这个div标签是这样的:


1
细心的朋友可能已经发现,除了div字样外,还有itemprop和class。itemprop和class就是div标签的属性,content和acticleBody是属性值,一个属性对应一个属性值。这东西有什么用?它是用来区分不同的div标签的,因为div标签可以有很多,我们怎么加以区分不同的div标签呢?就是通过不同的属性值。

仔细观察目标网站一番,我们会发现这样一个事实:itemprop属性为acticleBody的div标签,独一份!这个标签里面存放的内容,是我们关心的正文部分。

知道这个信息,我们就可以使用Beautiful Soup提取我们想要的内容了,编写代码如下:

# -*- coding:UTF-8 -*-
import requests
from  bs4 import BeautifulSoup

if __name__ == "__main__":
    target = 'http://book.zongheng.com/chapter/912802/59031605.html'
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', itemprop="acticleBody")
    print(texts)


在解析html之前,我们需要创建一个Beautiful Soup对象。BeautifulSoup函数里的参数就是我们已经获得的html信息。然后我们使用find_all方法,获得html信息中所有itemprop属性为acticleBody的div标签。find_all方法的第一个参数是获取的标签名,第二个参数class_是标签的属性,为什么不是class,而带了一个下划线呢?因为python中class是关键字,为了防止冲突,这里使用class_表示标签的class属性,class_后面跟着的acticleBody就是属性值了。看下我们要匹配的标签格式:



这样对应的看一下,是不是就懂了?可能有人会问了,为什么不是find_all(‘div’,class="content", itemprop="acticleBody")?这样其实也是可以的,属性是作为查询时候的约束条件,添加一个 itemprop="acticleBody"条件,我们就已经能够准确匹配到我们想要的标签了,所以我们就不必再添加class这个属性了。运行代码查看我们匹配的结果:

Python3网络爬虫小说内容_第5张图片


我们可以看到,我们已经顺利匹配到我们关心的正文内容,但是还有一些我们不想要的东西。比如div标签名,p标签,以及各种空格。怎么去除这些东西呢?我们继续编写代码:

# -*- coding:UTF-8 -*-
import requests
from  bs4 import BeautifulSoup

if __name__ == "__main__":
    target = 'http://book.zongheng.com/chapter/912802/59031605.html'
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', itemprop="acticleBody")
    print(texts[0].text.replace('\xa0', '\n\n'))


find_all匹配的返回的结果是一个列表。提取匹配结果后,使用text属性,提取文本内容,滤除p标签。随后使用replace方法,剔除空格,替换为回车进行分段。 在html中是用来表示空格的。replace(’\xa0’,’\n\n’)就是去掉下图的空格符号,并用回车代替:


程序运行结果如下:

Python3网络爬虫小说内容_第6张图片
可以看到,我们很自然的匹配到了所有正文内容,并进行了分段。我们已经顺利获得了一个章节的内容,要想下载正本小说,我们就要获取每个章节的链接。我们先分析下小说目录:

URL:http://book.zongheng.com/showchapter/912802.html


通过审查元素,我们发现可以发现,这些章节都存放在了class属性为chapter-list clearfix的ul标签下,选取部分html代码如下:


在分析之前,让我们先介绍一个概念:父节点、子节点、孙节点。

限定了

你可能感兴趣的:(Python)