爬虫学习5:如何从一个小说网站中爬出小说内容到本地

  第一步:引入爬虫利器包

首先,我们需要引入requests和BeautifulSoup包来让我们获取到数据,而在使用BeautifulSoup中,一般会提示需要在函数()中添加features="html5lib",所以我们也引入html5lib。

引入库

灰色的部分即在整个代码里没有被使用到的,至于为什么html5lib呈灰色,小白我也不太明白。

第二步:我们先定义一个类

这个习惯要掌握好,这是让我们有面向对象的思维,而不是直接面对过程。也便于以后一层一层嵌套的继承。不会丢在一起乱七八糟。然后我们在这个类的初始化函数 def __init__中,我们可以定义一些类里面的全局变量。我们这里面以纵横中文网的一篇小说《大侠萧金衍》为例。链接地址:http://book.zongheng.com/showchapter/779260.html

定义class并初始化

第三步:我们需要看看这个小说有多少章节,并把每个章节的名字给爬取出来

在类里面,我们定义一个函数为Geturlandtitle,我们在这个函数里面实现获取每一章节的名称和跳转的url,以备下个函数获取每一章节里面的文本。老套路,先用requests.get()获取到代码,并使用 .text 输出为str,然后输入给BeautifulSoup,根据标签来获取内容。由于一个网站往往是各种标签层层嵌套,所以最好多使用BeautifulSoup中的 find/find_all 来逐步精确定位到数据源的代码块。我们这里先精确到带有 class = ‘col-4’ 的

  • 标签,然后再精确到它下面包含的 标签。在此需注意,BeautifulSoup返回回来的是一个bs4的玩意儿,我们需要用find_all函数把想要的标签给找出来,然后再把结果用str()转成BeautifulSoup可以认识的,重复。

    定位章节链接和章节名称

    最好find_all函数返回的是一个标签的list,那么此时我们需要for...in这个list,在这里需要提到,如上图,我们是直接 for each in SecondA,那么每一次循环是,each其实是被SeacondA[0],SecondA[1]这些给赋值,而不是从0到SecondA的最后一个索引数。因为现在Python是面对对象了。还需要实现以前那种效果的话,需要这样写:

    继续我们的爬虫旅程,循环的用get去获取每个标签中的内容,get()是要看标签中有些什么。获取后再推入刚才初始化过的对应空集合中。

    第四步:我们通过上面获取到的url来获取每个章节中的内容

    我们假设上一个函数已经把每个章节跳转的url都推入了self.url这个list中,然后我们对这个list进行for循环,然后跟上面的操作类似,逐步的提取对应章节中的文本文件。然后print出来看看是否有些不需要的空格啊,没用的文本信息之类的,使用函数移除掉。然后同理把内容塞入初始的空list中。

    获取每章节的正文内容

    第五步:把爬出来的数据写入对应文件。这里我们以txt为例

    write写入本地文件

    首先我们定义一个writer函数,初始化函数的输入变量为(name,path,content),name是小说章节名称,path是小说爬出来的数据写到本地文件的路径,content是小说章节下的内容。write_flag = True 这个不知道有啥用,似乎删除后也不会报错,也能正常运行并输出结果txt,暂且不管。然后我们使用with open ... as...,这里有两个知识点:1:open和with open ... as的区别,2:文件打开模式的选择。

    1、open和with open ... as的区别

    file = open("test.txt","r")

    for line in file.readlines():

        print line

    file.close()

        open需要在最后加一个close()语句,而且如果出现了异常,就无法关闭对象。而with open的好处在于,如果出现了异常,也会自动关闭,还不用写close()语句。

    2、文件打开模式

    引用于“https://www.cnblogs.com/operaculus/p/5680850.html”

    我们因为是要提取所有的文章内容,所以我们需要用‘a+’的模式。我们的代码如下:

    准备写入函数

    最后一步:我们实例化这个类,然后调用它的各个函数,最终使用writer函数写入本地的txt中。

    这里有几个点需要注意:

    1、if __name__=='__main__’:这个代表着整个代码块从这里开始执行,而不是去执行上面class中的内容

    2、dl = Downloader(),是实例化了这个类

    3、Python默认是单线程的,所以我们看到 dl.Geturlandtitle() 以及 dl.GetContent()是不会出现异步的问题的。

    今天的笔记结束,放出小小成果:

  • 你可能感兴趣的:(爬虫学习5:如何从一个小说网站中爬出小说内容到本地)