使用python的request库爬取某书网小说

1.导入库

import urllib.request
import re

2.编写函数

#写一个叫xxx的函数
def down():

3.获取小说的源码并编码以gbk方式显示

url='http://www.quanshuwang.com/book/9/9055'
html=urllib.request.urlopen(url).read().decode('gbk')

如果不转成gbk显示是这样的
在这里插入图片描述
那又为什么一定是gbk呢 ?从它源码里面可以看见它的编码方式是什么
在这里插入图片描述

4.获取所有章节的链接

reg= r'
  • (.*?)
  • '
    urls=re.findall(reg,html)

    在这里插入图片描述

    5.循环所有的章节链接和标题

    for url in urls:
    novel_url=url[0]#链接
    novel_title=url[1]#标题
    

    使用python的request库爬取某书网小说_第1张图片

    6.获取章节源码

    catal=urllib.request.urlopen(novel_url).read()
    catal_html=catal.decode('gbk')
    

    在这里插入图片描述

    7.编写获取章节的内容的表达式

    reg=r'    (.*?)    (.*?)
                        
                        

    你可能感兴趣的:(python)