1.导入库
import urllib.request
import re
2.编写函数
#写一个叫xxx的函数
def down():
3.获取小说的源码并编码以gbk方式显示
url='http://www.quanshuwang.com/book/9/9055'
html=urllib.request.urlopen(url).read().decode('gbk')
如果不转成gbk显示是这样的
那又为什么一定是gbk呢 ?从它源码里面可以看见它的编码方式是什么
4.获取所有章节的链接
reg= r'(.*?) '
urls=re.findall(reg,html)
5.循环所有的章节链接和标题
for url in urls:
novel_url=url[0]#链接
novel_title=url[1]#标题
6.获取章节源码
catal=urllib.request.urlopen(novel_url).read()
catal_html=catal.decode('gbk')
7.编写获取章节的内容的表达式
reg=r' (.*?) (.*?)