python爬取小说网站并将数据存储在excel中

先导入需要的工具,定义爬虫类,初始化base_url,随机请求头,总页数,记录每一页的小说名和连接地址,以及后面需要用到的存入excel中的行数.

python爬取小说网站并将数据存储在excel中_第1张图片

获取网页源代码,具体分析是否为第一页,因为分析url地址发现第一页的url与后面的url不一样,若是第一页便直接返后self.base_url,若不是便进行网址拼接,传入页码数

python爬取小说网站并将数据存储在excel中_第2张图片


设置循环,若不能正常连接,便返回失败的信息及原因,并重新尝试连接.

python爬取小说网站并将数据存储在excel中_第3张图片

解析网页源码,通过引入etree,将获取的网页源码,转化为xpath可以解析的格式,设置编码为utf-8格式

优先获取总页数,匹配到的为

所以需要通过正则表达式,匹配到总页数的数字,转化为整数类型

之后获取网页中的小说名称和详情地址的url,并将其保存到一个元组中,之后将元组存入,小说列表中

python爬取小说网站并将数据存储在excel中_第4张图片

再定义一个解析详情的类,解析小说的详情信息


python爬取小说网站并将数据存储在excel中_第5张图片

获取详情地址的网页源代码

python爬取小说网站并将数据存储在excel中_第6张图片

根据xpath具体解析出小说的详细信息.清洗数据,并将解析出来的信息进行返回

python爬取小说网站并将数据存储在excel中_第7张图片

返回上一个类中,编写将数据写入表格中的函数,实现解析详情类的实例对象,根据小说的详情地址进行解析

python爬取小说网站并将数据存储在excel中_第8张图片


编写start函数,创建表格,写入数据,保存表格

python爬取小说网站并将数据存储在excel中_第9张图片

实现爬虫类的对象,调用start函数,开始进行爬虫

python爬取小说网站并将数据存储在excel中_第10张图片

你可能感兴趣的:(python爬取小说网站并将数据存储在excel中)