爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库

1.终端运行scrapy startproject scrapy_read,创建项目

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第1张图片2.登录读书网,选择国学(随便点一个)

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第2张图片3.复制链接(后面修改为包括其他页)

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第3张图片

 4.创建爬虫文件,并打开

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第4张图片

 5.滑倒下方翻页处,右键2,点击检查,查看到a标签网址,复制爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第5张图片

6.修改爬虫文件规则allow(正则表达式),'\d'表示数字,'+'表示多个,'\.'使'.'生效

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第6张图片

7.在parse_item中编写打印,scrapy crawl read运行爬虫文件

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第7张图片

8.查看结果,成功打印,说明成功访问

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第8张图片

9.定义数据结构(爬取的数据)爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第9张图片

10.读书网检查查看要爬取的数据

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第10张图片

11.使用xpath获取

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第11张图片

12.编写代码,打印,成功爬取

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第12张图片

13.导包,创建book对象,给到管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第13张图片

14.打开管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第14张图片

15.pipelines中编写代码,将数据存储到json文件中,并运行

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第15张图片16.数据从第二页开始,缺少第一页数据爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第16张图片17.不符合规则,修改起始url爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第17张图片

18.修改后,数据包含第一页数据爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第18张图片

19.MySQL创建存储数据的表如下

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第19张图片

20.settings中填写连接数据库所需的变量,根据自己的数据库填写

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第20张图片

21.创建管道,编写代码,用来保存数据

        1).建立连接

        2).执行数据插入

        3).关闭连接

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第21张图片

22.settings中启动管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第22张图片

23.运行,查看成功存储到数据库

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库_第23张图片

你可能感兴趣的:(爬虫,学习,笔记)