SpiderFlow初体验

SpiderFlow简单使用

源码获取

https://github.com/ssssssss-team/spider-flow

sql文件执行

新建数据库spiderflow

SpiderFlow初体验_第1张图片

执行sql文件

遇到的问题:执行失败,原因不明确

解决办法:新建MySQL连接,在数据库中使用自定义数据库列表

SpiderFlow初体验_第2张图片

SpiderFlow初体验_第3张图片

数据库表信息详解

sp_datasource表存的是数据源信息:

SpiderFlow初体验_第4张图片

sp_flow表存的是爬虫任务:

SpiderFlow初体验_第5张图片

sp_flow_notice表存的是爬虫任务通知信息:

SpiderFlow初体验_第6张图片

sp_function表存的是函数信息:

SpiderFlow初体验_第7张图片

sp_task表存的是任务:

SpiderFlow初体验_第8张图片

sp_variable表是变量表,存的是变量相关信息:

SpiderFlow初体验_第9张图片

修改配置文件

SpiderFlow初体验_第10张图片

修改工作空间路径:

SpiderFlow初体验_第11张图片

修改数据库信息:

启动测试

启动web项目下的SpiderApplication文件

SpiderFlow初体验_第12张图片

浏览器输入localhost:8088进行访问

SpiderFlow初体验_第13张图片

测试官方提供的例子

SpiderFlow初体验_第14张图片

SpiderFlow初体验_第15张图片

测试窗口有输出说明爬取成功了

测试:爬取博客园界面

博客园站点分析

SpiderFlow初体验_第16张图片

可以了解到它是通过p1,p2,p3进行分页的

爬取信息

新建爬取任务

SpiderFlow初体验_第17张图片

配置爬取url

SpiderFlow初体验_第18张图片

确定爬取的变量信息

SpiderFlow初体验_第19张图片

SpiderFlow初体验_第20张图片

遍历

上面定义的articlelist是一个数组,需要遍历这个数组

SpiderFlow初体验_第21张图片

提取所需信息

SpiderFlow初体验_第22张图片

输出项测试

SpiderFlow初体验_第23张图片

你可能感兴趣的:(python,数据库,爬虫)