spiderflow的初步使用

1、简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

官网地址:https://www.spiderflow.org/

2、spiderflow的初步使用

2.1拉取,配置和启动

从gitee上拉取

spiderflow的初步使用_第1张图片

执行db里面的sql

spiderflow的初步使用_第2张图片

里面会有6张表

spiderflow的初步使用_第3张图片

修改配置文件里面的数据库连接的账号密码和地址

修改配置文件里面的开启定时任务,设置为true时定时任务才生效

spider.job.enable=true

spiderflow的初步使用_第4张图片

直接启动,访问端口号即可,启动成功

spiderflow的初步使用_第5张图片

2.2参照实例写一个爬虫

2.2.1爬取站点分析

https://www.piaohua.com/html/dongzuo/

这是一个电影网站

spiderflow的初步使用_第6张图片

我想爬取的是电影名称,类别,产地等信息

首先查看网页源代码,看获取的信息是否能从网页中拿到,有的是js动态加载的不能直接获取

spiderflow的初步使用_第7张图片

这种可以直接获取

然后试着分析页码,点不同页码的时候连接会发生变化,点第四页,数字就变成了4

spiderflow的初步使用_第8张图片

然后确定要爬取的信息

spiderflow的初步使用_第9张图片

2.2.2开始写爬虫

2.2.2.1新建爬虫

spiderflow的初步使用_第10张图片

2.2.2.2配置爬虫url

在url中使用${}来放动态参数,类似jquery。(参考官网表达式语法--基本用法--动态拼接url)

spiderflow的初步使用_第11张图片

2.2.2.3配置页码和拉取信息

三元运算符和java中的一样(参考官网表达式语法--三元运算符)

获取页面内容 获取页面中class='col-md-6'的所有内容(参考官网 函数说明--抽取函数--selectors)

spiderflow的初步使用_第12张图片

spiderflow的初步使用_第13张图片

2.2.2.4 遍历

上面的movieList是一个集合,遍历这个集合

spiderflow的初步使用_第14张图片

参考官网(快速入门--循环节点),list.length是获取集合的长度,参考官网(函数说明--list--length)

spiderflow的初步使用_第15张图片

2.2.2.5设置翻页条件

当页码<=10的时候继续爬取

流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转

spiderflow的初步使用_第16张图片

参考官网(快速入门--连接线)

spiderflow的初步使用_第17张图片

2.2.2.6 定义变量

spiderflow的初步使用_第18张图片

2.2.2.7输出节点

spiderflow的初步使用_第19张图片

2.2.2.8测试

点击左上角的测试即可看到输出内容

spiderflow的初步使用_第20张图片

2.2.2.9输出到数据库

1.在输出节点选中输出到数据库

2.添加数据源

spiderflow的初步使用_第21张图片

3.输出字段和数据库字段保持一致即可

你可能感兴趣的:(爬虫)