spider-flow可视化爬虫界面从入门到放弃

目录

  • 下载编译部署
    • 官网地址
    • 编译
    • 部署
      • 启动
  • 简单使用
    • 输出文件方式
    • 可以正常执行的任务
  • 自定义任务
    • 获取小说名
  • 总结

下载编译部署

官网地址

  • 修改端口、数据库、存放地址、执行文件等配置(前后端不分离,配置文件端口即页面登录端口)
    spider-flow-web/src/main/resources/application.properties
    spider-flow可视化爬虫界面从入门到放弃_第1张图片

  • 初始化数据库,执行db/spiderflow.sql
    spider-flow可视化爬虫界面从入门到放弃_第2张图片

编译

  • mvn clean install
    spider-flow可视化爬虫界面从入门到放弃_第3张图片
    spider-flow可视化爬虫界面从入门到放弃_第4张图片

  • 编译好的部署包位置

spider-flow可视化爬虫界面从入门到放弃_第5张图片

部署

在这里插入图片描述

启动

nohup java -jar spider-flow.jar  >/dev/null 2>&1 &

spider-flow可视化爬虫界面从入门到放弃_第6张图片

简单使用

输出文件方式

  • 项目中自动初始化四个任务,任务输出可以输出到表(数据源管理)或者csv文件中(不指定文件后缀及路径,默认就是文本文件,位置就在项目部署更目录下)
    spider-flow可视化爬虫界面从入门到放弃_第7张图片
    spider-flow可视化爬虫界面从入门到放弃_第8张图片
  • 执行任务
    spider-flow可视化爬虫界面从入门到放弃_第9张图片
  • 查看日志
    spider-flow可视化爬虫界面从入门到放弃_第10张图片
  • 爬取到数据,日志中会打印出来(下图即未爬取到数据,也没有输出)
    spider-flow可视化爬虫界面从入门到放弃_第11张图片
  • 创建输出表,选择输出到表,依然没有输出
    spider-flow可视化爬虫界面从入门到放弃_第12张图片

测试了半天看不到输出文件,难道是因为没下载驱动?
spider-flow可视化爬虫界面从入门到放弃_第13张图片

下载驱动丢到对应目录下,重启,再次尝试,依然没有输出文件
spider-flow可视化爬虫界面从入门到放弃_第14张图片
spider-flow可视化爬虫界面从入门到放弃_第15张图片

可以正常执行的任务

  • 爬取码云GVP
    spider-flow可视化爬虫界面从入门到放弃_第16张图片
    spider-flow可视化爬虫界面从入门到放弃_第17张图片

  • 每日菜价
    spider-flow可视化爬虫界面从入门到放弃_第18张图片
    spider-flow可视化爬虫界面从入门到放弃_第19张图片
    还乱码了,改成UTF-8也乱码
    spider-flow可视化爬虫界面从入门到放弃_第20张图片

自定义任务

参照可以正常输出的任务,尝试自定义爬虫任务,放弃吧,一点也不简单,感觉毫无章法可言

获取小说名

  • 获取该页面的小说名称
    spider-flow可视化爬虫界面从入门到放弃_第21张图片
  • 找到关键字
    spider-flow可视化爬虫界面从入门到放弃_第22张图片
  • 定义各节点
    spider-flow可视化爬虫界面从入门到放弃_第23张图片
  • 定义循环节点,不然是所有的小说名输出到一条记录中
    spider-flow可视化爬虫界面从入门到放弃_第24张图片
  • 遍历输出小说名
    spider-flow可视化爬虫界面从入门到放弃_第25张图片
  • 输出
    spider-flow可视化爬虫界面从入门到放弃_第26张图片
  • 测试结果
    spider-flow可视化爬虫界面从入门到放弃_第27张图片
  • 测试输出文件
    spider-flow可视化爬虫界面从入门到放弃_第28张图片

总结

可视化给人的感觉就是简单易操作,小白都可以轻易上手,在爬虫方面算是小白,但是作为一名程序员,这一套流程走下来,我觉得一点也不简单,更别说纯小白了,主要是没有帮助文档(网站已经禁用了),只能参照执行成功的任务在那一点一点调试,具体一些语法也不清楚,所以感觉还是有难度的,我也是好奇,看了别人分享的文章,感觉好像很简单,结果发现网上一堆一样的文章,全是从官网下载的,几个gif图片,没了,简直可耻,没有亲自实验过就乱发!!!
spider-flow可视化爬虫界面从入门到放弃_第29张图片
最后都放弃了,结果参照这篇博客超详细spiderflow实践教程,又试了一把,勉强跑成功了吧!以后应该不会碰了,毕竟这玩意不安全,一不小心端上铁饭碗了!

你可能感兴趣的:(开源系统,爬虫,spider-flow)