爬虫:一文掌握 crawlergo 的详细使用(用于网络漏洞扫描程序的强大浏览器爬虫)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录

前言:Crawlergo 是一款基于 Chromium 的现代化 Web 爬虫工具,由知名安全团队 KnownSec 404 Team 开发。它通过浏览器自动化技术实现动态网页的抓取,能够完美处理各种现代 Web 技术(如 Vue、React、Angular 等前端框架构建的网站)。

文章目录

    • 一、crawlergo概述
      • 1.1 crawlergo介绍
      • 1.2 crawlergo的特性
      • 1.3 安装
      • 1.4 运行截图
    • 二、基本操作
      • 2.1 采集AWVS靶场
      • 2.2 使用代理
      • 2.3 系统调用
    • 三、完整参数说明
    • 四、使用举例
    • 五、问题记录
      • 5.1 问题1:'Fetch.enable' wasn't found
      • 5.2 问题2:chrome运行提示缺少 xxx.so 等依赖
      • 5.3 问题3:浏览器路径问题

一、crawlergo概述

1.1 crawlergo介绍

crawlergo是一个使用chrome headless模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。

github:

你可能感兴趣的:(爬虫和逆向教程,爬虫,网络,数据采集,linux,浏览器模拟)