推荐几款优秀的网络爬虫工具

1.前言

一、 什么是网络爬虫?

网络爬虫又名“网络蜘蛛”,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。

二、 网络爬虫与渗透测试的关系?

很多优秀的WEB漏扫工具原理都是先利用网络爬虫技术爬取目标网站上的全部链接地址,然后在对这些爬取到的链接地址进行漏洞探测。

2.正文

本文只介绍自己使用过并且推荐的爬虫工具,至于如何使用这些爬虫工具与漏扫工具联动不在本文讨论范围之内

1.rad

介绍:rad,全名 Radium,名字来源于放射性元素——镭, 从一个URL开始,辐射到一整个站点空间

一款专为安全扫描而生的浏览器爬虫

下载地址
https://github.com/chaitin/rad/releases
推荐几款优秀的网络爬虫工具_第1张图片
本工具需要提前装好新版本的 chrome,否则将无法使用
基本使用
rad -t http://example.com
推荐几款优秀的网络爬虫工具_第2张图片

需要手动登录的情况
rad -t http://example.com -wait-login
执行以上命令会自动禁用无头浏览模式,开启一个浏览器供手动登录。 在登录完毕后在命令行界面点击回车键继续爬取。

将爬取基本结果导出为文件
rad -t http://example.com -text-output result.txt
以上命令会将爬取到的URL输出到result.txt中 格式为 Method URL 例:GET http://example.com

导出完整请求
rad -t http://example.com -full-text-output result.txt

导出完整请求为JSON
rad -t http://example.com -json result.json

2.AWVS

介绍:AWVS是一款常用的漏洞扫描工具,全称为Acunetix Web Vulnerability Scanner,它能通过网络爬虫测试你的网站安全,检测流行安全漏洞,大大提高了渗透效率。
推荐几款优秀的网络爬虫工具_第3张图片

推荐几款优秀的网络爬虫工具_第4张图片
推荐几款优秀的网络爬虫工具_第5张图片
推荐几款优秀的网络爬虫工具_第6张图片
推荐几款优秀的网络爬虫工具_第7张图片

3.360爬虫

介绍:crawlergo是一个使用chrome headless模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。

下载地址
https://github.com/Qianlitp/crawlergo/
推荐几款优秀的网络爬虫工具_第8张图片
中文使用文档介绍:
https://github.com/Qianlitp/crawlergo/blob/master/README_zh-cn.md

这边强烈推荐一位师傅写的360爬虫联动xray的一个脚本
https://github.com/timwhitez/crawlergo_x_XRAY
推荐几款优秀的网络爬虫工具_第9张图片
推荐几款优秀的网络爬虫工具_第10张图片
直接使用该脚本即可联动xray并输出其爬取的URL和子域名,非常方便

4.BURP爬虫

介绍:Burp Suite是一款集成化的渗透测试工具,包含了很多功能,可以帮助我们高效地完成对Web应用程序的渗透测试和攻击(该工具功能十分强大,同时自身的爬虫功能也是挺不错的)

前提:浏览器及burp要配置代理
浏览器
推荐几款优秀的网络爬虫工具_第11张图片
burp
推荐几款优秀的网络爬虫工具_第12张图片
使用BURP抓取浏览器的数据包
推荐几款优秀的网络爬虫工具_第13张图片
bp上右击数据包-扫描
推荐几款优秀的网络爬虫工具_第14张图片
推荐几款优秀的网络爬虫工具_第15张图片
推荐几款优秀的网络爬虫工具_第16张图片

5.katana

介绍:下一代爬行和蜘蛛框架。

下载地址
https://github.com/projectdiscovery/katana
推荐几款优秀的网络爬虫工具_第17张图片
特征
推荐几款优秀的网络爬虫工具_第18张图片
快速且完全可配置的网络爬行
标准和无头模式支持
JavaScript解析/爬行
可定制的自动填表
范围控制- 预配置字段/正则表达式
可定制的输出- 预配置字段
输入 - STDIN、URL和列表
输出 -标准输出、文件和JSON

你可能感兴趣的:(信息收集篇,工具篇,SRC篇,爬虫,web安全,网络蜘蛛,网络爬虫)