一款超好用的企业级URL采集软件(Msray-plus)

一款超好用的企业级URL采集软件(Msray-plus)_第1张图片

Msray,是一款使用GO语言研发的企业级新一代多功能信息采集软件。具有高效率、低占用、功能强大、定制灵活、上手简单、支持webhook等特点。

主要运用于全网域名/URL网址/IP信息检索、联系方式信息采集、指定关键词批量数据采集、网络推广与分析、内容源收集,以及为各种大数据分析等提供数据支撑。

提供WEB管理后台对软件进行相关操作,无需使用复杂的命令,功能强大且简单易上手!

在线文档:http://www.msray.net/doc

二、任务引擎功能介绍

1:搜索引擎任务

基于任务配置,并发用多个搜索引擎(可分别自定义每个引擎的线程数,已经自定义开启的引擎),批量采集指定关键词的搜索结果。同时支持国内与国外主流引擎,包括但不限于百度、必应、谷歌、神马、yandex、duckduckgo等;

支持存储的信息:域名、根网址、详细页面的URL、标题、描述、IP、服务器所属国家、来源搜索引擎、来源关键词等;

同时支持自定义无限采集(自动从搜索引擎抓取相关搜索词、自动从采集结果网页中抓取keyword等实现);

支持重复关键词采集判断,系统可识别已经采集过的关键词。

2:系统爬虫引擎任务

可自定义线程,高并发的从全网爬行抓取URL/域名等信息。支持存储的信息:域名、根网址、详细页面的URL、标题、描述、IP、服务器所属国家等;

3: 联系信息抓取引擎

可自定义线程,高并发的从导入的URL文件中,抓取每个网站的联系信息。

支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;

电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式;

邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容!

facebook账号同时兼容ID格式与账号名格式!

支持自动保存采集进度,可停止后下次接着采集;

三、过滤引擎功能说明

过滤引擎,与重复过滤不同。重复过滤是系统内置的。而过滤引擎是可以自定义配置,根据多个维度,对抓取到的结果进行处理的引擎。

比如只想要顶级域名的结果,只存储网址对那个IP属于某个国家的结果,比如不想采集后缀为edu,gov的域名,那么都可以使用过滤引擎来实现。目前内置了6个维度的过滤功能。

注意:如果在任务中使用了过滤引擎,会一定程度上降低运行效率。

msray支持过滤方案管理,可根据用户不同时期的需求,自定义过滤引擎的方案,支持多个。在任务中可选择运用某一个方案去实现过滤效果。创建的过滤方案并不会自动运用到任务,只有创建任务的时候配置任务所属的过滤方案,才会生效!

四、导出引擎功能说明

程序支持两种导出功能。一种是以"任务"为单位的结果导出,一种是以"时间"为单位的结果导出;

以"任务"为单位的结果导出,需要在搜索任务或者外链任务里面操作;

以"时间"为单位的导出,需要在"导出管理"菜单中。注意,该数据包含了某个时间内的搜索任务以及外链任务的所有结果。

支持TXT、CSV、JSON 等三种导出文件类型;

需要特别说明的是,JSON类型会把所有结果导出为一个JSON数组。方便外部软件处于与识别;

支持自动保存采集进度,可停止后下次接着采集;
同时支持自定义导出字段内容与自定义导出格式;
同时支持导出结果文件下载到本地,以及导出保存到服务器目录;

五、推送引擎(web-hook)功能说明

推送简介:实时把程序采集到的数据,以HTTP POST协议发送到用户指定的HTTP接口;

该功能是msray程序为了方便用户对结果进行二次开发扩展与自定义数据处理而提供的个性化功能。

比如程序使用bing引擎,搜索"电影"关键词。每采集到一条数据,就会把经过数据后的数据,实时推送到http://www.xxxx.com/msray.php 这个网络接口地址;(该数据是经过处理后的,无需担心重复与过滤问题问题)

六、重复判断引擎功能说明

软件前期版本,使用redis的set类型的特性来实现重复过滤功能。后期为了提升效率与降低单机redis并发瓶颈,采用了布隆过滤器来实现,并且支持持久化机制。支持亿级数据的快速重复判断。

七、目前支持的搜索引擎说明

一、msray自带引擎

自带引擎,属于msray自带的域名/网址抓取引擎,与其他搜索引擎的蜘蛛类似;通过创建外链任务使用;

一款超好用的企业级URL采集软件(Msray-plus)_第2张图片

二、必应搜索

必应搜索引擎,无视安全验证不需要代理!可多线程稳定持续搜索;

三、百度移动版

可多线程持续稳定采集,不需要代理!已经突破安全验证!

一款超好用的企业级URL采集软件(Msray-plus)_第3张图片

四、百度电脑版

可多线程持续稳定采集,不需要代理!已经突破安全验证!

五、谷歌搜索(官方版)

google原版引擎,需要HTTP代理,否则容易出安全验证(不建议使用);强烈建议使用"谷歌镜像引擎",无需代理无需! 官方版本属于备用;

一款超好用的企业级URL采集软件(Msray-plus)_第4张图片

六、谷歌搜索(镜像版)

支持自定义镜像,内置稳定国内DIY镜像地址无需;

一款超好用的企业级URL采集软件(Msray-plus)_第5张图片

七、神马搜索引擎

神马是全球第一款完全基于移动互联网的搜索引擎!

一款超好用的企业级URL采集软件(Msray-plus)_第6张图片

八、yandex搜索引擎

俄罗斯知名多语言搜索引擎,具有世界第四大搜索引擎之称!

持续添加中...

你可能感兴趣的:(软件工具,搜索引擎,网络爬虫,爬虫)