采集系统

采集范围

 对互联网、内部网提供动态监视工具,实现增量采集和实时更新;
支持多语言网站信息采集;
支持但不限于新闻、微博、微信、博客、论坛、贴吧的信息采集和监控;
支持分页采集;
支持采集网页中的表格、列表等内容;
支持自定义采集流程,眼见即可采;

简单易用

 只需简单几步即可实现一站式采集、清洗、去重、存储、展示,省去开发时间

采集频率

支持分布式任务调度,定时任务采集,采集频率支持秒、分钟、小时、天、周、月等级别

数据处理及入库

支持采集链接去重,避免资源浪费
 数据提取支持字符串、时间、数字、HTML等格式
支持采集结果清洗、提取
 支持增量采集,结果去重、更新等
支持自定义采集存储配置,支持Mysql、MongoDB、Kafka消息队列,Elasticsearch搜索引擎

智能防封

支持模拟浏览器采集
支持采集UA切换、自动登录、避免重复登录、cookie管理
 支持反爬虫识别并自动切换代理
 支持扫码登录
 支持验证码自动识别
 支持自定义采集流程,可视化展现,适用复杂操作步骤的网站采集

采集监控

支持采集任务监控-启动、停止、采集量、剩余量
支持采集日志管理-日志图形展示
支持采集数据量监控(每日新增),站点采集量图形展示
支持采集数据报告,支持邮件监控报告和短信监控报告

部署方案

 支持私有化部署
 支持采集节点水平扩展,提供节点运行状态监控
 支持权限控制,自定义用户角色

你可能感兴趣的:(采集系统)