天亮舆情系统-架构设计-01

1、             系统介绍

   将大数据采集、分析与挖掘、实时索引与搜索组件、接口服务、日志分析、系统状态监控等为一体的专为舆情系统设计的完整解决方案。

2、             系统模块组成

   2.1 采集模块:

垂直采集器:天亮微博采集器,天亮电商平台采集器

通用网页采集器:天亮舆情采集器

      2.2 分析与挖掘

              中文分词器:天亮中文分词,ansj中文分词

              主题词提取:基于天亮分词实现的theme_extractor

              情感分析:  基于天亮分词现的情感极性计算组件

                  正文提取: 基于cx-extractor实现的正文提取器

                          摘要提取: 基于ansj摘要提取的改造

              关键词提取:基于ansj关键词提取的改造

      2.3实时索引与搜索组件       

              Es+天亮ES中间件

      2.4 接口服务

              提供成熟的webservice接口服务,包括索引、搜索、nlp、分析与挖掘、任务管理等接口

      2.5 日志分析

              目前暂为系统日志分析,没有进行系统智能形式的日志分析服务。

      2.6 系统监控

              采集任务、索引与搜索任务等状态监控

 

3、             系统子系统构成

    采集系统、实时索引与搜索系统、web_service中间件(es索引与搜索、nlp接口服务)  ,他们都提供通用的client服务包,供外部调用使用。

  

4、             架构设计图

     见图

          



你可能感兴趣的:(天亮舆情系统)