数据架构

 

数据架构_第1张图片

HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元

数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。

管理平台:任务的调度,元数据的管理,任务的监控报警。

数据源:

  1. DB数据库:来自服务端的数据
  2. Flume:埋点事件数据
  3. API:各个服务接口数据
  4. Kafka:服务消息数据
  5. Kettle:数据壶,数据etl工具,将数据格式化输出
  6. dataX阿里数据同步工具,主要用于各个部门的数据同步任务

ETL任务:数据清洗,抓取,转换的过程,主要处理各个数据传上来的数据,将数据标准化输出到ODS层

数据服务层&tool:数据的高聚合层主要有以下模块,

  1. 数据仓库:全部数据的聚合位置,包括各个实时表,维度表等
  2. 数据集市:基于各个部门不同业务的数据聚合
  3. Hbase:列式数据库,用于用户画像存储
  4. ES&solr:索引服务,集群创建索引,提高数据查找效率
  5. Hive:数据仓库搭建服务,可支持sql查询,效率高

数据应用层:对数据的应用分析,主要有以下几种

  1. 数据推荐:提供数据推荐业务所需数据
  2. 数据挖掘:对现有数据进行挖掘,探索数据规律
  3. 产品分析:通过现有数据的分析,评价差评质量
  4. 数据报表系统:为各个部门提供可视化数据报表
  5. 数据监控:检测管理整个数据流程的可视化服务

数据接口:主要是为各个服务提供数据调用结构,转化为可视化界面

  1. redis;内存存储,可支持实时查询
  2. tomcat:数据展示web项目部署位置
  3. echat:数据可视化图插件,支持各种图形展示

你可能感兴趣的:(日志采集)