数仓项目框架

离线数据源分为用户行为数据和业务数据,行为数据主要通过前端埋点如神策等产品进行数据收集,业务数据主要从业务系统数据库导入。

业务数据主要从各个源系统数据库通过数据总线INFA做个数据集成,再通过sqoop、flume、或文本入仓,放在HDFS上存储,在存储层之上,使用hive数据仓库工具去映射并关联文件与表等元数据信息,在hive基础上可以灵活使用各种计算引擎,如MR,TEZ,SPARK,还可以在数据服务层对接各种即席查询工具如impala、presto、kylin,然后再出仓导入到相应的应用数据库,使用tableau、finereport等报表工具进行展示。

实时数据源,前端埋点用户行为数据:用户在使用产品的过程中,与客户端产品交互产生的数据-》nginx-》日志服务器(springboot)-》日志file-》flume-》kafka-》flume-》分支1HDFS【与离线相同】

-》分支2sparkstreaming/flink-》hbase

你可能感兴趣的:(大数据)