电商数据仓库项目简介

项目简介

基于hadoop生态搭建的电商数据仓库,整体功能架构包含数据采集、数仓搭建、数据导出、数据可视化等。

github地址

电商数据仓库

详情学习攻略请查看

hadoop安装

hive安装

hive常用命令

完善中...

项目踩坑请查看

Linux卸载安装Mysql踩坑

Linux报错只读文件系统(集群非法关机、断电)踩坑

sqoop拒绝连接

kafka manager启动失败解决方案

hive拒绝连接解决方案

系统架构

系统数据流程如下图:

系统数据流程图.jpeg

数仓分层如下图:

数仓分层图.png

hive表关系图如下图:

hive表关系图.jpeg

技术架构

名称 版本号 类型 说明
hadoop 2.7.6 数据存储
jdk 1.8.0 依赖
zookeeper 3.4.6 集群管理
flume 1.7.0 数据采集传输
kafka 2.11-0.11 数据采集传输
kafka manager 1.3.3 可视化管理
hive 1.2.1 数据计算 使用tez 0.9.1作为计算引擎
mysql 5.6.24 数据存储
sqoop 1.4.6 数据采集传输
azkaban 2.5.0 任务调度
presto 0.196 数据查询 使用yanagishima 18.0作为web页面
druid 2.7.10 数据查询 imply方式安装
hbase 1.2.1 数据存储

项目结构说明

├─azkaban azkaban job文件 
│
├─flume-interceptor  采集flume拦截器,用来区分日志类型与简单数据清洗
│
├─hive
│  └─gmall
│      ├─用户行为数仓 用户行为数仓hive sql
│      │     
│      └─系统业务数仓 系统业务数仓hive sql
│              
├─hive-function hive自定义函数
│              
├─log-collector 生成日志文件项目,打包成jar包后通过命令运行,将标准输出重定向至log文件即可
│             
├─mysql mysql结构、函数
│      
├─shell 数仓中常用脚本
│  ├─ads ads层加载数据脚本
│  │      
│  ├─dwd dwd层加载数据脚本
│  │      
│  ├─dws dws层加载数据脚本
│  │      
│  ├─ods ods层加载数据脚本
│  │      
│  ├─sqoop mysql导入导出数据脚本
│  │     
│  ├─tools 集群公共脚本
│  │      
│  └─utils 通用工具脚本
│          
└─spring-boot-echarts-master 可视化web项目

集群规划

集群规划

脚本说明

hive 表说明

完善中...

mysql 表说明

完善中...

你可能感兴趣的:(电商数据仓库项目简介)