电商数仓——项目需求及架构设计

目录

  • 项目需求
  • 项目框架
        • 技术选型
        • 系统数据流程设计
        • 框架版本选型
        • 服务器选型
        • 集群资源规划设计

 

项目需求

一、项目需求
➢1、 数据**采集平台搭建**
➢2、 实现**用户行为数据仓库分层搭建
➢3、 实现
业务数据仓库的分层搭建
➢4、针对数据仓库中的数据进行,
留存、转化率、GMV、复购率、活跃等报表分析**
二、思考题
➢1、 项目技术如何选型 ?
➢2、框架版本如何选型( Apache、 CDH、HDP)
➢3、 服务器使用**物理机还是云主机?
➢4、 如何确认
集群规模**? (假设每台服务器8T硬盘)

项目框架

技术选型

➢数据采集传输: Flume, Kafka, Sqoop ,Logstash, DataX
➢数据存储: MySql,HDFS, HBase, Redis, MongoDB
➢数据计算: Hive, Tez,Spark, Flink, Storm
➢数据查询: Presto, Druid, Impala, Kylin
➢数据可视化: Echarts、 Superset、 QuickBI、 DataV
➢任务调度: Azkaban、 Oozie
➢集群监控: Zabbix
➢元数据管理: Atlas
➢数据质量监控: Griffin

系统数据流程设计

 

框架版本选型

1)如何选择Apache/CDH/HDP版本?
(1) Apache: 运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
(2) CDH:国内使用最多的版本,但CM不开源,但其实**对中、小公司使用来说没有影响(建议使用)**
(3) HDP: 开源,可以进行二次开发,但是**没有CDH稳定,国内使用较少**

服务器选型

服务器选择物理机还是云主机?
(1)机器成本考虑:
物理机:以128G内存, 20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔
品牌单台报价4W出头,需考虑托管服务器费用。一般物理机寿命5年左右
云主机,以阿里云为例,差不多相同配置,每年5W
(2)运维成本考虑:
物理机:需要有**专业的运维人员**
云主机:很多运维工作都**由阿里云完成**,运维相对较轻松

集群资源规划设计

如何确认集群规模? (假设: 每台服务器8T磁盘,128G内存)
(1)每天日活跃用户100万,每人一天平均100条: 100万*100条=10000万条
(2)每条日志1K左右,每天1亿条: 100000001 10241 1024 =约100G .
(3)半年内不扩容服务器来算: 100G*180天=约18T
(4)保存3副本: 18T*3=54T
(5)预留20%- 30%Buf= 54T/0.7=77T
(6) 算到这:约8T*10台服务器
测试集群服务器规划

你可能感兴趣的:(flink,kafka,spark,mapreduce,hadoop)