离线前期准备

目录

项目的需求分为一下几点:

 技术选型:

 主要需求技术:


项目的需求分为一下几点:

  1. 用户行为数据采集的平台搭建
  2. 业务数据采集的平台搭建
  3. 数据仓库的维度建模
  4. 分析、设备、会员、商品、地区、活动等电商核心主题、统计的报表指标近100个
  5. 采用即系查询工具、随时进行指标分析
  6. 对集群进行监控、发生异常时报警
  7. 元数据管理
  8. 质量监控

 技术选型:

  1. 数据采集传输:flume,kafka,sqoop,datax
  2. 数据存储:mysql,hdfs.hbase,redis
  3. 数据计算:hive,spark,flink
  4. 数据查询:presto,kylin
  5. 数据可视化:superset,datav,Echarts
  6. 任务调度:azkaban
  7. 元数据管理:atlas

 主要需求技术:

flume:大数据领域被广泛使用的日志采集框架;

JDK:java程序开发的工具包

Zookeeper:是一个分布式,开源的分布式应用程序协调服务

Mysql:是关系型数据库管理系统

Spark:大数据计算框架,是一种基于内存计算的框架,是一种通用的大数据快速处理引擎

Hbase:是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库

Linux选择Centenos7

jdk选择jdk1.8

Hadoop选择Hadoop3.1.3

zookeeper选择 apache-zookeeper-3.5.7-bin.tar.gz

Hive 选择apche-hive-3.1.2-bin.tar.gz

Flume选择apche-flume-1.9.0-bin.tar.gz

Kafka选择kafka_2.11-2.4.1.gz

spark选择apache-spark-3.0.0-bin.tar.gz

你可能感兴趣的:(数据仓库,离线,大数据)