1. 数据仓库简介

    数据仓库,英文名称为 Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
    数据仓库并不是数据的最终目的地,而是为数据最终的目的地最好准备。这些准备包括对数据的清洗、转义、分类、重组、合并、拆分、统计等等。

    实验需三台虚拟机,其中一台要8G内存,其他两台最低要4G内存。
    本次实验涉及到大数据生态组件中的 hadoop-2.7.2, zookeeper-3.4.10, flume-1.7.0, kafka_2.11-0.11.0.2, hive-1.2.1, tez-0.9.1, MySQL-5.6.24, sqoop-1.4.6等。

集群规划


服务器名称 子服务 服务器hadoop151 服务器hadoop152 服务器hadoop153
HDFS NameNode
DataNode
SecondaryNameNode
Yarn NodeManager
ResourceManager
Zookeeper Zookeeper server
Flume(采集日志) Flume
Kafka Kafka
Flume(消费kafka) Flume
Hive Hive
MySQL MySQL
Sqoop Sqoop

你可能感兴趣的:(数据仓库)