基于Hadoop生态圈的数据仓库实践 —— 目录

第一部分:概述
一、什么是数据仓库
1. 操作型系统和分析型系统
2. ETL
3. 数据需求
4. 多维数据模型基础
二、在Hadoop上实现数据仓库
1. 大数据的定义
2. 为什么需要分布式计算
3. Hadoop基本组件
4. Hadoop生态圈的其它组件
5. Hadoop生态圈的分布式计算思想
6. 与传统数据仓库架构对应的Hadoop生态圈工具

第二部分:环境搭建
一、Hadoop版本选型
二、安装Hadoop及其所需的服务
三、建立数据仓库示例模型
1. ERD
2. 选择文件格式
3. 建立数据库、表和视图

第三部分:ETL
一、使用Sqoop抽取数据
1. Sqoop简介
2. CDH 5.7.0中的Sqoop
3. 使用Sqoop抽取数据
二、使用Hive转换、装载数据
1. Hive简介
2. 初始装载
3. 定期装载
三、使用Oozie定期自动执行ETL
1. Oozie简介
2. 建立定期装载工作流
3. 建立coordinator作业定期自动执行工作流

第四部分:进阶技术
一、增加列
二、按需装载
三、维度子集
四、角色扮演维度
五、快照
六、维度层次
七、递归
八、多路径和参差不齐的层次
九、退化维度
十、杂项维度
十一、多重星型模式
十二、间接数据源
十三、无事实的事实表
十四、迟到的事实
十五、维度合并
十六、累积的度量
十七、分段维度

第五部分:OLAP与数据可视化
一、OLAP与Impala简介
二、Hive、SparkSQL、Impala比较
三、Impala OLAP实例
四、数据可视化与Hue简介
五、Hue、Zeppelin比较
六、Hue数据可视化实例

你可能感兴趣的:(Linux)