基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

【上集】百度网盘下载:链接:http://pan.baidu.com/s/1eQJFXZ0 密码:kdx9

【下集】百度网盘下载:链接:http://pan.baidu.com/s/1hq4cO2w 密码:cnsq


课程内容简介:

本课程分两大部分:

    第一部分全面深入地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深


,理论结合实战,让同学全面彻底掌握这把大数据利剑。

    第二部分深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、


Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在


各个互联网巨头商业环境的运用。


【上集】 Greenplum 分布式数据库基础(41课时)

 

         1 Greenplum架构

            什么是Greenplum

            Greenplum体系结构

            Greenplum高可用性架构

 

         2 安装Greenplum

            配置环境

            安装并初始化GPDB系统

            启停数据库

            配置GP系统

 

         3 分布式数据库存储

            数据是如何存储的

            分布策略

 

         4 GBDB查询处理

            查询命令的执行

            SQL查询处理机制

            并行查询计划

 

         5 角色权限及客户端认证管理

            客户端认证

            管理用户和组

 

         6 客户端接口和程序

            pgAdmin III

            PSQL

 

         7 定义数据库对象

            创建并管理数据库

            创建并管理表空间

            创建并管理模式

            创建并管理表

            分区表

            数据分布与分区

            压缩存储与行列存储

            序列、索引与视图

 

         8 管理数据

            插入、更新、删除记录

            事务管理

            空间回收和统计

 

         9 查询数据

            定义查询

            使用函数和运算符

            查询分析

 

         10 工作负载及资源管理

            GP工作负载管理概述

            配置工作负载管理

            创建资源队列

            分配资源队列

            检查资源队列状态

 

         11 装载和卸载数据

            GP装载命令概述

            装载数据到GP

            从GP卸载数据

            格式化数据文件

 

         12 备份恢复

            串行备份和恢复

            并行恢复和恢复

 

         13 性能调优

            如何进行调优

            常见的性能问题

         14 GP系统配置参数

            关于GP的Master参数与本地化参数

            设置配置参数

            配置参数种类

 

         15 开启高可用性

            GP高可用概述

            开启GP的Mirror

            获知Segment何时失败

            恢复失败的Segment

            恢复失败的Master

 

         16 GP MapReduce

            MapReduce基础

            GP MapReduce编程

            MapReduce作业执行和故障诊断

 

 

【下集】 Hadoop分布式平台(55课时)

 

         1 Hadoop的起源和体系

            Hadoop思想起源:Google

            Hadoop子项目家族

            Hadoop的架构

 

         2 Hadoop的安装与配置

            准备和配置环境

            三种运行模式

            完全分布式模式安装

 

         3 HDFS-大数据存储

            HDFS概念与体系结构

            HDFS的可靠性

            HDFS文件操作

            HDFS API

 

         4 关于MapReduce

            MapReduce编程模型

            MapReduce的集群行为

            MapReduce任务的优化

            MapReduce工作机制

            错误处理及作业调度机制

 

         5 MapReduce应用开发

            Hadoop Eclipse插件开发

            数据筛选程序开发

            倒排索引程序开发

 

         6 Hadoop监控与管理

            页面监控

            hadoop备份

 

         7 HBase数据库

            Hbase体系结构

            HBase shell

            HBase API应用实例

            HBase场景应用

            HBase模式设计

 

         8 Hive数据仓库

            Hive组件与体系架构

            Hive安装配置

            Hive的服务接口

            HiveQL常用操作

            Hive的优化

            Hive UDF编程

            Hive综合实战

 

         9 Pig数据分析平台

            Pig框架

            Pig安装配置

            Pig的使用

            Pig的数据模型

            常用Pig Latin操作

            Pig UDF编程

            Pig数据分析实战

 

         10 ZooKeeper分布式服务框架

            ZooKeeper工作原理

            ZooKeeper设计目标

            ZooKeeper的数据结构和组成

            ZooKeeper的安装配置

            ZooKeeper命令行工具

            ZooKeeper API

            ZooKeeper实战:Hadoop任务调度

 

         11 Chukwa集群监控系统

            Chukwa的组成

            Chukwa架构和设计

            Chukwa安装与配置

            常用Chukwa命令

            实现自定义数据处理

 

         12 Hadoop商业应用案例

            云计算概念和特征

            云计算服务模式和形态

            Hadoop在云计算的运用

            京东商城

            百度

            阿里巴巴

            腾讯

 

         13 Greenplum Hadoop集群

            集成架构的特征

            集成架构的优势

            配置gphdfs协议使用环境

            使用HDFS外部表