基于Greenplum Hadoop分布式平台的大数据解决方案

我这里有套课程想和大家分享,需要的朋友可以加我qq和我联系。QQ2059055336.

一、课程内容介绍:

1、课程背景

GREENPLUM适用场景:
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。
GREENPLUM运行的平台:
GREENPLUM运行在X86架构的硬件平台上,目前支持的操作系统包括32/64位的 LINUX(REDHAT/SUSE)/SOLARIS/MAC OS
GREENPLUM的前景:
GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM作为EMC面向分析云的战略核心产品,加以大力发展。该产品不仅在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。
Hadoop的前景:
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万―50万。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
Greenplum Hadoop大数据分析平台:
大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。
2、课程内容简介:
本系列课程主要分三部分:(总共70讲左右)
第一部分 Greenplum 分布式数据库基础(35课时)
第二部分 Hadoop分布式系统基础(30课时)
第三部分 Greenplum Hadoop大数据分析平台(4课时)
适合对象:
1、要求具有一定的Linux和Java基础
2、要求具有一定SQL语言基础
3、课程大纲:
第一部分 Greenplum 分布式数据库基础(35课时)
1 Greenplum架构
什么是Greenplum
Greenplum体系结构
Greenplum高可用性架构
2 安装Greenplum
配置环境
安装并初始化GPDB系统
启停数据库
配置GP系统
3 客户端接口和程序
pgAdmin III
PSQL
4 角色权限管理
客户端认证
管理用户和组
5 分布式数据库存储
数据是如何存储的
分布策略
6 GBDB查询处理
查询命令的执行
SQL查询处理机制
并行查询计划
7 定义数据库对象
创建并管理数据库
创建并管理表空间
创建并管理模式
创建并管理表
分区表
数据分布与分区
压缩存储与行列存储
序列、索引与视图
8 管理数据
插入、更新、删除记录
事务管理
空间回收和统计
9 数据加载
外部表加载
COPY加载
GPLOAD加载
10 资源负载管理
创建资源队列
分配资源队列
11 备份恢复
串行备份和恢复
并行恢复和恢复
12 GP SQL语法
数据字典
函数
存储过程
13 性能调优
常见性能问题
跟踪性能问题
查询调优
14 扩展GP系统
节点的准备和添加
初始化新Instance
重分布表
15 GP MapReduce
MapReduce基础
GP MapReduce编程
MapReduce作业执行和故障诊断
第二部分 Hadoop分布式系统基础(30课时)
1 什么是Hadoop
Hadoop思想起源:Google
Hadoop的架构
Hadoop思想体系
2 部署Hadoop集群
准备和配置环境
三种运行模式
简单集群安装和配置步骤
大型生产集群部署
3 HDFS实战
HDFS体系结构
HDFS的可靠性
HDFS文件操作
4 Map-Reduce体系架构
Map-Reduce编程模型
性能调优
Map-Reduce工作机制
日志分析
5 Map-Reduce API开发实战
Eclipse插件安装
数据筛选程序
倒排索引实战
6 Hadoop组成
Pig, Hbase, Hive, Zookeeper组件
Sqoop, Avro, Churkwa, Cassandra组件
Hbase体系结构
7 HBase数据库
单机模式安装
伪分布式安装
完全分布模式安装
HBase数据库操作
8 Pig实战
Pig框架
Pig安装配置
Pig运行操作
9 Hive实战应用
Hive组件与体系架构
Hive安装配置
Hive操作
10 Sqoop应用
安装配置
数据操作示例
11 云计算
什么是云计算
云计算模式和形态
Hadoop在云计算的运用
12 Hadoop商业应用案例剖析
京东商城
百度
阿里巴巴
第三部分 Greenplum Hadoop大数据分析平台(4课时)
1 Greenplum Hadoop架构
集成架构的特征
集成架构的优势
商业案例展示
2 Greenplum Hadoop集群部署
部署Hadoop集群
部署Zookeeper
部署Hbase
部署Hive
部署Pig
集群操作示例


你可能感兴趣的:(数据库,linux,解决方案,阿里巴巴,可扩展性)