一:课程介绍
数据库管理人员如何管理分布式的海量数据,是云计算时代的数据库从业人员面临的核心问题之一,Hadoop提出了解决方案。
本课程从数据库管理人员与系统管理人员的职业角度出发,从动手搭建Hadoop集群环境开始,涉及Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题,并细致剖析Hive数据仓库集群和优化等主题,帮助传统的数据库管理人员和系统管理人员轻松使用Hadoop架构大规模的数据。
二:课程特色
1, 深入理解Hadoop技术架构;
2, 彻底全面清晰的理解Hadoop运作机制;
3, 能够独立规划及部署生产环境的Hadoop集群;
4, 掌握Hadoop基本运维思路和方法;
5, 对Hadoop集群进行管理和优化;
三:适合对象:
数据库管理员(DBA);
公司的系统管理员;
想转型的DBA;
四:基础要求
了解Linux系统;
了解网络;
了解 shell sql python 等脚本语言的一种;
五:讲师简介
Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;
Android架构师、高级工程师、咨询顾问、培训专家;
通晓Android、HTML5、Hadoop,迷恋英语播音和健美;
致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;
国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。
HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;
超过10本的IT畅销书作者;
六:培训内容
时间 |
内容 |
备注 |
第一天 (集群安装和管理) |
第1个主题:Hadoop的来源和动机 1.传统大规模系统存在的问题 2.对一种新的解决方案的需求
第2个主题:Hadoop安装和部署准备 1. Hadoop系统模块组件概述 2. Hadoop试验集群的部署结构 3. Hadoop 安装依赖关系 4. Hadoop 生产环境的部署结构
第3个主题:Hadoop集群安装和部署 1. Red hat Linux基础环境搭建 上机实验 2. Hadoop 单机系统版本 安装配置 上机实验 3. Hadoop 集群系统版本 安装和启动配置 上机实验 4. Hadoop 集群异常Debug 方法 5. Hadoop 集群简单测试方法 6. 使用 Hadoop MapReduce Streaming 快速测试系统
第4个主题:Hadoop组件详解 1. Hadoop HDFS 基本结构 2. Hadoop HDFS 副本存放策略 3. Hadoop NameNode 详解 4. Hadoop SecondaryNameNode 详解 5. Hadoop DataNode 详解 6. Hadoop JobTracker 详解 7. Hadoop TaskTracker 详解
第5个主题:Hadoop集群配置详解 1. Hadoop core-site,hdfs-site,mapred-site 配置详解 2. Hadoop 高可用配置方法 |
|
时间 |
内容 |
备注 |
第二天(集群优化和管理) |
第1个主题:Hadoop集群配置:机架感知,开启压缩和任务均衡 1. Hadoop 集群安装和开启LZO压缩 2. Hadoop 配置集群具备机架感知 3. Hadoop 集群开启公平任务调度器 4. Hadoop 集群开启能力任务调度器
第2个主题:Hadoop 集群维护与管理 1. 查看集群状态 2. HDFS数据管理 3. Mapreduce 任务管理 4. HDFS安全模式 5. 模拟集群Namenode,jobtrack失效 6. 添加删除节点 7. 数据平衡 8. 文件数据跨集群拷贝 9. 集群升级
第3个主题:Hadoop 集群规划和测试 1. 集群规划(硬件,系统,网络) 2. 集群性能测试
第4个主题:Hadoop 集群监控和运维 1. 使用Ganglia 监控Hadoop集群 2. 使用Cacti 监控操作系统
第5个主题:Hadoop HDFS高可用 1. Hadoop 元数据NFS备份方案 2. Hadoop SecondaryNameNode备份方案 3. Hadoop CheckpointNode备份方案 4. Hadoop BackupNode备份方案 5. Hadoop Cloudera HA Namenode 方案 |
|
时间 |
内容 |
备注 |
第三天(Hive数据仓库) |
第1个主题:Hive仓库集群 1. Hive的作用和原理说明 2. 仓库和传统数据仓库的协作关系 3. Hadoop/Hive仓库数据数据流 4. Hive 部署和安装 5. Hive Cli 的基本用法 6. HQL基本语法
第2个主题:Hive仓库集群高级 1. 使用JDBC 连接Hive进行查询和分析 2. 使用正则表达式加载数据 3. HQL高级语法 4. 编写UDF函数 5. 编写UDAF自定义函数
第3个主题:Hive仓库优化 1. 使用Hive分区优化查询 2. 使用Lzo压缩优化数据存储容量 3. HiveServer HA (使用haproxy提高HiveServer可用性) 4. 编写Hive自定义MapReduce脚本优化查询 5. Hive数据倾斜和查询性能优化
第4个主题:Hive仓库外围系统 1. 使用Sqoop进行数据分析 2. 使用oozie配置工作流 3. phpHiveAdmin 安装和使用
|
|