《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系
课程特色:
本课程以
互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。

本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎,
具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN、分布式查询引擎Hive和Presto,以及数据可视化(包括Hue、D3、EChat等),涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。

本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop。

基础要求:
了解Linux基础知识,掌握Java语言基础
目标人群:
大数据爱好者,Hadoop初中级学者,希望系统性学习Hadoop的人
主讲老师:
**

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系_第1张图片
**
Hulu****大数据团队
董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。

张虔熙,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impala与presto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。

课程大纲
第一部分 Hadoop 概述(共1课时)

1.1 大数据背景
1.2 大数据技术体系
1.3 Hadoop生态系统构成以及核心组件
1.4 Hadoop主流发行版以及选型
包括Apache、CDH、 HDP等
1.5 Hadoop单机及分布式集群搭建方法(在线演示)
1.6 Hadoop典型应用场景
包括日志分析,搜索引擎索引构建、机器学习等
1.7 课程综合案例:分布式日志分析系统
介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。

**第二部分 大数据技术体系关键组件原理、使用与实战(共8.5课时)**** **

2.1 分布式数据收集:Flume原理与应用(共1课时)
2.1.1 Flume产生背景
2.1.2 Flume基本原理及架构
2.1.3 Flume部署模式(在线演示)
2.1.4 Flume与Hadoop整合应用与实战
2.1.5 分布式日志分析系统:数据收集模块剖析
详细介绍基于TailDir和Pool Directory Source,File Channel以及HDFS sink收集日志的flume拓扑构建方式。
2.2 分布式文件系统:HDFS基础与应用(共1课时)
2.2.1 HDFS产生背景
2.2.2 HDFS基本原理
2.2.3 HDFS架构以及关键组件
2.2.4 HDFS使用方式(在线演示)
2.2.5 HDFS优化小技巧
2.2.6 分布式日志分析系统:文件存储模块剖析
详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。
2.3 分布式资源管理系统:YARN架构与应用 (共1课时)
2.3.1 YARN产生背景
2.3.2 YARN基本原理以及架构
2.3.3 YARN资源调度器(Capacity Scheduler以及Fair Scheduler)
2.3.4 YARN基于标签的调度策略以及启用方式
2.3.5 YARN典型应用场景及在大数据系统中的地位
2.3.6 分布式日志分析系统:资源管理模块剖析
详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制
2.4 分布式计算:批处理引擎MapReduce(第一部分)(共1课时)
2.4.1 MapReduce产生背景
2.4.2 MapReduce基本原理
2.4.3 MapReduce基本架构
2.4.4 MapReduce Java分布式程序设计(在线演示)
2.4.5 什么情况下Spark性能比MapReduce差
2.4.6 MapReduce的未来
2.5 分布式计算:批处理引擎MapReduce(第二部分)(共1课时)
2.5.1 MapReduce回顾
2.5.2 MapReduce多语言程序设计(在线演示)
2.5.3 MapReduce优化小技巧
2.5.4 分布式日志分析系统:ETL模块剖析
详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。
2.6 分布式计算:数据分析引擎Hive(第一部分)(共1课时)
2.6.1 Hive产生背景
2.6.2 Hive基本架构以及部署模式
2.6.3 Hive HQL基础(在线演示)
2.6.4 Hive创建Parquet与ORC表
2.6.5 总结
2.7 分布式计算:数据分析引擎Hive(第二部分)(共1课时)
2.7.1 Hive编程访问
2.7.2 Hive On Tez/Spark
2.7.3 Hive优化小技巧
2.7.4 分布式日志分析系统:数据仓库模块剖析
详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。
2.8 分布式计算:数据查询引擎Presto(共1课时)
2.8.1 Presto产生背景
2.8.2 Presto基本架构以及部署模式
2.8.3 Presto SQL基础(在线演示)
2.8.4 Presto优化小技巧
2.8.5 分布式日志分析系统:数据仓库查询模块剖析
详细介绍如何使用Presto加速数据查询效率(相比于Hive)
2.9 大数据可视化:可视化主流方案(共0.5课时)
2.9.1 什么是大数据可视化
2.9.2 可视化主流解决方案
2.9.3 EChart,D3,tableau, Hue等
2.9.4 分布式日志分析系统:报表可视化模块剖析
详细介绍如何构建日志分析系统的可视化模块。

第三部分 综合案例回顾:分布式日志分析系统(共0.5课时)

3.1 案例背景
3.2 基本架构与关键模块
3.3 日志分析系统部署及维护
3.4 总结

常见问题:
Q****: 会有实际上机演示和动手操作吗?
A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。
Q****: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期?
A: 不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。
Q****: 本课程有专门的答疑时间吗?
A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。

你可能感兴趣的:(《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系)