Hadoop-Spark企业应用实战

课 程 大 纲

本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks HDP

本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案

第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合

1.    企业级集群部署、数据管理、任务调度、集群监控

2.    Hadoop架构介绍、Spark / Shark介绍

3.    Spark与Hadoop的关系

4.    现有Hadoop架构的种种问题和限制,HA

5.    企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H)

6.    Hadoop世界中的DBA

7.    成本考量 —— 人?物?物是人非……


第二周:Hadoop Eco System 进阶应用基础知识

1.    HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优

2.    玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口

3.    Hive的Windowing and Analytics Functions

4.    Hive 0.13的新功能

5.    Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)


第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用

1. 企业级应用实例1:物流行业 — 订单跟踪

2. 〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD DATA

3. 〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例

4.    企业级应用实例2:广告行业基于用户行为分析的用户归类标签 (客户画像)

5.    Hive复合数据类型array

6.    arraycollect_setcollect_listarray_containssort_array

7.     impalagroup_concat

8.    arraylateral viewLATERAL VIEW OUTER

9.    企业级应用实例3:电商/零售行业简单的推荐系统 Recommender System实现 (基于用户标签/客户画像)

10.  Hive复合数据类型mapstr_to_mapmap_keysmap_valuesmaplateral view

11. 通过HiveImpala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data Masking

12. HiveServer2 JDBC接口实例应用、中文支持Bug纠错

13. Hive的窗口和分析函数入门(row_number、rank、dense_rank等)

14. 企业级应用实例4:互联网行业访问量业绩报表

15. Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)

16. ROWS BETWEEN ... AND ...(CURRENT ROW,rows PRECEDING,rows FOLLOWING)

17. 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结


第四周:Hadoop & Spark / Shark进阶应用基础知识

1.    HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark简介

2.    HBase Shell与 HBase REST API 应用

3.    HBase的Region进阶应用Compact、Split与Merge

4.    HBase进阶脚本应用:jruby script

5.    HBase与Hive的整合高级应用:binary(byte) value,lateral view explode

6.    Hive 0.13:posexplode

7.    Spark / Spark SQL / Shark架构介绍、Spark Scala / Python 开发介绍


第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架

1.    Hadoop生态系统中为企业级开发提供的测试框架应用实例

2.    Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark SQL + Parquet文件实现,Spark Scala Maven项目实例

3.    HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用

4.    Continuous Integration系统整合的可能

5.    —— 软件/互联网行业Hadoop企业级开发框架


第六周:Hadoop & Spark / Shark企业级应用整合

1.    HBase与Hive整合的大坑

2.    HBase Python客户端 happybase 使用介绍、编程实例

3.    HBase Coprocessor与HBase + Hive特征特点比较、分别适用的场景

4.    企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案

5.    Hadoop与现有企业级BI平台的整合

6.    Pentaho PDI / Kettle

7.    Oracle or In-Memory Database

8.    MicroStrategy / Tableau


第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合

1. 互联网行业时间序列(time series data)数据处理实例 ——整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治

2. 互联网行业时间序列(time series data)数据处理实例 ——整合 Spark 与 HBase

3.    Spark访问 HBase 数据实例:通过 Spark对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray

4.    通过 Kettle / Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案

5.    其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等)

6.    —— 互联网行业Hadoop企业级大数据BI应用整合方案

 下载地址:http://pan.baidu.com/s/1kTvB3Bh

你可能感兴趣的:(Hadoop-Spark企业应用实战)