hadoop相关认证

前言:

     关于Hadoop课程及认证证书的事,想着整理一下,可能觉得有用的。

     首先我所知道的在做Hadoop认证的有两家,Hortonworks跟Cloudera。因为工作的原因接触Cloudera比较多,所以就只能讲讲Cloudera的认证了。

主要认证

      我只知道7门课:

      1、CCAH(Cloudera Apache Hadoop管理员),

      2、CCDH(Cloudera Apache Hadoop开发者),

      3、Cloudera Hbase,

      4、Cloudera Data Analyst(数据分析),

      5、Designing and Building Big Data Applications(数据建模),

      6、Cloudera Introduction to Data Science(数据科学家),

      7、Cloudera Developer Training for Apache Spark


详细介绍:


1、【Cloudera Apache Hadoop管理员】(通过考试可颁发CCAH全球认证证书)
    课时:4天/24小时
    学习系统管理的概念和Apache Hadoop的最佳实践,
    从安装和配置到负载均衡和调优。
    这个4天的的课程通过动手时间来赋予你部署的经验,
    以及更多的安全方面的经验和故障排除。
    课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。
    【课程内容】
    1、Hadoop分布式文件系统(HDFS)
    2、YARN/MapReduce的工作原理
    3、如何优化Hadoop机群所需要的硬件配置
    4、搭建Hadoop机群所需要考虑的网络因素
    5、Hadoop机群维护和控制
    6、如何利用Hadoop配置选项进行系统性能调优
    7、如何利用FairScheduler为多用户提供服务级别保障
    8、Hadoop机群维护和监控
    9、如何使用Flume从动态生成的文件加载到Hadoop
    10、如何使用Sqoop从关系型数据加载数据
    11、Hadoop生态系统工具(如Hive、Impala、Pig和Base)
    【学员基础】
    具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。
    【授课形式】

    案例教学+上机实践


2、【Cloudera Apache Hadoop程序员课程】(通过考试可颁发CCDH全球认证证书)
    课时:4天/24小时
    学习Hadoop分布式文件系统(HDFS)基础和MapReduce框架以及如何利用其API来编写程序,
    讨论为更大型的工作流程而设计技术。
    这门4天的课程涵盖了为MapReduce程序修复漏洞和优化性能所需的高级技巧。
    程序员课程也引入了Apache生态项目比如Hive、Pig、HBase、Flume和Oozie。
    在完成课程后,学员被鼓励参加Cloudera认证Apache Hadoop程序员(CCDH)考试。
    【课程内容】
    1、MapReduce与HDFS内核知识以及如何编写MapReduce程序
    2、Hadoop开发的最佳实践,调试、实现工作流及通用算法
    3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的组件
    4、按需定制WritableComparables与InputFormats处理复杂的数据类型
    5、利用MapReduce编写、执行连接操作以整合不同数据集合
    6、用于现实世界数据分析所需的高级HadoopAPI主题
    7、用Java写MapReduce程序,用Streaming写MapReduce程序
    8、调试MapReduce代码的策略,利用localjobrunner在本地测试MapReduce代码
    9、Partitioners和Reducers如何一起工作,定制化Partitioners
    10、定制Writable和WritableComparable
    11、用SequenceFile和Avro数据文件存储二进制数据
    【学员基础】
    该课程适合具有一定编程经验的程序开发人员。由于课程中需要完成Hadoop相关编程练习,熟悉Java者优先
    【授课形式】

    案例教学+上机实践

3、【Cloudera Apache HBase课程】(通过考试可颁发CCSHB全球认证证书)

    课时:4天
    学习如何将HBase作为一个分布式的数据储存以实现低延迟的查询和高扩展的吞吐。
    这4天的课程涵盖了HBase架构、数据模型、Java API及其他高级课题和最佳实践。
    完成该课程后,学员被鼓励参加cloudera认证Apache HBase专家(CCSHB)考试来验证和认证其Hadoop经验。
    
    【课程内容】
    1、什么是HBase、为什么要用HBase,HBase和RDBMS,HBase的给予和索取
    2、HBase系统管理API,HBase Shell、创建表、HBase Java API、系统管理调用
    3、通过HBase API访问数据,API的使用、数据检索、在shell添加和更新数据、删除数据
    4、用API添加、更新数据,Scan API、高级API技术、使用Eclipse
    5、集群组件、HBase如何扩展,HBase写路径、读路径,压缩和拆分
    6、HBase的安装、配置及其安全性
    7、HBase daemnon、ZooKeeper、HBase系统管理
    8、复制、备份、MapeRduce和HBase集群
    9、HBase里RowKey设计,从关系数据库到HBase表结构设计,以应用为中心的设计
    10、列族、表结构设计的考虑点、热点处理
    11、HBase生态系统:OpenTSDB、Kiji、HBase和hive

    【学员基础】
    该课程适合需要使用HBase的开发员和管理员。
    预备的数据库和数据建模的经验有帮助,但不是必须的。
    预备的Java知识有帮助,Hadoop经验不是必须的,
    但是cloudera的Apache Hadoop开发培训课是个绝佳的基础。

    【授课形式】
    案例教学+上机实践


4、【Cloudera 数据分析课程】

    课时:3天
    针对任何需要在Hadoop上实时地通过SQL和熟悉的脚本来管理、操纵和查询大型复杂数据的人。
    学习Apache Pig、Apache Hive和Cloudera Impala如何通过过滤联接和其他用户自定义的功能
    来支持数据的转型和分析。
    
    【课程内容】
    1、Hadoop生态圈、实验场景介绍、用Hadoop工具导入数据
    2、pig的特性、使用案例、和pig交互、pig Latin语法、Field定义、用pig执行ETL流程
    3、pig处理复杂数据,复杂/nested嵌套的数据类型、用pig分析广告战役的数据
    4、pig的多数据组操作,pig链接多数据组、用pig分析离散的数据组
    5、用流处理和UDFs扩展pig,Macros和Imports、contributed functions,用其他语言和pig一起处理数据
    6、pig故障排查和优化,用web界面排查一个故障的任务、Data采样和故障排查、理解执行计划、提高pig任务性能
    7、hive表结构和数据储存、对比hive和传统数据库、hive vs.pig、hive使用案例
    8、hive的关系数据分析、数据管理、文本处理、优化及扩展,在shell、脚本和hue上运行hive查询
    9、impala和hive、pig、关系数据库的不同、使用impala shell
    10、采样impala分析数据,过滤、排序and limiting results,提升impala性能,impala的交互式分析
    11、对比map reduce、pig、hive、impala和关系数据库

    【学员基础】
    该课程适合有SQL经验和基本UNIX和Linux命令的数据分析师、业务分析师和管理员
    事先无需Java和Apache Hadoop的经验

    【授课形式】
    案例教学+上机实践

5、【Designing and Building Big Data Applications】(数据建模)

    课时:4天
    学习运用Apache Hadoop和企业数据枢纽中的关联工具来分析和解决实际问题,
    你会遍历其设计和创建的整个过程,包括数据导入,决定恰当的文件格式来存储,
    处理预存的数据,及用一个容易理解消化的形式向最终用户呈现结果。
    这门4天的课程面向那些需要研发高度业务相关的应用的数据家。
    
    【课程内容】
    1、定义使用Data Sets,Metadata管理、Apache Avro、Avro Schemas演变
    2、什么是the Kite SDK ,Fundamental Data Module基础概念Concepts,用Kite SDK创建新数据组
    3、用Apache Sqoop输入关系数据,基本输入、限制结果、提升Sqoop性能、Sqoop 2
    4、用Apache Flume捕获数据,Flume自定义组开发、使用Flume自定义拦截器写Avro对象
    5、采用Apache Oozie管理工作流,定义Oozie工作流,验证、封包、部署,Oozie的Hue用户界面
    6、用Apache Crunch处理数据管道,对比Crunch和Java mapreduce,应用Crunch projects,Crunch API的工具分级
    7、使用Apache Hive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
    8、开发用户定义功能,实现一个用户定义功能,用Impala执行互动式查询,数据和元数据管理
    9、理解Cloudera Search,Search架构、支持的文件格式
    10、用Cloudera Search创建索引,Collection and Schema Management,Morphlines
    11、Solr Query Sybtax,采用Hue创建搜索UI,通过JDBC访问Impala,用Impala和Search增强定制的web应用

    【学员基础】
    该课程最适合需要使用Hadoop及其相关工具来解决现实问题的程序员、工程师和架构师。
    学员应该预先参加过cloudera的Apache Hadoop程序员培训或有相当的实践经验。
    需要良好的Java知识,熟悉Linux。SQL经验会有帮助。

    【授课形式】
    案例教学+上机实践


6、【Cloudera Introduction to Data Science】(数据科学家)

    课时:3天
    数据科学家创建信息平台来提出和回答以前不敢想象的问题。
    学习数据学如何帮助公司降低成本,提升利润,改进产品,留住客户和发现新机会。
    这门3天的课程姜帮助学员理解数据科学家做什么,他们解决什么问题,
    在不同的行业里他们解决实际问题的方法。
    
    【课程内容】
    1、使用案例:金融、零售、广告业、电信和公用事业、医疗和药品
    2、项目周期里的步伐、实验场景介绍
    3、数据采集:数据源、采集技术
    4、评估输入数据:数据格式、数据质量、数据数量
    5、数据转型:匿名化、文件格式转换、联结数据组
    6、数据分析和统计模式:统计与概率的关系、描述性统计、统计推断
    7、机械学习基础:机械学习的3C、Naive Bayes分类器、数据和算法的重要性
    8、推荐系统简介:什么是决策系统、协同过滤的类型、推荐系统的局限
    9、Apache Mahout是什么(不是什么),可用性和安装、使用Mahout基于条目的推荐系统
    10、用Apache Mahout实现推荐系统:二值、数值偏好的相似性度量,打分
    11、实验和评估、产品部署及更多
    
    【学员基础】
    该课程适合有Apache Hadoop基本知识如HDFS、
    MapReduce、Hadoop Streaming和Apache Hive的开发人员、数据分析师和统计师。
    学员应熟练脚本语言:建议熟练Python,而Perl或ruby只需熟悉即可。

    【授课形式】
    案例教学+上机实践


7、【Cloudera Apache Spark程序员课程】

    课时:3天
    采用Apache Spark来创建集成了批处理,流计算和互动式分析的完整,统一的大数据应用。
    学习编写复杂的并行应用来履行更快的商业决策和更好的用户产出,并将其应用到广泛的应用场景,架构和行业。
    这门3天的课程针对那些希望在应用的速度,易用性和高级分析方面进行优化的程序员和软件工程师。
    
    【课程内容】
    1、用Spark shell执行互动式数据分析
    2、Spark的弹性分布式数据集(Resilient Distributed Datasets)的特性
    3、Spark怎样运行在一个集群上(一个独立的Spark集群)
    4、Spark的并行编程、编写Spark应用、用Spark处理流数据
    5、RDD Partitions和HDFS数据局部性、使用Partitions、并行操作
    6、Spark应用对比Spark shell、创建Spark context、配置Spark shell属性
    7、Spark Streaming简介、开发Spark Streaming应用
    8、Streaming的Word Count、其他Streaming操作、滑动窗口操作
    9、Spark、Hadoop和企业数据枢纽(EDH)
    10、Spark和Hadoop生态圈、Spark和MapReduce
    11、Caching and Persistence(RDD溯源、Caching缓存简介、分布式持久化机制)

    【学员基础】
    该课程适合具有一定编程经验的程序开发人员,课程样例和练习涉及到Python和Scala语言。
    需要Linux的基本知识,事先无需Hadoop经验。

    【授课形式】
    案例教学+上机实践


你可能感兴趣的:(大数据架构)